CN116167015A

CN116167015A - 一种基于联合交叉注意力机制的维度情感分析方法

Info

Publication number: CN116167015A
Application number: CN202310175401.XA
Authority: CN
Inventors: 刘峰; 刘昌轩; 吴淑华; 赵峥来
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-26

Abstract

本发明公开了一种基于联合交叉注意力机制的维度情感分析方法，包括如下步骤：获取原始视频进行预处理，得到人脸图像数据和音频数据；基于Resnet50模型和时序深度卷积神经网络，对人脸图像数据进行特征提取，得到视觉特征矩阵；基于VGGish模型和时序深度卷积神经网络，对音频数据进行特征提取，得到听觉特征矩阵；将视觉特征矩阵和听觉特征矩阵输入到联合交叉注意力的特征融合模块与全连接层，得到分析结果。本发明通过引入联合交叉注意力机制和时序深度卷积神经网络，对特征提取以及多模态的特征融合方式进行了改进，完善了时间序列建模任务的处理，并且同时考虑了模态内以及模态间特征的相关性，有效提高了维度情感分析的准确率。

Description

一种基于联合交叉注意力机制的维度情感分析方法

技术领域

本发明涉及一种基于联合交叉注意力机制的维度情感分析方法，属于情感分析技术领域。

背景技术

人类主要通过面部表情、肢体动作以及语言表达情感，通过视觉感知外部世界。情感表达是交流沟通的有效方式,是人与人之间相互理解的基础。随着人工智能和计算机视觉的快速发展,对视频以及图像中人的情感研究已成为研究热点。未来的人机交互将更加智能、便捷，计算机可以感知、判断人类情感和情绪变化，然后基于此去做出智能、高效的反应,满足人类的日常需求。

目前情感识别领域主要有两个研究方向：一种是离散的情感识别,将人的情感分为固定类别的离散情绪标签，包括：高兴、愤怒、悲伤、惊讶、平静等；另一种是连续的情感识别，将人的情感用两个维度去进行表示，即愉悦，唤醒两个维度，其中愉悦维度表示情感的强度，唤醒维度表示情感的极性,因为这种方式可以更加细致地描述人的情感状态，近年来对连续情感的识别成为了研究热点。

近年来，通过音视频多模态进行连续维度情感识别已经取得了一些成果，许多研究表明基于多模态的识别方式性能优于单模态，因此，如何选取恰当的特征融合方式成为了多模态的研究难点和热点。传统的特征融合方式往往局限于前期融合(特征级融合)和后期融合(决策级融合)，但是前者容易导致特征维数过高,得到的模型泛化能力差；对于后者，融合时的输入是不同特征回归后的结果，难以挖掘模态之间的互补性。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于联合交叉注意力机制的维度情感分析方法，通过引入联合交叉注意力机制和时序深度卷积神经网络，对特征提取以及多模态的特征融合方式进行了改进，完善了时间序列建模任务的处理，并且同时考虑了模态内以及模态间特征的相关性，有效提高了维度情感分析的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

本发明公开了一种基于联合交叉注意力机制的维度情感分析方法，包括如下步骤：

获取原始视频；

对所述原始视频进行预处理，得到人脸图像数据和音频数据；

基于预设的第一提取模块，对所述人脸图像数据进行特征提取，得到视觉特征矩阵；

基于预设的第二提取模块，对所述音频数据进行特征提取，得到听觉特征矩阵；

将所述视觉特征矩阵和听觉特征矩阵输入到预设的分析模块，得到分析结果；

其中，所述第一提取模块包括Resnet50模型和时序深度卷积神经网络；所述第二提取模块包括VGGish模型和时序深度卷积神经网络；所述分析模块包括基于联合交叉注意力的特征融合模块与全连接层。

进一步的，所述预处理的步骤如下：

逐帧提取所述原始视频中的人脸图像，得到所述原始视频的人脸图像数据；其中，每一视频帧的人脸图像的尺寸为40*40*3；

对所述原始视频进行格式转化，得到所述原始视频的音频数据；其中，所述音频数据的格式为单声道wav格式。

进一步的，所述第一提取模块的提取步骤如下：

基于Resnet50模型，逐帧提取所述原始视频的人脸图像数据的特征，得到第一特征矩阵；

将所述第一特征矩阵输入时序深度卷积神经网络，得到第二特征矩阵；

对所述第二特征矩阵进行转置操作，得到视觉特征矩阵。

进一步的，所述第一特征矩阵包括所有视频帧人脸图像数据的特征向量；

所述第一特征矩阵表示为N*512维的特征矩阵，所述第二特征矩阵表示为N*128维的特征矩阵，所述视觉特征矩阵表示为128*N维的特征矩阵；其中，N代表视频帧的数量。

进一步的，所述第二提取模块的提取步骤如下：

基于VGGish模型，逐帧提取所述原始视频的音频数据的特征，得到第三特征矩阵；

将所述第三特征矩阵输入时序深度卷积神经网络，得到第四特征矩阵；

对所述第四特征矩阵进行转置操作，得到听觉特征矩阵。

进一步的，所述第三特征矩阵包括所有视频帧音频数据的特征向量；

所述第三特征矩阵表示为N*128维的特征矩阵，所述第四特征矩阵表示为N*32维的特征矩阵，所述听觉特征矩阵表示为32*N维的特征矩阵；其中，N代表视频帧的数量。

进一步的，所述基于联合交叉注意力的特征融合模块的特征融合步骤如下：

将所述视觉特征矩阵和听觉特征矩阵进行拼接，得到联合表征矩阵；

根据所述联合表征矩阵，分别计算得到视觉模态的联合相关矩阵和听觉模态的联合相关矩阵；

根据所述视觉模态的联合相关矩阵，基于softmax函数、加权运算和特征融合，得到融合视觉特征矩阵；

根据所述听觉模态的联合相关矩阵，基于softmax函数、加权运算和特征融合，得到融合听觉特征矩阵；

将所述融合视觉特征矩阵和融合听觉特征矩阵进行拼接，得到融合特征。

进一步的，所述融合视觉特征矩阵的获取步骤如下：

根据所述视觉模态的联合相关矩阵，基于softmax函数进行运算，得到视觉模态的权重矩阵；

根据所述视觉模态的权重矩阵对视觉特征矩阵进行加权，得到视觉注意力加权特征矩阵；

将所述视觉注意力加权特征矩阵与视觉特征矩阵进行融合，得到融合视觉特征矩阵。

进一步的，所述融合听觉特征矩阵的获取步骤如下：

根据所述听觉模态的联合相关矩阵，基于softmax函数进行运算，得到听觉模态的权重矩阵；

根据所述听觉模态的权重矩阵对听觉特征矩阵进行加权，得到听觉注意力加权特征矩阵；

将所述听觉注意力加权特征矩阵与听觉特征矩阵进行融合，得到融合听觉特征矩阵。

进一步的，所述全连接层的方法步骤如下：

根据所述融合特征，得到愉悦度和唤醒度的逐帧预测值；

根据所述愉悦度和唤醒度的逐帧预测值，得到分析结果。

与现有技术相比，本发明所达到的有益效果：

本发明的一种基于联合交叉注意力机制的维度情感分析方法，一方面基于联合交叉注意力的特征融合模块，发挥了多模态相比于单模态的优势，既能利用模态之间特征的相关性，也能利用模态内特征的相关性。另一方面，通过引入时序深度卷积神经网络，更好的处理时间序列建模任务，通过多层网络结构，获取足够大的感受野，同时得益于大规模并行处理的优势，可以节省大量时间。

附图说明

图1是一种基于联合交叉注意力机制的维度情感分析方法的流程图；

图2是基于联合交叉注意力的特征融合模块的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本实施例公开了一种基于联合交叉注意力机制的维度情感分析方法，包括如下步骤：

获取原始视频；

对原始视频进行预处理，得到人脸图像数据和音频数据；

基于预设的第一提取模块，对人脸图像数据进行特征提取，得到视觉特征矩阵；

基于预设的第二提取模块，对音频数据进行特征提取，得到听觉特征矩阵；

将视觉特征矩阵和听觉特征矩阵输入到预设的分析模块，得到分析结果。

其中，第一提取模块包括Resnet50模型和时序深度卷积神经网络；第二提取模块包括VGGish模型和时序深度卷积神经网络；分析模块包括基于联合交叉注意力的特征融合模块与全连接层。

本发明的技术构思为：一方面基于联合交叉注意力的特征融合模块，发挥了多模态相比于单模态的优势，既能利用模态之间特征的相关性，也能利用模态内特征的相关性。另一方面，通过引入时序深度卷积神经网络，更好的处理时间序列建模任务，通过多层网络结构，获取足够大的感受野，同时得益于大规模并行处理的优势，可以节省大量时间。

如图1所示，具体步骤如下：

步骤一。

对输入的原始视频进行数据的预处理，用于后续视觉和听觉特征的提取，具体步骤如下：

1.1使用Openface工具逐帧提取原始视频中的人脸图像，得到原始视频的人脸图像数据；其中，每一视频帧的人脸图像的尺寸为40*40*3；

1.2使用FFmpeg对原始视频进行格式转化，得到原始视频的音频数据；其中，音频数据的格式为单声道wav格式。FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

步骤二。

本步骤采用两个分支分别提取视觉特征和听觉特征，采用第一提取模块，即Resnet50模型组合时序深度卷积神经网络提取视觉特征，采用第二提取模块，即VGGish模型组合时序深度卷积神经网络提取听觉特征，具体分步骤如下：

2.1第一提取模块的提取步骤如下：

基于Resnet50模型，逐帧提取原始视频的人脸图像数据的特征，得到第一特征矩阵；将第一特征矩阵输入时序深度卷积神经网络，得到第二特征矩阵；对第二特征矩阵进行转置操作，得到视觉特征矩阵。

具体如下。

基于Resnet50模型，逐帧提取原始视频的人脸图像数据的特征，获取每一视频帧人脸图像数据的1*512维特征向量，用x_i表示第i帧人脸图像的1*512维特征向量，用第一特征矩阵X₁表示所有视频帧人脸图像的特征向量构成的N*512维的特征矩阵，其中，N代表帧的数量。

将第一特征矩阵X₁输入时序深度卷积神经网络(TCN)，获取每帧1*128维的时空特征向量，所有帧的特征向量构成N*128维的第二特征矩阵。

对得到的第二特征矩阵进行转置操作，得到128*N维的视觉特征矩阵X_v。

其中，Resnet50模型已在MS-CELEB-1M数据集上预训练好并在FER+数据集上调整完成。

2.2第二提取模块的提取步骤如下：

基于VGGish模型，逐帧提取原始视频的音频数据的特征，得到第三特征矩阵；将第三特征矩阵输入时序深度卷积神经网络，得到第四特征矩阵；对第四特征矩阵进行转置操作，得到听觉特征矩阵。

具体如下。

基于VGGish模型，逐帧提取原始视频的音频数据的特征，获取每一视频帧音频数据的1*128维特征向量，用第三特征矩阵Y₁表示所有视频帧音频数据的特征向量构成的N*128维的特征矩阵，其中，N代表帧的数量。

将第三特征矩阵Y₁输入时序深度卷积神经网络(TCN)，获取每帧1*32维的时空特征向量，所有帧音频的特征向量构成N*32维的第四特征矩阵。

对得到的第四特征矩阵进行转置操作，得到32*N维的听觉特征矩阵X_a。

步骤三。

根据步骤二得到的两个模态的特征矩阵，即视觉特征矩阵和听觉特征矩阵输入到基于联合交叉注意力的特征融合模块，得到融合后的特征输入全连接层，获得分析结果，如图2所示，具体分步骤如下：

3.1将步骤二得到的视觉特征矩阵X_v和听觉特征矩阵X_a，通过直接拼接的方式得到两个模态特征的联合表征矩阵J。

3.2根据预先设置的可学习的权重矩阵W_v，用C_v表示视觉模态的联合相关矩阵，并通过公式：

计算，其中d表示步骤二中提取出的视觉特征矩阵X_v和听觉特征矩阵X_a的维数之和。

3.3根据预先设置一个可学习的权重矩阵W_a，用C_a表示听觉模态的联合相关矩阵，并通过公式：

计算。

3.4将步骤3.2得到的视觉模态的联合相关矩阵C_v的每一列用softmax函数进行处理，得到处理后的视觉模态的权重矩阵

3.5将步骤3.3得到的听觉模态的联合相关矩阵C_a的每一列用softmax函数进行处理，得到处理后的听觉模态的权重矩阵

3.6用步骤3.4得到的视觉模态的的权重矩阵

对视觉特征矩阵X_v进行加权得到视觉注意力加权特征/>

过程为：/>

3.7用步骤3.5得到的听觉模态的权重矩阵

对听觉特征矩阵X_a进行加权得到听觉注意力加权特征/>

过程为：/>

3.8为了防止在基于联合交叉注意力机制的融合过程中，视觉模态原始的特征被过度抑制，通过如下方式来计算最终的融合视觉特征矩阵：

其中，X_att-v表示融合视觉特征矩阵；tanh表示双曲正切函数。

3.9为了防止在基于联合交叉注意力机制的融合过程中，听觉模态原始的特征被过度抑制，通过如下方式来计算最终的融合听觉特征矩阵：

其中，X_att-a表示融合听觉特征矩阵。

3.10将步骤3.8和步骤3.9得到的X_att-v和X_att-a采用拼接的方式得到融合特征矩阵

过程为：/>

将融合特征矩阵/>

输入至全连接层获取愉悦维度和唤醒维度的逐帧预测值，进而得到分析结果。

需要说明的是，本实施例所涉及的所有网络及模块的参数为最优参数。通过获取网上公开的Aff-wild2数据集来进行网络及模块的参数训练，其中，Aff-wild2是维度情感识别领域比较权威的数据集，共包含548条选自Youtube的视频。

本发明通过引入联合交叉注意力机制和时序深度卷积神经网络，对特征提取以及多模态的特征融合方式进行了改进，完善了是时间序列建模任务的处理，并且同时考虑了模态内以及模态间特征的相关性，有效提高了维度情感识别的准确率。

本发明利用视觉特征和听觉特征的联合表征以及设置的可学习的权重矩阵，做到了同时考虑模态之间特征的相关性以及模态内特征的相关性，能够有效提升维度情感预测的准确性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于联合交叉注意力机制的维度情感分析方法，其特征是，包括如下步骤：

获取原始视频；

2.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述预处理的步骤如下：

3.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述第一提取模块的提取步骤如下：

对所述第二特征矩阵进行转置操作，得到视觉特征矩阵。

4.根据权利要求3所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述第一特征矩阵包括所有视频帧人脸图像数据的特征向量；

5.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述第二提取模块的提取步骤如下：

对所述第四特征矩阵进行转置操作，得到听觉特征矩阵。

6.根据权利要求5所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述第三特征矩阵包括所有视频帧音频数据的特征向量；

7.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述基于联合交叉注意力的特征融合模块的特征融合步骤如下：

8.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述融合视觉特征矩阵的获取步骤如下：

9.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述融合听觉特征矩阵的获取步骤如下：

10.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法，其特征是，所述全连接层的方法步骤如下：

根据所述融合特征，得到愉悦度和唤醒度的逐帧预测值；

根据所述愉悦度和唤醒度的逐帧预测值，得到分析结果。