CN117058597A

CN117058597A - 一种基于音视频的维度情感识别方法、系统、设备及介质

Info

Publication number: CN117058597A
Application number: CN202311316238.0A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14
Anticipated expiration: 2043-10-12
Also published as: CN117058597B

Abstract

本发明提出一种基于音视频的维度情感识别方法、系统、设备及介质。包括：将音频特征序列输入音频情感识别模型，得到音频情感结果；将图像特征序列输入视频情感识别模型，得到视频情感结果；将音频情感结果和视频情感结果输入融合模型，得到情感识别结果；应用带有离散情感标签的数据集，对音频情感识别模型、视频情感识别模型和融合模型进行训练，然后应用带有维度情感标签的数据集，再训练；将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。本发明通过离散情感分类训练可以学习到更多关于情感的表示和特征，从而提高对维度情感分类的准确性和泛化能力。

Description

一种基于音视频的维度情感识别方法、系统、设备及介质

技术领域

本发明属于情感识别领域，尤其涉及一种基于音视频的维度情感识别方法、系统、设备及介质。

背景技术

情感识别在许多领域具有重要应用，例如人机交互、情感分析、娱乐产业等。通过分析音频和视频中的声音、语调、面部表情、身体语言等信息，可以识别出人类的情感状态。

现有技术通常是先对音频和视频信号进行预处理，包括音频特征提取和视频帧提取。对于音频信号，常用的特征包括声谱图、梅尔频谱系数等；对于视频信号，常用的特征包括面部表情、姿势信息等。然后，利用深度神经网络，将音频和视频特征进行联合编码和学习。常见的网络架构包括卷积神经网络（Convolutional Neural Network, CNN）、循环神经网络（Recurrent Neural Network, RNN）以及注意力机制等。这些网络可以捕捉音频和视频信号之间的时空关系，并提取丰富的情感表示。最后，利用分类器对提取的情感特征进行分类，识别出不同的情感状态。

现有技术缺点：

基于单模态的情感识别具有较大的局限性。同时，情感模型分为离散和连续两种，单独使用离散和连续模型都无法充分利用情感信息，不能精确识别维度情感状态。

发明内容

为解决上述技术问题，本发明提出一种基于音视频的维度情感识别方法的技术方案，以解决上述技术问题。

本发明第一方面公开了一种基于音视频的维度情感识别方法，所述方法包括：

步骤S1、从视频中提取音频，再从所述音频中提取音频特征；然后对所述音频特征进行归一化和降维，得到音频特征序列；将所述音频特征序列输入音频情感识别模型，得到音频情感结果；

步骤S2、从所述视频中提取视频帧，再将所述视频帧输入预训练的卷积神经网络，提取图像特征；然后对所述图像特征进行归一化，得到图像特征序列；将所述图像特征序列输入视频情感识别模型，得到视频情感结果；

步骤S3、将所述音频情感结果和视频情感结果输入融合模型，得到情感识别结果；

步骤S4、应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练；

步骤S5、应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练；

步骤S6、将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第一方面的方法，在所述步骤S1中，所述音频情感识别模型采用循环神经网络。

根据本发明第一方面的方法，在所述步骤S2中，所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络；

所述视频情感识别模型采用3D-CNN神经网络。

根据本发明第一方面的方法，在所述步骤S3中，所述融合模型为：应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。

根据本发明第一方面的方法，在所述步骤S4中，所述应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失，公式为：

，其中，L _aux是离散情感分类任务训练的损失，N是样本数，C是离散情感类别的数量，如果样本i属于第c类情感，则y _ic是标签为1，/>表示预测样本i属于第c类情感的概率。

根据本发明第一方面的方法，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括：

将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数，应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。

根据本发明第一方面的方法，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为：

，其中，L _task是维度情感分类任务训练的总损失，λ是离散情感分类任务训练的损失的权重，L _main是维度情感分类任务训练的损失，为交叉熵损失。

本发明第二方面公开了一种基于音视频的维度情感识别系统，所述系统包括：

第一处理模块，被配置为，从视频中提取音频，再从所述音频中提取音频特征；然后对所述音频特征进行归一化和降维，得到音频特征序列；将所述音频特征序列输入音频情感识别模型，得到音频情感结果；

第二处理模块，被配置为，从所述视频中提取视频帧，在将所述视频帧输入预训练的卷积神经网络，提取图像特征；然后对所述图像特征进行归一化，得到图像特征序列；将所述图像特征序列输入视频情感识别模型，得到视频情感结果；

第三处理模块，被配置为，将所述音频情感结果和视频情感结果输入融合模型，得到情感识别结果；

第四处理模块，被配置为，应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练；

第五处理模块，被配置为，应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练；

第六处理模块，被配置为，将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第二方面的系统，所述第一处理模块，被配置为，所述音频情感识别模型采用循环神经网络。

根据本发明第二方面的系统，所述第二处理模块，被配置为，所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络；

所述视频情感识别模型采用3D-CNN神经网络。

根据本发明第二方面的系统，所述第三处理模块，被配置为，所述融合模型为：应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。

根据本发明第二方面的系统，所述第四处理模块，被配置为，所述应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失，公式为：

根据本发明第二方面的系统，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括：

根据本发明第二方面的系统，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。

综上，本发明提出的方案能够通过离散情感分类任务训练可以学习到更多关于情感的表示和特征，从而提高对维度情感分类的准确性和泛化能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于音视频的维度情感识别方法的流程图；

图2为根据本发明实施例的一种基于音视频的维度情感识别系统的结构图；

图3为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种基于音视频的维度情感识别方法。图1为根据本发明实施例的一种基于音视频的维度情感识别方法的流程图，如图1所示，所述方法包括：

在步骤S1，从视频中提取音频，再从所述音频中提取音频特征；然后对所述音频特征进行归一化和降维，得到音频特征序列；将所述音频特征序列输入音频情感识别模型，得到音频情感结果。

在一些实施例中，在所述步骤S1中，所述音频情感识别模型采用循环神经网络。

具体地，使用适当的库或工具（如FFmpeg）从视频文件中提取音频信号，并将其转换为音频波形；

使用音频处理库Librosa从音频波形中提取有意义的特征。常用的特征包括梅尔频谱系数（Mel-frequency cepstral coefficients, MFCC）、音频能量、音调、节奏等。这里利用MFCC,计算步骤包括进行快速傅里叶变换（Fast Fourier Transform, FFT）、将频谱转换为梅尔刻度、对梅尔频谱进行离散余弦变换（Discrete Cosine Transform, DCT）。具体公式如下：

，其中，X(k,n)表示音频信号的总能量，N是FFT 的点数，n是时间帧索引，m是MFCC系数的索引。

对提取的音频特征进行适当的表示和预处理，得到音频特征序列。通过归一化（将特征值缩放到固定范围）和降维（如主成分分析）等。减少特征的维度并提高模型的效果。

构建循环神经网络模型，将提取的音频特征序列输入到循环神经网络，通过学习音频序列的时序信息，进行音频的情感识别，具体公式如下：

，其中，x _t表示t时刻的输入，h _t-1表示t-1时刻的隐藏状态，y _t

表示t时刻的输出。

在步骤S2，从所述视频中提取视频帧，再将所述视频帧输入预训练的卷积神经网络，提取图像特征；然后对所述图像特征进行归一化，得到图像特征序列；将所述图像特征序列输入视频情感识别模型，得到视频情感结果。

在一些实施例中，在所述步骤S2中，所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络；

所述视频情感识别模型采用3D-CNN神经网络。

具体地，使用OpenCV库将视频切分为一帧一帧的图像。选择固定的帧率进行采样。

使用预训练的卷积神经网络VGG或ResNet等作为特征提取器，通过去掉最后的分类层，提取图像的高级特征表示。另外，使用手工设计的特征颜色直方图、纹理特征等作为补充，从视频帧中提取有意义的图像特征。

对提取的图像特征进行适当的表示和预处理。将图像进行归一化（将像素值缩放到[0, 1]范围）。

利用3D-CNN作为情感分类模型。3D-CNN可以在时域和空域上同时捕捉视频序列的时空关系，通过卷积和池化层提取视频的时空特征，然后使用全连接层进行情感分类预测。

在步骤S3，将所述音频情感结果和视频情感结果输入融合模型，得到情感识别结果。

在一些实施例中，在所述步骤S3中，所述融合模型为：应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。

具体地，加权平均为：

，且w _a和w _v满足w _a+w _v=1。

在步骤S4，应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练。

在一些实施例中，在所述步骤S4中，所述应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失，公式为：

具体地，更新模型参数：使用反向传播算法更新模型参数，以最小化离散情感分类任务的损失。

在步骤S5，应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。

在一些实施例中，在所述步骤S5中，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括：

所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为：

具体地，更新模型参数：使用反向传播算法基于主要任务的损失函数更新模型参数，以最小化主要任务的损失。

本发明第二方面公开了一种基于音视频的维度情感识别系统。图2为根据本发明实施例的一种基于音视频的维度情感识别系统的结构图；如图2所示，所述系统100包括：

第一处理模块101，被配置为，从视频中提取音频，再从所述音频中提取音频特征；然后对所述音频特征进行归一化和降维，得到音频特征序列；将所述音频特征序列输入音频情感识别模型，得到音频情感结果；

第二处理模块102，被配置为，从所述视频中提取视频帧，在将所述视频帧输入预训练的卷积神经网络，提取图像特征；然后对所述图像特征进行归一化，得到图像特征序列；将所述图像特征序列输入视频情感识别模型，得到视频情感结果；

第三处理模块103，被配置为，将所述音频情感结果和视频情感结果输入融合模型，得到情感识别结果；

第四处理模块104，被配置为，应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练；

第五处理模块105，被配置为，应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练；

第六处理模块106，被配置为，将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第二方面的系统，所述第一处理模块101，被配置为，所述音频情感识别模型采用循环神经网络。

根据本发明第二方面的系统，所述第二处理模块102，被配置为，所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络；

所述视频情感识别模型采用3D-CNN神经网络。

根据本发明第二方面的系统，所述第三处理模块103，被配置为，所述融合模型为：应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。

根据本发明第二方面的系统，所述第四处理模块104，被配置为，所述应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失，公式为：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。

图3为根据本发明实施例的一种电子设备的结构图，如图3所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于音视频的维度情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于音视频的维度情感识别方法，其特征在于，在所述步骤S1中，所述音频情感识别模型采用循环神经网络。

3.根据权利要求1所述的一种基于音视频的维度情感识别方法，其特征在于，在所述步骤S2中，所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络；

所述视频情感识别模型采用3D-CNN神经网络。

4.根据权利要求1所述的一种基于音视频的维度情感识别方法，其特征在于，在所述步骤S3中，所述融合模型为：应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。

5.根据权利要求1所述的一种基于音视频的维度情感识别方法，其特征在于，在所述步骤S4中，所述应用带有离散情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失，公式为：

6.根据权利要求5所述的一种基于音视频的维度情感识别方法，其特征在于，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括：

7.根据权利要求6所述的一种基于音视频的维度情感识别方法，其特征在于，所述应用带有维度情感标签的数据集，对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为：

8.一种用于基于音视频的维度情感识别系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的一种基于音视频的维度情感识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的一种基于音视频的维度情感识别方法中的步骤。