CN117473397B

CN117473397B - 一种基于扩散模型数据增强的情感识别方法和系统

Info

Publication number: CN117473397B
Application number: CN202311785908.3A
Authority: CN
Inventors: 陶建华; 解衡; 范存航; 吕钊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-19
Anticipated expiration: 2043-12-25
Also published as: CN117473397A

Abstract

本发明提出一种基于扩散模型数据增强的情感识别方法和系统。其中，方法包括：从视频中提取音频数据的语谱图，将语谱图输入基于深度学习的音频情感特征生成模型，生成音频情感特征；再将视频帧输入基于深度学习的视频情感特征生成模型，提取图像特征；然后对图像特征进行归一化，得到视频情感特征；应用音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型；应用训练好的扩散模型进行数据增强，生成扩展数据集；应用扩展数据集训练基于深度学习的情感识别模型；将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。本发明提出的方案能够提升模型的泛化性能，从而提高实际情感识别的效果。

Description

一种基于扩散模型数据增强的情感识别方法和系统

技术领域

本发明属于情感识别领域，尤其涉及一种基于扩散模型数据增强的情感识别方法和系统。

背景技术

在日常生活中，人类的情感可以包含于自己的言行中，基于音视频的情感识别技术可以通过分析输入的音视频信息进行情感识别。情感识别是自然语言处理（NaturalLanguage Processing, NLP）和计算机视觉（Computer Vision, CV）等领域中的重要任务之一。传统的情感识别方法通常需要大量标记好的数据进行训练，缺乏数据量支撑会导致训练效果不佳，影响模型的情感识别性能，但标注数据的获取成本较高且耗时。关于音频数据增强方面，现有技术通常利用音频增强的方法对音频进行噪声添加、混响处理等操作，模拟真实世界中不同的环境和声音情况；此外还有数据扰动和音频剪切等方法来扩充数据集。关于视频数据增强方面，现有技术采用视频剪辑，对视频进行随机剪辑，截取其中的一部分或多个片段，以引入不同的情感表达、语境或背景；还有对视频进行帧采样，将采样出的图像数据进行处理以生成新的图像样本。

现有技术缺点：

现有技术存在数据量不足，模型所提取的特征对于情感表示不充分，生成的扩充数据质量不高，提取出的情感特征表征能力差等问题。影响最终实际应用的情感识别结果。

发明内容

为解决上述技术问题，本发明提出一种基于扩散模型数据增强的情感识别方法的技术方案，以解决上述技术问题。

本发明第一方面公开了一种基于扩散模型数据增强的情感识别方法，所述方法包括：

步骤S1、从视频中提取音频数据的语谱图，将所述语谱图输入基于深度学习的音频情感特征生成模型，生成音频情感特征；

步骤S2、从所述视频中提取视频帧，再将所述视频帧输入基于深度学习的视频情感特征生成模型，提取图像特征；然后对所述图像特征进行归一化，得到视频情感特征；

步骤S3、应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型；

步骤S4、应用训练好的扩散模型进行数据增强，生成扩展数据集；

步骤S5、应用所述扩展数据集训练基于深度学习的情感识别模型；将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第一方面的方法，在所述步骤S1中，所述基于深度学习的音频情感特征生成模型为对抗自编码网络。

根据本发明第一方面的方法，在所述步骤S2中，所述基于深度学习的视频情感特征生成模型为预训练的卷积神经网络。

根据本发明第一方面的方法，在所述步骤S3中，所述应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型的方法包括：

应用所述扩散模型的输入层将所述音频情感特征和视频情感特征进行特征融合，得到音视频特征；应用所述音视频特征训练基于深度学习的扩散模型。

根据本发明第一方面的方法，在所述步骤S3中，在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系。

根据本发明第一方面的方法，在所述步骤S3中，训练基于深度学习的扩散模型的损失函数为：

，

其中，N表示样本的数量，y _i表示真实标签，0或1，而表示生成音视频特征的预测标签；对于真实样本，y _i等于1，而对于生成音视频特征y _i等于0。

根据本发明第一方面的方法，在所述步骤S4中，所述应用训练好的扩散模型进行数据增强，生成扩展数据集的方法包括：

应用训练好的扩散模型输出生成音视频特征数据，通过在扩散模型生成过程中引入随机噪声，并通过逐步扩散过程将噪声逐渐转化为具有目标情感的音视频特征数据，得到增强数据；再将所述增强数据与真实特征数据合并，得到扩展数据集。

本发明第二方面公开了一种基于扩散模型数据增强的情感识别系统，所述系统包括：

第一处理模块，被配置为，从视频中提取音频数据的语谱图，将所述语谱图输入基于深度学习的音频情感特征生成模型，生成音频情感特征；

第二处理模块，被配置为，从所述视频中提取视频帧，在将所述视频帧输入基于深度学习的视频情感特征生成模型，提取图像特征；然后对所述图像特征进行归一化，得到视频情感特征；

第三处理模块，被配置为，应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型；

第四处理模块，被配置为，应用训练好的扩散模型进行数据增强，生成扩展数据集；

第五处理模块，被配置为，应用所述扩展数据集训练基于深度学习的情感识别模型；将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第二方面的系统，所述第一处理模块，被配置为，所述基于深度学习的音频情感特征生成模型为对抗自编码网络。

根据本发明第二方面的系统，所述第二处理模块，被配置为，所述基于深度学习的视频情感特征生成模型为预训练的卷积神经网络。

根据本发明第二方面的系统，所述第三处理模块，被配置为，所述应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型包括：

根据本发明第二方面的系统，所述第三处理模块，被配置为，在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系。

根据本发明第二方面的系统，所述第三处理模块，被配置为，训练基于深度学习的扩散模型的损失函数为：

，

根据本发明第二方面的系统，所述第四处理模块，被配置为，所述应用训练好的扩散模型进行数据增强，生成扩展数据集包括：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种基于扩散模型数据增强的情感识别方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种基于扩散模型数据增强的情感识别方法中的步骤。

综上，本发明提出的方案能够对现有数据进行特征提取，利用扩散模型生成大量相似的特征信息进行训练，通过充分学习训练数据中包含的各种情感特征，提升模型的泛化性能，从而提高实际情感识别的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于扩散模型数据增强的情感识别方法的流程图；

图2为根据本发明实施例的一种基于扩散模型数据增强的情感识别系统的结构图；

图3为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种基于扩散模型数据增强的情感识别方法。图1为根据本发明实施例的一种基于扩散模型数据增强的情感识别方法的流程图，如图1所示，所述方法包括：

在步骤S1，从视频中提取音频数据的语谱图，将所述语谱图输入基于深度学习的音频情感特征生成模型，生成音频情感特征。

在一些实施例中，在所述步骤S1中，所述基于深度学习的音频情感特征生成模型为对抗自编码网络。

具体地，音频数据预处理：从视频中提取音频数据，使用短时傅里叶变换（short-time Fourier transform, STFT）和固定窗口大小处理音频数据，获得语谱图；此外，由于沉默和停顿的片段的数据对提升性能无效，因此我们在预处理阶段删除了所有沉默和停顿部分。

音频重构部分：利用自编码更新Encoder和Decoder,将输入x编码为z来最小化重构误差：

，

其中，E _θ为编码器，D _δ为解码器，则为解码器生成的数据，z则为自编码器隐藏层的初级特征，L _AE(•)为最小化自编码AE的重构误差，输入数据x重构为/>，最小化他们之间的误差，获得误差最小时的隐藏层特征z则为我们所需要的中间特征。

音频特征对抗生成部分：对抗网络首先更新判别器，以区分来自先验分布的样本（真实）和有自编码器生成的隐藏层代码的样本（伪造），然后更新它的生成器（也是自编码的Encoder）；通过固定鉴别器网络的权重和偏置，并将误差反向传播到生成器/编码器来实现其权重和偏置值的更新：

，

其中，D _ω是判别器，pd为多元高斯先验分布，px代表真实数据分布的概率分布函数。这个概率分布函数描述了来自真实数据集的样本在数据空间中的分布情况。比如：Ex∼px[logD(x)]表示对真实数据分布px(x)中的样本x求期望值，其中对每个样本x计算log(D(x))，然后将这些log(D(x))值取平均。

当进行语音情感分类时，使用多元高斯分布作为先验有助于自编码器网络更好地学习输入数据中的情感结构。这是因为情感相关的属性往往与输入数据的其他属性相关联，而多元高斯分布作为先验可以帮助自编码器网络解耦这些重要属性，使其更容易被学习和表示。通过引入多元高斯分布作为先验，自动编码网络可以在训练过程中学习输入数据中的情感结构的分布。这意味着网络会尝试将输入数据编码成潜在空间中的分布，并通过解码器将其重构回原始数据。通过这个过程，网络可以更好地理解输入数据中情感相关的特征，并学会将这些特征有效地编码和解码。

在步骤S2，从所述视频中提取视频帧，在将所述视频帧输入基于深度学习的视频情感特征生成模型，提取图像特征；然后对所述图像特征进行归一化，得到视频情感特征。

在一些实施例中，在所述步骤S2中，所述基于深度学习的视频情感特征生成模型为预训练的卷积神经网络。

具体地，使用OpenCV库将视频切分为一帧一帧的图像。选择固定的帧率进行采样。

使用预训练的卷积神经网络VGG或ResNet等作为特征提取器，通过去掉最后的分类层，提取图像的高级特征表示。另外，使用手工设计的特征颜色直方图、纹理特征等作为补充，从视频帧中提取有意义的图像特征。

对提取的图像特征进行适当的表示和预处理。将图像进行归一化（将像素值缩放到[0, 1]范围）以及尺寸调整（例如将图像调整为固定的输入尺寸），以便于模型的输入。

在步骤S3，应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型。

在一些实施例中，在所述步骤S3中，所述应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型的方法包括：

在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系。

训练基于深度学习的扩散模型的损失函数为：

，

其中，N表示样本的数量，y _i表示真实标签，0或1，而表示生成音视频特征的预测标签；对于真实样本，y _i等于1，而对于生成音视频特征y _i等于0。这个损失函数的目标是最小化真实样本和生成样本之间的差异，使生成样本的预测尽量接近真实样本的标签。通过最小化对比交叉熵损失函数，可以提高生成样本的质量，并使其更接近于真实样本。

在步骤S4，应用训练好的扩散模型进行数据增强，生成扩展数据集。

在一些实施例中，在所述步骤S4中，所述应用训练好的扩散模型进行数据增强，生成扩展数据集的方法包括：

应用训练好的扩散模型输出生成音视频特征数据，通过在扩散模型生成过程中引入随机噪声，并通过逐步扩散过程将噪声逐渐转化为具有目标情感的音视频特征数据，得到增强数据，控制扩散过程的步骤数和温度参数，以调整生成数据的多样性和逼真度；再将所述增强数据与真实特征数据合并，得到扩展数据集，使用扩展数据集进行情感识别模型的训练，确保训练集中包含了更多样的情感表达。

在步骤S5，应用所述扩展数据集训练基于深度学习的情感识别模型；将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

具体地，使用神经网络等深度学习模型对扩充后的数据特征进行充分训练，以学习特征中所包含的复杂情感信息。在训练过程中，使用常规的监督学习方法，利用交叉熵损失函数以最小化预测情感和真实情感之间的差异，不断更新和优化模型参数。

综上，本发明提出的方案能够在特征提取阶段提取具有高表征的情感特征，通过训练扩散模型，使其能够有效学习到真实特征中所包含的情感信息，并进行数据增强，将学习到的多样性情感信息用于生成数据，解决了数据量不足以及提取出的情感特征表征能力差等问题，有利于更好地训练分类模型，使其具有更强的泛化能力。

本发明第二方面公开了一种基于扩散模型数据增强的情感识别系统。图2为根据本发明实施例的一种基于扩散模型数据增强的情感识别系统的结构图；如图2所示，所述系统100包括：

第一处理模块101，被配置为，从视频中提取音频数据的语谱图，将所述语谱图输入基于深度学习的音频情感特征生成模型，生成音频情感特征；

第二处理模块102，被配置为，从所述视频中提取视频帧，在将所述视频帧输入基于深度学习的视频情感特征生成模型，提取图像特征；然后对所述图像特征进行归一化，得到视频情感特征；

第三处理模块103，被配置为，应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型；

第四处理模块104，被配置为，应用训练好的扩散模型进行数据增强，生成扩展数据集；

第五处理模块105，被配置为，应用所述扩展数据集训练基于深度学习的情感识别模型；将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别，并输出情感识别结果。

根据本发明第二方面的系统，所述第一处理模块101，被配置为，所述基于深度学习的音频情感特征生成模型为对抗自编码网络。

根据本发明第二方面的系统，所述第二处理模块102，被配置为，所述基于深度学习的视频情感特征生成模型为预训练的卷积神经网络。

根据本发明第二方面的系统，所述第三处理模块103，被配置为，所述应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型包括：

根据本发明第二方面的系统，所述第三处理模块103，被配置为，在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系。

根据本发明第二方面的系统，所述第三处理模块103，被配置为，训练基于深度学习的扩散模型的损失函数为：

，

根据本发明第二方面的系统，所述第四处理模块104，被配置为，所述应用训练好的扩散模型进行数据增强，生成扩展数据集包括：

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种基于扩散模型数据增强的情感识别方法中的步骤。

图3为根据本发明实施例的一种电子设备的结构图，如图3所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种基于扩散模型数据增强的情感识别方法中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于扩散模型数据增强的情感识别方法，其特征在于，所述方法包括：

步骤S3、应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型，在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系；

步骤S4、应用训练好的扩散模型进行数据增强，生成扩展数据集，包括：应用训练好的扩散模型输出生成音视频特征数据，通过在扩散模型生成过程中引入随机噪声，并通过逐步扩散过程将噪声逐渐转化为具有目标情感的音视频特征数据，得到增强数据；再将所述增强数据与真实特征数据合并，得到扩展数据集；

2.根据权利要求1所述的一种基于扩散模型数据增强的情感识别方法，其特征在于，在所述步骤S1中，所述基于深度学习的音频情感特征生成模型为对抗自编码网络。

3.根据权利要求1所述的一种基于扩散模型数据增强的情感识别方法，其特征在于，在所述步骤S2中，所述基于深度学习的视频情感特征生成模型为预训练的卷积神经网络。

4.根据权利要求1所述的一种基于扩散模型数据增强的情感识别方法，其特征在于，在所述步骤S3中，所述应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型的方法包括：

5.一种用于基于扩散模型数据增强的情感识别系统，其特征在于，所述系统包括：

第三处理模块，被配置为，应用所述音频情感特征和视频情感特征作为输入，训练基于深度学习的扩散模型，在扩散模型训练过程中，使用情感标签作为监督信号，引导扩散模型学习音视频特征与情感之间的关系；

第四处理模块，被配置为，应用训练好的扩散模型进行数据增强，生成扩展数据集，包括：应用训练好的扩散模型输出生成音视频特征数据，通过在扩散模型生成过程中引入随机噪声，并通过逐步扩散过程将噪声逐渐转化为具有目标情感的音视频特征数据，得到增强数据；再将所述增强数据与真实特征数据合并，得到扩展数据集；

6.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至4中任一项所述的一种基于扩散模型数据增强的情感识别方法中的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至4中任一项所述的一种基于扩散模型数据增强的情感识别方法中的步骤。