CN116645980A

CN116645980A - 一种聚焦样本特征间距的全生命周期语音情感识别方法

Info

Publication number: CN116645980A
Application number: CN202310794609.XA
Authority: CN
Inventors: 秦勇; 王雪琛; 赵石顽; 王卉; 周家名; 贺佳贝
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-08-25

Abstract

本发明涉及计算机处理技术领域，更具体地，涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。在预训练阶段，本发明引入大规模预训练模型提取更为准确的语音表征；在微调阶段，通过交叉熵损失和有监督对比学习损失加权求和的结果，指导模型进行微调，使模型学习到的样本表征间距获得改善；在推理阶段，首先构造数据存储集合，用来存储训练集和验证集的样本表征及样本标签，为进一步利用改善后的样本间距，通过K最近邻检索增强的方法，检索得到数据存储集合中与测试样本最相似的K个样本，将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和，得到测试样本的最终预测标签。

Description

一种聚焦样本特征间距的全生命周期语音情感识别方法

技术领域

本发明涉及计算机处理技术领域，更具体地，涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。

背景技术

情感识别是人机交互领域的一个重要方面，语音通过音调、频率、速度和重音等不同属性传递丰富的情感信息，随着人工智能技术的发展，语音情感识别(Speech EmotionRecognition,SER)已经广泛应用于在线教育、人工客服和心理健康等领域。

目前，随着深度学习技术的发展，基于循环神经网络、时延神经网络以及卷积神经网络等神经网络的模型结构成为了语音情感识别的主要方法，相比传统的方法，这些方法对于手工提取的音频特征的依赖程度减弱，通过学习更深层次的语音特征表示，使语音情感识别的准确率得到了突破。

然而，数据驱动的深度学习技术也让语音情感识别面临着新的挑战。为了使用规模较大、鲁棒性较高的模型提取更为准确的特征，“预训练+微调”的模型范式在人工智能的各个领域得到应用。与其他相关领域相比，语音情感识别领域的数据集规模较小，数据量的限制使得语音情感识别目前还没有可以直接应用的通用预训练模型。这使得语音情感的特征表示存在不准确的情况，将直接影响语音情感识别的准确性。

此外，由于某些情感(例如愤怒与兴奋的情绪)在韵律上的相似性，导致在不借鉴文本信息的单模态语音识别领域，模型对于上述情感的声学特征难以分辨，在特征空间中，一些情感特征存在分类边界模糊的问题，使语音情绪识别的准确率有所降低。

发明内容

为了缓解语音情感识别领域数据量对于应用技术的限制，并且有效解决不同情绪类别分类边界模糊的问题，本发明提供一种聚焦样本间距的、贯穿语音情感识别全生命周期的方法。此方法涉及到语音情感识别的预训练、微调和推理三个阶段的改进。通过在预训练阶段提取更为准确的特征表示、在微调阶段改善样本间距、在推理阶段二次利用改善后的样本数据，使有限的数据量得到充分利用，并且使特征空间中不同类别之间的语音情绪表征划分更加清晰，有效提升语音情感识别的准确率。

本发明主要涉及到语音情感识别全生命周期的三个阶段：预训练、微调和推理阶段。

在预训练阶段，本发明引入大规模预训练模型提取更为准确的语音表征；在微调阶段，通过交叉熵损失和有监督对比学习损失加权求和的结果，指导模型进行微调，使模型学习到的样本表征间距获得改善，具体来说，同类之间样本的间距缩小，不同类之间样本的间距扩大；在推理阶段，首先构造数据存储集合，用来存储训练集和验证集的样本表征及样本标签，为进一步利用改善后的样本间距，通过K最近邻检索增强的方法，检索得到数据存储集合中与测试样本最相似的K个样本，将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和，得到测试样本的最终预测标签。

为实现上述目的，本发明采用如下技术方案：

一种聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，包括以下步骤：

步骤S101，对输入的训练样本进行随机增强；

步骤S102，引入在大规模数据集上训练得到的模型作为预训练模型；

步骤S103，使用步骤S102中引入的预训练模型对步骤S101中得到的样本实例进行特征提取，定义正负样本，计算有监督对比学习损失；

步骤S104，计算交叉熵损失，与步骤S103中计算得到的有监督对比学习损失加权求和，对模型预训练微调；

步骤S105，使用步骤S104中微调得到的模型，得到训练样本的表征-标签键值对，构建数据存储集合；

步骤S106，给定测试样本，在步骤S105得到的数据存储集合中，检索到与测试样本最近邻的K个样本，并记录其标签分布情况；

步骤S107，对于步骤S106中给定的测试样本，利用步骤S104中的模型预测其输出分布；

步骤S108，将步骤S106和步骤S107得到的分布加权求和，得到测试样本最终预测标签。

本技术方案进一步的优化，所述步骤103中计算有监督对比学习损失L_scl如下：

其中i∈I＝{1，……，2N}表示一个实例的索引，N为样本数，A(i)表示除i外的所有索引，P(i)表示和样本i具有相同标签的所有正样本的索引，a∈A(i)表示具体的某个除i外的样本索引，p∈P(i)表示具体的某个和样本i具有相同标签的正样本的索引；τ为计算有监督对比学习损失的超参数；x_i，x_p，x_a分别表示对应下标的音频样本的特征向量。

本技术方案进一步的优化，所述步骤104中计算交叉熵损失L_ce如下：

其中，N表示样本个数，C表示种类个数，y_i表示音频样本标签，为模型预测的第i个样本属于第c类的概率结果。

本技术方案进一步的优化，所述步骤104将有监督对比学习损失L_scl和交叉熵损失L_ce进行加权求和，得到模型最终的损失L如下：

L＝(1-μ)L_ce+μL_scl

其中，μ为平衡交叉熵损失和对比学习损失的超参数。

本技术方案进一步的优化，所述步骤105包括：使用步骤S104中微调得到的模型，对所有训练集样本数据进行一次前向传播，根据样本的表征向量和标签，创建包含所有训练集样本数据和验证集样本数据的数据存储集合，存储格式如下：

(K，V)＝{(x_i，y_i)，i∈D}

其中，D为训练集和验证集的所有样本索引的集合，x_i表示第i个音频样本经过步骤S104中模型计算得到的特征向量，y_i为第i个音频样本对应的标签。

本技术方案进一步的优化，所述步骤108包括：综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果，对其进行加权求和，得到测试样本最终预测分布p(y|x)如下：

p(y|x)＝αp_knn(y|x)+(1-α)p_model(y|x)

其中，α为调整p_knn(y|x)和p_model(y|x)比例的超参数，p_knn(y|x)为步骤S106检索到与测试样本最近邻的K个样本并记录其中各个类别标签的分布情况，p_model(y|x)为步骤S107中利用步骤S104中微调得到的模型对其进行推理，预测输出分布情况。

本技术方案进一步的优化，所述预训练模型为Wav2vec2.0模型。

区别于现有技术，上述技术方案有益效果如下：

聚焦样本特征间距并贯穿整个模型生命周期的语音情感识别方法，通过引入大规模预训练模型进行特征提取，有效地解决了数据量限制的条件下，语音情感表征不准确的问题；通过构造新的损失函数指导微调，改善了样本特征间距，使得不同种类的语音情绪表征在特征空间中的分布更加清晰，缓解了以往存在的情绪边界混淆问题；推理阶段，通过K最近邻检索增强的思想，对改进后的样本间距进行二次利用，在不需要任何额外的训练的情况下，进一步提升了模型的识别准确率，节约了提升模型性能所需的计算成本和时间成本。

附图说明

图1为聚焦样本特征间距的全生命周期语音情感识别方法流程示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

如图1所示，为聚焦样本特征间距的全生命周期语音情感识别方法流程示意图。该实施例的语音情感识别方法具体包括如下步骤：

步骤S101，对输入的训练样本进行随机增强。

对于一组个数为N的输入样本实例进行随机增强，增强方式包括添加噪音、改变音量、添加混响、改变音高以及混合增强。经过增强后的音频标签与原始音频相同。增强后，得到含有原始训练样本以及随机增强样本共2N个样本实例。

步骤S102，引入在大规模数据集上训练得到的模型作为预训练模型。

数据驱动的深度学习技术，需要大量的数据进行训练，以得到泛化能力更强、鲁棒性更好的大规模模型。Wav2vec2.0是在总时长为960小时的大规模语音数据集上训练得到的自监督预训练模型，可以构建较为准确的语音表征。在预训练阶段，采用迁移学习的思想，引入wav2vec2.0作为特征提取器，弥补语音情感数据的稀缺性带来的缺陷，提取到通用的、准确的语音特征表示。

步骤S103，定义正负样本，计算有监督对比学习损失。

使用步骤S102中引入的预训练模型对步骤S101中得到的样本实例进行特征提取。对于一组个数为N的输入样本实例{x_k，y_k}，k＝1，……，N，x_k表示一个输入音频的特征向量，y_k为这段音频用独热编码表示的标签。一个训练批大小由2N个样本实例组成，表示为{x_l，y_l}，l＝1，……，2N，其中，x_{2t(t＝1，...，N)}表示原始音频向量x_k，x_2t-1表示x_{k(k＝1，...，N)}的随机增强版本，经过增强后的音频标签与原始音频相同，可以表示为y_2t＝y_2t-1＝y_k。具有相同标签y的样本实例称为正样本，而具有不同标签的样本实例称为负样本。计算有监督对比学习损失L_scl如下：

步骤S104，计算交叉熵损失，与步骤S103中计算得到的有监督对比学习损失加权求和指导模型微调。

通过步骤S103中提取得到的N个未经增强的原始音频特征向量，计算交叉熵损失L_ce如下：

将有监督对比学习损失L_scl和交叉熵损失L_ce进行加权求和，得到模型最终的损失L如下：

L＝(1-μ)L_ce+μL_scl

其中，μ为平衡交叉熵损失和对比学习损失的超参数。

通过设计和计算上述损失函数并使其最小化，使有监督学习损失辅助基础的交叉熵损失对模型进行微调，达到了拉进同类样本之间距离、拉远不同类样本之间距离的效果有助于缓解不同类别样本之间的模糊边界问题。

步骤S105，使用步骤S104中微调得到的模型，得到训练样本的表征-标签键值对，构建数据存储集合。

使用步骤S104中微调得到的模型，对所有训练集样本数据进行一次前向传播，根据样本的表征向量和标签，创建包含所有训练集样本数据和验证集样本数据的数据存储集合，存储格式如下：

(K，V)＝{(x_i，y_i)，i∈D}

步骤S106，给定测试样本，在步骤S105得到的数据存储集合中，检索到与测试样本最近邻的K个样本，并记录其标签分布情况。

当给定一个测试样本时，根据样本的特征向量，计算步骤S105中的数据存储集合所有的样本与测试样本的欧氏距离，检索到与测试样本最近邻的K个样本并记录其中各个类别标签的分布情况，记为p_knn(y|x)。

步骤S107，对于步骤S106中给定的测试样本，利用步骤S104中的模型预测其输出分布。

对于步骤S106中给定的测试样本，利用步骤S104中微调得到的模型对其进行推理，预测输出分布情况，记为p_model(y|x)。

综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果，对其进行加权求和，得到测试样本最终预测分布p(y|x)如下：

p(y|x)＝αp_knn(y|x)+(1-α)p_model(y|x)

其中，α为调整p_knn(y|x)和p_model(y|x)比例的超参数。

聚焦样本特征间距的全生命周期语音情感识别方法，通过有监督对比学习和检索增强的相互作用，在语音情感识别的全周期对样本间距进行了改善和利用。

有监督对比学习能有效地改善类内和类间样本间距，将不同类之间的样本间距拉大，同一类之间的样本间距缩小，使各个类别的语音情感特征在样本空间内的分布更加清晰。在经过改善的特征空间中，推理阶段进一步使用基于样本间距进行计算的KNN算法实现检索增强策略，在不需要任何额外训练的情况下，提升模型的识别性能。此外，在经过有监督对比学习改善后的特征空间中，有监督对比学习和基于KNN算法的检索增强思想对于样本间距的改善、利用以及对于模型性能的提升可以起到显著的效果。相比以往的语音情感识别算法，在IEMOCAP数据集上，本发明提出的算法在Weighted Accuracy(WA)以及Unweighted Accuracy(UA)两个评价指标上取得了更好的结果，如下表所示：

在目前已知的语音情感识别算法中，本发明第一次引入了检索增强的思想，并将其与预训练模型、有监督对比学习一起，共同构成了聚焦样本特征间距的全生命周期语音情感识别方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，包括以下步骤：

步骤S101，对输入的训练样本进行随机增强；

步骤S106，给定测试样本，在步骤S105得到的数据存储集合中,检索到与测试样本最近邻的K个样本，并记录其标签分布情况；

2.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述步骤103中计算有监督对比学习损失L_scl如下：

3.如权利要求2所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述步骤104中计算交叉熵损失L_ce如下：

4.如权利要求3所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述步骤104将有监督对比学习损失L_scl和交叉熵损失L_ce进行加权求和，得到模型最终的损失L如下：

L＝(1-μ)L_ce+μL_scl

其中，μ为平衡交叉熵损失和对比学习损失的超参数。

5.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述步骤105包括：使用步骤S104中微调得到的模型，对所有训练集样本数据进行一次前向传播，根据样本的表征向量和标签，创建包含所有训练集样本数据和验证集样本数据的数据存储集合，存储格式如下：

(K，V)＝{(x_i，y_i)，i∈D}

6.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述步骤108包括：综合从步骤S106中的数据存储集合中的检索结果以及步骤S107中的模型推理结果，对其进行加权求和，得到测试样本最终预测分布p(y|x)如下：

p(y|x)＝αp_knn(y|x)+(1-α)p_model(y|x)

7.如权利要求1所述的聚焦样本特征间距的全生命周期语音情感识别方法，其特征在于，所述预训练模型为Wav2vec2.0模型。