CN113297383B

CN113297383B - 基于知识蒸馏的语音情感分类方法

Info

Publication number: CN113297383B
Application number: CN202110695067.1A
Authority: CN
Inventors: 王晶晶; 尤佩雯; 李寿山; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-08-04
Anticipated expiration: 2041-06-22
Also published as: CN113297383A

Abstract

本申请涉及一种基于知识蒸馏的语音情感分类方法，涉及语音智能处理技术，该方法包括：将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量；将文本词嵌入向量输入预设的分类模型；将样本文本数据进行语音合成转换；将TTS语音数据输入语音特征提取模块；将语音时域及频域特征输入预设的分类模型，使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练；将文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练，使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布，得到训练后的分类模型。训练后的分类模型可以对输入的语音数据进行语音情感分类。

Description

基于知识蒸馏的语音情感分类方法

技术领域

本申请涉及语音智能处理技术，更具体地说，本申请涉及一种基于知识蒸馏的语音情感分类方法。

背景技术

计算机对语音情感的分析能力是计算机情感智能的重要组成部分。人类之所以能够通过聆听语音捕捉并分析对方情感的状态，是因为人脑具备了感知和理解语音信号中能够反映说话人情感状态信息的能力。研究认为语音中包含的情感特征信息主要存在于声学特征的韵律特征和音质特征中，比如韵律特征中的基音、强度、语速等，即LLD特征(LowLevel Descriptors)，以及在其基础上衍生出其均值、方差、中值等参数，即HSF特征(Highlevel Statistics Functions)；除此之外，常用于语音情感识别的还有基于谱的相关特征，其被认为是声道形状变化和发声运动间相关性的体现，能够更好的描述声音随时间变化的动态特性，例如线性倒谱系数(linear predictor coefficient,LPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等，其中MFCC特征是基于人耳听觉特性提出的，与Hz频率呈非线性对应关系。在传统的语音情感识别系统中，模式识别的各类算法均可应用在语音的情感识别中，主要使用LLD、HSF等手工特征结合广泛应用于模式识别中的例如高斯混合模型(Gaussian Mixed Model,GMM)、支持向量机(Support VectorMachine,SVM)、隐马尔可夫模型(Hidden Markov Model,HMM)等分类算法构建模型。

深度学习和神经网络的出现，也给语音的情感分类带来了新的解决方案。无论是LLD、HSF等手工特征，或是基于谱的相关特征，和神经网络的结合都给语音情感识别领域带来了全新的活力。近来在语音情感识别领域也有很多学者致力于利用多模态间的联系辅助情感识别任务，利用多模态可以互相补充互相促进的优势，提升情感分析的效果。在语音相关的跨模态任务中，研究大多集中在说话者识别、口语理解等，并未有类似工作直接使用跨模态的方式进行语音情感分类。

但无论是单模态学习，还是多模态学习，都少不了大数据的支持。在传统的机器学习中，大部分的网络训练依然依赖大量标注数据，然而人工标注需要付出大量的代价。很多情况下，大量的标注数据难以获取，尤其是语音标注数据由于其模态的特殊性，更加难以获取大量的样本数据，且人工标注的要求更为严格。

发明内容

本申请的目的是解决上述技术问题。本申请提供了一种基于知识蒸馏的语音情感分类方法，利用较易获取及标注的文本数据训练模型，再基于此模型对语音数据进行情感分类，摆脱了对大量语音标准样本的依赖。本申请提供如下技术方案：

提供一种基于知识蒸馏的语音情感分类方法，包括：

将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量，得到文本词嵌入向量；

将所述文本词嵌入向量输入预设的分类模型，得到文本情感分类软标签；

将样本文本数据进行语音合成转换，得到TTS语音数据；

将所述TTS语音数据输入语音特征提取模块，得到语音特征的梅尔频率倒谱系数表示向量；

将所述TTS语音数据输入特征提取网络，得到语音时域及频域特征；

将所述语音时域及频域特征输入预设的分类模型，使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练；

将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练，使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布，得到训练后的分类模型；

使用训练后的分类模型对输入的语音数据进行语音情感分类。

可选地，其中所述向量提取网络为BERT模型。

可选地,其中所述特征提取网络为CNN+LSTM模型。

可选地，其中对所述样本文本数据进行预处理为：对给定文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。

可选地，其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。

可选地，其中所述学生模型交叉熵损失函数为：

其中，J是样本类别个数，是学生模型对第i个样本P_i的第j类预测概率值。

可选地，其中所述教师模型交叉熵损失函数为：

其中，J是样本类别个数，y_i，j∈{0，1}是第i个样本P_i的第j类实际标签值，是教师模型对第i个样本P_i的第j类预测软化标签值。

可选地，其中所述预设的知识蒸馏损失函数为：

L＝L^A+T²*L^T*weight_d

其中，weight_d为知识蒸馏的权重参数，T为温度系数。

本申请的有益效果至少包括：为解决新的跨模态语音情感分类任务，即通过文本模态的数据对语音模态进行情感分类，提供了一个基于知识蒸馏的跨模态情感分类方法。首先训练文本模态情感分类模型作为教师模型，其次使用TTS技术转换语音数据，使用知识蒸馏的方法训练语音模态情感分类模型，即学生模型。训练后的模型可对原始语音数据进行情感分类预测。本申请能够有效利用文本模态的数据对语音模态分类模型进行情感分类训练，使用文本模态训练数据缓解语音训练数据不足的困境。

本申请的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述，可以更好地理解本申请，在附图中：

图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图；

图2是本申请一个实施例提供的BERT模型的结构图；

图3是本申请一个实施例提供的CNN+LSTM模型的结构图；

图4是本申请一个实施例提供的网络框架图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述，以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请的内容不充分。

首先，对本申请涉及的名词进行介绍。

BERT(Bidirectional Encoder Representation from Transformers)是GoogleAI团队在2018年提出来的文本预训练模型，是目前NLP领域任务涵盖范围最广的模型，并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型，由两个自监督任务组成，分别是MLM(Masked Language Model)和NSP(Next Sentence Prediction)。在经过大量语料预训练的BERT之后，便可以使用预训练好的模型应用到NLP的各个任务中了。

图1是本申请一个实施例提供的基于知识蒸馏的语音情感分类方法的流程图。该方法至少包括以下几个步骤：

步骤S101，将样本文本数据预处理后输入向量提取网络提取文本词嵌入向量，得到文本词嵌入向量。

使用BERT-base模型(uncased)提取文本特征，先对给定文本词序列S＝{s₁，s₂，…，s_n}(其中n是词的个数)的开头和结尾处分别添加BERT模型的特殊标签“[CLS]”和“[SEP]”，再将词序列通过嵌入层映射为词嵌入向量段嵌入向量/>和位置嵌入向量/>最后通过12层Transformer编码后得到文本特征Q＝[q_[CLS]，q₁，q₂，…，q_n，q_[SEP]]。形式化公式如下：

其中，是向量加法操作。

步骤S102，将所述文本词嵌入向量输入预设的分类模型，得到文本情感分类软标签。

为了增强文本特征Q的上下文语义信息，使用LSTM模型进一步学习文本特征H，形式化公式如下：

H＝LSTM(Q)

对于给定文本特征H，使用平均池化层和全连接层计算文本情感的非归一化概率x＝[x₁，x₂，…，x_J]，其中，J是样本类别个数，通过softmax函数计算归一化概率分布P^T(y_i|P_i)，计算公式如下：

其中，文本分类模型为教师模型，是教师模型对第i个样本P_i的第j类预测标签值，T是知识蒸馏的温度系数，通过调整温度值来生成更加软化的概率标签。

步骤S103，将样本文本数据进行语音合成转换，得到TTS语音数据。

使用文本转换语音的工具将文本模态数据转换为语音模态数据，并根据数据特征更改输出语音的参数，包括速率和音调。本实施例不对具体的文本转换语音的工具作出限定。

步骤S104，将所述TTS语音数据输入语音特征提取模块，得到语音特征的梅尔频率倒谱系数表示向量。

使用语音特征提取模块分别提取语音A_i和TTS语音的MFCC特征M和/>MFCC是在Mel标度频率域提取出来的倒谱系数参数，具体而言，在MFCC特征提取过程中，先对语音进行预加重、分帧加窗一系列预处理使其每帧的窗口能有更好的连续性，接着选取合适的语音帧长用于快速傅里叶变换(FastFourier Transform，FFT)得到对应的频谱，最后通过Mel滤波器得到Mel频谱，并在其上进行倒谱分析。本实施例选取2s的窗口大小以及大小为13的n_mfcc参数进行语音特征的提取。

步骤S105，将所述TTS语音数据输入特征提取网络，得到语音时域及频域特征。

使用CNN+LSTM网络进一步学习语音特征，来增强MFCC特征的语义信息。首先使用6层卷积操作在频域上提取时频信息，接着使用LSTM模型捕捉上下文信息。

步骤S106，将所述语音时域及频域特征输入预设的分类模型，使用交叉熵损失函数对预设的分类模型进行语音情感分类预测训练。

预设的分类模型为学生模型，使用softmax函数计算语音情感分类概率公式如下：

步骤S107，将所述文本情感分类软标签输入所述预设的分类模型并使用预设的知识蒸馏损失函数进行语音情感分类预测训练，使所述TTS语音数据的情感类别预测趋近于所述样本文本数据的情感分布。

首先计算教师模型概率分布感知损失函数L^T，旨在使学生模型的概率分布趋近于教师模型的概率分布，计算公式如下所示：

其次，计算学生模型的交叉熵损失函数LA，计算公式如下：

最后，总体的知识蒸馏损失函数L如下：

L＝L^A+T²*L^T*weight_d

其中，weight_d是知识蒸馏的权重参数，用于调节两个损失函数的平衡。实验中根据验证集结果，我们设置温度系数T为3、权重weight_d为1.5。

步骤S108，使用训练后的分类模型对输入的语音数据进行语音情感分类。

可选地，可以使用测试数据对模型进行测试，参考下表1，为本申请的实施例与其他先进语音情感分类方法在MELD多模态数据集测试集上的精确率及宏平均F1值比较。

表1

从表1可以看出本申请的实施例总体表现优于了现有的其他先进性格分类方法。

为了进一步验证本申请方法的有效性和泛化性，可选地，使用加权精确率(WP)和加权F1值(WF)分别评估各方法在MELD、MOSI、MOSEI三个数据集上的性能，进一步验证本申请实施例的有效性和泛化性。如表2所示，本实例在所有数据集上的结果均优于其他基准方法，充分提现了利用知识蒸馏方法构建语音识别情感模型的有效性。本申请的实施例采用在训练端引入TTS文本语音转换技术，在较基础的学生模型CNN+LSTM分类模型上能取得较优越的结果，验证了其在实际应用中的可能性。

表2

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本申请的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此，本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本申请，并且存储有这样的程序产品的存储介质也构成本申请。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本申请的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种基于知识蒸馏的语音情感分类方法，包括：

将样本文本数据进行语音合成转换，得到TTS语音数据；

2.根据权利要求1所述的方法，其中所述向量提取网络为BERT模型。

3.根据权利要求1所述的方法,其中所述特征提取网络为CNN+LSTM模型。

4.根据权利要求1所述的方法，其中对所述样本文本数据进行预处理为：对给定样本文本数据序列的开头和结尾处分别加上标签“[CLS]”和“[SEP]”。

5.根据权利要求1所述的方法，其中所述交叉熵损失函数包括学生模型交叉熵损失函数和教师模型交叉熵损失函数。

6.根据权利要求5所述的方法，其中所述学生模型交叉熵损失函数为：

其中，J是样本类别个数，y_i,j∈{0,1是第i个样本P_i的第j类实际标签值，是学生模型对第i个样本P_i的第j类预测概率值。

7.根据权利要求6所述的方法，其中所述教师模型交叉熵损失函数为：

其中，J是样本类别个数，是教师模型对第i个样本P_i的第j类预测软化标签值。

8.根据权利要求7所述的方法，其中所述预设的知识蒸馏损失函数为：

L＝L^A+T²*L^T*weight_d

其中，weight_d为知识蒸馏的权重参数，T为温度系数。