CN111816212B

CN111816212B - 基于特征集融合的语音情感识别及评价方法

Info

Publication number: CN111816212B
Application number: CN202010563652.1A
Authority: CN
Inventors: 周后盘; 夏鹏飞; 周伟东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-10-11
Anticipated expiration: 2040-06-19
Also published as: CN111816212A

Abstract

本发明公开了一种基于特征集融合的语音情感识别及评价方法，本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音情感特征集，建立Stacking集成学习模型，通过Stacking的初级学习器融合四种语音特征集，并通过Stacking的次级学习器建立最终的语音情感识别模型。实验结果表明在EMODB和RAVDESS这两种常见的语音数据库上，Stacking集成学习模型不仅关注单个语音情感特征集，同时可以融合不同语音情感特征集，进而达到更好的情感识别效果。

Description

基于特征集融合的语音情感识别及评价方法

技术领域

本发明涉及一种语音情感识别方法，具体涉及一种基于特征集融合的语音情感识别及评价方法。

背景技术

语音作为情感的载体之一，包含了丰富的情感信息。在过去几十年中语音情感识别的相关研究取得了巨大的进步并在许多不同的研究领域都有着广阔的前景。随着计算机语音识别等技术的成熟以及相关研究不断涌现，语音情感识别开始更多地应用到教育业、娱乐业、通讯业当中，加强对语音情感、情绪的识别成为了下一代人工智能发展的重点，鉴于此开展针对语音情感识别的研究具有较强的理论价值和实用意义。

情感描述方式一般可分为离散和维度两种形式。PAD三维空间情感模型是既简单又被广泛使用的维度情感描述模型，其中P代表愉悦度(Pleasure-Displeasure)，表明了个体情感状态的积极或消极特性；A代表激活度(Arousal-Nonarousal)，表明了个体的神经生理激活程度；D代表优势度(Dominance-Submissiveness)，表明了个体对环境和他人的主观控制状态。

Stacking是一种集成学习模型，在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器，次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

发明内容

本发明针对目前语音情感识别中特征集单一、预测结果不精准等问题，提出了一种基于特征集融合的语音情感识别及评价方法。通过Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集，基于Stacking的初级学习器融合四种不同语音特征集，建立了不同语音情感特征集的关系，并通过Stacking的次级学习器建立最终的语音情感识别模型，进而达到更好的情感识别效果。

基于特征集融合的语音情感识别及评价方法。实现包括以下步骤：

步骤一：从语音数据库中读取.wav语音文件,对语音文件预处理后提取N种语音特征集；

步骤二：建立Stacking学习模型；

通过初级学习器融合N种语音特征集，并建立Stacking学习模型的次级学习器，通过次级学习器对融合后的语音特征集做最终的语音情感识别预测；

将得到的语音特征集切分为训练数据和测试数据，分别为Training Data、TestData；采用K折交叉验证来切分训练数据得到Train₁,Train₂…Train_k。此时初级学习器要做K次训练和预测。

使用训练数据中的Train₂,Train₃…Train_k做为训练集Set₁，Train₁做为验证集，基于训练集Set₁训练初级学习器，预测得到验证集Train₁的预测结果Val₁，同时预测得到测试集Test的预测结果Test₁。

使用训练数据中的Train₁,Train₃…Train_k做为训练集Set₂，Train₂做为验证集，基于训练集Set₂训练初级学习器，预测得到验证集Train₂的预测结果Val₂，同时预测得到测试集Test的预测结果Test₂。

同理分别预测得到验证集Train₃,Train₄…Train_k的预测结果Val₃,Val₄…Val_k,同时分别预测得到测试集Test的预测结果Test₃,Test₄…Test_k。

将得到的Val₁,Val₂…Val_k进行矩阵拼接，得到1列的Val数据。将此Val数据作为次级学习器的训练数据。

对Test₁,Test₂…Test_k求取平均值得到Test_avg,将Test_avg作为次级学习器的测试数据。

N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的训练数据。

N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的测试数据。

将次级学习器的训练数据作为次级学习器的训练数据，经训练后通过次级学习器的测试数据来验证次级学习器的预测结果。

步骤三：建立评价标准，通过Stacking学习模型得到的预测结果与真实结果进行计算，得到评价该模型的评价标准；

平均绝对误差(MAE)

其中m，y_i，

分别为测试集样本个数、测试集真实值及测试集预测值。该指标计算用于评估预测结果和真实数据集的接近程度的程度，其值越小说明拟合效果越好。

均方差(MSE)

其中m，y_i，

分别为测试集样本个数、测试集真实值及测试集预测值。该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越好。

判定系数(R₂)

其中m，y_i，

分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值。其含义是也是解释回归模型的方差得分，其值取值范围是[0,1]，越接近于1说明自变量越能解释因变量的方差变化，值越小则说明效果越差。

皮尔逊相关系数(Pea)

其含义是计算测试集真实值与测试集预测值的相关度，相关系数在[-1，1]之间，Pea值越大，表示相关系数越显著。

作为优选，步骤一中提取的语音特征集，具体为：Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。

本发明相对于现有技术具有的有益效果：

本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集，采用LightGBM、AdaboostRegressor作为Stacking的初级学习器，初级学习器融合了四种不同语音特征集，建立了不同语音情感特征集的关系，并将岭回归作为Stacking的次级学习器，基于融合后特征集训练岭回归模型，建立最终的语音情感识别模型。

附图说明

图1为基于特征集融合的语音情感识别流程图；

图2为Stacking实验过程示意图；

图3为EMODB语音数据库的平均绝对误差(MAE)结果簇状图；

图4为EMODB语音数据库均方差(MSE)结果簇状图；

图5为EMODB语音数据库判定系数(R_2)结果簇状图；

图6为EMODB语音数据库皮尔逊相关系数(Pcc)结果簇状图；

图7为RAVDESS语音数据库平均绝对误差(MAE)结果簇状图；

图8为RAVDESS语音数据库均方差(MSE)结果簇状图；

图9为RAVDESS语音数据库判定系数(R_2)结果簇状图；

图10为RAVDESS语音数据库皮尔逊相关系数(Pcc)结果簇状图；

具体实施方式

本次实验选取的语音数据库是EMODB和RAVDESS，它们在语音情感识别中应用广泛。EMODB由10位演员对10条语句演绎得到，语音情感包括温和、生气、害怕、高兴、悲伤、厌恶、难过，经过听辨测试后保留男性情感语句233句，女性情感语句302句，共535句语料。RAVDESS语音数据库中由24位专业演员(12位女性，12位男性)用中性的北美口音述说，语音情感包括平静(温和)，快乐(高兴)，悲伤(难过)，愤怒(生气)，恐惧(害怕)，惊吓和令人厌恶(厌恶)，共1440句语料。

上述2个数据库虽然是离散语音情感数据库，但是根据Mehrabian研制的原版PAD情绪量表以及中国科学院心理所修订的中文简化版PAD情绪量表与基本情感类型的对应关系，可以获得数据库中各情感类型的PAD量表值，所以以上2个数据库中语料能够作为本文实验所需的维度情感语音数据，涉及的基本情感类型对应的PAD量表值见表2。

表2基本情感类型对应的PAD量表值

步骤1、使用Opensmile工具包读取语音数据库中.wav语音文件，并分别提取四种语音特征集。

步骤1.1、配置Opensmile工具包读取IS09_emotion特征集，并读取EMODB语音数据库中的每一个.wav语音文件，Opensmile工具包自动提取IS09_emotion的语音特征并保存在.txt文件，将每个.txt文件中的特征集保存在.csv文件中，得到EMODB语音数据库中每一个.wav语音文件的IS09_emotion特征集；

步骤1.2、同理配置Opensmile工具包分别读取IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集，得到EMODB语音数据库中每一个.wav语音文件的IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集；

步骤1.3、同上述提取步骤，得到RAVDESS语音数据库中每一个.wav语音文件的IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集；

步骤2、建立Stacking学习模型。如图1所示，将LightGBM、AdaboostRegressor作为Stacking的M1(初级学习器，下同)，通过M1融合四种语音特征集，并将岭回归作为Stacking的M2(次级学习器，下同)，通过M2对融合后的语音特征集做最终的语音情感识别预测。如图2所示基于特征集融合的语音情感识别流程图。

LightGBM(Light Gradient Boosting Machine)是GBDT(Gradient BoostingDecision Tree，梯度提升迭代决策树)的一种，2015年由微软公司提出。传统GBDT模型在保证速率时往往会导致精度的丢失，同时在分布式处理时，各机器之间的通信损失，也在一定程度上降低了数据的处理效率。

LightGBM摈弃了level-wise(按层生长)的决策树生长算法，而采用了leaf-wise(按叶子生长)算法。Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。Leaf-wise每轮迭代都从现有的叶子中找到最大增益的分裂方法，如此循环直至达到给定的最大深度，此方法有效避免了不必要的开销，提高了计算速率。另外，传统GBDT算法中，最耗时的步骤是利用Pre-Sorted的方式在排好序的特征值上枚举所有可能的特征点，然后找到最优划分点，而LightGBM中使用histogram直方图算法替换了传统的Pre-Sorted以减少对内存的消耗。

AdaboostRegressor是Adaboost的回归算法。Adaboost是一种迭代算法，本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

岭回归(Ridge Regression)实质上是一种改良的最小二乘估计法，它是一种专用于共线性数据分析的有偏估计回归方法。最小二乘法可以简单的求得未知的数据，并使得这些求的数据与实际数据之间误差的平方和为最小。如通过线性函数f(x)＝AX+b来拟合D＝{(X₁，y₁)，(X₂，y₂)...(X_n，y_n)}并使得损失函数

最小，岭回归算法是在上式基础加入L2正则化，得到损失函数如下：

步骤2.1、分别将EMODB和RAVDESS语音数据切分训练数据集、测试数据集，分别记为Train、Test，切分比例为4∶1。如下表3所示。

表3语音数据库切分

步骤2.2、基于EMODB语音数据库采用4折交叉验证来切分IS09_emotion的训练特征集得到Train₁，Train₂，Train₃，Train₄。此时LightGBM模型要进行4次训练和预测。

步骤2.3、将训练数据中的Train₂，Train₃，Train₄做为训练集Set₁，Train₁做为验证集，基于训练集Set₁训练LightGBM模型，预测得到验证集Train₁的结果Val₁，同时预测得到测试集Test的结果Test₁。

步骤2.4、将训练数据中的Train₁，Train₃，Train₄做为训练集Set₂，Train₂做为验证集，基于训练集Set₂训练LightGBM模型，预测得到验证集Train₂的结果Val₂，同时预测得到测试集Test的结果Test₂。

步骤2.5、同理预测得到验证集Train₃，Train₄的结果Val₃，Val₄，同时每次预测得到测试集Test的结果Test₃，Test₄。

步骤2.6、将得到的Val₁，Val₂Val₃，Val₄进行矩阵拼接，得到IS09_emotion特征集的融合前训练特征集Val_LGBM-09＝[Val₁，Val₂Val₃，Val₄]^T，同理基于AdaboostRegressor模型要进行4次训练和预测，得到IS09_emotion特征集的融合前训练特征集Val_AD-09。将此Val_LGBM-09、Val_AD-09数据作为M2的训练数据。

步骤2.7、对Test₁，Test₂，Test₃，Test₄求平均值，得到融合前测试特征集Test_LGBM-avg-09＝(+Test₂+Test₃+Test₄)/4，同理也可得到Test_AD-avg-09，将Test_LGBM-avg-09、Test_AD-avg-09作为M2的测试数据。

步骤2.8、基于IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集做上述相同操作，分别得到融合前训练特征集Val_LGBM-10、Val_AD-10、Val_LGBM-11、Val_AD-11、Val_LGBM-12、Val_AD-12，同样也可以得到融合前测试特征集Test_AD-avg-10、Test_AD-avg-11、Test_AD-avg-12、TeSt_LGBM-avg-10、TeSt_LGB-avg-11、Test_LGBM-avg-12

步骤2.9、基于RAVDESS语音数据库做上述相同操作。

步骤3、建立评价标准，通过Stacking学习模型得到的预测结果与真实结果进行计算，得到评价该模型的评价标准。

步骤3.1、基于EMODB语音数据库，将Val_LGBM-09、Val_AD-09、Val_LGBM-10、Val_AD-10、Val_LGBM-11、Val_AD-11、Val_LGBM-12、Val_AD-12作为岭回归的训练数据，经训练后通过Test_AD-avg-09、Test_AD-avg-10、Test_AD-avg-11、Test_AD-avg-12、Test_LGBM-avg-09、Test_LGBM-avg-10、Test_LGBM-avg-11、Test_LGBM-avg-12测试数据来验证模型的预测结果。通过预测计算得到各个评价标准值如表4所示。图3、4、5、6分别为MAE、MSE、R_2、Pcc结果簇状图。

表4 EMODB语音数据库的预测结果

步骤3.2、基于RAVDESS语音数据库做上述相同操作，得到最终的预测结果，并通过预测计算得到评价标准如表5所示。图7、8、9、10分别为MAE、MSE、R_2、Pcc结果簇状图。(注意：AD_IS09_EMOTIO意思是在IS09_EMOTIO特征集上使用AdaboostRegresso模型训练预测得到的评价指标；Stacking方法1指的是使用Stacking模型训练预测得到的评价指标，次级学习器做了交叉验证；Stacking方法2指的是使用Stacking模型训练预测得到的评价指标，次级学习器没做交叉验证。上同)。

表5 RAVDESS语音数据库的预测结果

Claims

1.基于特征集融合的语音情感识别及评价方法，其特征在于，具体包括以下步骤：

步骤一：从语音数据库中读取.wav语音文件，对语音文件预处理后提取N种语音特征集；

步骤二：建立Stacking学习模型；

将得到的语音特征集切分为训练数据和测试数据，分别为Training Data、Test Data；采用K折交叉验证来切分训练数据得到Train₁，Train₂...Train_k；此时初级学习器要做K次训练和预测；

使用训练数据中的Train₂，Train₃...Train_k做为训练集Set₁，Train₁做为验证集，基于训练集Set₁训练初级学习器，预测得到验证集Train₁的预测结果Val₁，同时预测得到测试集Test的预测结果Test₁；

使用训练数据中的Train₁，Train₃...Train_k做为训练集Set₂，Train₂做为验证集，基于训练集Set₂训练初级学习器，预测得到验证集Train₂的预测结果Val₂，同时预测得到测试集Test的预测结果Test₂；

同理分别预测得到验证集Train₃，Train₄...Train_k的预测结果Val₃，Val₄...Val_k，同时分别预测得到测试集Test的预测结果Test₃，Test₄...Test_k；

将得到的Val₁，Val₂...Val_k进行矩阵拼接，得到1列的Val数据；将此Val数据作为次级学习器的训练数据；

对Test₁，Test₂...Test_k求取平均值得到Test_avg，将Test_avg作为次级学习器的测试数据；

N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据，并将此数据作为次级学习器的训练数据；

N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据，并将此数据作为次级学习器的测试数据；

将次级学习器的训练数据作为次级学习器的训练数据，经训练后通过次级学习器的测试数据来验证次级学习器的预测结果；

平均绝对误差

其中m，y_i，

分别为测试集样本个数、测试集真实值及测试集预测值；该指标计算用于评估预测结果和真实数据集的接近程度的程度，其值越小说明拟合效果越好；

均方差

其中m，y_i，

分别为测试集样本个数、测试集真实值及测试集预测值；该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越好；

判定系数

其中m，y_i，

分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值；其含义是也是解释回归模型的方差得分，其值取值范围是[0，1]，越接近于1说明自变量越能解释因变量的方差变化，值越小则说明效果越差；

皮尔逊相关系数

其含义是计算测试集真实值与测试集预测值的相关度，相关系数在[-1，1]之间，Pcc值越大，表示相关系数越显著。

2.根据权利要求1所述的基于特征集融合的语音情感识别方法，其特征在于：步骤一中提取的语音特征集，具体为：Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。