CN101894550A

CN101894550A - 基于情感对特征优化的语音情感分类方法

Info

Publication number: CN101894550A
Application number: CN2010102305148A
Authority: CN
Inventors: 赵力; 黄程韦; 邹采荣; 余华; 王开
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-07-19
Filing date: 2010-07-19
Publication date: 2010-11-24

Abstract

本发明公布了一种基于情感对特征优化的语音情感分类方法，包括如下步骤：(1)采集喜、怒、惊、悲，和平静五种基本情感状态的语音数据；(2)语音情感特征提取；(3)情感对的配对；(4)特征压缩与特征选择：(4-1)线性判别分析(LDA)降维；使用每个情感对各自的投影向量，分别进行各自的LDA变换；(4-2)基于fisher判别准则的特征选择方法；(5)基于两类分类器组的判决融合：(5-1)记输入的情感语音数据(5-2)两类分类器的判决输出C_i，j；(5-3)每个两类分类器的置信度w_i，j，用式(3)来得到：(5-4)用相关译码的方法来进行判决：最大的相关值对应的情感类别，即为识别结果。

Description

基于情感对特征优化的语音情感分类方法

技术领域

本发明涉及一种语音识别方法，特别涉及一种基于情感对特征优化的自动语音情感识别方法。

背景技术

语音情感识别是从语音信号中识别出说话人的情感状态。一般的语音情感分类器，可以在一定程度上区分喜悦、愤怒、惊讶、悲伤、恐惧等基本情感类别。建立一个语音情感分类器，首先需要确定待识别的情感类别，建立相应的情感语料库，然后根据情感语料库中的语音数据，寻找合适的语音情感特征，通常是依据基音、短时能量、共振峰等参数构造的声学特征，最后采用统计的方法建立语音情感模型。其中语音情感特征的优劣对分类器的性能具有关键的影响。

语音情感分类器的性能，一般包括以下几个方面，所识别的情感类别范围与识别率、适用的说话人群体、对文本内容的依赖程度以及跨语种性能等。其中，识别率是最常用的衡量分类器性能优劣的指标，通常，所能识别的情感类别越多，平均识别率就越低。

语音情感特征的优化是设计分类器的一个关键部分。目前，一般的做法是首先提取基本的声学参数，在基本声学参数的基础上构造大量的情感特征，然后通过特征选择算法得到维数较少的最佳特征组。

在语音情感的特征优化中存在的一个问题是，一般的语音情感分类器采用单一的一组最佳特征来进行全部情感类别的分类，使用这一组情感特征并不能达到对任意两个情感类别之间的最优区分。例如，选择一组特征最优的区分A、B、C、D、E五类语音情感，但是这一组特征往往不能使A与B之间的误识别率在最优化的意义上降到最低。

发明内容

本发明目的是针对现有技术存在的缺陷提供一种基于情感对特征优化的语音情感分类方法。

本发明为实现上述目的，采用如下技术方案：

本发明基于情感对特征优化的语音情感分类方法，包括如下步骤：

(1)采集喜、怒、惊、悲，和平静五种基本情感状态的语音数据；

(2)语音情感特征提取；

(3)情感对的配对；

(4)特征压缩与特征选择：

(4-1)线性判别分析(LDA)降维，分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量；使用每个情感对各自的投影向量，分别进行各自的LDA变换；

(4-2)基于fisher判别准则的特征选择方法

Fisher判别准则如式(1)所示：

f (d) = \frac{{(μ_{1 d} - μ_{2 d})}^{2}}{σ_{1 d}^{2} + σ_{2 d}^{2}} - - - (1)

其中μ_1d、μ_2d为第d个维度两个类别的特征值的均值，

为第d个维度两个类别的特征值的方差；

(5)基于两类分类器组的判决融合：

(5-1)记输入的情感语音数据，经过步骤(4)特征选择后构成待识别的样本矢量为X，一个两类分类器识别的情感为第i个情感与第j个情感，则通过GMM模型得到的GMM似然度为，P(X|λ_i)，P(X|λ_i)，其中λ_i，λ_j为两种情感的GMM模型的参数；

(5-2)两类分类器的判决输出C_i，j为：

C_{i, j} = \{\begin{matrix} i, & P (X | λ_{i}) &GreaterEqual; P (X | λ_{j}) \\ j, & P (X | λ_{i}) \leq P (X | λ_{j}) \end{matrix} - - - (2)

(5-3)每个两类分类器的置信度w_i，j，用式(3)来得到：

w_{i, j} = 2 \times \frac{| \ln (P (X | λ_{i})) - \ln (P (X | λ_{j})) |}{| \ln (P (X | λ_{i})) + \ln (P (X | λ_{j})) |} - - - (3)

(5-4)用相关译码的方法来进行判决，即：

每个两类分类器的输出值构成列向量C，设定的情感码字记为矩阵I_m×n，m为分类器的个数，n为情感类别数。输出值与码字间的距离即为相关值r_i，i＝1，2，…n，通过式(4)得到，

R^T＝C^T·I_m×n (4)

其中，R＝{r₁，r₂，…，r_n}，每个分量与一种情感对应。

最大的相关值对应的情感类别，即为识别结果，

i^*＝arg max{r_i} (5)

i^*表示识别出的情感类别的标号。

本发明的优点和效果在于：

(1)能够将任意两个情感类别之间的识别错误率在最优化的意义上降到最低。

(2)能够获得每两个情感类别之间的最佳特征组。

(3)能够获得每两个情感类别之间的最佳特征空间。

(4)将两类分类器组的输出通过相关译码的方法进行融合判决以实现多类别的识别。

(5)识别系统整体的识别率显著高于传统方法。

附图说明

图1——语音情感识别系统框图。

图2——情感对分组的LDA降维优化效果图。

图3——分类器组的判决融合框图。

图4——LDA方法的错误率的下降幅度图。

图5——最佳特征组方法的错误率的下降幅度图。

具体实施方式

本发明中的语音情感识别系统框图如图1所示。

1.语音情感数据库

(1)在所分析的情感种类上，本发明选取分析了喜、怒、惊、悲，和平静五种基本的情感状态。

(2)本发明中使用的中文语音情感库，是通过表演语音(Acted Speech)的方法得到的。语句材料的录制是由具有表演或广播经验的人(三男三女，年龄在20-30岁之间，近期无感冒，普通话标准)来录音。录音时在安静的录音室内进行。录音时选用AKGWMS300的录音设备和话筒，Creative的声卡，Cool Edit录音软件来录音。录音时采用单声道，16bit量化，11.025kHz的采样率。语句存为WAV格式。

(3)语句资料的选取上，遵循两条原则：1、所选取的语句不包含某一方面的情感倾向；2、语句必须具有较高的情感自由度，对同一语句可以施加不同的情感。为了保证录制的情感语料的质量，进行了主观听辨评价，选取了置信度85％以上的语句，男性1410条，女性1429条。

2.语音情感特征提取

用于识别和建模的特征向量一般有两种构造方法，全局统计特征和短时动态特征。由于动态特征对音位信息的依赖性较强，而全局统计特征受到文本内容的影响较小，采用全局统计特征易于建立与文本无关的情感识别系统，在本发明中选用了84个全局统计特征，如下所示：

特征1-10：短时能量及其差分的均值、最大值、最小值、中值、方差；

特征11-25：基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差；特征26：基音范围；

特征27-36：发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数；

特征37-66：第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差；

特征67-69：250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比。

特征70-84：0-400Hz、400-2000Hz、2000-5000Hz三个频段中的谐波噪声比的均值、最大值、最小值、中值、方差。

其中，在构造频谱能量的分频段特征时，未采用650Hz-4kHz内的能量百分比，虽然这个频段涉及第一共振峰和几乎全部的第二共振峰，但是此频段的能量受到文本内容变化的影响较大，主要随着音位信息的变化而变化。

采用了4kHz以上频谱能量特征，根据Pittam等人的研究结果显示，这一部分频段能量的增加能反映激励程度的提高，可用于区分悲伤与愤怒等。

谐波噪声比以往常用于诊断喉部疾病，是衡量说话人嗓音沙哑程度的一个特征。Biemans将谐波噪声比作为音质特征用于评价语音的音质，考虑基频与各个共振峰的分布，本发明中采用Biemans的三个频段的划分方法提取语音情感的谐波噪声比特征。

3.情感对的配对

在本发明中对五种情感类别(喜、怒、惊、悲、平静)，分别两两进行特征降维优化和最佳特征组选择。将这五个类别两两组合可以分成为10个情感对，如表1所示。对每个情感对的特征压缩与特征选择，对应了一个两类分类器。

表1情感对的十种组合

4.特征压缩与特征选择

可以采用两种方法对特征空间进行优化，一是线性判别分析(LDA)降维方法，二是基于fisher判别准则的特征选择方法。

(1)LDA变换通过一个投影变换来进行特征空间的优化，显然，这个投影向量的求解是关键的。识别五种情感类别，传统的做法是通过这五个类别的类内、类间离散度矩阵来求解投影向量。而本发明将通过对每个情感对分别设计各自的优化的特征空间来提高识别性能。因此，下面在求解LDA的投影向量时，将这五个类别分组成的10个情感对，分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量。

LDA变换将高维的特征空间投影变换为c-1维的特征空间，c为类别数，对于上文中的情感对，类别数c＝2。使用每个情感对各自的投影向量，分别进行各自的LDA变换后，每个情感对的样本在各自的优化的特征空间中的分布密度如图2所示，横轴表示投影后的特征空间，纵轴表示样本分布密度。图中的实线与情感对中前一个情感对应，虚线与情感对中后一个情感对应。可以看到十个情感对各自都达到了较好的可分度。

(2)对提取的84个特征进行特征选择，本发明中选用特征的均值和方差两个方面来做为评价特征优劣的准则。对第d个维度，Fisher判别准则可以用式(1)来表示：

f (d) = \frac{{(μ_{1 d} - μ_{2 d})}^{2}}{σ_{1 d}^{2} + σ_{2 d}^{2}} - - - (1)

其中μ_1d、μ_2d为第d个维度两个类别的特征值的均值，

为第d个维度两个类别的特征值的方差。Fisher判别准则越大，表明该特征对区分这两种类别效果越好。对于多类的情况，式(1)可以改写为：

f (d) = \frac{1}{C_{m}^{2}} \underset{0 < i < j < m}{Σ} \frac{{(μ_{id} - μ_{jd})}^{2}}{σ_{id}^{2} + σ_{jd}^{2}} - - - (2)

其中m为类别的总数。根据Fisher判别准则，对十个情感对选择出的前十个最佳特征如表2所示。

表2

5.基于两类分类器组的判决融合

对上面的十个情感对及各自优化得到的十个特征空间，分别设计和使用十个两类分类器，对这组两类分类器进行输出融合，将各个部分重新组成一个整体，完成对五种语音情感的识别。因此，下面通过两类分类器组的输出判决融合来取代单个多类分类器进行语音情感识别。本发明中采用高斯混合模型(Gaussian Mixture Model，GMM)对每种情感的概率分布进行建模，采用贝叶斯分类器来实现上文中的每个两类分类器，来识别图2中的每对语音情感对。

记输入的情感语音样本，经过特征提取后构成待识别的样本矢量为X，一个两类分类器识别的情感为第i个情感与第j个情感，则通过GMM模型得到的GMM似然度为，P(X|λ_i)，P(X|λ_i)，其中λ_i，λ_j为通过EM(Expectation Maximization)算法训练得到的两种情感的GMM模型的参数。则两类分类器的判决输出C_i，j可表示为，

C_{i, j} = \{\begin{matrix} i, & P (X | λ_{i}) &GreaterEqual; P (X | λ_{j}) \\ j, & P (X | λ_{i}) \leq P (X | λ_{j}) \end{matrix} - - - (3)

在本发明多分类器的判决融合中，首先对每个子分类器的输出置信度进行评价，然后通过一定的融合算法进行判决融合，计算出最终的识别结果。贝叶斯分类器的错误概率(或正确率)有多种计算方法，通常是计算图3中相应的样本分布曲线的积分。这种方法是计算的平均意义上的错误概率，本发明中考虑采用一种样本自适应的方法，来计算对于每个样本的判决的置信度。贝叶斯分类器中，当样本处于后验概率密度分布曲线的重叠区域时，分类器可能发生错判，发生错判的可能性可以用当前样本的后验概率的差来度量，进入分类器的样本属于不同类别的后验概率相差越大，误判的可能性就越小。样本处于重叠区域的可能性的度量，作为每个两类分类器的置信度w_i，j，可以用式(4)来得到。

w_{i, j} = 2 \times \frac{| \ln (P (X | λ_{i})) - \ln (P (X | λ_{j})) |}{| \ln (P (X | λ_{i})) + \ln (P (X | λ_{j})) |} - - - (4)

当分类器判决越可靠时，差值越大，w_i，j越大，反之当w_i，j越小时，说明样本距离重叠区域越近，分类可靠性越差。

得到了分类器的置信度w_i，j，据此作为融合权值将分类器的输出定义为，

C_i，j ^*＝w_i，j·I，I＝+1，-1 (5)

其中I是两类分类的判决，我们令I＝+1表示判断为两类分类中的第一个类别，I＝-1表示判断为另一图3个类别。

为了进行判决融合，下面将这组分类器的输出构成一个超矢量，用相关译码的方法来进行判决，如所示。

在理想的情况下，判决置信度w_i，j为1，此时得到的输出值C_i，j ^*＝I当待识别样本不属于两类分类器所能识别的两个类别时，输出值给出的信息不偏向于任何一个类别，置为零。以此理想情况得到的输出值作为当前类别的码字，如表3所示。

表3

分类器	喜	怒	惊	悲	平静
						喜/怒	+1	-1	0	0	0
喜/惊	+1	0	-1	0	0
						喜/悲	+1	0	0	-1	0
喜/平静	+1	0	0	0	1
						怒/惊	0	+1	-1	0	0
怒/悲	0	+1	0	-1	0
						怒/平静	0	+1	0	0	-1

惊/悲	0	0	+1	-1	0
						惊/平静	0	0	+1	0	-1
悲/平静	0	0	0	+1	-1

在实际情况下，输出值C_i，j ^*＝w_i，j·I，围绕在理想值(码字)的周围，可根据实际输出值与码字的距离进行译码。相关译码器的作用即是通过相关运算来衡量实际值与理想值之间的接近程度，最大的相关值对应的情感类别，即为识别结果，

i^*＝arg max{r_i} (6)

i^*表示识别出的情感类别的标号，r_i为相关值，通过式(7)得到，

R^T＝C^T·I_m×n (7)

其中，

R＝{r₁，r₂，…，r_n} (8)

C是每个分类器输出值构成的列向量，I_m×n是图6中码字构成的矩阵，m为分类器的个数，n为情感类别数。

6.系统识别率测试

为了验证本发明中分解优化的方法相对于单个多类分类器的性能的提高，进行了两组对比实验。第一组实验中，采用LDA降维的方法，用高斯混合模型(GMM)拟合情感类别的概率分布，分别用单个分类器和本发明中的两类分类器组，识别五种情感。第二组实验中，采用特征选择的方法进行降维，选出前十个最佳特征，仍然用GMM拟合情感类别的概率分布，分别用单个分类器和本发明中的两类分类器组识别五种情感。

用于训练的样本集，包括3名男性与3名女性的情感语料，针对15条不同的文本短句进行5种情感表演的朗读，包括了每条语句的3到4遍的重复录音，共243×5条，每种情感共243条，用于说话人无关、文本无关的情感识别训练。选用与训练样本不同的情感语料作为识别率测试的样本集，包括了同样的3名男性与3名女性对同样的15条文本短句的情感表演语料，共85×5条，每种情感85条。在对比实验中，每种识别方法的训练与测试，采用相同的训练样本集和相同的测试样本集。

(1)第一组对比实验

采用单个多类分类器，LDA降维后，特征空间维度为4(因为待识别样本为5)，采用GMM建模与识别，经实验观察，GMM混合度为9时识别率最高，识别结果如表4所示。

表4

采用本发明中的两类分类器组，对每个情感对进行LDA降维后，特征空间维度为1。实验中观察到每个两类分类器的最佳识别的GMM混合度如表5所示。

表5

进行两类分类器组的置信度相关译码融合后，对五种情感的识别测试结果如表6所示。

表6

在第一组对比实验结果中我们可以观察到正确识别率有了明显的提升，“喜”、“怒”、“惊”、“悲”和“平静”的正确识别率分别提升了6.2个百分点、8.2个百分点、11.2个百分点、8.1个百分点和9.3个百分点。其中对“惊”的正确识别率的提升最高，达到了十个百分点以上，这反映出了在单个多类分类器中对“惊”的情感特征的优化选取的不足。由于特征空间的降维优化是以区分5种情感为准则的，因此在同一个特征空间中，就很难兼顾到所有5种情感类别的最佳情感特征，这也就造成了对“惊”的情感特征的优化的不理想，同时这也就说明了情感特征的优化还有一段提升的空间。因此在两类分类器组中，对每个情感对都进行各自的特征空间优化，将“惊”同其余4中类别分别进行特征的降维优化，以两两之间的最佳区分为准则进行，提升了优化的效果。具体的分析，在实验中“惊”与“喜”之间容易发生错误识别，采用了本发明中的方法后，“惊”误识为“喜”的误识率下降了7.1个百分点，“喜”误识为“惊”的误识率下降了1.7个百分点。在其余的情感类别之间，也观察到了类似的特征优化带来的效果。在图4中，显示了错误率的下降幅度，对每种情感类别的漏识率(第一类错误率)和误识率(第二类错误率)进行了总结。

(2)第二组对比实验

通过特征选择进行降维，根据fisher判别准则选择最佳的十个特征，如表7所示。

表7

单个多类分类器在GMM混合度为7时识别率最高，识别结果如表8所示。

表8

测试本发明中的两类分类器组识别效果，每个情感对的最佳特征选择组如表2所示，依据分类器的平均识别错误率，每个两类分类器各自的最佳GMM混合度如表9所示。使用各自最佳的GMM混合度，两类分类器组的置信度相关译码融合后的识别测试结果如表10所示。

表9

表10

在第二组对比实验结果中我们观察到，与第一组对比实验一样，每个情感类别的识别率都得到了一定的提升。“喜”、“怒”、“惊”、“悲”和“平静”的正确识别率分别提升了8.7个百分点、9.9个百分点、9.0个百分点、7.7个百分点和10.6个百分点，其中“平静”的识别率提升最显著，到达了十个百分点以上。这表明了本发明中的方法选择出了更加合理的最佳特征组，达到了识别效果的明显提升。在传统的单个多类分类器中5种情感类别的最佳特征选取，只能在单个特征空间中进行，需要兼顾到5类不同的类别，因而不能达到类别两两最佳识别意义下的优化。而在两类分类器组的10个特征空间中，分别对每个情感对进行了最佳特征组的选择，获得了10组最佳特征(如表2所示)用于情感类别的两两最佳识别，从而达到了特征的更合理的优化，提高了识别效果。例如“平静”与“喜”容易发生混淆，在第二组实验结果中我们观察到，“平静”误判为“喜”的错误率下降了3.6个百分点，“喜”误判为“平静”的错误率下降了3.1个百分点，错误率的下降，是由于在“喜”和“平静”的两类分类器中优化选取了最适合区分“平静”与“喜”的最佳特征组。根据实验数据，在其它的情感类别之间，也同样观察到了类似的错误率的下降。图5中总结和显示了5种情感类别的第一类错误率和第二类错误率的下降幅度。

总的来说本发明的对多类分类器分解并优化的方法，能够明显提高识别率，第一组实验中平均识别率提高了8.6个百分点，第二组实验中平均识别率提高了9.2个百分点。这是由于本发明中的两类分类器组能对于不同的情感对，进行各自最优的特征降维和特征选择，充分利用了适合各个情感对的不同的最优特征。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于情感对特征优化的语音情感分类方法，包括如下步骤：

(2)语音情感特征提取；

(3)情感对的配对；

其特征在于还包括如下步骤：

(4)特征压缩与特征选择：

(4-2)基于fisher判别准则的特征选择方法

Fisher判别准则如式(1)所示：

f (d) = \frac{{(μ_{1 d} - μ_{2 d})}^{2}}{σ_{1 d}^{2} + σ_{2 d}^{2}} - - - (1)

其中μ_1d、μ_2d为第d个维度两个类别的特征值的均值，

为第d个维度两个类别的特征值的方差；

(5)基于两类分类器组的判决融合：

(5-2)两类分类器的判决输出C_i，j为：

C_{i, j} = \{\begin{matrix} i & P (X | λ_{i}) &GreaterEqual; P (X | λ_{j}) \\ j, & P (X | λ_{i}) \leq P (X | λ_{j}) \end{matrix} - - - (2)

(5-3)每个两类分类器的置信度w_i，j，用式(3)来得到：

w_{i, j} = 2 \times \frac{| \ln (P (X | λ_{i})) - \ln (P (X | λ_{j}))}{\ln (P (X | λ_{i})) + \ln (P (X | λ_{j}))} - - - (3)

(5-4)用相关译码的方法来进行判决：即：

R^T＝C^T·I_m×n (4)

其中，R＝{r₁，r₂，…，r_n}，每个分量与一种情感对应。

最大的相关值对应的情感类别，即为识别结果，

i^*＝arg max{r_i} (5)

i^*表示识别出的情感类别的标号。