CN102779510B

CN102779510B - 基于特征空间自适应投影的语音情感识别方法

Info

Publication number: CN102779510B
Application number: CN 201210250571
Authority: CN
Inventors: 黄程韦; 赵力; 魏昕; 包永强; 余华
Original assignee: Southeast University
Current assignee: Shenzhen sound network technology Co., Ltd.
Priority date: 2012-07-19
Filing date: 2012-07-19
Publication date: 2013-12-18
Anticipated expiration: 2032-07-19
Also published as: CN102779510A

Abstract

本发明公开了一种基于特征空间自适应投影的语音情感识别方法，属于语音信号处理领域。本发明首先对语音进行特征提取，并且计算每个特征的模糊熵，当该特征的模糊熵小于预先设定好的阈值时，则认为该特征与一般模型的差异较大，应该进行投影压缩，即在特征矢量中删除此特征。在训练的参数迭代估计中对权重进行强化，从而训练出对于每一类情感所对应的高斯混合模型；最后采用计算高斯混合模型似然值的方式进行识别。采用本发明的方法可以有效地去除对识别效果不佳的特征，从而提高语音情感识别率。

Description

基于特征空间自适应投影的语音情感识别方法

技术领域

本发明涉及一种基于特征空间自适应投影的语音情感识别方法，属于语音信号处理领域。

背景技术

语音作为最自然的交流手段之一，在人机交互应用中得到了越来越广泛的应用。语音中的情感信息，与语义信息不同，通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制，因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关，如年龄、性别、语境和文化背景等。因此语音情感识别比起其它的模式识别问题有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入，研究者们提出了很多颇具前景的实际应用。如，在车载电子中，通过对驾驶员的情感状态（如愉快、惊讶、愤怒和悲伤等）进行跟踪，监测与识别，从而做出相应的响应以保证驾驶的安全。又例如，通过对恐惧类别的极端情感的识别，在一个基于音频的监控系统中，可以对可能发生的危险情感进行探测。

由于语音中的特征众多，当提取出特征之后，需要面临的一个重要问题是如何在如此众多的特征中选择情感区分度最大的特征。特别是每个特定的说话人与一般模型之间都存在着差异，而语音情感识别中是与说话人无关的，因此如何来保留特定说话人与一般模型之间共同的特征，压缩特定说话人与一般模型之间差异大的特征，从而达到说话人自适应，对于语音情感识别来说十分重要。而目前，还未出现合适的技术来对特征进行有效地选择，从而降低特定说话人对整体语音情感识别的影响。

发明内容

本发明为解决现有技术的缺陷，提出了一种基于特征空间自适应投影的语音情感识别方法。

本发明为解决其技术问题采用如下技术方案：

一种基于特征空间自适应投影的语音情感识别方法，包括以下步骤：

（1）特征提取：对于情感语音库中的每一条语音样本，提取基本的声学特征，对于第个语音样本，

；

（2）特征选择：

（2-1）对于特定说话人的某一个情感特征，此处设为第个特征，分别通过

种情感的高斯混合模型，

为待识别的情感类别数，得到

个高斯混合模型似然概率密度值，以高斯混合模型似然概率密度值映射到0到1之间作为第

个样本归属于第

个情感类别的隶属度

：

其中，

表示第i个样本的特征矢量在第j个情感类别模型参数下的似然值；

（2-2）获得特定说话人的第个特征归属于第个情感类别的模糊熵

，其计算公式为：

其中，常数

取

，那么，对特定说话人的第

个特征的平均模糊熵为：

其中：

为情感类别数；

（2-3）对特定说话人的第

个特征，当模糊熵

超过一定阈值时，则认为此特征与一般模型的差异较大，应该进行投影压缩，即在特征矢量中删除此特征，保留下来的特征组成最终选出的特征矢量，其中阈值

的取值范围为0.1～0.5；

（3）训练：提取并选择出10维特征矢量以后，对于每一类情感所对应的所有训练数据，采用一个高斯混合模型来建模该类数据集中的数据分布，通过期望最大算法，并且基于情感数据的置信度，通过

值控制修正比例对待估计的参数进行修正，

，对于情感置信度高的训练样本，在参数迭代估计中的权重进行强化，从而训练出对于每一类情感所对应的高斯混合模型，即，, …… ,

，其中

为情感类别数；

（4）识别：在识别过程中，首先直接计算选出的特征矢量，计算其关于每一类训练好的情感模型, …… ,

的似然值

，… ，

，最终的识别结果为最大的似然值所对应的情感，即：

其中，

表示第

个情感所对应的似然值。

本发明的有益效果如下：

本方法对高维空间的后验概率进行了特征空间的投影压缩，保留了特定说话人与一般模型之间共同的特征，压缩了特定说话人与一般模型之间差异大的特征，从而达到说话人自适应的识别效果，选出的特征具有很好的情感区分度。

附图说明

图1为本发明的方法流程图。

图2为本方法的识别结果示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

图1为本发明的方法流程图，本发明的方法共分为四步。

（1）特征提取

对于情感语音库中的每一条语音样本，提取基本的声学特征。对于第个语音样本，

。在实际中常提取375个特征，这些特征为：基音、短时能量、共振峰，和美尔频率倒谱系数（MFCC）等。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征，如表1所示。

表1

特征编号	特征提取
		1-15:	基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差
16-90:	第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差
		91-165:	第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差
166-180:	短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差
		181-375:	十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差

（2）特征选择

（2-1）对于特定说话人的某一个情感特征（此处设为第

个特征），分别通过

种情感的GMM模型（

为待识别的情感类别数），得到

个GMM似然概率密度值，以GMM似然概率密度值映射到0到1之间作为第

个样本归属于第

个情感类别的隶属度

：

（式1）

（2-2）获得特定说话人的第

个特征归属于第个情感类别的模糊熵，其计算公式为，

（式2）

其中，常数

取。那么，对特定说话人的第

个特征的平均模糊熵为，

（式3）

（2-3）对特定说话人的第

个特征，当模糊熵

超过一定阈值

时，则认为此特征与一般模型的差异较大，应该进行投影压缩，即在特征矢量中删除此特征。因此，保留下来的特征组成了最终选出的特征矢量。阈值的取值范围为0.1～0.5。

（3）训练

提取并选择出特征矢量以后，对于每一类情感所对应的所有训练数据，采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型（GMM）是

成员密度的加权和，其似然函数可以用如下形式表示：

（式4）

这里

是一

维的特征矢量；

是成员密度函数；是混合权值，

为混合成分数。每个成员密度函数是一

维变量的关于均值矢量

和协方差矩阵

的高斯函数，形式如下：

（式5）

其中，混合权值满足条件：

。因此，完整的GMM的参数集为：

，（式6）

根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量，采用期望最大（EM）算法来进行高斯混合模型的参数估计，也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型

开始，去估计一个新的模型

，使得

。这时新的模型对于下一次重复运算来说成为初始模型，该过程反复执行直到达到收敛门限。每一步的EM迭代中，基于情感数据的置信度，通过值控制修正比例对待估计的参数进行修正，对于情感置信度高的训练样本，在参数迭代估计中的权重进行强化。那么，第

次运算中混合参数

的重估为：

（式7）

均值矢量

的重估：

（式8）

协方差矩阵的重估：

（式9）

其中，

为第t个的训练数据的特征矢量；m为成员序号；参变量

为，

（式10）

对于每一类情感，采用这种方式进行训练，从而得到其对应的高斯混合模型:

, …… ,

（为情感类别数）。

（4）识别

在识别过程中，首先直接计算选出的特征矢量，计算其关于每一类训练好的情感模型

, …… ,

的似然值

。最终的识别结果为最大的

所对应的情感，即：

（式11）

为了验证采用了本发明所述的基于特征空间自适应投影的语音情感识别方法的系统性能，对采集的非特定说话人语音情感数据，进行了大量的人工标注和情感的听辨筛选。对置信度较高的情感数据，进行了基于自适应GMM的识别测试，如图2所示。说话人从2个增加到26个，平均识别率从91.7%下降到85.7%，其中烦躁的识别率较低，愤怒的识别率较高。在各组实验中GMM混合度设置为：[12，16，32，64，64，128，132]，根据说话人数的增加而提高高斯分量的数量。在实验中说话人自适应的模糊熵阈值设为0.015时识别效果最佳。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。