CN103578481A

CN103578481A - 一种跨语言的语音情感识别方法

Info

Publication number: CN103578481A
Application number: CN201210256381.0A
Authority: CN
Inventors: 赵力; 刘汝杰; 黄程韦; 魏昕; 包永强; 余华; 阴法明
Original assignee: Southeast University; Fujitsu Ltd
Current assignee: Southeast University; Fujitsu Ltd
Priority date: 2012-07-24
Filing date: 2012-07-24
Publication date: 2014-02-12
Anticipated expiration: 2032-07-24
Also published as: CN103578481B

Abstract

本发明公开了一种跨语言的语音情感识别方法，属于语音信号处理领域。本方法首先建立了一个汉语语音库和德语语音库，然后对其中的语音进行特征提取，计算每个特征分别关于两个语音库的Fisher判别系数，并采用加权融合技术来获得每个特征的跨语言Fisher判别系数，并排序选出情感区分度最好的一些特征。在训练和识别中采用高斯混合模型来分别进行参数估计和似然值的计算。本发明可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性，所提出的基于加权融合的Fisher判别系数对于跨语言情感识别中的特征选择也具有很好的效果。

Description

一种跨语言的语音情感识别方法

技术领域

本发明涉及一种跨语言的语音情感识别方法，属于语音信号处理领域。

背景技术

语音作为最自然的交流手段之一，在人机交互应用中得到了越来越广泛的应用。语音中的情感信息，与语义信息不同，通常是在说话人无意识的控制下表达的。语音情感的表达不容易伪装和控制，因而为计算机理解用户的意图提供了一个有效的新途径。情感的表达方式与很多因素有关，如年龄、性别、语境和文化背景等。因此语音情感识别与其它的模式识别问题相比有特殊的困难。对语音中的情感进行建模是语音情感识别中的最基本也是最重要的问题。随着语音情感识别研究的深入，人们提出了很多颇具前景的实际应用。如，在车载电子中，通过对驾驶员的情感状态（如愉快、惊讶、愤怒和悲伤等）进行跟踪，监测与识别，从而做出相应的响应以保证驾驶的安全。又例如，通过对恐惧类别的极端情感的识别，在一个基于音频的监控系统中，可以对可能发生的危险情感进行探测。

在现有的语音情感识别的研究和应用中，主要针对的还是单一的语言，如汉语语音情感识别系统，英语语音情感识别系统，德语语音情感识别系统等。虽然来自不同语系的人群在文化上有所差异，但是其情感的表达，特别是语音情感的表达上具有一定的普遍性。而目前，还未出现可以跨越两种不同语言的语音情感识别系统和方法。

发明内容

本发明提出了一种跨语言的语音情感识别方法，可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性，在汉语和德语这两种语言上都获得了较高的识别率。

本发明为解决其技术问题采用如下技术方案：

一种跨语言的语音情感识别方法，包括以下步骤：

（1）建立汉语和德语情感语音库；汉语情感语音库包含六名男性和六名女性的表演语音，包括了愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感；德语语音库中包含了五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感；选择出两个情感语音库中的五种共同的情感：愤怒、恐惧、喜悦、中性和悲伤；

（2）对汉语语音库和德语语音库中的每一条语音，进行特征提取和特征选择；

（2-1）对于情感语音库中的每一条语音样本，提取基本的声学特征，共 375个特征，即，特征向量的维素为375；

（2-2）对各个维度上的特征进行归一化处理，设

Figure 2012102563810100002DEST_PATH_IMAGE001

和

Figure 2012102563810100002DEST_PATH_IMAGE002

别为归一化前和归一化后第p维的特征的数值，则其归一化公式为

Figure 2012102563810100002DEST_PATH_IMAGE003

其中和

Figure 2012102563810100002DEST_PATH_IMAGE005

分别为两个语音库中的所有数据的第p维特征的最小值和最大值，即

Figure 2012102563810100002DEST_PATH_IMAGE006

Figure 2012102563810100002DEST_PATH_IMAGE007

；

（2-3）对德语语音库中的第p维特征，，基于所有用于训练并且已经分好情感类别的样本，计算其Fisher判别系数（FDR），

Figure 2012102563810100002DEST_PATH_IMAGE009

的计算公式如下：

Figure 2012102563810100002DEST_PATH_IMAGE010

其中，

Figure 2012102563810100002DEST_PATH_IMAGE011

为情感的类别数（此处为5），i、j为类别编号，

为类别中心，即为该类别对应的所有训练数据的特征向量的均值，

Figure 2012102563810100002DEST_PATH_IMAGE013

为该类别对应的所有训练数据的特征向量的样本方差；那么，对应于德语语音库的所有特征，其FDR集合为

（2-4）对于汉语语音库，采用与步骤（2-3）相同的计算方法求得所有特征的FDR集合

Figure 2012102563810100002DEST_PATH_IMAGE015

；

（2-5）采用简单的加权融合的方法获得最终的跨语言的特征评价分数，对于特征p，有

Figure 2012102563810100002DEST_PATH_IMAGE016

，

上式中，

是融合权重，取值范围为[0,1]；最终所有特征的FDR集合为

Figure 2012102563810100002DEST_PATH_IMAGE018

；

（2-6）根据

Figure 2012102563810100002DEST_PATH_IMAGE019

进行从大到小排序，选出前10个最大的值所对应的特征作为最能区分不同情感类别的特征矢量；

（3）训练：提取并选择出10维特征矢量以后，对于每一类情感所对应的所有训练数据，采用一个高斯混合模型来建模该类数据集中的数据分布，通过期望最大算法，训练出对于每一类情感所对应的高斯混合模型，即

Figure 2012102563810100002DEST_PATH_IMAGE020

, …… ,

Figure 2012102563810100002DEST_PATH_IMAGE021

，其中为情感类别数，这里为5；

（4）识别：在识别过程中，将汉语语音库和德语语音库中待识别一段语音，直接计算先前选出的10个区分度最好的特征，得到相应的10维特征矢量。对于该特征矢量，计算其关于每一类训练好的情感模型

, …… ,

的似然值。最终的识别结果为最大的

所对应的情感，即：

Figure 2012102563810100002DEST_PATH_IMAGE023

。

所述的375维特征包括：基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差；第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差；第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差；短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差；十二阶MFCC系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。

本发明的有益效果如下：

1. 本发明中所采用的Fisher判别系数结合加权特征融合的方法来进行跨语言的特征选择，兼顾并且考虑到了两种语言的语音库上的语音数据量的差异，选出的特征具有很好的情感区分度。

2. 采用本发明的跨语言识别方法，可以有效地解决现有的语音情感识别方法只针对某种特定语言的局限性。在汉语和德语这两种语言上都获得了较高的识别率，并且在跨语言的愤怒情感的识别上获得的效果尤为突出。

附图说明

图1为本发明的方法流程图。

图2为平均识别率随特征选择融合权重的变化曲线。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

图1为本发明的方法流程图，本发明的方法共分为四步。

第一步：建立汉语和德语情感语音库

汉语情感语音库包含六名男性和六名女性的表演语音，包括六种基本的情感：愤怒、恐惧、喜悦、中性、悲伤和惊讶。对于德语语音库，使用的是著名的柏林情感语音库，该库中包含五名男性和五名女性的七种情感：愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶。选择出两个情感语音库中具有的五种共同的情感：愤怒、恐惧、喜悦、中性和悲伤。每一种情感所对应的语音样本数如表1所示。

表1

Figure 2012102563810100002DEST_PATH_IMAGE024

第二步：特征提取与特征选择

（1）特征提取

对于情感语音库中的每一条语音样本，提取基本的声学特征，包括：基音、短时能量、共振峰和美尔频率倒谱系数（MFCC）。在此基础上构造了二阶差分和三阶差分作为进一步的特征。构造了最大值、最小值、均值、方差、和范围等统计特征。一共采用了 375 个特征用来进行特征选择和识别，如表2所示。

表2

（2）特征选择

对于每一条语音样本，得到375维特征之后，首先，对各个维度上的特征进行归一化处理，设

Figure 2012102563810100002DEST_PATH_IMAGE026

和

分别为归一化前和归一化后第p维的特征的数值，则其归一化可通过式（1）完成：

（1）

其中，

和

Figure 2012102563810100002DEST_PATH_IMAGE030

；

对于每个特征（假设此处为第p个特征），基于所有用于训练并且已经分好情感类别的样本，计算其Fisher判别系数（FDR），

的计算公式如下：

Figure 2012102563810100002DEST_PATH_IMAGE034

（2）

其中，

为情感的类别数（此处为5），i、j为类别编号，为类别中心，即为该类别对应的所有训练数据的特征向量均值，

为该类别对应的所有训练数据的样本方差。

用上述计算FDR的方法，分别得到对应于德语语音库的所有特征的FDR集合和对应于汉语语音库的所有特征的FDR集合

Figure 2012102563810100002DEST_PATH_IMAGE036

。

由于两个语音库的数据量有很大的不同，德语语音库的数据量要比汉语语音库少很多，因此不能简单的将两个语音库合并进行最终特征的选择。这里采用简单的加权融合的方法获得最终的跨语言的特征评价分数，对于特征p，有

（3）

上式中，

是融合权重，取值范围为[0,1]。因此，最终各特征的FDR集合为

Figure 2012102563810100002DEST_PATH_IMAGE038

。最后，将各特征的FDR进行从大到小排序，选出前10个特征作为最能区分不同情感类别的特征矢量，在不同的

下（），选出的10个特征的编号如表3所示。

表3

Figure 2012102563810100002DEST_PATH_IMAGE040

第三步：训练

提取并选择出10维特征矢量以后，对于每一类情感所对应的所有训练数据，采用一个高斯混合模型来建模该类数据集中的数据分布。高斯混合模型（GMM）是M个成员密度的加权和，其似然函数

可以用如下形式表示：

Figure 2012102563810100002DEST_PATH_IMAGE042

（4）

这里

是一D维（D=10）的特征矢量；

Figure 2012102563810100002DEST_PATH_IMAGE044

是成员密度函数；

是混合权值，M为混合成分数，

Figure 2012102563810100002DEST_PATH_IMAGE046

为特征矢量的概率密度函数。每个成员密度函数是一D维变量的关于均值矢量和协方差矩阵

Figure 2012102563810100002DEST_PATH_IMAGE048

的高斯函数，形式如下：

（5）

其中，混合权值满足条件：

Figure 2012102563810100002DEST_PATH_IMAGE050

。因此，完整的GMM的参数集为：

，

Figure 2012102563810100002DEST_PATH_IMAGE052

（6）

根据每一类情感所对应的所有训练数据所提取并选择出的特征矢量，采用期望最大（EM）算法来进行高斯混合模型的参数估计，也即是情感模型的训练。EM算法的基本思想是从一个初始化的模型

开始，去估计一个新的模型

Figure 2012102563810100002DEST_PATH_IMAGE054

，使得

。这时新的模型对于下一次重复运算来说成为初始模型，该过程反复执行直到达到收敛门限。每一步的EM重复中，下列重估公式保证类模型的似然值单调增加，第i次运算中混合参数

Figure 2012102563810100002DEST_PATH_IMAGE056

的重估为：

（7）

均值矢量

Figure 2012102563810100002DEST_PATH_IMAGE058

的重估：

（8）

协方差矩阵

Figure 2012102563810100002DEST_PATH_IMAGE060

的重估：

（9）

其中，为第t个的训练数据的特征矢量；m为成员序号；参变量

为：

Figure 2012102563810100002DEST_PATH_IMAGE064

（10）

对于每一类情感，采用这种方式进行训练，从而得到其对应的高斯混合模型：

, …… ,

Figure 2012102563810100002DEST_PATH_IMAGE066

（

为情感类别数，这里为5）。

第四步：识别

在识别过程中，将汉语语音库和德语语音库中待识别一段语音直接计算先前选出的10个区分度最好的特征，得到相应的10维特征矢量。对于该特征矢量，计算其关于每一类训练好的情感模型

, …… ,

的似然值

。最终的识别结果为最大的

所对应的情感，即：

Figure 2012102563810100002DEST_PATH_IMAGE068

（11）

性能评价

为了验证采用了本发明所述的跨语言的语音情感识别方法的系统性能，训练集和测试集是不同的语种。用汉语训练，用德语进行识别的结果如表4所示（简称“汉语到德语”）。

表4

用德语训练，用汉语进行识别的结果如表5所示（简称“德语到汉语”）。

表5

Figure 2012102563810100002DEST_PATH_IMAGE070

从表4和表5上可以看出，除了中性情感之外，调节权重和GMM混合度，其它的情感识别率都能分别到达70%以上。例如，喜悦的识别率在融合权重0.9，GMM混合度20时达到71.83%。虽然在情感之间的误识率比较高，对一个或两个目标情感的高识别率，仍然显示了在这些声学模型在德语和汉语上具有相同的情感模式。

图2为在不同融合权重情况下，平均识别率的变化情况，可以看出随着融合权重的升高，平均识别率也随之变化。从平均识别率的角度来看，当特征选择的融合权重为0.7时，系统的性能最佳。

表6

表7

Figure 2012102563810100002DEST_PATH_IMAGE072

表8

表6—表8为跨语言识别中对于愤怒这种表情的识别，可以看出，同时在汉语和德语上，对愤怒的跨语言识别测试，获得了94%以上的识别率。

Claims

1.一种跨语言的语音情感识别方法，其特征在于包括以下步骤：

（1）建立汉语和德语情感语音库；汉语情感语音库包含六名男性和六名女性的表演语音，包括愤怒、恐惧、喜悦、中性、悲伤和惊讶六种情感；德语语音库中包含五名男性和五名女性的愤怒、中性、恐惧、枯燥、喜悦、悲伤和厌恶七种情感；选择出两个情感语音库中的五种共同的情感：愤怒、恐惧、喜悦、中性和悲伤；

（2-1）对于情感语音库中的每一条语音样本，提取基本的声学特征，共 375个特征，即特征向量的维素为375；

（2-2）对各个维度上的特征进行归一化处理，设和

Figure 2012102563810100001DEST_PATH_IMAGE002

分别为归一化前和归一化后第p维的特征的数值，则其归一化公式为：

Figure 2012102563810100001DEST_PATH_IMAGE003

（1）

其中

Figure 2012102563810100001DEST_PATH_IMAGE004

和

Figure 2012102563810100001DEST_PATH_IMAGE005

Figure 2012102563810100001DEST_PATH_IMAGE006

；

（2-3）对德语语音库中的第p维特征，

Figure 2012102563810100001DEST_PATH_IMAGE008

，基于所有用于训练并且已经分好情感类别的样本，计算其Fisher判别系数FDR，

的计算公式如下：

Figure 2012102563810100001DEST_PATH_IMAGE010

（2）

其中，

为情感的类别数，此处为5，i、j为类别编号，

Figure 2012102563810100001DEST_PATH_IMAGE014

；

；

Figure 2012102563810100001DEST_PATH_IMAGE016

（3）

上式中，

是融合权重，取值范围为[0,1]；最终所有特征的FDR集合为

Figure 2012102563810100001DEST_PATH_IMAGE018

；

（2-6）根据

Figure 2012102563810100001DEST_PATH_IMAGE020

, …… ,

，其中

为情感类别数，这里为5；

（4）识别：在识别过程中，将汉语语音库和德语语音库中待识别一段语音，直接计算先前选出的10个区分度最好的特征，得到相应的10维特征矢量；对于该特征矢量，计算其关于每一类训练好的情感模型

, …… ,

的似然值

Figure 2012102563810100001DEST_PATH_IMAGE022

；最终的识别结果为最大的

所对应的情感，即：

。

2.根据权利要求1所述的一种跨语言的语音情感识别方法,其特征在于，所述步骤（2）中的375维特征包括：基音及其一阶、二阶差分的均值、最大值、最小值、范围和方差；第一到第五共振峰及其一阶、二阶差分的均值、最大值、最小值、范围和方差；第一到第五共振峰带宽及其一阶、二阶差分的均值、最大值、最小值、范围和方差；短时能量及其一阶、二阶差分的均值、最大值、最小值、范围和方差；十二阶美尔频率倒谱系数及其一阶、二阶差分的均值、最大值、最小值、范围和方差。