CN101620851B

CN101620851B - 一种基于改进Fukunage-koontz变换的语音情感识别方法

Info

Publication number: CN101620851B
Application number: CN2008101228043A
Authority: CN
Inventors: 邹采荣; 赵力; 赵艳; 魏昕
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-07-01
Filing date: 2008-07-01
Publication date: 2011-07-27
Anticipated expiration: 2028-07-01
Also published as: CN101620851A

Abstract

本发明公开了一种基于改进Fukunage-koontz变换(FKT)的语音情感识别方法，利用本发明变换可以有效实现特征降维，在降维过程中，考虑到语音内部流形结构，引入可以描述帧间关联性的参数τ，在计算特征协方差时进行加权，从而寻找降维后具有最大最小方差的特征，并且以方差为分类判别信息，采用k近邻识别方法实现多种语音情感识别。与已有的同类识别方法相比，本发明能有效提高识别率。

Description

一种基于改进Fukunage-koontz变换的语音情感识别方法

技术领域

本发明涉及一种语音识别方法，特别涉及一种语音情感识别方法。

背景技术

语音情感自动识别技术主要包括两个问题：一是采用语音信号中的何种特征作为情感识别，也就是情感特征提取的问题，包括特征提取和选择；一是如何将特定的语音数据进行分类，也就是模式识别的问题，包括各种模式识别算法，如最近邻、神经网络、支持向量基等。

语音情感识别中常用的情感特征参数包括：线性预测系数、线性预测倒谱系数、Mel倒谱系数、短时能量、基频、共振峰等等。其中线性预测系数可以认为是对声道全极点模型的估计，基频和共振峰等参数大多可以通过对线性预测系数进一步处理得到，可以看为是线性预测系数的替代参数，而Mel倒谱系数则侧重于人耳的听觉特性，是体现个人信息的重要参数。对语音的处理是以短时分析为基础的，以帧为单位提取特征参数，可能导致计算复杂度提升和冗余信息对识别的干扰。因此常需要特征降维。在本发明之前，主要的降维方法有主成份分析、线性判别分析和Fukunage-koontz变换。具体而言，采用主成份分析降维后，特征参数具有最小欧式距离误差，但分类信息不明显，采用线性判别分析降维后，特征参数分类信息较明显，但是不一定具有最小误差，在采样点少且特征维度较高的情况下，类内散度S_w可能为奇异阵，在解决此类问题时，线性判别分析大多以损失判别信息为代价。根据Sheng Zhang等人的论证，在两类情况下，Fukunage-koontz变换和线性判别分析是等价的，它直接采用广义特征值提供的分类信息，避免了矩阵奇异问题。目前常用的语音特征主要是以帧为单位进行提取，进而得到全局统计特征，不能有效的表征语音帧间结构特点，用主成份分析、线性判别分析降维的同时大多是基于全局考虑，不能有效体现语音内部结构。传统Fukunage-koontz变换是一种基于全局的降维方法，不能考虑局部时间内样本值间的关联特性，对样本内部的流形结构不能有效体现。

发明内容

本发明的目的就在于克服上述现有技术的缺陷，设计、研究一种基于改进Fukunage-koontz变换的语音情感识别方法。

本发明的技术方案是：

一种基于改进Fukunage-koontz变换的个人语音情感识别方法，其步骤为：

建立特征提取分析模块、改进Fukunage-koontz变换、情感识别模块。特征提取分析模块包括提取线性预测倒谱系数、Mel倒谱系数。

(1)线性预测倒谱系数

(1-1)将原始语音信号经高通滤波器预处理；

(1-2)分帧，加窗；

(1-3)按照Durbin快速算法求出p阶线性预测系数a₁，a₂，…，a_p；

(1-4)根据线性预测系数计算复倒谱

(1-5)计算线性预测倒谱系数；

(2)Mel倒谱系数

(2-1)将实际频率尺度转换为Mel频率尺度；

(2-2)在Mel频率轴上配置L个通道的三角形滤波器组，每个三角形滤波器的中心频率在Mel频率轴上等间隔分配，第l个三角形滤波器的下限o(l)、中心c(l)和上限频率h(l)与其相邻滤波器关系如下；

c(l)＝h(l-1)＝o(l+1) (式1)

(2-3)对语音信号幅度谱|X_n(k)|求出每个三角形滤波器输出；

(2-4)对所有滤波器输出做对数运算，然后余弦变换，得到Mel倒谱系数；

(3)改进Fukunage-koontz变换

(3-1)将(1)(2)中全部特征提取完毕后，组成特征矢量序列；

(3-2)构建Fukunage-koontz变换目标函数：对两种类别的零均值样本集X＝(x₁，x₂，…x_n)，Y＝(y₁，y₂，…y_m)，x_i，y_i∈R^K。寻找变换矩阵Φ，使得满足：

Φ^TR_XΦ＝Λ，Φ^TR_YΦ＝I-Λ (式2)

\tilde{X} = Φ^{T} X,

\tilde{Y} = Φ^{T} Y

(式3)

其中，R_X和R_Y分别为X和Y的协方差阵，，Λ为对角阵。其实现可以在低维空间(

k＜K)中通过协方差阵的特征值寻找分类判别信息，等价于：

Φ = (φ_{1}, φ_{2}, . . ., φ_{r}) = \underset{Φ}{\arg} \max \frac{trace (Φ^{T} R_{X} Φ)}{trace (Φ^{T} R_{Y} Φ)},

Φ^TR_YΦ＝I (式4)

(3-3)将变换后采样的协方差可看成是映射点对的距离和，并引入

进行加权；

\{\begin{matrix} {φ_{l}}^{T} R_{X} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {XX}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} x_{i} - {φ_{l}}^{T} x_{j})}^{2} {W_{ij}}^{X} \\ {φ_{l}}^{T} R_{Y} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {YY}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} y_{i} - {φ_{l}}^{T} y_{j})}^{2} {W_{ij}}^{Y} \end{matrix}

(式5)

(式6)

其中τ是针对语句的段特性所设置的参数，目的是体现语句内部帧间结构。

(3-4)将(式5)(式6)代入(式4)，得到改进目标函数；

Φ = (φ_{1}, φ_{2}, . . ., φ_{r}) = \underset{Φ}{\arg} \max \frac{trace (Φ^{T} (D^{X} - W^{X}) Φ)}{trace (Φ^{T} (D^{Y} - W^{Y}) Φ)}

= \underset{Φ}{\arg} \max \frac{trace (Φ^{T} {\overset{&RightArrow;}{R}}_{X} Φ)}{trace (Φ^{T} {\overset{&RightArrow;}{R}}_{Y} Φ)}

(式7)

其中D^P＝diag(d₁ ^P，d₂ ^P，…，d_r ^P)，

P＝{X，Y}；矩阵W^X第i行第j列元素为

矩阵W^Y第i行第j列元素为

(3-5)计算W^X、W^Y、D^X、D^Y，令

(3-6)对

求特征值矩阵D和特征向量矩阵U，令

(3-7)令求

的特征向量矩阵V；

(3-8)Φ＝PV，

(4)情感识别

(4-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各N_i条语句作为训练样本，

(4-2)将第i类情感所有训练语句所提取特征矢量看为X，其余情感所有训练语句所提取特征矢量看为Y，按照(3-5)～(3-8)中步骤降维，得到降维后特征矢量

(4-3)将

前r行方差和后r行方差作为新特征矢量训练样本集，r＝2；

(4-4)对待识别语句，按照(3-8)中所得Φ降维，求出降维后特征前r行方差和后r行方差构成新特征矢量，采用k近邻法找出其在(4-3)样本集中的k个近邻，选择具有最多近邻所对应情感为识别结果；

(4-5)按(4-2)～(4-4)作出5类情感的识别器。

本发明的优点和效果在于：

1.通过对情感语句的特征参数提取，不仅考虑到了发音系统中声道特性，还考虑到了人耳听觉系统特性；

2.采用改进Fukunage-koontz变换对特征参数做降维处理，充分考虑了语音信号内部流形结构，将帧间局部特性体现在特征协方差阵中；

3.降维后分类信息以特征方差形式凸现出来，直接用于分类，避免额外运算操作可能带来的识别误差；

4.算法简单，计算量较小。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——语音情感识别系统框图。

图2——情感特征提取分析模块流程图。

图3——高兴(Happy)和生气(Anger)两种情感特征参数经FKT变换后前两行后两行最大最小方差分布图。

图4——改进Fukunage-koontz变换后生气(Anger)和高兴(Happy)前两行后两行对应方差分布图。Fukunage-koontz变换英文缩写为FKT。

图5——不同τ下情感识别率。

图6——主成分分析、线性判别分析和改进Fukunage-koontz变换下语音情感识别结果。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

图1为本系统框图，主要分为3大块：特征提取分析模块、改进Fukunage-koontz变换、情感识别模块。

一.情感特征提取分析模块

1.线性预测倒谱系数参数提取

首先，根据图2中的特征参数提取流程将待提取特征语句进行预加重处理，包括高通滤波、语句开始端点与结束端点的检测；然后对语句分帧加窗，采用Durbin快速算法，分别求出各帧线性预测系数、根据线性预测系数计算出复倒谱和线性预测倒谱系数。

2.Mel倒谱系数提取

首先，将实际频率与Mel频率对应起来，将语音频率划分为一系列三角形的滤波器系列，即Mel滤波器组；取每个三角形滤波器频率带宽内所有信号幅度加权和作为某个带通滤波器的输出，然后对所有滤波输出作对数运算，再进一步进行余弦变换，得到Mel倒谱系数。流程如图2所示。

具体实施时，仍然需要进行预加重处理，包括高通滤波、语句开始端点与结束端点的检测和分帧加窗。

二.改进Fukunage-koontz变换

前面以帧为单位分析提取情感语句的12阶线性预测倒谱系数和12阶Mel倒谱系数构成特征矢量序列，若直接用于识别算法，可能导致庞大的计算量，并且冗余信息对识别也会造成一定影响，采用改进Fukunage-koontz变换可以实现降维，直接采用特征矢量协方差最大/最小的几个特征值所对应的特征方差作为分类依据，不仅避免了主成分分析、线性判别分析等方法中可能出现的缺陷，而且在分类过程中，可以避免出现一些不必要的中间步骤，从而减少误识别的可能性。

Fukunage-koontz变换是通过寻找两类数据集X和Y的协方差前后几个最大/最小特征值对应特征向量实现的，其中X协方差的特征值按从大到小排序。当最大化X协方差阵的前几个特征值时，Y对应特征值则最小，λ_x/λ_y→max；最小化X后几个特征值时，Y对应特征值则最大，λ_x/λ_y→min。从而使得两类数据的识别信息更明显。针对X的前r个最大特征值，Φ是如下目标函数的最优解：

Φ = (φ_{1}, φ_{2}, . . ., φ_{r}) = \underset{Φ}{\arg} \max \frac{trace (Φ^{T} R_{X} Φ)}{trace (Φ^{T} R_{Y} Φ)},

Φ^TR_YΦ＝I (式8)

可以认为变换后采样的协方差可看成是映射点对的距离之和：

\{\begin{matrix} {φ_{l}}^{T} R_{X} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {XX}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} x_{i} - {φ_{l}}^{T} x_{j})}^{2} \\ {φ_{l}}^{T} R_{Y} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {YY}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} y_{i} - {φ_{l}}^{T} y_{j})}^{2} \end{matrix}, l = 1,2, . . ., r

(式9)

在以语音为对象的实验中，上式只考虑了变换后采样值的总体结构，没有注意到语音特有的局部特性。目前，大多数语音情感特征的提取是根据基于帧的短时分析得到的，其他衍生参数也大多是基于全局的统计量，如均值、方差、四分位数等。语音帧间的局部特性没有得到体现。因此，对(式9)进行如下加权，

\{\begin{matrix} {φ_{l}}^{T} R_{X} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {XX}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} x_{i} - {φ_{l}}^{T} x_{j})}^{2} {W_{ij}}^{X} \\ {φ_{l}}^{T} R_{Y} φ_{l} = \frac{1}{n} {φ_{l}}^{T} {YY}^{T} φ_{l} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} {({φ_{l}}^{T} y_{i} - {φ_{l}}^{T} y_{j})}^{2} {W_{ij}}^{Y} \end{matrix}

(式10)

(式11)

其中，‖·‖是2范数，σ＞0，n≥τ＞0。τ是针对语句的段特性所设置的参数，目的是体现语句内部帧间结构，当τ＝n，σ→∞时，(式10)简化为(式9)。令

\{\begin{matrix} C^{X} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} (x_{i} - x_{j}) {(x_{i} - x_{j})}^{T} {W_{ij}}^{X} = \frac{1}{n^{2}} X (D^{X} - W^{X}) X^{T} \\ C^{Y} = \frac{1}{{2 n}^{2}} Σ_{i, j = 1}^{n} (y_{i} - y_{j}) {(y_{i} - y_{j})}^{T} {W_{ij}}^{Y} = \frac{1}{n^{2}} Y (D^{Y} - W^{Y}) Y^{T} \end{matrix}

(式12)

其中D^X＝diag(d₁ ^X，d₂ ^X，…，d_r ^X)，

D^Y＝diag(d₁ ^Y，d₂ ^Y，…，d_r ^Y)，

则(式8)变为：

Φ = (φ_{1}, φ_{2}, . . ., φ_{r}) = \underset{Φ}{\arg} \max \frac{trace (Φ^{T} (D^{X} - W^{X}) Φ)}{trace (Φ^{T} (D^{Y} - W^{Y}) Φ)}

= \underset{Φ}{\arg} \max \frac{trace (Φ^{T} {\overset{&RightArrow;}{R}}_{X} Φ)}{trace (Φ^{T} {\overset{&RightArrow;}{R}}_{Y} Φ)}

(式13)

计算W^X、W^Y、D^X、D^Y，令

对

求特征值矩阵D和特征向量矩阵U，令

令

求

的特征向量矩阵V；Φ＝PV，

当最小化两类数据协方差后r个特征值，Φ是如下目标函数的最优解：

Φ = (φ_{k - r}, φ_{k - r + 1 + 1}, . . ., φ_{k}) = \underset{Φ}{\arg} \min \frac{trace (Φ^{T} R_{X} Φ)}{trace (Φ^{T} R_{Y} Φ)}

(式14)

推导过程如(式9)～(式13)。

和具有相同的特征向量，对应特征值和为1，当

的特征值变大时，

的特征值相对变小。由于在计算过程中，特征值是由大到小进行排序的，所以可以选择Φ前后对应的行对，使得X类投影后在前r行方向上方差最大，在后r行方向上方差最小，Y类则相反。

三.情感识别模块

从情感语句库中选取高兴、生气、悲伤、惊讶四类情感各N_i条语句作为样本集，

对第i类第k条情感语句，抽取其特征参数构成一个特征参数矢量，将第i类情感所有训练语句所提取特征矢量看为X，其余情感所有训练语句所提取特征矢量看为Y，计算W^X、W^Y、D^X、D^Y，令

对

求特征值矩阵D和特征向量矩阵U，令

令

求

的特征向量矩阵V；计算Φ＝PV，

得到降维后特征矢量

将

前r行方差和后r行方差作为新特征矢量训练样本集；以r＝1为例，采用k近邻方法，对待识别语句，通过Φ降维，求出降维后特征的前r行方差和后r行方差构成新特征矢量，采用k近邻法找出其在训练样本集

中的k个近邻，若具有最多近邻所在类别为X，则判定该语句对应第i类情感，否则，改变X、Y所对应情感特征样本集，按同样流程判别该语句是否为其他情感。

四.识别系统的评价

图3是两种情感：高兴(Happy)和生气(Anger)的特征参数经Fukunage-koontz变换后前两行后两行最大最小方差分布图，其中图(a)为第一行和最后一行对应方差；(b)为第二行和倒数第二行对应方差(横坐标为前第i行对应方差，纵坐标为后第i行对应方差)；图4是采用本发明生气(Anger)和高兴(Happy)前两行后两行对应方差分布图，其中图(a)为第一行和最后一行对应方差；(b)为第二行和倒数第二行对应方差(横坐标为前第i行对应方差，纵坐标为后第i行对应方差)；比较图3、图4，可以看出，改进FKT变换有效的增大了对应行对方差的比值，其中第一行对中，两类数据各自的方差分布更为集中，尤其以第二行对的变换最为明显，这是由于参数τ(图中τ表示为tao)的引入，在加权时增加了对帧间关系的考虑，可以看作是对语音内部帧间流形结构的一种度量。

图5是不同τ下各种情感识别率，图中τ表示为tao。从图中可以看出τ对识别是有一定影响的，当τ＜10时，除“Happy”外，其他三种情感识别率与τ的增大基本成正比，其中“Sad”在τ＞＝6时达到97.5％识别率，“Happy”则是先降后升。而10＜τ＜40时，“Surprise”和“Anger”的识别率是先降后升，“Happy”则相反。当τ＞40时，四种情感的识别率虽然不一定最高，但趋于稳定，这说明针对不同情感只要选择合适的参数，就可以获得较好的识别率。

图6是主成分分析、线性判别分析和改进Fukunage-koontz变换下语音情感识别结果，其中k＝1，τ＝10。结果表明，由于主成分分析降维并不能保证一定凸显分类信息，所以对于“喜”、“怒”、“悲”三种情感，Fukunage-koontz变换明显高于主成分分析算法，而改进Fukunage-koontz变换又高于Fukunage-koontz变换。对于“惊”，相对于主成分分析和Fukunage-koontz变换，改进Fukunage-koontz变换的识别率也有所改善，但不如前三种情感的识别率改善明显。这与所选特征参数及其降维后对各种情感表征能力有关，但总体而言，只要选择适当的τ，本发明方法的识别率较高，这是由于τ是描述语音帧间结构的参数。根据经验，选择τ＝5～10时，效果较好。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。