CN104091602A

CN104091602A - 一种基于模糊支持向量机的语音情感识别方法

Info

Publication number: CN104091602A
Application number: CN201410331505.6A
Authority: CN
Inventors: 周代英; 谭发曾; 贾继超; 田兵兵; 寥阔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2014-10-08

Abstract

本发明涉及语音情感识别技术，具体的说是涉及一种基于模糊支持向量机的语音情感识别方法。本发明的方法包括：对输入的带有情感的语音信号进行预处理；所述预处理包括预加重滤波和加窗分帧；提取处理后的语音信号的特征信息梅尔倒普系数(MFCC)；对所提取的梅尔倒普系数用核主成份分析(KPCA)进行降维处理；根据降维后的梅尔倒普系数特征信息进行分类识别，并输出识别结果；具体的分类识别方法为采用FSVM算法进行；本发明的有益效果为，通过MFCC情感特征，然后用KPCA对特征降维减少了冗余的信息，比直接使用MFCC特征的识别效果要好很多，其识别率更高，效果更好，且识别速度更快。本发明尤其适用于语音智能情感识别。

Description

一种基于模糊支持向量机的语音情感识别方法

技术领域

本发明涉及语音情感识别技术，具体的说是涉及一种基于模糊支持向量机的语音情感识别方法。

背景技术

专家已经从生理和心理两个领域对情感研究了很长一段时间，随着人工智能的快速发展，人机交互中的情感研究引起了广大专家的极大兴趣。在人机交互中，希望人类跟机器能更自然的进行交流，这就需要机器能够理解人类的情感，所以机器对情感的分类识别显得尤其重要了。在人类交流中，语音包含了丰富的信息，所以机器可以通过语音对情感进行分类识别。专家们对语音情感分类识别已经进行了大量的研究和分析，一般包括语音情感库的建立、情感特征提取、分类识别方法的研究。前人为了提高语音情感的识别率，对每一个环节都进行了改进研究，但没有形成一个统一的系统，识别率也不是很高。前人用梅尔倒谱系数(MFCC)作为识别特征，但在识别之前没有对此特征做进一步处理，这就会出现很多冗余的信息影响识别效果。前人在使用分类器的时候发现噪声或孤立点对识别率影响特别大，为了消除这种影响提高识别率，选择一个合适的分类器成了研究的重点。为了提高语音情感识别率，对情感特征作适当处理和选择合适的分类方法尤其重要。

发明内容

本发明所要解决的，就是针对传统技术存在的问题，提出一种基于模糊支持向量机的语音情感识别方法。

本发明解决上述技术问题所采用的技术方案是：一种基于模糊支持向量机的语音情感识别方法，其特征在于，包括以下步骤：

a.对输入的语音信号预处理；所述预处理包括预加重滤波和加窗分帧，其中预加重滤波的预加重系数α为0.97，加窗分帧的帧长为30ms；

b.提取处理后的语音信号的特征信息；所述特征信息为梅尔倒普系数(MFCC)；其中，特征信息为26维，包括13维梅尔倒普系数以及13维由梅尔倒普系数推导出的一阶差分倒普系数；

c.对提取的梅尔倒普系数进行降维处理；所述降维处理具体为采用核主成份分析(KPCA)进行降维；KPCA的处理过程如下：

c1.将所获得的n个指标(每一指标有m个样品)的一批数据写成一个(m×n)维数据矩阵

c2.计算核矩阵，先选定高斯径向核函数中的参数，再由式K_μν:＝(Φ(x_μ)·Φ(x_ν))，计算核矩阵K；

c3.通过

K_{μv} &RightArrow; K_{μv} - \frac{1}{M} (Σ_{w = 1}^{M} K_{μw} + Σ_{w = 1}^{M} K_{wv}) + \frac{1}{M^{2}} Σ_{w, τ = 1}^{M} K_{wτ}

修正核矩阵得到KL；

c4.运用Jacobi迭代方法计算KL的特征值λ₁,...,λ_n即对应的特征向量v₁,...,v_n；

c5.特征值按降序排序(通过选择排序)得λ₁'＞...＞λ_n'并对特征向量进行相应调整得v₁′,...,v_n′。

c6.通过施密特正交化方法单位正交化特征向量，得到α₁,...,α_n；

c7.计算特征值的累积贡献率B₁,...,B_n，根据给定的提取效率p，如果B_t≥p,则提取t个主分量α₁,...,α_t；

c8.计算已修正的核矩阵KL在提取出的特征向量上的投影Y＝KL·α，其中α＝(α₁,...,α_t)，所得的投影Y即为数据经KPCA降维后所得数据；

d.将降维处理后的梅尔倒普系数特征信息输入模糊支持向量机分类器，模糊支持向量机分类器输出分类识别结果；所述模糊支持向量机分类器采用模糊支持向量算法对语音训练样本进行训练，具备语音情感分类识别能力；所述语音训练样本经过上述步骤a～c处理后，再用于训练模糊支持向量机分类器；所述模糊支持向量算法的具体步骤为：

d1.假设训练样本S₀＝{(x₁,y₁,s₁)(x₂,y₂,s₂),…,(x_l,y_l,s_l)},其中(x_l,y_l,s_l)中的x_l为输入样本，y_l为输入样本所对应的输出类别值，s_l为输入样本的隶属度值，下标l为样本数；

d2.在约束条件下求解使目标函数

0≤μ_i≤s_iC₀,i＝1,…,l.

U = \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} μ_{i} μ_{j} y_{i} y_{j} k (x_{i}, x_{j}) - Σ_{i = 1}^{l} μ_{i}

最小的其中μ_i为Lagrange乘子，C₀为惩罚因子，

k (x_{i}, x_{j}) = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}});

d3.计算最优权值Y₀为隐层输出向量；

d4.对于待分类样本X₀，计算分类判别函数b是一个常数，j为类别编号，根据判别函数的取值，决定X₀的归属类别，其具体方法为：

d41.设语音情感有四类，包括高兴、生气、悲伤和平静，先分别对情感类别进行编号，具体为：高兴编号为1、生气编号为2、悲伤编号为3、平静编号为4；

d42.对于输入向量x，如果f_j(x)＞0，则将x划分到第j类；如果f_j(x)＞0满足不止一个类别j(j＝1,2,3,4)，则将x划分到f_j(x)(j∈(1,2,3,4))取最大值的那一类；如果f_j(x)≤0满足所有类，则将数据划分到f_j(x)绝对值最小的那个类。

本发明的有益效果为，通过MFCC情感特征，然后用KPCA对特征降维减少了冗余的信息，比直接使用MFCC特征的识别效果要好很多，本发明中的FSVM方法比SVM方法的识别率更高，效果更好，且识别速度更快，因为FSVM能减少噪声或孤立点的影响。

附图说明

图1是本发明的语音情感识别流程图。

具体实施方式

下面结合附图和实施例，详细描述本发明的技术方案：

实施例：

本例基于柏林语音情感库(Emo-DB)选择高兴、生气、悲伤、平静四类情感进行语音情感识别，将情感语音分成两组，一组作为分类的训练样本，一组作为识别的测试样本。

如图1所示，本例包括以下步骤：

S1：预处理

预处理包括预加重滤波和加窗分帧。

预加重滤波处理：预加重的目的是使信号的频谱变得平坦,保持从低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一般是采用一阶的数字滤波器H(z)＝1-αz^-1，其中α为预加重系数，本例中α取0.97。原始语音信号S经过预加重滤波后得到x(l)。

分帧：将语音用长度为30ms的汉明窗进行分帧，一段语音信号分帧后得到N帧信号，每一帧可以看作一个样本。

信号x(l)加窗处理后变为x_n(m)，公式如下：

x_n(m)＝w(m)x(n+m) 0≤m≤N-1 (1)

汉明窗：

w (k + 1) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πk / (N - 1)], & 0 \leq k \leq (N - 1) \\ 0, & k = others \end{matrix} - - - (2)

在本例中对训练语音和测试语音分别进行预处理，分别得到N₁帧训练样本和N₂帧测试样本。

S2：提取MFCC

本例用voicebox提取情感特征梅尔倒谱系数(MFCC)及其变形，voicebox是基于MATLAB语言的一个语音处理工具箱。

梅尔倒谱系数(MFCC)是基于人耳的听觉特性提出的，它采用一种非线性的频率单位(Mel频率)来模拟人的听觉系统。实验发现,在1000Hz以下，感知能力与频率成线性关系，而1000Hz以上，感知能力则与频率成对数关系。所以对不同的频率有不同的感知能力，且对低频特别敏感。频率f与MEL频率之间的转换公式为

Mel (f) = 1127 \times \ln (1 + \frac{f}{700}) - - - (3)

式中，f为频率，单位：Hz。

本例中对每一帧语音信号提取了13维梅尔倒普系数，以及由梅尔倒普系数推导出其13维一阶差分倒普系数用于语音情感分析，得到了N₁×26的训练特征矩阵和N₂×26的测试特征矩阵。

S3.特征降维

本例用核主成份分析(KPCA)对步骤S2提取的情感特征MFCC进行降维处理。

核主成份分析(KPCA)的基本原理如下，假设x₁,x₂,...,x_M为训练样本，用{x_i}表示输入空间。KPCA方法的基本思想是通过某种隐式方式将输入空间映射到某个高维空间(常称为特征空间)，并且在特征空间中实现PCA，假设相应的映射为Φ，其定义如下

Φ:R^d→F

核函数通过映射Φ将隐式的实现点x到F的映射，并且由此映射而得的特征空间中数据满足中心化的条件，M为样本数，即

Σ_{μ = 1}^{M} Φ (x_{μ}) = 0 - - - (4)

则特征空间中的协方差矩阵为：

C = \frac{1}{M} Σ_{μ = 1}^{M} Φ (x_{μ}) Φ {(x_{μ})}^{T} - - - (5)

现求C的特征值λ≥0和特征向量

V∈F\{0}，Cν＝λν (6)

即有

(Φ(x_ν)·Cν)＝λ(Φ(x_v)·ν) (7)

考虑到所有的特征向量可表示为Φ(x₁),Φ(x₂),...,Φ(x_M)的线性张成，即

v = Σ_{i = 1}^{M} α_{i} Φ (x_{i}) - - - (8)

则有

\frac{1}{M} Σ_{μ = 1}^{M} α_{μ} (Σ_{w = 1}^{M} (Φ (x_{v}) \cdot Φ (x_{w}) Φ (x_{w}) Φ (x_{μ}))) = λ Σ_{μ = 1}^{M} (Φ (x_{v}) \cdot Φ (x_{μ})) - - - (9)

其中v＝1,2,...,M。定义M×M维矩阵K

K_μν:＝(Φ(x_μ)·Φ(x_ν)) (10)

则式子(9)可以简化为

MλKα＝K²α (11)

显然满足

Mλα＝Kα (12)

求解式(12)就能得到特征值和特征向量，对于训练样本在特征向量空间V^k的投影为

(v^{k} \cdot Φ (x)) = Σ_{i = 1}^{M} {(α_{i})}^{k} (Φ (x_{i}), Φ (x)) - - - (13)

将内积用核函数替换则有

(v^{k} \cdot Φ (x)) = Σ_{i = 1}^{M} {(α_{i})}^{k} K (x_{i}, x) - - - (14)

当式(4)不成立时，需进行调整，

Φ (x_{μ}) &RightArrow; Φ (x_{μ}) - \frac{1}{M} Σ_{v = 1}^{M} Φ (x_{v}) μ = 1, . . ., M - - - (15)

则核矩阵可修正为

K_{μv} &RightArrow; K_{μv} - \frac{1}{M} (Σ_{w = 1}^{M} K_{μw} + Σ_{w = 1}^{M} K_{wv}) + \frac{1}{M^{2}} Σ_{w, τ = 1}^{M} K_{wτ} - - - (16)

基于上述KPCA的基本原理，可得KPCA的处理过程如下：

1、将所获得的n个指标(每一指标有m个样品)的一批数据写成一个(m×n)维数据矩阵

2、计算核矩阵，先选定高斯径向核函数中的参数，再由式(10)，计算核矩阵K。

3、通过式(16)修正核矩阵得到KL。

4、运用Jacobi迭代方法计算KL的特征值λ₁,...,λ_n即对应的特征向量v₁,...,v_n。

5、特征值按降序排序(通过选择排序)得λ₁'＞...＞λ_n'并对特征向量进行相应调整得v₁′,...,v_n′。

6、通过施密特正交化方法单位正交化特征向量，得到α₁,...,α_n。

7、计算特征值的累积贡献率B₁,...,B_n，根据给定的提取效率p，如果B_t≥p,则提取t个主分量α₁,...,α_t。

8、计算已修正的核矩阵X在提取出的特征向量上的投影Y＝KL·α，其中α＝(α₁,...,α_t)。

所得的投影Y即为数据经KPCA降维后所得数据。

本例中的步骤S2得到的N₁×26的训练特征矩阵和N₂×26的测试特征矩阵分别进行KPCA降维处理，得到训练特征投影N₁×n₁和测试特征投影N₂×n₂，其中选取的核函数为高斯径向基函数(RBF)

K (x, x_{i}) = \exp (- \frac{{| | x - x_{i} | |}^{2}}{σ^{2}}) .

S4.分类识别

本例中用的FSVM算法对语音情感类别进行分类识别。

FSVM在一定程度上结合了模糊理论和支持向量机的优点，具有较好的学习性能和泛化能力，能较好地解决小样本、非线性、高维数以及局部极小点等实际问题，针对样本中存在的模糊信息，削弱了噪声或孤立点对分类的影响，成为模式识别和人工智能领域的研究热点。

模糊SVM(FSVM)的主要思想是：为了减小孤立点和噪声对SVM的分类精度以及泛化能力所造成的影响，利用模糊隶属度函数来模糊化输入样本，对于重要程度不同的样本赋予不同的隶属度值，然后进行训练.设每个样本属于所在类的隶属度为s_i，则模糊化的输入样本为S₀＝{(x₁,y₁,s₁)(x₂,y₂,s₂),…,(x_l,y_l,s_l)}，s_iξ_i为带有不同权重的松弛因子，其中x_i∈Rⁿ,y_i∈{1,-1},σ≤s_i≤1，σ为充分小的正数，s_i表示第i个样本属于正类的程度。在非线性情况下引入变换把样本从输入空间Rⁿ映射到高维特征空间F,在高维特征空间中利用结构风险最小化原理和分类间隔最大化思想确定最优分类超平面，于是求解FSVM最优超平面问题可以转化为如下的优化问题

\min \frac{1}{2} {| | w | |}^{2} + C_{0} Σ_{i = 1}^{l} s_{i} ξ_{i} - - - (17)

为求解上述问题建立Lagrange函数

其中μ_i＞0,β_i＞0为Lagrange乘子,C₀＞0为惩罚因子，w为线性分类函数y_i的权系数。

可得如下的对偶规划问题

U = \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} μ_{i} μ_{j} y_{i} y_{j} k (x_{i}, x_{j}) - Σ_{i = 1}^{l} μ_{i} - - - (20)

s . t . Σ_{i = 1}^{l} μ_{i} y_{i} = 0 - - - (21)

0≤μ_i≤s_iC₀,i＝1,…,l.

其中为核函数，考虑KKT条件

{\overset{&OverBar;}{ξ}}_{i} (s_{i} C_{0} - \overset{&OverBar;}{μ_{i}}) = 0, i = 1, \cdot \cdot \cdot, l . - - - (23)

对应于的样本x_i为能够被正确分类的样本，即非支持向量。对应于的样本为界上的支持向量，即样本x_i位于间隔边界上的正确划分区。对应于样本为界内的支持向量，即样本x_i属于被错误分类的样本。FSVM中，对于固定的参数C₀，s_i的值越大，对应的样本x_i被错分的可能性越小；s_i的值越小，对应的样本x_i被错分的可能性越大；其结果便是大大降低了噪音数据及孤立点对训练SVM的影响.由以上分析可见，模糊因子s_i的确定成为决定FSVM工作性能的关键问题。

FSVM算法实现步骤如下：

1、准备一组训练样本S₀＝{(x₁,y₁,s₁)(x₂,y₂,s₂),…,(x_l,y_l,s_l)},其中(x_l,y_l,s_l)中的x_l为输入样本，y_l为输入样本所对应的输出类别值，s_l为输入样本的隶属度值；

2、在约束条件下求解使目标函数

0≤μ_i≤s_iC₀,i＝1,…,l.

U = \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} μ_{i} μ_{j} y_{i} y_{j} k (x_{i}, x_{j}) - Σ_{i = 1}^{l} μ_{i}

最小的其中μ_i为Lagrange乘子，C₀为惩罚因子，

k (x_{i}, x_{j}) = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}});

3、计算最优权值Y₀为隐层输出向量；

4、对于待分类样本X₀，计算分类判别函数b是一个常数，j为类别编号，根据判别函数的取值，决定X₀的归属类别

本例中，语音情感识别是一个四分类问题，上述的FSVM分类器根据判别函数的取值，决定X₀归属到这个类别中的一个。具体四类情感分类识别过程如下：

步骤一、对于输入向量x，如果f_j(x)＞0，则将x划分到第j类，否则转到步骤二；

步骤二、如果f_j(x)＞0满足不止一个类别j(j＝1,2,3,4)，则将x划分到f_j(x)(j∈(1,2,3,4))取最大值的那一类，否则转到步骤三；

步骤三、如果f_j(x)≤0满足所有类，则将数据划分到f_j(x)绝对值最小的那个类。

在使用FSVM需要先给情感类别编号，编号为高兴→1、生气→2、悲伤→3、平静→4，步骤S3降维处理后得到的四类训练特征投影N₁×n₁和情感类的编号分别作为FSVM的输入x_i和输出y_i，隶属度s_i用模糊K均值算法可以求得，这里可以调用MATLAB函数求s_i，根据x_i，y_i，s_i得到FSVM的训练样本S₀。测试特征投影N₂×n₂作为FSVM的待分类样本X₀输入，最后统计分类识别结果。

本发明可以对高兴、生气、悲伤、平静四类语音情感进行识别。

为了验证本发明中语音情感识别方法相对于SVM方法的性能有所提高，进行了2组对比试验。第一组试验中，情感特征为MFCC，分类器选择SVM来识别所选四类情感。第二组情感特征还是MFCC，用本发明中的方法识别所选四类情感。

用于训练的样本集，从Emo-DB语料库选择高兴、生气、悲伤、平静四类情感各选择30条语句进行训练。用于测试的样本集，从Emo-DB语料库选择高兴、生气、悲伤、平静四类情感各选择10条与训练不一样的测试语句进行识别。在对比试验中，每种识别方法的训练与测试采用相同的训练样本集和相同的测试样本集。

二组识别结果如表1所示：

表1 对比分类实验结果

从表1结果分析可以看出，本文提出的方法KPCA+FSVM比SVM识别率总体都提高了很多。其中对悲伤和平静的识别率提高了0.07，对高兴和生气的识别率也相应的提高了0.02和0.01。

由上述可知本发明用梅尔倒普系数作为情感特征，用基于FSVM结合特征降维的语音情感分类识别方法，提高了基于语音的情感识别率。

Claims

1.一种基于模糊支持向量机的语音情感识别方法，其特征在于，包括以下步骤：

a.对输入的语音信号预处理；所述预处理包括预加重滤波和加窗分帧；

b.提取处理后的语音信号的特征信息；所述特征信息为梅尔倒普系数；

c.对提取的梅尔倒普系数进行降维处理；所述降维处理具体为采用核主成份分析进行降维；

d2.在约束条件下求解使目标函数

0≤μ_i≤s_iC₀,i＝1,…,l.

U = \min \frac{1}{2} Σ_{i = 1}^{l} Σ_{j = 1}^{l} μ_{i} μ_{j} y_{i} y_{j} k (x_{i}, x_{j}) - Σ_{i = 1}^{l} μ_{i}

最小的其中μ_i为Lagrange乘子，C₀为惩罚因子，

k (x_{i}, x_{j}) = \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{σ^{2}});

d3.计算最优权值Y₀为隐层输出向量；

d41.设语音情感有四类，包括高兴、生气、悲伤和平静，先分别对情感类别进行编号，具体为：高兴类别编号为1、生气类别编号为2、悲伤类别编号为3、平静类别编号为4；

d42.对于输入向量x，如果f_j(x)＞0，则将x划分到第j类；如果f_j(x)＞0满足不止一个类别j(j＝1,2,3,4)，则将x划分到f_j(x)(j∈(1,2,3,4))取最大值的那一类；如果f_j(x)≤0，则将数据划分到f_j(x)绝对值最小的那个类。