CN103258537A

CN103258537A - 利用特征结合对语音情感进行识别的方法及其装置

Info

Publication number: CN103258537A
Application number: CN2013101999390A
Authority: CN
Inventors: 张庆莉; 王坤侠; 安宁; 李廉
Original assignee: 安宁
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2013-08-21

Abstract

本发明公开了一种利用特征结合对语音情感进行识别的方法及其装置。该方法基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别，其包括以下步骤：一、构建和学习高斯混合模型；二、选择和提取语音特征得到美尔频率倒谱系数和自相关函数系数；三、将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。美尔频率倒谱系数的提取过程包括预加重、分帧、计算短时能量、加窗、快速福利叶变换、三角带通滤波器。该方法对六种语音情感进行识别，准确率达到74.45%。本发明还涉及与该方法配套的装置。

Description

利用特征结合对语音情感进行识别的方法及其装置

技术领域

本发明涉及一种对语音情感进行识别的方法及对语音情感进行识别的装置，尤其涉及一种利用特征结合对语音情感进行识别的方法及利用特征结合对语音情感进行识别的装置。

背景技术

近年来，语音情感识别技术越来越受到学者们的关注。说话人情感的识别可以在很多领域帮助人们，例如在学习方面、情感健康方面，以及其他的一些行为方面。在学习方面，研究者可以通过识别学生的情感来提高电脑辅助学习的质量；在情感健康方面，可以识别语音情感的机器宠物已经投放到市场中，这些机器宠物可以很自然地跟人们进行交流，增加人们对它的喜爱程度，帮助人们排解情感困惑，尤其是对独居老人的帮助是最显著的。

在此之前也有学者对这一方面有所研究，Atassi, Esposito 和 Smekal 识别柏林语音库中的六种情感，准确率达到80%，但是他们的方法是非常多的特征结合在一起，虽然这种方法准确率高，但是花费的时间比较多。还有研究者利用七种语音特征对柏林语料库的三种不同情感进行识别，准确率达到95.1%，利用这种方法识别的情感，虽然准确率非常高，但是识别的情感种类相对较少。

综上所述，在现有的语音情感识别计算方面的研究中，主要存在的缺点有如下几点：一是利用非常多的语音特征对语音情感识别，多维的特征组合成的多维矩阵在计算过程中非常复杂，时间消耗也是相对较长的，虽然准确率可能会很高，但是花费的时间太多也是必须要面对的问题；二是利用几个语音特征相结合的方法，识别相对较少的语音情感，这种方法的准确率可能也是不低的，但是识别的情感种类太少，在现实中没有太大的应用价值。

发明内容

本发明结合现有的技术存在的缺点，提出了一种利用特征结合对语音情感进行识别的方法及其装置，本发明用高斯混合模型结合美尔频率倒谱系数和自相关函数系数的方法，对六种语音情感进行识别，准确率达到74.45%，本发明基本解决了上述两种问题。

本发明是这样实现的，一种利用特征结合对语音情感进行识别的方法，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别；该方法包括以下步骤：

一、构建和学习高斯混合模型，高斯混合模型满足公式（1）：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

；其中，

是D维随机向量；ω_i,i=1……M是混合权重；

是单一高斯密度的组合密度，满足公式（2）：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}}) - - - (2)

；其中，

是平均值；Σ_i是协方差矩阵；λ是对参数平均值、协方差矩阵以及权重的总体表达形式，满足公式（3）：

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

；

二、选择和提取语音特征：

a)美尔频率倒谱系数的提取过程：

1.预加重（pre-emphasis）：将经采样后的数字语音信号s(n)通过一个高通滤波器，经过预加重后的信号为s'(n)=s(n)-a×s(n-1)，进行预加重的目的是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分；

2.分帧（frame blocking）：取10-20ms为一帧，取帧长的一半作为帧移，每次位移一帧的二分之一后再取下一帧；

3.计算短时能量（energy）：短时能量代表音量的高低，亦即声音振幅的大小，根据此能量的值来过滤掉语音信号中的噪声而形成静音段（silence）；

4.加窗（hamming window）：将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续；

5.快速福利叶变换（FFT transform）：将加窗后的帧经过FFT（Fast Fourier Transform）求出每帧的频谱参数；

6.三角带通滤波器（triangular band-pass filter）：将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量（log energy），k=1,2…N；再将此N个参数进行余弦变换（cosine transform）求出L阶的Mel-scale cepstrum参数；

b)自相关函数（ACF）的提取过程：

定义自相关函数满足公式（3）为：

P (k) = \lim_{N &RightArrow; \infty} \frac{1}{2 N + 1} Σ_{- \infty}^{\infty} x (m) x (m + k) - - - (3)

；其中，P(k)表示将语音信号延迟后与语音信号本身的相似性，k是自相关的延迟时间；

三、将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。

作为上述方案的进一步改进，当一帧的能量值低于预定的门槛值（threshold）时，则将此帧作为静音段。

作为上述方案的进一步改进，N为20~30个。

本发明还涉及一种利用特征结合对语音情感进行识别的装置，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别；该装置包括：

一、构建和学习高斯混合模型模块，其高斯混合模型满足公式（1）：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

；其中，

是D维随机向量；ω_i,i=1……M是混合权重；

是单一高斯密度的组合密度，满足公式（2）：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}}) - - - (2)

；其中，是平均值；Σ_i是协方差矩阵；λ是对参数平均值、协方差矩阵以及权重的总体表达形式，满足公式（3）：

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

；

二、选择和提取语音特征模块，其包括：

a)美尔频率倒谱系数的提取模块，其包括：

1.预加重子模块：将经采样后的数字语音信号s(n)通过一个高通滤波器，经过预加重后的信号为s'(n)=s(n)-a×s(n-1)，进行预加重的目的是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分；

2.分帧子模块：取10-20ms为一帧，取帧长的一半作为帧移，每次位移一帧的二分之一后再取下一帧；

3.计算短时能量子模块：短时能量代表音量的高低，亦即声音振幅的大小，根据此能量的值来过滤掉语音信号中的噪声而形成静音段；

4.加窗子模块：将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续；

5.快速福利叶变换子模块：将加窗后的帧经过FFT求出每帧的频谱参数；以及

6.三角带通滤波子模块：将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量，k=1,2…N；再将此N个参数进行余弦变换求出L阶的Mel-scale cepstrum参数；以及

b)自相关函数（ACF）的提取模块：其定义自相关函数满足公式（3）为：

P (k) = \lim_{N &RightArrow; \infty} \frac{1}{2 N + 1} Σ_{- \infty}^{\infty} x (m) x (m + k) - - - (3)

；其中，P(k)表示将语音信号延迟后与语音信号本身的相似性，k是自相关的延迟时间；以及

三、结合模块，其用于将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。

作为上述方案的进一步改进，N为20~30个。

本发明对柏林语音库的六种情感（anger、disgust、fear、happy、neutral、sad）进行识别，使用美尔频率倒谱系数（MFCC）和自相关函数系数（ACFC）两种方法相结合，在高斯混合模型（GMM）的基础上进行实验。本方法只用到两种语音特征对语音情感进行识别，但是准确率可以达到74.24%。这种方法与其他的用多种语音特征识别语音情感的方法相比较，虽然准确率有所提高，但是时间复杂度和空间复杂度都太高。本发明是在较小的时间复杂度和空间复杂度下，得到相对较好的识别结果。

附图说明

图1为通过语音随机得到的一组数据值，呈现为数据直方图（Data histogram），其中，纵坐标是各个值的数据总个数（Counts），横坐标为数据值（Data values）。

图2为用高斯混合模型（Gaussian mixture model）对这组数据进行拟合的过程图，其中，纵坐标为实际的值落在预测区间的概率（Prob），横坐标为数据值（Data values）。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明主要有两方面的内容：一是用高斯混合模型（GMM）结合两种语音特征（美尔频率倒谱系数 MFCC和自相关函数系数 ACFC），对柏林语音库的六种情感（anger、disgust、fear、happy、neutral、sad）进行识别，本方法最高准确识别率是74.45%；二是利用同样的方法，对同一个语音库的另外六种语音情感的组合进行识别，发现本发明的方法具有很好的稳定性，两次实验的准确率相差不超过2%。

本发明的利用特征结合对语音情感进行识别的方法装置，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别。该装置包括构建和学习高斯混合模型模块、选择和提取语音特征模块、以及结合模块。

构建和学习高斯混合模型模块，其高斯混合模型满足公式（1）：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

。其中，

是D维随机向量；ω_i,i=1……M是混合权重；是单一高斯密度的组合密度，满足公式（2）：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}}) - - - (2)

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

。

选择和提取语音特征模块包括美尔频率倒谱系数的提取模块、以及自相关函数（ACF）的提取模块。美尔频率倒谱系数的提取模块包括预加重子模块、分帧子模块、计算短时能量子模块、加窗子模块、快速福利叶变换子模块、以及三角带通滤波子模块。

预加重子模块：将经采样后的数字语音信号s(n)通过一个高通滤波器，经过预加重后的信号为s'(n)=s(n)-a×s(n-1)，进行预加重的目的是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分。

2.分帧子模块：取10-20ms为一帧，取帧长的一半作为帧移，每次位移一帧的二分之一后再取下一帧。

3.计算短时能量子模块：短时能量代表音量的高低，亦即声音振幅的大小，根据此能量的值来过滤掉语音信号中的噪声而形成静音段。

4.加窗子模块：将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续。

5.快速福利叶变换子模块：将加窗后的帧经过FFT求出每帧的频谱参数。

6.三角带通滤波子模块：将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量，k=1,2…N；再将此N个参数进行余弦变换求出L阶的Mel-scale cepstrum参数。

自相关函数（ACF）的提取模块：其定义自相关函数满足公式（3）为：

P (k) = \lim_{N &RightArrow; \infty} \frac{1}{2 N + 1} Σ_{- \infty}^{\infty} x (m) x (m + k) - - - (3)

。其中，P(k)表示将语音信号延迟后与语音信号本身的相似性，k是自相关的延迟时间。

结合模块用于将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。

下面针对利用特征结合对语音情感进行识别的装置的识别方法进行展开描述。

利用特征结合对语音情感进行识别的方法是基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别的方法，其包括：

（1）构建和学习高斯混合模型，高斯混合模型可表示为：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

。

其中，

是D维随机向量，ω_i,i=1……M 是混合权重，

是单一高斯密度的组合密度，具体可表示为：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}}) - - - (2)

。

其中，

是平均值，Σ_i 是协方差矩阵；λ是对参数平均值、协方差矩阵以及权重的总体表达形式：

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

。

如图1及图2所示的图形形象的解释了高斯混合模型的工作过程：图1的柱状图表示的是随机得到的一组数据值（Data values），图2的折线图形是用高斯混合模型（Gaussian mixture model）对这组数据进行拟合的过程，折线图的实线部分是最终得到的拟合结果，可以看出拟合的效果与原始的图形是比较接近的。混合的高斯模型可以更好地描述实际数据的性质。

（2）选择和提取语音特征：在语音情感识别中，语音特征的选择具有非常重要的地位，因为没有人可以确定哪个特征能够准确的识别语音的情感。在本专利中选择了两种语音特征，分别是美尔频率倒谱系数和自相关函数。选择美尔频率倒谱系数的原因是，美尔频率是根据人类听觉的特点提出来的，它的系数考虑了人耳在不同频率下的听觉感应，现有的国内外论文也显示，美尔频率在语音情感识别方面具有明显的优异性。

下面是美尔频率倒谱系数的提取过程：

a)预加重（pre-emphasis）：将经采样后的数字语音信号s(n)通过一个高通滤波器，经过预加重后的信号为s'(n)=s(n)-a×s(n-1),进行预加重的目的是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分。

b)分帧（frame blocking）：一般取10-20ms为一帧，为了避免窗边界对信号的遗漏，因此对帧做偏移的时候，要有帧迭。一般取帧长的一半作为帧移，也就是每次位移一帧的二分之一后再取下一帧，这样可以避免帧与帧之间的特性变化太大。

c)计算短时能量（energy）：短时能量代表音量的高低，亦即声音振幅的大小，可以根据此能量的值来过滤掉语音信号中的一些细微噪声，当一帧的能量值低于我们定的门槛值（threshold）时，则将此帧作为静音段（silence）。

d)加窗（hamming window）：语音在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续。

e)快速福利叶变换（FFT transform）：语音信号在时域上的变化快速而不稳定，所以通常都将它转换到频域上来观察，此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过FFT（Fast Fourier Transform）求出每帧的频谱参数。

f)三角带通滤波器（triangular band-pass filter）：将每帧的频谱参数通过一组N个三角形带通滤波器（N一般为20~30个）所组成的美尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量（log energy），k=1,2…,N。再将此N个参数进行余弦变换（cosine transform）求出L阶的Mel-scale cepstrum参数。

自相关函数（ACF）的定义公式为

，其中P(k)表示将信号延迟后与它本身的相似性，k是自相关的延迟时间。

自相关函数具有如下性质。

1、自相关函数具有周期保持性，如果x(n)是周期信号，则其自相关函数也具有周期性，且两者的周期相同。自相关函数提供了估计信号周期值的一种方法。

2、信号延迟后自相关函数保持不变，即信号x(n)的自相关函数与它的延迟信号的自相关函数完全相同。

3、白噪声的自相关函数具有原点集中性。自相关函数用于基音周期检测时具有一定的抗噪性。

（3）将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。在实验的过程中分别取美尔频率倒谱系数以及美尔频率倒谱系数的一阶方差和二阶方差与自相关函数相结合。实验结果表明，取美尔频率倒谱系数、美尔频率倒谱系数的一阶方差、美尔频率倒谱系数的二阶方差、自相关函数系数组成的特征矩阵，对情感识别的准确率最高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用特征结合对语音情感进行识别的方法，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别；其特征在于：该方法包括以下步骤：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

；其中，是D维随机向量；ω_i,i=1……M是混合权重；是单一高斯密度的组合密度，满足公式（2）：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})} - - - (2)

；其中，

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

；

二、选择和提取语音特征：

a)美尔频率倒谱系数的提取过程：

b)自相关函数（ACF）的提取过程：

定义自相关函数满足公式（3）为：

P (k) = \lim_{N &RightArrow; \infty} \frac{1}{2 N + 1} Σ_{- \infty}^{\infty} x (m) x (m + k) - - - (3)

2.根据权利要求1所述的利用特征结合对语音情感进行识别的方法，其特征在于：当一帧的能量值低于预定的门槛值（threshold）时，则将此帧作为静音段。

3.根据权利要求1所述的利用特征结合对语音情感进行识别的方法，其特征在于：N为20~30个。

4.一种利用特征结合对语音情感进行识别的装置，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别；其特征在于：该装置包括：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{&RightArrow;}{x}) - - - (1)

；其中，

是D维随机向量；ω_i,i=1……M是混合权重；

是单一高斯密度的组合密度，满足公式（2）：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})}^{'} Σ_{i}^{- 1} (\overset{&RightArrow;}{x} - \overset{&RightArrow;}{μ_{i}})} - - - (2)

；其中，

λ = {ω_{i}, \overset{&RightArrow;}{μ_{i}}, Σ_{i}} i = 1, . . . . . ., M - - - (3)

；

二、选择和提取语音特征模块，其包括：

a)美尔频率倒谱系数的提取模块，其包括：

P (k) = \lim_{N &RightArrow; \infty} \frac{1}{2 N + 1} Σ_{- \infty}^{\infty} x (m) x (m + k) - - - (3)

5.根据权利要求4所述的利用特征结合对语音情感进行识别的装置，其特征在于：当一帧的能量值低于预定的门槛值（threshold）时，则将此帧作为静音段。

6.根据权利要求4所述的利用特征结合对语音情感进行识别的装置，其特征在于：N为20~30个。