CN101178897A

CN101178897A - 利用基频包络剔除情感语音的说话人识别方法

Info

Publication number: CN101178897A
Application number: CNA2007101571344A
Authority: CN
Inventors: 吴朝晖; 杨莹春; 黄挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2008-05-14
Anticipated expiration: 2027-12-05
Also published as: CN101178897B

Abstract

本发明涉及一种利用基频包络剔除情感语音的说话人识别，在说话人识别的测试中，一段语音先提取倒谱特征和基音频率，上述两种特征是一一对应的；再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息，由性别信息确定剔除法中采用的阀值；接着，按阀值选出要剔除的基频包络，再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除，得到处理后的倒谱特征；最后，对处理后的倒谱特征进行GMM系统测试。本发明有益的效果是：克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性，并在识别性能比传统的ASR系统提高8％。

Description

利用基频包络剔除情感语音的说话人识别方法

技术领域

本发明涉及生物特征识别技术，主要是一种利用基频包络剔除情感语音的说话人识别方法。

背景技术

生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认证的一种技术，它以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(话音、击键、步态、签名等)为依据，采用计算机的强大功能和网络技术进行图像处理和模式识别，用以鉴别人的身份。声纹识别或说话人识别属于其中一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。

人类的话语中不仅包含了文字信息，而且还包含了人们的情感信息，而说话人在不同的情绪下的说话方式变化很大，这些变化都会引起说话人自身的变化(Variability ofIntra-Speaker)。在传统的ASR(Automatic Speaker Recognition)系统中，并没有考虑说话人情绪的影响，因而导致情感差异性的语音上识别率会急剧下降。对于如何提高情感影响下的说话人识别系统的性能，现有的几种方法一般需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息，这个系统的使用带来一定的不便性。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种利用基频包络剔除情感语音的说话人识别方法，通过剔除含有强烈情感的语音对应的声学特征部分，实现在情感因素影响下提高说话人识别的鲁棒性。

本发明解决其技术问题所采用的技术方案：这种利用基频包络剔除情感语音的说话人识别，在说话人识别的测试中，一段语音先提取倒谱特征和基音频率，上述两种特征是一一对应的；再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息，由性别信息确定剔除法中采用的阀值；接着，按阀值选出要剔除的基频包络，再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除，得到处理后的倒谱特征；最后，对处理后的倒谱特征进行GMM系统测试。主要步骤是：1)、语音信号进行预处理：主要包括采样与量化、预加重处理和加窗；2)、语音帧上的特征提取：在说话人语音上提取倒谱特征MFCC和基音频率；3)、训练说话人模型和性别模型：对测试集说话人每人训练一个GMM模型和对男女性别分别训练一个性别GMM模型；4)、情感成分剔除：对于输入测试语音的倒谱特征，先用性别模型判断测试语音的性别，再根据性别选择所使用的剔除阀值。最后根据阀值剔除基频包络均值高于阀值的包络对应帧的倒谱特征，得到处理后的倒谱特征；5)、识别：把处理后的倒谱特征输入到相关用户模型参数的GMM中，得到相似度值并根据其给用户打分。

本发明解决技术问题所采用的技术方案还可以进一步完善。所述的情感成分剔除为将测试语音中含比较强烈的情感语音片断对应的MFCC特征剔除，弱化情感对说话人识别性能的影响。所述的剔除阀值为进行情感成分剔除时所使用的描述判别一个基频包络的对应的MFCC特征是否被剔除的阀值，男女说话人各有一个剔除阀值，可通过扩大训练阀值所用男女各自说话人覆盖面来获取最佳的阀值。所述的基频包络的划分是通过改善基频的提取算法，获取更准确的基频序列，来更加准确的划分语音片断的基频包络格局。

本发明有益的效果是：利用基频包络剔除情感语音的说话人识别方法，利用韵律特征在情感语音中的变化规律以及不同情感对说话人识别性能的影响程度，剔除语音片断里对说话人识别性能影响比较大的部分使说话人特征更具稳定性，以尽量减少情感对说话人识别性能的影响。使用该方法，克服了前人的方法中需要在训练时提供测试说话人的情感语音或者需要在测试时提供测试语音的情感状态信息给系统的使用带来的不便性，并在识别性能比传统的ASR系统提高8％。

附图说明

图1基频包络示意图；

图2是本发明的流程图；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分五步。

第一步：语音信号预处理

1、采样与量化

A)、用锐截止滤波器对语音信号进行滤波，使其奈奎斯特频率F_N为4KHz；

B)、设置语音采样率F＝2F_N；

C)、对语音信号s_a(t)按周期进行采样，得到数字语音信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化值表示s′(n)。

2、预加重处理

A)、设置数字滤波器的Z传递函数H(z)＝1-az^-1中的预加重系数a，a可取比1稍小的值；

B)、s′(n)通过数字滤波器，得到语音信号的高、中、低频幅度相当的振幅序列s″(n)。

3、加窗

A)、计算语音帧的帧长N，N需满足：

20 \leq \frac{N}{F} \leq 30,

这里F是语音采样率，单位为Hz；

B)、以帧长为N、帧移量为N/2，把s″(n)划分成一系列的语音帧F_m，每一语音帧包含N个语音信号样本；

C)、计算哈明窗函数：

D)、对每一语音帧F_m加哈明窗：

ω(n)×F_m(n){F_m′(n)|n＝1，1，...，N-1}。

第二步：特征提取

语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取。

1、基音频率(pitch)：

A)、设置语音的基音频率的取值范围f_min＝93.75Hz，f_max＝500Hz；这里，f_min表示语音基音频率取值的下限，f_max表示语音基音频率取值的上限

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。这里，n表示时域信号所处的采样时刻，k表示频域信号的频域坐标取值

C)、通过短时自相关函数找出基音周期

R_{k} (τ) = Σ_{m = 0}^{N - 1 - τ} X (k + m) w (m) X (k + m + τ) w (m + τ)

其中，τ为位移距离，w(m)为窗函数，N为窗长

短时自相关函数R(τ)在基音周期的整数倍点上有很大的峰值，通常取第一最大峰值点为基音周期点。

D)、最后对全部的Pitch值进行中值平滑滤波。

2、MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_j上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2},

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1;

F)、做离散余弦变换DCT

第三步、训练说话人模型和性别模型

每一个说话人的语音特征在特征空间中都形成了特定的分布。高斯混合模型(GMM)是用多个高斯分布的线性组合来近似说话人的特征分布。性别模型跟说话人模型比较类似，用两个高阶的GMM分别近似男、女两类说话人的特征分布。

说话人模型和性别模型的概率密度函数的函数形式是相同的，所不同的只是函数中的参数。M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

b_{i} (x) = N (x, μ_{i}, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} R_{i}^{- 1} (x - μ_{i})}

其中，p是特征的维数，b_i(x)为核函数，是均值矢量为μ_i、协方差矩阵为R_i的高斯分布函数，M(可选，说话人模型一般为16、32，而性别模型一般为512、1024)是GMM模型的阶数，在建立说话人模型以前设为一确定整数。

λ &cong; {P_{i}, μ_{i}, R_{i} | i = 1,2, . . ., M}

为说话人特征分布GMM中的参数。作为高斯混合分布的加权系数，P_i应满足使：

{&Integral;}_{- \infty}^{+ \infty} p (x / λ) dx = 1

即有

Σ_{i = 1}^{M} P_{i} = 1

由于计算GMM中的p(x)需要求p×p维方阵R_i(i＝1，2，...，M)的逆，运算量大。为此，将R_j设为对角阵，将求逆运算转化为求倒数运算，提高运算速度。

第四步、情感成分剔除

一段语音信号的基频序列J＝{j_n|n＝0，1，...，N-1}，其对应的倒谱特征(MFCC)为

M＝{m_n|n＝0，1，...，N-1}，以下为情感成分剔除的具体步骤：

A)、倒谱特征M分别在男性别模型M_m和女性别模型M_f进行测试，得到得分G_m和G_f；

B)、若G_m＞G_f，则把剔除阀值δ_g设为156；反之，设为250；

C)、根据J划分基频包络集合J^*＝{(S_n，E_n)|n＝0，1，...，K-1}(其中S_n为第n个包络的起始帧的序号，E_n为该包络的结束帧的序号)；

D)、计算J^*中各基频包络的对应的均值H＝{h_n|n＝0，1，...，K-1}；

E)、根据δ_g选择要剔除的包络集合X＝{(S_n，E_n)|n＝i₀，i₁，...，i_p＝1}；

F)、根据X，剔除M里对应帧的倒谱特征，得到M’。

第五步、识别

用于语音输入后，经特征提取和情感成分剔除，得到一特征向量序列。该序列输入到相关用户模型参数的GMM中，得到相似度值并根据其给用户打分。

实验结果

本系统所做分析和研究都是基于MASC库。该库共68人，其中23名女说话人和45名男说话人。每个说话人的语音包括短语、句子和段落三部分(五个短语，二十个句子和两个短文)，采用语言为中文普通话。其中短语和句子分别用五种不同的情感(中性，愤怒，高兴，惊慌和悲伤)录三遍音，段落只在中性情感状态下录一遍，整个语音库共包含25,636个语音片断——5100个短语，20400个句子以及136个段落。本文只用到该数据库全部68个人的句子和段落的语音。这些句子包含了汉语中所有韵母、韵母组合以及大部分的声母。句子的类型有：简单陈述句，用“是”或“不是”回答的一般疑问句，选择疑问句，祈使句，感叹句，特殊疑问句等。段落的原文为两个陈述普通事实的短文。库分为两部分：前15个人(7个女说话人和8个男说话人)，作为训练库，余下的53人作为测试库。

我们在这个库上设计并完成了两组实验。第一组是使用经典MFCC-GMM的基准实验，使用普通的倒谱特征训练模型，GMM通过普通的EM算法训练，测试的特征使用没经过情感成分剔除的倒谱特征。这组实验作为对照组。

第二组实验，对测试特征进行情感成分剔除，去除对说话人识别性能影响比较大的部分，把剔除后的MFCC特征向量输入到相关用户模型参数的GMM中，得到相似度值并根据其给用户打分。

为了对说话人确认系统的性能进行评估，选用识别率(IR，Identification Rate)来作为实验结果的评估标准。

识别率IR的计算公式是：

实验参数的设置如下：

窗长	32ms
窗长	32ms	步进	16ms

预加重	0.97
预加重	0.97	MFCC维数	32MFCC
说话人GMM	32阶	MFCC维数	32MFCC
说话人GMM	32阶	性别GMM	1024阶

实验结果如下：

方法	IR(％)
方法	IR(％)	基准实验	33.8
本方法	41.77	基准实验	33.8

每种情感分别的实验结果如下表，同基准实验相比较，“+”表示该值有所升高，“-”表示减少：

情感状态	相对IR(％)
情感状态	相对IR(％)	愤怒	+14.27
高兴	+14.97	愤怒	+14.27
高兴	+14.97	中性	-0.97
惊慌	+11.61	中性	-0.97
惊慌	+11.61	悲伤	-0.03

实验用机器配置CPU为IntelXeon^TM CPU 3.20GHZ*2，内存为2.00GB。

实验结果表明，本情感剔除方法能够剔除语音片断里对说话人性能影响比较大的部分，从而提高说话人识别的性能，使得其错误率降低，识别率升高。并且在情感库上的实验，表明了该方法对于各种情感状态均有较好的效果。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种利用基频包络剔除情感语音的说话人识别方法，其特征在于：在说话人识别的测试中，一段语音先提取倒谱特征和基音频率，上述两种特征是一一对应的；再根据倒谱特征在预先训练好的性别模型进行测试得到性别信息，由性别信息确定剔除法中采用的阀值；接着，按阀值选出要剔除的基频包络，再根据要剔除的基频包络里各帧的序号对倒谱特征进行剔除，得到处理后的倒谱特征；最后，对处理后的倒谱特征进行GMM系统测试。

2.根据权利要求1所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：包括如下步骤：

1)、语音信号进行预处理：主要包括采样与量化、预加重处理和加窗；

2)、语音帧上的特征提取：在说话人语音上提取倒谱特征MFCC和基音频率；

3)、训练说话人模型和性别模型：对测试集说话人每人训练一个GMM模型和对男女性别分别训练一个性别GMM模型；

4)、情感成分剔除：对于输入测试语音的倒谱特征，先用性别模型判断测试语音的性别，再根据性别选择所使用的剔除阀值；最后根据阀值剔除基频包络均值高于阀值的包络对应帧的倒谱特征，得到处理后的倒谱特征；

5)、识别：把处理后的倒谱特征输入到相关用户模型参数的GMM中，得到相似度值并根据其给用户打分。

3.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：所述的语音信号预处理具体步骤是：

1)、采样与量化

B)、设置语音采样率F＝2F_N；

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化值表示s′(n)；

2)、预加重处理

B)、s′(n)通过数字滤波器，得到语音信号的高、中、低频幅度相当的振幅序列s″(n)；

3)、加窗

A)、计算语音帧的帧长N，N需满足：

20 \leq \frac{N}{F} \leq 30,

这里F是语音采样率，单位为Hz；

C)、计算哈明窗函数：

D)、对每一语音帧F_m加哈明窗：

ω(n)×F_m(n){F_m′(n)|n＝1，1，...，N-1}。

4.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：所述语音帧上的特征提取的具体步骤是：

语音帧上的特征提取包括基音频率(pitch)和梅尔倒谱系数(MFCC)的提取；

1)、基音频率(pitch)：

A)、设置语音的基音频率的取值范围f_min＝93.75Hz，f_max＝500Hz；这里，f_min表示语音基音频率取值的下限，f_max表示语音基音频率取值的上限；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k；这里，n表示时域信号所处的采样时刻，k表示频域信号的频域坐标取值；

C)、通过短时自相关函数找出基音周期；

R_{k} (τ) = Σ_{m = 0}^{N - 1 - τ} X (k + m) w (m) X (k + m + τ) w (m + τ)

其中，τ为位移距离，w(m)为窗函数，N为窗长

短时自相关函数R(τ)在基音周期的整数倍点上有很大的峰值，取第一最大峰值点为基音周期点；

D)、最后对全部的Pitch值进行中值平滑滤波；

2)、MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)；

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_j上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2},

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1;

F)、做离散余弦变换DCT。

5.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：所述的训练说话人模型和性别模型具体步骤是：

性别模型用两个高阶的GMM分别近似男、女两类说话人的特征分布；说话人模型和性别模型的概率密度函数的函数形式是相同的，所不同的只是函数中的参数，M阶高斯混合模型GMM用M个单高斯分布的线性组合来描述帧特征在特征空间中的分布，即：

p (x) = Σ_{i = 1}^{M} P_{i} b_{i} (x)

b_{i} (x) = N (x, μ_{i}, R_{i}) = \frac{1}{{(2 π)}^{p / 2} {| p_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ_{i})}^{T} R_{i}^{- 1} (x - μ_{i})}

其中，p是特征的维数，b_i(x)为核函数，是均值矢量为μ_i、协方差矩阵为R_i的高斯分布函数，M是GMM模型的阶数，在建立说话人模型以前设为一确定整数，

λ &cong; {P_{i}, μ_{i}, R_{i} | i = 1,2, . . ., M}

为说话人特征分布GMM中的参数，作为高斯混合分布的加权系数，P_i应满足使：

{&Integral;}_{- \infty}^{+ \infty} p (x / λ) dx = 1

即有

Σ_{i = 1}^{M} P_{i} = 1 .

6.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：所述的情感成分剔除具体步骤是：

一段语音信号的基频序列J＝{j_n|n＝0，1，...，N-1}，其对应的倒谱特征(MFCC)为M＝{m_n|n＝0，1，...，N-1}，以下为情感成分剔除的具体步骤：

B)、若G_m＞G_f，则把剔除阀值δ_g设为156；反之，设为250；

C)、根据J划分基频包络集合J^*＝{(S_n，E_n)|n＝0，1，...，K-1}，其中S_n为第n个包络的起始帧的序号，E_n为该包络的结束帧的序号；

F)、根据X，剔除M里对应帧的倒谱特征，得到M’。

7.根据权利要求2所述的利用基频包络剔除情感语音的说话人识别方法，其特征在于：所述的识别具体步骤是：

用于语音输入后，经特征提取和情感成分剔除，得到一特征向量序列，该序列输入到相关用户模型参数的GMM中，得到相似度值并根据其给用户打分。