CN101226743A

CN101226743A - 基于中性和情感声纹模型转换的说话人识别方法

Info

Publication number: CN101226743A
Application number: CNA200710157133XA
Authority: CN
Inventors: 吴朝晖; 杨莹春; 单振宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2008-07-23

Abstract

本发明涉及一种基于中性和情感声纹模型转换的说话人识别方法，包括如下步骤：(1)语音特征的提取：先进行音频预处理，音频预处理分为采样量化，去零漂，预加重和加窗三个部分；然后进行提取倒谱特征MFCC；(2)建立情感模型库：进行高斯混合模型训练，对于每个用户的中性语音训练中性模型，进行中性－情感模型转化，通过中性情感语音转化算法得到情感语音模型；(3)测试语音打分，进行说话人识别。本发明有益的效果是：本技术采用中性－情感模型转换算法提高了情绪化说话人识别的识别率。本技术根据用户中性语音模型训练出用户的情感语音模型，提高了系统的识别率。

Description

基于中性和情感声纹模型转换的说话人识别方法

技术领域

本发明涉及生物特征识别技术，主要是一种基于中性和情感声纹模型转换的说话人识别方法。

背景技术

生物认证技术以人们自身的物理特征作为身份认证依据，从根本上区别于传统的基于“你所拥有的东西”或者“你所知道的东西”的认证技术，真正以人自身作为身份认证的依据，自己真正代表了自己。其中，根据人的语音进行身份认证的技术称为说话人识别技术。

说话人识别分为用户模型训练和用户语音测试两个步骤。在训练过程中，需要用户提供语音训练和用户身份匹配的用户模型。在测试过程中，需要用户提供语音进行身份确认。目前，说话人识别方法主要有GMM方法，GMM-UBM方法，SVM方法，HMM方法，VQ方法。

传统的说话人识别方法需要用户提供中性语音进行用户模型训练和用户测试，但在日常生活中，人们的语音会受到自身情感波动的影响，这会影响系统的识别性能。用户在各种情感状态下发出的语音被称为情感语音。在测试语音或者训练语音中含有情感语音的说话人识别方法，被称为情绪化的说话人识别。

发明内容

本发明要解决上述技术所存在的缺陷，提供一种基于中性和情感声纹模型转换的说话人识别方法，根据用户的中性语音分布情况得到用户的情感语音分布情况，以此来提高说话人识别的准确率。用户的语音特征分布用高斯混合模型(GMM)来建模，所以本发明重点解决的是中性语音模型和情感语音模型之间的转换。

本发明解决其技术问题所采用的技术方案：这种基于中性和情感声纹模型转换的说话人识别方法基于中性和情感声纹模型转换的说话人识别方法基于中性和情感声纹模型转换的说话人识别方法，包括如下步骤：(1)、语音特征的提取：先进行音频预处理，音频预处理分为采样量化，去零漂，预加重和加窗三个部分；然后进行提取倒谱特征MFCC；(2)、建立情感模型库：进行高斯混合模型训练，对于每个用户的中性语音训练中性模型，进行中性-情感模型转化，通过中性情感语音转化算法得到情感语音模型；(3)、测试语音打分，进行说话人识别。

第一步为创建情感语音模型数据库，采集大量用户的各种情感语音和中性语音训练GMM模型，并在中性语音模型和情感语音模型之间建立一一对应的关系；第二步根据用户的中性语音和情感语音数据集合训练用户的情感语音模型，其中该用户的语音并不包括在情感语音集合中。通过该过程可以训练出具有不同情感的用户语音模型。

本发明有益的效果是：本技术采用中性-情感模型转换算法提高了情绪化说话人识别的识别率。本技术根据用户中性语音模型训练出用户的情感语音模型，提高了系统的识别率。

附图说明

图1是本发明的基于中性-情感模型转化的情绪化的说话人识别技术的框架图；

图2是本发明的中性-情感模型转换的流程图；

具体实施方式

下面结合附图和实施例对本发明作进一步介绍：本发明的方法共分三步。

第一步特征提取

I.音频预处理

音频预处理分为采样量化，去零漂，预加重和加窗三个部分。

A)、采样量化

用锐截止滤波器对音频信号进行滤波，使其奈奎斯特频率FN为4KHZ；

设置音频采样率F＝2FN；对音频信号sa(t)按周期进行采样，得到数字音频信号的振幅序列

s (n) = sa (\frac{n}{F});

用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。

B)、去零漂

计算量化的振幅序列的平均值

将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。

C)、预加重

设置数字滤波器的Z传递函数H(z)＝1-αz-1中的预加重系数α，α可取1或比1稍小的值；s”(n)通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列s(n)。

D)、加窗

计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是音频采样率，单位为Hz；

以帧长为N、帧移量为T，把s(n)划分成一系列的音频帧Fm，每一音频帧包含N个音频信号样本；

计算哈明窗函数：

对每一音频帧Fm加哈明窗：

II.MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)。

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_j上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2}

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1 .

F)、离散余弦变换DCT。

第二步模型训练

模型训练中包括两个部分，第一部分是采用似然估计法得到中型语音的高斯混合模型模型；第二部分采用中性-情感模型转化算法。

I.高斯混合模型模型的训练

迭代估计GMM参数的过程可分为两步，计算训练数据在第i阶时的概率，这一步称为Expectation；然后以局部最大准则用式估计GMM的参数，这一步被称为Maximization。

ω_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{t} (i)}{Σ_{t = 1}^{T} Σ_{i = 1}^{M} r_{t} (i)} = \frac{1}{T} Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)

μ_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{t} (i) z_{t}}{Σ_{t = 1}^{T} r_{t} (i)} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) z_{t}}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)}

R_{i}^{'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) {(z_{t} - μ_{i}^{'})}^{T} (z_{t} - μ_{i}^{'})}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)} .

II.中性-情感模型转化算法

A)建立语音模型数据库。

分别采集用户的情感语音和中性语音训练高斯混合模型，在数据库中来至同一个说话人的中型模型和情感模型建立了对应关系(G，M)。

B)计算G和G’之间每个高斯分量的距离：

d_i，k，j＝D(G_i′，G_k，j) (k＝1...n) (1)

其中G_k，j表示语音模型数据库(E)中第k个中性语音模型(GMM)的第j个高斯分量，并且G_i′表示用户中性语音模型的第i个高斯分量。两个高斯分量N₁(μ₁，∑₁)和N₂(μ₂，∑₂)之间的距离表示如下：

KL (N_{1} | | N_{2}) = \frac{1}{2} (\log \frac{| Σ_{2} |}{| Σ_{1} |} + Tr (Σ_{2}^{- 1} Σ_{1}) + {(μ_{1} - μ_{2})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) - D) . . . (2)

C)在语音模型数据库中寻找G_i′和G_k，j之间距离最短的m个高斯分量。

[J_{i}, K_{i}] = \underset{0 < j < = m, 0 < k < = nc}{\arg \min} (d_{i, j, k}) . . . (3)

其中，J_i和K_i保存了语音模型数据库中中性情感模型的索引。第一步和第二步的目标是在模型数据库中找到和G_i′距离最短得k个高斯分量。

D)采用下式把中性语音模型转换成情感语音模型：

M^{'} (x) = \frac{G (x) + Σ_{i}^{nc} Σ_{j}^{k} w_{i}^{'} w_{j}^{T} w_{J (j), K (j)} M_{J (j)} (x)}{Σ_{i}^{nc} Σ_{j}^{k} w_{i}^{'} w_{j}^{T} w_{J (j), K (j)} + Σ_{i}^{nc} w_{i}^{'}} . . . (4)

其中w_i’表示G’的第i个高斯分量的权重，w_J(j)，K(j)表示搜索到的第J(j)个高斯混合模型的第K(j)个高斯分量对应的权重。如果，情感模型库中高斯混合模型的阶数为nc，那么最后得到的情感模型的阶数为k*nc*nc+nc。

第三步识别算法

根据贝叶斯理论，在输入语音信号X下，符合模型λ_i的概率为：

P (λ_{i} | X) = \frac{P (X | λ_{i}) * P (λ_{i})}{P (X)} .

实验结果

实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人，其中女性23人。一共录制了5种情感的语音，分别为：中性，生气，高兴，痛苦和悲伤。每个说话人要在每种情感情况下说出5个单词和20句语句3遍。

在实验中，MASC被分成了两个部分。53个说话人的语音用于创建语音模型数据库，剩余的15人(6女9男)用于评价算法在说话人识别中的性能。数据库中的前5句话用来训练模型，后15句用来进行测试。因为每句话阅读三边，所以用于测试语音为每个人的45句话，用于训练的有15句。

用两组实验来表示该技术的性能。两组实验特征提取方法都是相同的，为13维的MFCC特征。用等错误率(EER)来表示系统的识别性能。在第一组实验中，测试语音为5种情感的语音，训练语音为中性语音，只训练中性语音模型用于测试过程。这是一个基准实验。在第二组实验中，测试语音和训练语音同第一组实验完全相同。只是在训练了中性语音模型后，还要根据该模型和情感语音模型数据库训练相应情感的模型。实验结果如下表所示：

EER(％)	语句相应的情感模型
	语句相应的情感模型				生气	悲伤	高兴	痛苦
	基准实验	22.05	14.32	14.94	生气	悲伤	高兴	痛苦	18.75
情感模型转换	基准实验	22.05	14.32	14.94	13.24	14.02	10.92	11.92	18.75

从上表可以看出，采用了中性语音模型和情感语音模型转换的方法后，系统的识别性能得到了提高。测试语音有五种情感语音，增强了情感说话人识别系统的性能。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于中性和情感声纹模型转换的说话人识别方法，其特征在于：包括如下步骤：

(1)、语音特征的提取：先进行音频预处理，音频预处理分为采样量化，去零漂，预加重和加窗三个部分；然后进行提取倒谱特征MFCC；

(2)、建立情感模型库：进行高斯混合模型训练，对于每个用户的中性语音训练中性模型，进行中性-情感模型转化，通过中性情感语音转化算法得到情感语音模型；

(3)、测试语音打分，进行说话人识别。

2.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述的音频预处理具体步骤是：

1)、采样量化：

A)、用锐截止滤波器对音频信号进行滤波，使其奈奎斯特频率F_N为4KHZ；

B)、设置音频采样率F＝2F_N；

C)、对音频信号s_a(t)按周期进行采样，得到数字音频信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)、用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)；

2)、去零漂：

A)、计算量化的振幅序列的平均值

B)、将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)；

3)、预加重：

A)、设置数字滤波器的Z传递函数H(z)＝1-αz^-1中的预加重系数α，α可取1或比1稍小的值；

B)、s”(n)通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列s(n)；

4)、加窗：

A)、计算音频帧的帧长N和帧移量T，其中N为32毫秒，T为10毫秒，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是音频采样率，单位为Hz；

B)、以帧长为N、帧移量为T，把s(n)划分成一系列的音频帧F_m，每一音频帧包含N个音频信号样本；

C)、计算哈明窗函数：

D)、对每一音频帧F_m加哈明窗：

ω(n)×F_m(n){F_m′(n)|n＝0，1，...N-1}。

3.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述提取倒谱特征MFCC具体步骤是：

1)、能量的提取：

E = Σ_{n = 1}^{N} s^{2} (n)

2)、过零率的提取：

Zcr = \frac{1}{2 N - 1} Σ_{n = 1}^{N - 1} | [sgn (s (n + 1)) - sgn (s (n))] |

3)、梅尔倒谱系数，即MFCC的提取：

A)、设置梅尔倒谱系数的阶数p；

B)、做快速傅立叶变换FFT，将时域信号s(n)变成频域信号X(k)；

C)、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, . . ., p)

D)、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, . . ., p)

E)、计算每个梅尔域通道φ_j上的对数能量谱：

E_{j} = Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) {| X (k) |}^{2}

其中

Σ_{k = 0}^{\frac{K}{2} - 1} φ_{j} (k) = 1;

F)、离散余弦变换DCT。

4.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述的高斯混合模型训练具体步骤是：

迭代估计GMM参数的过程可分为两步，计算训练数据在第i阶时的概率，这一步称为Expectation；然后以局部最大准则用式估计GMM的参数：

ω_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{t} (i)}{Σ_{t = 1}^{T} Σ_{i = 1}^{M} r_{t} (i)} = \frac{1}{T} Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)

μ_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{t} (i) z_{t}}{Σ_{t = 1}^{T} r_{t} (i)} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) z_{t}}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)}

R_{i}^{'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) {(z_{t} - μ_{i}^{'})}^{T} (z_{t} - μ_{i}^{'})}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)} .

5.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述的建立情感模型库具体步骤是：分别采集用户的情感语音和中性语音训练高斯混合模型，在数据库中来至同一个说话人的中型模型和情感模型建立了对应关系。

6.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述的中性-情感模型转化具体步骤是：

A)计算G和G’之间每个高斯分量的距离：

d_i，k，j＝D(G_i′，G_k，j) (k＝1...n) (1)

其中G_k，j表示语音模型数据库(E)中第k个中性语音模型GMM的第j个高斯分量，并且G_i′表示用户中性语音模型的第i个高斯分量，两个高斯分量N₁(μ₁，∑₁)和N₂(μ₂，∑₂)之间的距离表示如下：

KL (N_{1} | | N_{2}) = \frac{1}{2} (\log \frac{| Σ_{2} |}{| Σ_{1} |} + Tr (Σ_{2}^{- 1} Σ_{1}) + {(μ_{1} - μ_{2})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2}) - D) . . . (2)

B)在语音模型数据库中寻找G_i′和G_k，j之间距离最短的m个高斯分量；

[J_{i}, K_{i}] = \underset{0 < j < = m, 0 < k < = nc}{\arg \min} (d_{i, j, k}) . . . (3)

其中，J_i和K_i保存了语音模型数据库中中性情感模型的索引，第一步和第二步的目标是在模型数据库中找到和G_i′距离最短得k个高斯分量；

C)采用下式把中性语音模型转换成情感语音模型：

M^{'} (x) = \frac{G (x) + Σ_{i}^{nc} Σ_{j}^{k} w_{i}^{'} w_{j}^{T} w_{J (j), K (j)} M_{J (j)} (x)}{Σ_{i}^{nc} Σ_{j}^{k} w_{i}^{'} w_{j}^{T} w_{J (j), K (j)} + Σ_{i}^{nc} w_{i}^{'}} . . . (4)

其中w_i’表示G’的第i个高斯分量的权重，w_J(j)，K(j)表示搜索到的第J(j)个高斯混合模型的第K(j)个高斯分量对应的权重；如果，情感模型库中高斯混合模型的阶数为nc，那么最后得到的情感模型的阶数为k*nc*nc+nc。

7.根据权利要求1所述的基于中性和情感声纹模型转换的说话人识别方法，其特征在于：所述的测试语音打分具体步骤是：

在输入语音信号X下，符合模型λ_i的概率为：

P (λ_{i} | X) = \frac{P (X | λ_{i}) * P (λ_{i})}{P (X)} .