CN102332263B

CN102332263B - 一种基于近邻原则合成情感模型的说话人识别方法

Info

Publication number: CN102332263B
Application number: CN2011102849457A
Authority: CN
Inventors: 杨莹春; 陈力; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-09-23
Filing date: 2011-09-23
Publication date: 2012-11-07
Anticipated expiration: 2031-09-23
Also published as: CN102332263A; WO2013040981A1; US20140236593A1; US9355642B2

Abstract

本发明公开了一种基于近邻原则合成情感模型的说话人识别方法，包括：(1)训练出参考语音和用户中性语音的模型；(2)提取GMM参考模型的中性-情感高斯分量映射集；(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量；(4)合成出用户的情感训练高斯分量，进而得到用户的情感训练模型；(5)合成出所有用户的GMM训练模型；(6)输入测试语音进行识别。本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音，用参考语音中的情感参考语音合成出用户的情感训练语音，改善了在训练语音与测试语音失配情况下说话人识别系统的性能，提高了说话人识别系统的鲁棒性。

Description

一种基于近邻原则合成情感模型的说话人识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于近邻原则合成情感模型的说话人识别方法。

背景技术

说话人识别技术是利用信号处理和模式识别的方法，根据说话人的语音识别其身份的技术，主要包括两个步骤：说话人模型训练和语音测试。

目前，说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中，GMM-UBM在整个说话人语音识别领域应用非常广泛。

然而，在说话人语音识别中，说话人的训练语音通常为中性语音，因为在现实应用中，用户一般情况下只会提供中性发音下的语音训练自己的模型，要求所有用户提供自己各种情感的语音在实际情况下并不太容易也不太方便实现，且对系统的数据库的承受负荷也是一种很高的要求。

但是，在实际测试时，说话人可能会根据当时的情绪发出富有情感的语音，如高兴的、悲伤的、愤怒的等。然而，现有的说话人识别方法并不能自适应这种训练语音与测试语音失配的情况，从而导致说话人识别系统性能下降，对于情感语音的识别成功率大打折扣。

发明内容

针对现有技术所存在的上述技术缺陷，本发明提供了一种基于近邻原则合成情感模型的说话人识别方法，合成出说话人的情感模型来降低模型的失配程度，提高对情感语音的识别成功率。

一种基于近邻原则合成情感模型的说话人识别方法，包括如下步骤：

(1)获取若干套参考语音以及用户的中性训练语音，对所有语音进行模型训练，对应得到若干套GMM(Gaussian Mixture Model)参考模型以及用户的中性训练模型；

所述的参考语音包括中性参考语音和m种情感参考语音；所述的GMM参考模型包括一个中性参考模型和m个情感参考模型，m为大于0的自然数；

(2)提取每套GMM参考模型的中性-情感高斯分量映射集；

(3)根据KL散度(Kullback-Leibler divergence)计算法，逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度，选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量；进而根据所述的中性-情感高斯分量映射集，提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量，n为大于0的自然数；

(4)将每一中性训练高斯分量对应的n×m个情感参考高斯分量合成出对应的m个情感训练高斯分量，进而得到用户的m个情感训练模型；

(5)根据步骤(1)至(4)，合成得到所有用户的GMM训练模型，所述的GMM训练模型包括所述的中性训练模型和m个情感训练模型；

(6)输入某一用户的测试语音，将该测试语音与所有用户的GMM训练模型逐一进行得分计算，将得分最大的GMM训练模型所对应的用户作为识别出的用户。

所述的步骤(1)中，对所有语音进行模型训练的过程为：首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程，然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取，提取出语音的特征向量集，通过EM(Expectation Maximization)法训练出特征向量集的UBM(Universal Background Model)模型，最后采用MAP(Maximum APosterior)法从UBM模型中训练出语音的GMM模型。

所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。

所述的KL散度计算法的方程表达式如下：

δ = \frac{1}{2} [\log \frac{| Σ_{1} |}{| Σ_{2} |} + Tr (Σ_{2}^{- 1} Σ_{1}) + {(μ_{1} - μ_{2})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2})] - - - (1)

式1中：δ为KL散度，μ₁和∑₁分别为第一个高斯分量的均值和方差，μ₂和∑₂分别为第二个高斯分量的均值和方差。

所述的步骤(4)中，将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量；

所述的基于近邻位置法的方程表达式如下：

μ_{e} = \frac{1}{n} Σ_{i = 1}^{n} μ_{e, i} - - - (2)

式2中：μ_e为中性训练高斯分量对应的任一情感训练高斯分量的均值，μ_e，i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值。

所述的基于近邻变化法的方程表达式如下：

μ_{e} = μ_{k} + \frac{1}{n} Σ_{i = 1}^{n} (μ_{e, i} - μ_{k, i}) - - - (3)

式3中：μ_e为中性训练高斯分量对应的任一情感训练高斯分量的均值，μ_e，i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值，μ_k为中性训练高斯分量的均值，μ_k，i为n个对应的中性参考高斯分量中第i中性参考高斯分量的均值。

所述的步骤(6)中，将测试语音与所有用户的GMM训练模型逐一进行得分计算，该得分计算的公式为：

Score = \frac{1}{T} Σ_{t = 1}^{T} Σ_{k = 1}^{j} ω_{k} \max [P (x_{t} | C_{k}), P (x_{t} | E_{k})] - - - (4)

式4中：T为测试语音中的特征帧数，x_t为测试语音中的第t帧特征，j为GMM训练模型的阶数，C_k为中性训练模型中的第k中性训练高斯分量，E_k为情感训练模型中的第k情感训练高斯分量，ω_k为C_k和E_k的权重，P(x_t|C_k)为x_t在C_k上的得分，P(x_t|E_k)为x_t在E_k上的得分。

通过实验观察发现，在中性语音下的发音较相似的说话人，他们在情感语音下的发音也较相似；本发明采用基于KL散度的近邻原则从语音库中提取若干与用户的中性训练语音相似的参考语音，用参考语音中的情感参考语音合成出用户的情感训练语音，改善了在训练语音与测试语音失配情况下说话人识别系统的性能，提高了说话人识别系统的鲁棒性。

附图说明

图1为本发明的步骤流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的说话人识别方法进行详细说明。

如图1所示，一种基于近邻原则合成情感模型的说话人识别方法，包括如下步骤：

(1)训练出参考语音和用户中性语音的模型。

获取25套参考语音以及20位用户的中性训练语音。

25套参考语音以及20位用户的中性训练语音均是在安静的环境下采用奥林巴斯DM-20录音笔录制的，且分别为母语是汉语的25个说话人和20位用户的语音。一套参考语音包括说话人的5种情感的发音：中性参考语音、惊慌参考语音、高兴参考语音、愤怒参考语音和悲伤参考语音；每个说话人会在中性条件下朗读2段中性的段落，同时，会在每种情感下说出5个单词和20句语句各3遍。而中性训练语音只是用户在中性情感下的发音，即用户在中性条件下朗读2段中性的段落。

对所有采集到的语音进行模型训练，对应得到25套GMM参考模型以及20位用户的中性训练模型；一套GMM参考模型包括一个中性参考模型和4个情感参考模型；

对语音进行模型训练的过程为：首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程，然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取，提取出语音的特征向量集X＝[x₁，x₂，L，x_T]，其中每帧特征是一个p维的向量，T表示该语音中特征的总数；通过EM法训练出特征向量集的UBM模型，最后采用MAP法从UBM模型中训练出语音的GMM模型。以下为一参考语音的GMM参考模型中的中性参考模型和情感参考模型：

λ_{N} = Σ_{k = 1}^{j} ω_{k} N (μ_{N, k}, Σ_{N, k})

(5)

λ_{E} = Σ_{k = 1}^{j} ω_{k} N (μ_{E, k}, Σ_{E, k})

式5中，λ_N为参考语音的中性参考模型。ω_k为中性参考模型中第k中性参考高斯分量的权重，由于MAP自适应时权重保持不变，所以各GMM模型的ω_k和UBM模型中的ω_k相同。μ_N，k和∑_N，k分别为中性参考模型中第k中性参考高斯分量的均值和方差。同样地，λ_E为参考语音的情感参考模型，μ_E，k和∑_E，k分别为高兴参考模型中第k情感参考高斯分量的均值和方差。

(2)提取GMM参考模型的中性-情感高斯分量映射集。

提取每套GMM参考模型的中性-情感高斯分量映射集；中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系：

N (μ_{N, k}, Σ_{N, k}) &DoubleLeftRightArrow; N (μ_{E, k}, Σ_{E, k})

(3)提取与用户的中性训练高斯分量邻近的若干中性参考高斯分量映射的情感参考高斯分量。

根据KL散度计算法，逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度；

KL散度计算法的方程表达式如下：

δ = \frac{1}{2} [\log \frac{| Σ_{1} |}{| Σ_{2} |} + Tr (Σ_{2}^{- 1} Σ_{1}) + {(μ_{1} - μ_{2})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2})] - - - (1)

选取每一中性训练高斯分量对应的与之KL散度最小的10个中性参考高斯分量；进而根据中性-情感高斯分量映射集，提取出10个中性参考高斯分量中每个中性参考高斯分量对应的4个情感参考高斯分量；

(4)合成出用户的情感训练高斯分量，进而得到用户的情感训练模型。

将每一中性训练高斯分量对应的10×4个情感参考高斯分量利用基于近邻位置法合成出对应的4个情感训练高斯分量，进而得到用户的4个情感训练模型；

基于近邻位置法的方程表达式如下：

μ_{e} = \frac{1}{n} Σ_{i = 1}^{n} μ_{e, i} - - - (2)

(5)合成出所有用户的GMM训练模型。

根据步骤(1)至(4)，合成得到所有用户的GMM训练模型，本实施例中，一套GMM训练模型包括一个中性训练模型和4个情感训练模型。

(6)输入测试语音进行识别。

输入某一用户的测试语音，将该测试语音与所有用户的GMM训练模型逐一进行得分计算，将得分最大的GMM训练模型所对应的用户作为识别出的用户。

得分计算的公式为：

Score = \frac{1}{T} Σ_{t = 1}^{T} Σ_{k = 1}^{j} ω_{k} \max [P (x_{t} | C_{k}), P (x_{t} | E_{k})] - - - (4)

式4中：T为测试语音中的特征帧数，x_t为测试语音中的第t帧特征，j为GMM训练模型的阶数，本实施例中阶数为1024，C_k为中性训练模型中的第k中性训练高斯分量，E_k为情感训练模型中的第k情感训练高斯分量，ω_k为C_k和E_k的权重，P(x_t|C_k)为x_t在C_k上的得分，P(x_t|E_k)为x_t在E_k上的得分。

表1为通过相关实验测试出传统GMM-UBM方法与本实施方式分别对用户在中性、惊慌、高兴、愤怒和悲伤5种情感发音下的识别率。其中，所有的语料通过100ms的Hamming窗进行分帧，窗的步长设为80ms。每一帧语音信号提取出13维MFCC特征用于训练UBM模型，自适应说话人模型和说话人识别测试。

表1：传统GMM-UBM方法与本实施方式的识别率

情感分类	GMM-UBM方法	本实施方式
			中性	96.47％	95.33％
愤怒	34.87％	38.40％
			高兴	38.07％	45.20％
惊慌	36.60％	40.07％
			悲伤	60.80％	61.80％

从上述实验结果可以看出，本实施方式可以有效地检测出语句中的可靠特征，在各情感状态下，识别的准确率得到了较大的提高。同时，总体的识别准确率也提高了2.81％，因此本实施方式对提高说话人识别系统的性能和鲁棒性有很大的帮助。

Claims

1.一种基于近邻原则合成情感模型的说话人识别方法，包括如下步骤：

(1)获取若干套参考语音以及用户的中性训练语音，对所有语音进行模型训练，对应得到若干套GMM参考模型以及用户的中性训练模型；

(2)提取每套GMM参考模型的中性-情感高斯分量映射集；

(3)根据KL散度计算法，逐一计算中性训练模型中的每一中性训练高斯分量与所有中性参考模型中的中性参考高斯分量的KL散度，选取每一中性训练高斯分量对应的与之KL散度最小的n个中性参考高斯分量；进而根据所述的中性-情感高斯分量映射集，提取出n个中性参考高斯分量中每个中性参考高斯分量对应的m个情感参考高斯分量，n为大于0的自然数；

(5)根据步骤(1)至(4)，合成得到所有用户的GMM训练模型；

2.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法，其特征在于：所述的步骤(1)中，对所有语音进行模型训练的过程为：首先对语音依次进行采样量化、去零漂、预加重、加窗的预处理过程，然后采用基于MFCC的特征提取法或基于LPCC的特征提取法对预处理后的语音进行特征提取，提取出语音的特征向量集，通过EM法训练出特征向量集的UBM模型，最后采用MAP法从UBM模型中训练出语音的GMM模型。

3.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法，其特征在于：所述的中性-情感高斯分量映射集为中性参考模型中的中性参考高斯分量与各情感参考模型中的情感参考高斯分量的对应关系。

4.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法，其特征在于：所述的KL散度计算法的方程表达式如下：

δ = \frac{1}{2} [\log \frac{| Σ_{1} |}{| Σ_{2} |} + Tr (Σ_{2}^{- 1} Σ_{1}) + {(μ_{1} - μ_{2})}^{T} Σ_{2}^{- 1} (μ_{1} - μ_{2})] - - - (1)

5.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法，其特征在于：所述的步骤(4)中，将每一中性训练高斯分量对应的n×m个情感参考高斯分量利用基于近邻位置法或基于近邻变化法合成出对应的m个情感训练高斯分量；

所述的基于近邻位置法的方程表达式如下：

μ_{e} = \frac{1}{n} Σ_{i = 1}^{n} μ_{e, i} - - - (2)

式2中：μ_e为中性训练高斯分量对应的任一情感训练高斯分量的均值，μ_e，i为n个对应的情感参考高斯分量中第i情感参考高斯分量的均值；

所述的基于近邻变化法的方程表达式如下：

μ_{e} = μ_{k} + \frac{1}{n} Σ_{i = 1}^{n} (μ_{e, i} - μ_{k, i}) - - - (3)

6.根据权利要求1所述的基于近邻原则合成情感模型的说话人识别方法，其特征在于：所述的步骤(6)中，将测试语音与所有用户的GMM训练模型逐一进行得分计算，该得分计算的公式为：

Score = \frac{1}{T} Σ_{t = 1}^{T} Σ_{k = 1}^{j} ω_{k} \max [P (x_{t} | C_{k}), P (x_{t} | E_{k})] - - - (4)