CN101833951A

CN101833951A - 用于说话人识别的多背景模型建立方法

Info

Publication number: CN101833951A
Application number: CN201010118149A
Authority: CN
Inventors: 张卫强; 刘加
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2010-03-04
Filing date: 2010-03-04
Publication date: 2010-09-15
Anticipated expiration: 2030-03-04
Also published as: CN101833951B

Abstract

用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法，其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分，每组数据分别训练UBM模型，然后由每个背景模型自适应得到目标说话人GMM模型，得到多组GMM和UBM模型，说话人识别时对测试数据，由每组GMM和UBM模型计算对数似然比分数，最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画，从而提高说话人识别的准确率。

Description

用于说话人识别的多背景模型建立方法

技术领域

本发明属于语音识别领域，具体地说，涉及一种多背景模型建立方法，可用于说话人识别。

背景技术

说话人识别是指使用机器从一段语音信号中识别出其说话人的身份信息。说话人识别技术主要用于基于语音的身份确认、语音侦听、法庭物证鉴定等领域。

说话人识别的方法主要包括VQ(矢量量化)、GMM-UBM(高斯混合模型-通用背景模型)、SVM(支持矢量机)等等。其中GMM-UBM实现简单且性能优良，在整个说话人识别领域应用非常广泛。

在GMM-UBM系统中，UBM描述了一般人的特征分布，而GMM描述了目标说话人的特征分布。在训练阶段，UBM由大量人的数据训练得到一个无偏向的模型，GMM由目标说话人的数据训练偏向目标说话人的模型；在测试阶段，对于未知语音，分别由GMM和UBM给出对数似然度，然后两者相减得到对数似然比分数，进而进行说话人识别。

通常意义上讲，UBM应该是通用的不偏向任何人的模型，但是实验表明，选择和目标说话人相近的数据训练得到的UBM性能更好，比如通常采用的性别相关的UBM，对男声和女生分别训练UBM，比性别无关的UBM性能更好。

显然，按性别对所有说话人进行划分是一种自然而外在的划分，对于语音信号来讲，这种划分不一定准确。首先，有的男声声音可能更像女声，而有的女声声音可能更像男声，应该按照声音去划分，而不是简单的按照说话人的性别划分；其次，把所有说话人分成两类仍然比较粗糙，可能分成多类更有利于说话人识别。

发明内容

为了解决现有GMM-UBM系统的不足，本发明提供一种根据说话人声道长度进行多背景模型建模的方法。在背景模型训练阶段，首先通过语音计算出说话人的声道长度，然后按照声道长度将所有训练UBM的语音分成多类，每类训练一个UBM。在说话人模型训练阶段，采用目标说话人语音，从每一个UBM自适应得到一个GMM，形成多组GMM和UBM。在识别阶段，对于测试语音，分别由每一组GMM和UBM，计算得到对数似然比分数，最后从多个分数中选择最小值进行说话人识别。本发明采用并行数字集成电路实现，等错率相对降低17％。

本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的：

步骤(1)：采用Baum-Welch算法，用训练通用背景模型UBM的所有数据训练一个高斯混合模型GMM Λ₀；

步骤(2)：求取每段语音的声道长度弯折系数，具体做法为：

步骤(2.1)：声道长度弯折系数α从0.88以步长0.02变化到1.12，对信号频谱进行“弯折”，设弯折前后的频率为f，f^α，频谱的低通和高通截止频率为f_l，f_u，则弯折公式为

f^{α} = f + \frac{2 (f_{u} - f_{l})}{π} \arctan (\frac{(1 - α) \sin θ}{1 - (1 - α) \cos θ}),

其中

θ = \frac{f - f_{l}}{f_{u} - f_{l}} π;

步骤(2.2)：对步骤(2.1)中每个弯折系数对应的频谱求取Mel频率倒谱系数MFCC特征

搜索使所述特征对模型Λ₀的似然度最大的弯折系数：

α^*即为该段语音的声道长度弯折系数；

步骤(3)：将训练UBM的数据按声道长度弯折系数分成8份，其中α^*＝0.88的为第1份，α^*＝0.90的为第2份，α^*＝0.92的为第3份，α^*＝0.94的为第4份，α^*＝0.96，0.98的为第5份，α^*＝1.00，1.02的为第6份，α^*＝1.04，1.06的为第7份，α^*＝1.08，1.10，1.12的为第8份，这样划分是由于考虑各份中数据量的平衡，采用所述Baum-Welch算法用每份数据训练一个UBM模型；

步骤(4)：用目标说话人的训练语音提取所述MFCC特征，并对8个UBM模型分别进行最大后验概率MAP自适应，得到8个GMM模型，具体自适应方法为：

步骤(4.1)：假设其中一个UBM的参数为

w_m、μ_m和σ_m ²分别表示权重、均值和方差，其数值由步骤(3)中的Baum-Welch算法得到，权重满足

下标m表示高斯分量标号，共含M个高斯分量，假设训练语音共含T帧特征，其中第t帧特征为o_t，则o_t属于第m个高斯分量的后验概率为：

γ_{m} (t) = \frac{w_{m} N (o_{t}; μ_{m}, σ_{m}^{2})}{Σ_{m^{'} = 1}^{M} w_{m^{'}} N (o_{t}; μ_{m^{'}}, σ_{m^{'}}^{2})},

其中

表示高斯分布的概率密度，对t＝1，...，T，m＝1，...，M进行循环，计算每帧特征属于每个高斯分量的后验概率；

步骤(4.2)：将后验概率以及后验概率与特征的乘积对所有帧进行累加，计算零阶和一阶统计量：

n_{m} = Σ_{t = 1}^{T} γ_{m} (t),

对m＝1，...，M进行循环，计算每个高斯分量的零阶和一阶统计量；

步骤(4.3)：对一阶统计量和UBM的均值进行线性插值，得到自适应后的GMM模型的均值：

其中插值系数为λ_m＝n_m/(n_m+r)，r为常数，取值为16，对m＝1，...，M进行循环，计算GMM模型的每个高斯分量的均值，其权重和方差直接采用UBM的对应的权重和方差；

步骤(5)：对于测试语音提取MFCC特征，然后分别用8组GMM和UBM模型求取对数似然比分数，从中选取最小的一个作为分数输出，具体方法为：

步骤(5.1)：假设测试语音共含T_e帧特征，则一组GMM和UBM模型的对数似然比分数为：

s = Σ_{t = 1}^{T_{e}} \log Σ_{m = 1}^{M} w_{m} N (o_{t}; {\hat{μ}}_{m}, σ_{m}^{2}) - Σ_{t = 1}^{T_{e}} \log Σ_{m = 1}^{M} w_{m} N (o_{t}; μ_{m}, σ_{m}^{2}),

步骤(5.2)：按步骤(5.1)所述求取8组的对数似然比分数，从中选取最小的一个作为输出。

本发明的有益效果是，根据声道长度弯折系数对背景数据进行划分并分别训练UBM模型，是对性别相关的UBM的一种自然推广，能够克服数据划分不准以及不够精细的缺陷。采用多背景模型方法，可以针对不同的说话人选择相近的UBM模型，这样更有利于对“反模型”进行细致刻画，从而提高说话人识别的准确率。

附图说明

图1是本发明进行多背景模型建模的硬件结构和步骤框图。

图2是本发明使用多背景模型进行说话人训练的硬件结构和步骤框图。

图3是本发明使用多背景模型进行说话人测试的硬件结构和步骤框图。

具体实施方式

GMM-UBM系统中，UBM模型建立是至关重要的一个步骤，但如何选取UBM训练数据至今仍没有一套完整的理论指导，研究者们只能凭经验按最终的实验效果来选取。一般来讲，目前常用的有性别无关的UBM和性别相关的UBM两种，其中性别相关的UBM性能能更加优越。本发明对性别相关的UBM进行推广，按声道长度对训练数据进行划分，得到多个背景模型，具体实施可分成三个模块。

第1模块：多背景模型训练模块

首先需要求取训练UBM数据的声道长度弯折系数，这一步中采用最大似然准则求取。先用所有训练数据采用Baum-Welch算法训练一个“中性”的GMM模型，然后对每段数据进行特征“弯折”，对每一个弯折的特征都用GMM模型计算似然度，选择似然度最高的特征所对应的弯折系数，即为该段数据的声道长度弯折系数。

特征的弯折采用语音识别中常用的VTLN(声道长度归一化)技术，在求取MFCC特征时，首先需要求取信号频谱，设频谱的低通和高通截止频率为f_l和f_u，则频谱弯折公式为

f^{α} = f + \frac{2 (f_{u} - f_{l})}{π} \arctan (\frac{(1 - α) \sin θ}{1 - (1 - α) \cos θ}),

其中

f和f^α为弯折前后的频率。对弯折后的频谱采用Mel滤波器组计算子带能量，求对数后再进行DCT(离散余弦变化)，即得到弯折的MFCC特征。由频谱到MFCC特征的具体过程可参考一般的语音识别教材。

具体实施时，对声道长度弯折系数α从0.88变化到1.12，步长0.02，共13步量化。这样，每段训练UBM的语音数据就获得了一个声道长度弯折系数的标签。接下来，按照标签对数据进行划分，由于每个声道长度的数据量并不相等，我们按照每组数据大致相等的原则将数据分成8份，其中α^*＝0.88的为第1份，α^*＝0.90的为第2份，α^*＝0.92的为第3份，α^*＝0.94的为第4份，α^*＝0.96，0.98的为第5份，α^*＝1.00，1.02的为第6份，α^*＝1.04，1.06的为第7份，α^*＝1.08，1.10，1.12的为第8份。

对每份数据，直接提取MFCC特征(注意这里不需要进行特征弯折)，然后用每份特征采用Baum-Welch算法训练一个UBM模型，这样就得到了8个UBM模型。

第2模块：说话人模型训练模块

由于前一模块中得到了8个UBM模型，对于给定的目标说话人训练数据，首先提取MFCC特征，然后用该特征从每个UBM模型自适应得到GMM模型，这样就得到了8组GMM和UBM模型。

在自适应GMM模型时，采用均值MAP自适应方法，即GMM模型的均值为

其中μ_m为UBM模型的均值，E_m

为一阶统计量，λ_m为插值系数。统计量的计算公式为：

n_{m} = Σ_{t = 1}^{T} γ_{m} (t),

插值系数的计算公式为：

λ_{m} = \frac{n_{m}}{n_{m} + r},

其中γ_m(t)是第t帧特征o_t属于UBM的第m个高斯分量的后验概率，，r为常数，取值为16。

第3模块：说话人识别模块

前一模块得到了8组GMM和UBM，对于给定的测试数据，首先提取MFCC特征，然后分别用8组GMM和UBM模型求取对数似然比分数：

s = Σ_{t = 1}^{T_{e}} \log Σ_{m = 1}^{M} w_{m} N (o_{t}; {\hat{μ}}_{m}, σ_{m}^{2}) - Σ_{t = 1}^{T_{e}} \log Σ_{m = 1}^{M} w_{m} N (o_{t}; μ_{m}, σ_{m}^{2}),

由于GMM自适应时只改变了均值，所以其权重和方差与对应的UBM相同。

得到8组分数后，从中选取最小的一个作为分数输出，然后可与门限比较进行判决，大于等于门限的即为说话人，小于门限的即为冒充者。

本发明实验采用国际上标准的NIST 2008说话人识别男生电话评测数据，训练和测试语音长约为3分钟。UBM训练数据采用NIST 2002、2003和2004年数据，共1116段。特征矢量采用13维的MFCC(Mel频率倒谱系数)加上其一阶和二阶差分共39维特征。

将NIST规定的测试段对每个目标说话人进行说话人确认，调节虚警率和漏报率相等时，可以得到系统的等错率，等错率越低，表明系统性能越好。

实验中，采用GMM作为分类器，每个GMM由256个高斯分量构成。UBM训练时采用Bauman-Welch算法迭代8次，MAP自适应时只适应均值，迭代1次。

实验表明：采用性别无关的UBM模型，说话人识别等错率为13.58％；采用性别相关的UBM模型，说话人识别等错率为11.76％；采用本发明所提多背景模型建模方法，说话人识别等错率为11.21％，相对降低17％。可见，本发明提出的多背景模型建立方法用于说话人识别可使其性能有较大提高。