CN102968990A

CN102968990A - 说话人识别方法和系统

Info

Publication number: CN102968990A
Application number: CN2012104586412A
Authority: CN
Inventors: 朱东来; 鄂小松
Original assignee: Jiangsu Jialide Electronic Science & Technology Co Ltd
Current assignee: Zhenjiang Ke Ke Electronic Technology Co., Ltd.
Priority date: 2012-11-15
Filing date: 2012-11-15
Publication date: 2013-03-13
Anticipated expiration: 2032-11-15
Also published as: CN102968990B

Abstract

本发明公开了一种说话人识别方法，所述方法通过建立通用背景模型、建立待识别说话人模型、使用说话人的训练语音信号、识别说话人，与现有技术相比，本发明具有以下优点：本发明提出一种结合模型空间变换和特征空间变换的高性能说话人识别系统，这两个空间的变换综合反映了说话人发音的个体特征。两个空间的变换均基于通用背景模型使用自适应算法计算得到，具有很好的稳定性。相比于现有技术中往往单独采用模型空间变换进行说话人识别，大大提高系统的识别率，同时系统更加稳定，不易模仿。

Description

说话人识别方法和系统

技术领域

本发明涉及生物特征识别领域。特别地，涉及一种说话人识别方法和系统。

背景技术

说话人识别是一种根据语音信号自动识别说话人身份的技术。说话人识别属于生物特征识别技术。生物特征识别技术是利用生物特征自动识别个体身份的技术，包括指纹识别、虹膜识别、基因识别、人脸识别等等。说话人识别利用语音信号进行身份识别，具有人机交互自然、语音信号易于提取、可实现远程识别等优势。

说话人识别是一种语音信号处理技术。语音信号处理技术是从语音信号中提取目标信息的技术，包括语音识别、说话人识别、语音语言识别、语音合成等。语音识别是将语音信号输入转换为文本输出的技术。语音语言识别是利用语音信号识别说话人语言的技术。语音合成是将文本输入转换为语音信号输出的技术。

图1显示了说话人识别系统的现有技术的结构框图。系统包括两个阶段：训练阶段和识别阶段。在训练阶段，系统使用收集的说话人语音为说话人建立模型。在识别阶段，系统将输入语音与说话人模型进行模式匹配，根据匹配得分作出判决。

说话人识别按识别结果输出方式分为说话人辨识和说话人确认。说话人辨识假设输入语音属于系统中的已训练说话人之一，将输入语音与系统中所有说话人的模型进行模式匹配，输出结果为匹配得分最高的说话人。说话人确认则用于确认输入语音是否属于某一特定说话人。系统将输入语音与目标说话人的模型进行模式匹配，如果匹配得分高于预设阈值，则判定输入语音属于该说话人；反之则不属于该说话人。由于说话人确认未假设输入语音属于已训练说话人，其识别难度一般高于说话人辨识。

说话人识别按输入语音类型分为与文本有关说话人识别和与文本无关说话人识别。与文本有关说话人识别是指使用已知文本内容的输入语音进行识别，即说话人按规定的文本发音。与文本无关说话人识别则使用随机文本内容的输入语音进行识别，即说话人按自己的表达意愿发音。由于与文本无关说话人识别未限制语音的文本内容，识别过程须消除语音与模型之间文本内容不一致带来的干扰，所以识别难度高于与文本有关说话人识别。与文本有关说话人识别可应用于语音银行服务、语音门禁系统、语音密码系统等；与文本无关说话人识别可应用于电话反恐监控等文本内容未知的场合。

说话人识别系统需要从语音信号提取能反映说话人个性的特征，并建立准确的模型区分该说话人与其他说话人之间的差异。在现实应用中语音信号极易受到各种干扰，包括信道干扰、噪声干扰、说话人生理心理变化干扰等。这些干扰因素导致语音波形产生随机变化，影响语音特征的提取和模型参数的训练，进而导致识别的准确度下降。现有系统多对语音信号提取倒谱特征，也有提取基音等特征。倒谱特征平滑了基音谐振，而基音特征提取相对不稳定，因而现有特征尚未充分表达说话人个人特性。现有系统说话人模型有高斯混合模型和支持向量机等，尚未能准确对输入特征进行识别。现有特征和模型尚未能有效应对各种信号干扰。因此需要找到一种能够准确和有效地识别说话人的方法和系统。

发明内容

本发明要解决的技术问题是提供一种说话人识别方法和系统, 能够准确和快速地识别说话人。要解决现有技术中特征提取和模型训练不够准确，识别性能易受干扰信号影响等问题。

本发明公开了一种说话人识别方法，所述方法包括如下步骤：

（1）、建立通用背景模型。通用背景模型从包含多个说话人的语音数据库训练得到，代表了所有说话人特征的概率分布，用于准确可靠地估计特定说话人模型；

（2）、建立待识别说话人模型。使用说话人的训练语音信号，基于通用背景模型进行自适应运算，得到特定说话人模型；

（3）、识别说话人。将输入语音与说话人模型进行匹配运算，如果得分高于预设阈值，则确认语音属于该说话人；反之则不属于该说话人。

进一步，所述建立通用背景模型的步骤，具体包括：

步骤201、收集包含多个说话人的语音数据库，用于训练通用背景模型；

步骤202、将语音数据库中的语音信号转换为倒谱特征；

步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵。高斯混合模型代表了说话人模型空间的先验分布；特征变换先验矩阵代表了特征空间变换矩阵的先验分布；

步骤204、使用数据库中每个说话人的倒谱特征，对各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量。得到的超级矢量集合用于训练支持向量机；

步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵；该映射矩阵用于消除超级矢量中的干扰因子的影响。

进一步，所述建立待识别说话人模型的步骤，具体包括：

步骤301、获取待识别说话人的训练语音信号，用于训练说话人模型；

步骤302、将训练语音信号转换为倒谱特征；

步骤303、基于通用背景模型中的高斯混合模型和特征变换先验矩阵，使用倒谱特征计算说话人的高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量；

步骤304、基于通用背景模型中的干扰因子消除映射矩阵，对超级矢量进行干扰因子消除映射；

步骤305、基于通用背景模型中的超级矢量集合和说话人的超级矢量，计算该说话人的支持向量机模型；

进一步，所述识别说话人的步骤，具体包括：

步骤401、获取输入语音信号，用于判决是否为说话人；

步骤402、将输入语音信号转换为倒谱特征；

步骤403、基于通用背景模型中的高斯混合模型和特征变换先验矩阵，使用倒谱特征计算该输入语音的高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量；

步骤404、基于通用背景模型中的干扰因子消除映射矩阵，对超级矢量进行干扰因子消除映射；

步骤405、基于待识别说话人的支持向量机模型，对输入的超级矢量计算支持向量机得分，即：计算该超级矢量对该说话人模型的得分；

步骤406、对得分进行测试归一化处理，用于进一步消除干扰因子造成的得分偏移；

步骤407、如果归一化得分高于预设阈值，则确认为该说话人；反之则否。

本发明还提供了一种实施上述方法的说话人识别的系统，其包括：

取样模块，用于获取训练语音信号和待识别语音信号；

特征提取模块，用于将语音信号转换为倒谱特征；

通用背景模型计算模块，用于对训练语音数据库计算通用背景模型，包括高斯混合模型、特征变换先验矩阵、超级矢量集合、干扰因子消除映射矩阵；

说话人模型计算模块，用于对说话人的训练语音信号计算该说话人的支持向量机模型；

说话人识别模块，用于将输入语音与说话人模型进行对比，输出得分若高于预设阈值，则确认为该说话人。

与现有技术相比，本发明具有以下优点：本发明提出一种结合模型空间变换和特征空间变换的高性能说话人识别系统，这两个空间的变换综合反映了说话人发音的个体特征。两个空间的变换均基于通用背景模型使用自适应算法计算得到，具有很好的稳定性。相比于现有技术中往往单独采用模型空间变换进行说话人识别，大大提高系统的识别率，同时系统更加稳定，不易模仿。

附图说明

图1是说话人识别系统的现有技术的结构框图；

图2是本发明中建立通用背景模型实施例的步骤流程图；

图3是建立待识别说话人模型实施例的步骤流程图；

图4是识别说话人实施例的步骤流程图；

图5是本发明一种说话人识别系统实施例的结构框图。

具体实施方式

为使本发明的上述功能、流程和优点更加明显易懂，下面对本发明涉及到的相关技术逐一详细介绍。

参照图2，显示了本发明建立通用背景模型实施例，该实施例具体包括以下步骤：

步骤201、收集包含大量（例如：1000人或10000人）说话人的语音数据库；

步骤202、将语音数据库中的语音信号转换为倒谱特征；

步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵；

步骤204、对数据库中各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量；综合所有说话人的超级矢量得到超级矢量集合；

步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵。

对输入语音信号首先要进行特征提取。特征提取是模式识别中的一个重要步骤，其目的是将输入信号转化为特征参数，然后识别器对特征参数进行识别。特征参数的优劣对识别性能有很大的影响。特征提取有两个原则：对同类信号，特征参数之间的距离尽量小；对异类参数，特征参数之间的距离尽量大。对语音信号，将人的听觉系统中信号处理的实验结果用于特征提取会有效的提高识别性能，比如MFCC（Mel Frequency Cepstrum Coefficient，Mel谱倒谱系数）。在识别系统中，增加一些辅助的特征参数能有效地提高识别性能。在说话人识别中，辅助参数有对数能量，动态特征等。

在MFCC提取中，首先语音信号采样点序列被分帧处理，每帧信号作为该时刻的短时稳定信号。帧长为足够长保证频谱精细度与足够短保证短时平稳性之间的折衷；为增加帧之间的连续性，帧与帧一般部分重叠，即帧移小于帧长。比如对采样率为16kHz的语音信号，帧长可取25毫秒，帧移可取10毫秒。人的外耳和中耳道的传输函数在高频带幅值比低频带高。为了模拟该特征，一般将语音信号通过一个高通滤波器，对语音信号的高频带频谱进行预加重。高通滤波器的冲激响应为

H(z)=1-Kz^-1，其中，0≤K≤1。

为了减少帧信号频谱泄漏的影响，每帧信号被乘以汉明窗

W(n)=0.54+0.46cos[2πn/(N-1)]，其中N为窗长。

语音信号的频谱可以通过FFT（Fast Fourier Transform，快速傅立叶变换）计算得到。

Mel频率用以模拟耳蜗的频率响应。语音频谱的幅度或能量通过Mel域滤波器组得到Mel域滤波器组幅度或能量。Mel频率与线性频率的对应关系为：

Mel(f)=2595log₁₀(1f/700)

滤波器组为在Mel域上均匀分布的一组三角形滤波器。

人耳听觉神经的传输函数为类似对数函数的曲线。对应该特征，对Mel域滤波器组幅度或能量取对数得到对数Mel域滤波器组幅度或能量。在信号上对数Mel域滤波器组幅度或能量也是对Mel域滤波器组幅度或能量的平滑，后者具有相当大的动态范围。

最后对数滤波器组幅度或能量通过DCT（Discrete Cosine Transform，离散余弦变换）得到倒谱系数，即MFCC。DCT变换也使得MFCC各分量之间的独立性更强，更适合于高斯混合模型的对角阵协方差矩阵。

为了增强特征参数的表达能力，识别系统还加入对数能量和动态特征。对数能量为一帧语音信号的能量的对数值：

，其中，s_n为信号采样点，N为帧长。

取对数是为了减少参数的动态范围。

使用动态特征能较大地提高识别系统的性能。动态特征反映了连续帧之间的相关性，取帧间倒谱参数的一阶差分和二阶差分。根据MMSE（Minimum Mean Square Error, 最小均方差准则），t帧差分的计算公式为：

，其中，θ为相关帧数，c_t为t帧的倒谱参数。

获得数据库中所有说话人的倒谱特征后，首先使用这些倒谱特征计算高斯混合模型。高斯混合模型代表了说话人模型空间的先验分布。高斯混合模型定义倒谱特征的概率密度函数为一组高斯函数的线性组合：

当输出概率定义为混合高斯密度函数时，即

，其中x为特征矢量。c_m为第m个高斯密度的权值。Μ_m,Σ_m分别为高斯密度N(x;μ_m,Σ_m)的均值矢量和谐方差矩阵。c_m满足

Σ_{m = 1}^{M} c_{m} = 1

。

高斯混合模型的参数由EM（Expectation-Maximization，期望值最大化）算法计算如下：

μ_{m} = \frac{Σ_{t = 1}^{T} p (m | x_{t}) x_{t}}{Σ_{t = 1}^{T} p (m | x_{t})}

Σ_{m} = \frac{Σ_{t = 1}^{T} p (m | x_{t}) (x_{t} - {\hat{μ}}_{m}) {(x_{t} - {\hat{μ}}_{m})}^{T}}{Σ_{t = 1}^{T} p (m | x_{t})}

c_{m} = \frac{Σ_{t = 1}^{T} p (m | x_{t})}{Σ_{t = 1}^{T} \underset{m}{Σ} p (m | x_{t})}

其中，

p (m | x_{t}) = \frac{N (x; μ_{m}, Σ_{m})}{Σ_{m = 1}^{M} c_{m} N (x; μ_{m}, Σ_{m})}

特征变换先验矩阵代表了特征空间变换矩阵的先验分布，由最大似然估计准则计算得到。

特定人高斯混合模型的均值矢量代表了该说话人倒谱特征的概率均值分布。基于所有说话人的高斯混合模型，由最大后验概率准则计算得到。对说话人s的第m个均值矢量的计算公式为：

μ_{sm} = \frac{{τμ}_{m} + Σ_{t = 1}^{T} p (m | x_{t}) x_{t}}{τ + Σ_{t = 1}^{T} p (m | x_{t})}

，其中τ为先验权值常量。

特定人特征变换矩阵代表了该说话人倒谱特征相对于所有人倒谱特征的空间变换。基于所有人的特征变换先验矩阵，由最大后验概率准则计算得到。为了准确地估计特征空间变换矩阵，首先将特征空间按混合高斯分布分类为K类，每类代表了特征空间的一个子空间。对第s个说话人的第k个特征变换矩阵A_sk，按照逐行计算求解。A_sk的第i行矢量的计算公式如下：

A_{ski} = (α_{ski} p_{ski} + v_{ski} + \frac{1}{τ} U_{ki}) {(G_{ski} + \frac{1}{τ} I)}^{- 1}

，

其中

G_{ski} = Σ_{t = 1}^{T} \underset{m &Element; C_{k}}{Σ} \frac{p (m | x_{t})}{σ_{mi}} x_{t} x_{t}^{T}

v_{ski} = Σ_{t = 1}^{T} \underset{m &Element; C_{k}}{Σ} \frac{p (m | x_{t})}{σ_{mi}} μ_{mi} x_{t}^{T}

α_{ski} = - \frac{e_{2}}{2 e_{1}} &PlusMinus; \frac{\sqrt{e_{2}^{2} + 4 f_{sk} e_{1}}}{2 e_{1}}

f_{sk} = Σ_{t = 1}^{T} \underset{m &Element; C_{k}}{Σ} p (m | x_{t})

e_{1} = p_{ski} {(G_{ski} + \frac{1}{τ} I)}^{- 1} p_{ski}^{T}

e_{2} = p_{ski} {(G_{ski} + \frac{1}{τ} I)}^{- 1} (v_{ski} + \frac{1}{τ} U_{ki})

I为单位矩阵，U_ki为第k个特征变换先验矩阵的第i行矢量。α_ski选取值保证如下公式最大化：

Q = f_{sk} \log | α_{ski} e_{1} + e_{2} | - \frac{1}{2} α_{ski}^{2} e_{1}

基于特定说话人的高斯混合模型均值矢量和特征变换矩阵，矢量化矩阵并串联，可得到该特定说话人的超级矢量。超级矢量具有很高的维度，综合了该说话人在特征空间和模型空间的个性特征。由于高斯混合模型包含M个高斯分布，特征变换矩阵包含K类，对于维度为D的倒谱特征，超级矢量的总长度为L=MD+KD²。

如果语音信号受到信道和噪声等因素的干扰，则会导致超级矢量的旋转和位移。因此有必要对超级矢量进行干扰因子消除。消除方法是构造一个映射矩阵，将超级矢量映射至纯说话人特征子空间。映射矩阵定义为

P=I-WW^T

其中W为干扰因子矩阵，大小为L×V，V远小于L，代表了干扰因子子空间。W的求解为首先计算说话人的超级矢量均值，其代表说话人的个性特征。将该说话人的各超级矢量减去该说话人的超级矢量均值，得到偏移超级矢量集合A，其代表了干扰因子引起的偏移。基于偏移超级矢量集合，计算V个最大的特征向量如下：

AA^TW=WΛ，其中Λ为与特征向量对应的特征值。

获得干扰因子矩阵W后，超级矢量则由映射矩阵P映射至新的超级矢量，该超级矢量消除了信道和噪声等干扰因子导致的误差。

参照图3，显示了建立待识别说话人模型实施例，该实施例具体包括以下步骤：

步骤301、获取待识别说话人的训练语音信号；

步骤302、将语音信号转换为倒谱特征；

步骤305、基于通用背景模型中的超级矢量集合和说话人的超级矢量，计算该说话人的支持向量机模型。

支持向量机模型是一个二类分类器，能够有效地对超级矢量进行分类。对超级矢量y实现的支持向量机模型定义为：

f (y) = \underset{i}{Σ} α_{i} t_{i} y_{i} y^{T} + b

，

其中，y_i是第i个支持向量，α_i是y_i的权值，t_i是y_i的输出值。

特定说话人的支持向量机模型参数使用该说话人的超级矢量和多说话人训练数据库的超级矢量进行训练。训练采用一对多模式，即该说话人的超级矢量输出值定为+1，其他说话人的超级矢量输出值定为-1。

参照图4，显示了识别说话人实施例，该实施例具体包括以下步骤：

步骤401、获取待识别说话人的语音信号；

步骤402、将语音信号转换为倒谱特征；

步骤403、基于通用背景模型中的高斯混合模型和特征变换先验矩阵，使用倒谱特征计算说话人的高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量；

步骤405、基于该说话人的支持向量机模型，对输入的超级矢量计算支持向量机得分；

步骤406、使用一组参考说话人模型，对支持向量机得分进行测试归一化；

步骤407、如果归一化得分高于预设阈值，则确认该说话人；反之，则否。

给定说话人的支持向量机模型，对输入的超级矢量计算支持向量机得分即为将模型参数和超级矢量代入支持向量机模型公式，得到f(y)。由于为线性运算，计算量小，具有快速识别的优点。

获得支持向量机得分后，对其进行测试归一化，进一步消除干扰因子引起的得分偏移。测试归一化使用一组参考说话人模型，对输入超级矢量计算出相应的支持向量机得分。对这一组得分计算均值和方差，修正待识别说话人的支持向量机得分如下：

\overset{&OverBar;}{f} (y) = \frac{f (y) - μ}{σ}

如果

高于预设阈值，则确认该说话人；反之则不为该说话人。

参照图5，显示了本发明一种说话人识别系统实施例的结构框图，所述系统具体包括：

取样模块501，取样模块，用于获取训练语音信号和待识别语音信号。

特征提取模块502，用于将语音信号转换为倒谱特征。

通用背景模型计算模块503，用于对训练语音数据库计算通用背景模型，包括高斯混合模型、特征变换先验矩阵、超级矢量集合、干扰因子消除映射矩阵。

说话人模型计算模块504，用于对说话人的训练语音信号计算该说话人的支持向量机模型。

说话人识别模块505，用于将输入语音与说话人模型进行对比，输出得分若高于预设阈值，则确认为该说话人。

其中，所述通用背景模型计算模块进一步包括：

用于使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵的子单元；

用于对数据库中各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量的子单元；

用于使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵的子单元。

所述说话人模型计算模块进一步包括：

用于使用通用背景模型中的干扰因子消除映射矩阵，对超级矢量进行干扰因子消除映射的子单元；

用于基于通用背景模型中的超级矢量集合和说话人的超级矢量，计算该说话人的支持向量机模型的子单元。

所述识别说话人模块进一步包括：

用于使用待识别说话人的支持向量机模型，计算输入超级矢量对该说话人模型得分的子单元；

用于对得分进行测试归一化处理的子单元。

对于系统实施例，由于其模块基本对应于方法实施例，所以描述比较简单，相关之处参见方法实施例的说明即可。

以上对本发明提供的一种说话人识别方法和系统进行了详细介绍，本文中使用了具体实施例对本发明的原理和实现进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法和系统；对于本领域的技术人员，依据本发明的方法，在具体实施方式和应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种说话人识别方法，其特征在于包括如下步骤：

（1）、建立通用背景模型；

（2）建立待识别说话人模型；

（3）识别说话人：将输入语音与待识别说话人模型进行匹配运算，如果得分高于预设阈值，则确认语音属于该说话人；反之则不属于该说话人。

2. 根据权利要求1所述的说话人识别方法，其特征在于：所述的建立通用背景模型的步骤，具体包括：

步骤201、收集包含多个说话人的语音数据库；

步骤202、将语音数据库中的语音信号转换为倒谱特征；

步骤204、使用数据库中每个说话人的倒谱特征，对数据库中各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵，矢量化矩阵并串联为超级矢量；综合所有说话人的超级矢量得到超级矢量集合；

3. 根据权利要求2所述的说话人识别方法，其特征在于：所述建立待识别说话人模型的步骤，具体包括：

步骤301、获取待识别说话人的训练语音信号；

步骤302、将训练语音信号转换为倒谱特征；

4. 根据权利要求3所述的说话人识别方法，其特征在于：所述识别说话人的步骤，具体包括：

步骤401、获取输入语音信号，用于判决是否为说话人；

步骤402、将输入语音信号转换为倒谱特征；

步骤406、使用一组参考说话人模型，对得分进行测试归一化处理，以进一步消除干扰因子造成的得分偏移；

步骤407、如果归一化得分高于预设阈值，则确认为该说话人；反之，则否。

5. 一种应用权利要求1所述方法的说话人识别的系统，其特征在于包括：

取样模块，用于获取训练语音信号和待识别语音信号；

特征提取模块，用于将语音信号转换为倒谱特征；

通用背景模型计算模块，用于对训练语音数据库计算通用背景模型；