CN101436405A

CN101436405A - 说话人识别方法和系统

Info

Publication number: CN101436405A
Application number: CNA2008102465756A
Authority: CN
Inventors: 张晨; 冯宇红; 邓昊
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2009-05-20

Abstract

本发明提供了一种说话人识别方法和系统，该方法可以包括：获取待识别说话人的语音信号；提取所述语音信号中的基音特征参量、倒谱特征参量及功率谱特征参量；将所述基音特征参量、倒谱特征参量及功率谱特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取待识别语音信号的综合匹配失真值及综合匹配路径偏差；根据所述综合匹配失真值及综合匹配路径偏差，获取待识别语音信号的最终比对误差；如果所述最终比对误差低于预设综合匹配对比阈值，则确认该说话人。本发明将三种待识别特征有机地结合起来，根据三种特征的匹配路径进行待识别目标与特征模板的比对，来决定系统识别结果，能够稳定和可靠地识别说话人，并提高识别率。

Description

说话人识别方法和系统

技术领域

本发明涉及生物特征识别领域，特别地，涉及一种说话人识别方法和系统。

背景技术

说话人识别(Speaker Recognition)，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。说话人识别可以看作是语音识别的一种。它和语音识别一样，都是通过对所收到的语音信号进行处理，提取相应的特征或者建立相应的模型，然后据此做出判断。说话人识别与语音识别的区别在于，它并不注意语音信号中的语义内容，而是希望从语音信号中提取出人的特征；而语音识别是企求从不同人的词语信号中寻找共同因素，对不同人说话的差别加以归一化。

图1示出了现有技术中说话人识别系统的结构框图，建立和应用这一系统可分为两个阶段，即训练阶段和识别阶段。在训练阶段，系统为参考语音信号建立模板，而在识别阶段，系统将待识别的语音信号特征与参考模板特征进行比较，并且根据一定的相似性准则形成判断。

现有的说话人识别又可以分为与文本有关的和与文本无关的两种方式，两种方式都是根据语音信号中体现的说话人特征进行说话人识别。“与文本无关”，是采用随机说话文本内容，但是这种方法需要训练数据足够充足，而在实际应用中，这点往往不能得到满足，因此应用较少。“与文本有关”，则是采用受限的说话文本内容，需要说话的人配合，按规定的文本发音或者按提示发音，识别系统对说话人语音信号中一种或几种特征参量进行识别。但是，当出现假冒者刻意模仿真实用户的发音特征时，识别系统会产生一定的判断误差，将假冒者误认为是真实用户。

针对这种情况，关键的问题是找到一种能够可靠、有效识别说话人的方法和系统。

发明内容

本发明所要解决的技术问题是提供一种说话人识别方法和系统，能够稳定和可靠地识别说话人，并提高识别率。

为了解决上述问题，本发明公开了一种说话人识别的方法，所述方法包括以下步骤：

获取待识别说话人的语音信号；

提取所述语音信号中的基音特征参量、倒谱特征参量及功率谱特征参量；

将所述基音特征参量、倒谱特征参量及功率谱特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取待识别语音信号的综合匹配失真值及综合匹配路径偏差；

根据所述综合匹配失真值及综合匹配路径偏差，获取待识别语音信号的最终比对误差；

如果所述最终比对误差低于预设综合匹配对比阈值，则确认该说话人。

优选的，所述待识别说话人的语音信号是说话人按照特征模板中预置文本内容发音的信号。

进一步，所述获取待识别语音信号的综合匹配失真值的步骤具体包括：

分别将各个待识别特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取各待识别特征参量的匹配失真值；

对各个待识别特征参量的匹配失真值进行加权，得到待识别语音信号的综合匹配失真值。

进一步，所述获取待识别语音信号的综合匹配路径偏差的步骤具体包括：

将特征模板中预置的语音信号变换成为预置数字语音信号采样帧序列；

将待识别的语音信号按照相同的采样间隔变换成为待识别数字语音信号采样帧序列；

将待识别数字语音信号采样帧序列中的各帧依次与预置数字语音信号采样帧序列中的相应帧进行各个特征参量匹配，得到各个特征参量匹配路径；

计算各个特征参量匹配路径每二者之间的路径偏差，获取综合匹配路径偏差。

优选的，所述最终比对误差是由所述综合匹配失真值及综合匹配路径偏差之间的乘积得到。

根据本发明的实施例，还公开了一种说话人识别的系统，所述系统包括：

取样模块，用于获取待识别说话人的语音信号；

提取特征模块，用于提取所述待识别的语音信号中包含的基音特征参量、倒谱特征参量及功率谱特征参量；

匹配模块，用于将将所述基音特征参量、倒谱特征参量及功率谱特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取待识别语音信号的综合匹配失真值及综合匹配路径偏差；

最终比对误差获取模块，用于根据所述综合匹配失真值及综合匹配路径偏差，获取待识别语音信号的最终比对误差。

优选的，其特征在于，所述待识别说话人的语音信号是说话人按照特征模板中预置文本内容发音的信号。

所述匹配模块进一步包括：

匹配失真子模块，用于根据各个待识别特征参量的匹配失真值，得到待识别语音信号的综合匹配失真值；

匹配路径偏差子模块，用于根据各个待识别特征参量的匹配路径，获取待识别语音信号的综合匹配路径偏差。

所述匹配失真子模块进一步包括：

用于分别将各个待识别特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取各待识别特征参量的匹配失真值的子单元；

用于对各个待识别特征参量的匹配失真值进行加权，得到待识别语音信号的综合匹配失真值的子单元。

所述匹配路径偏差子模块进一步包括：

用于将特征模板中预置的语音信号变换成为预置数字语音信号采样帧序列的子单元；

用于将待识别的语音信号按照相同的采样间隔变换成为待识别数字语音信号采样帧序列的子单元；

用于将待识别数字语音信号采样帧序列中的各帧依次与预置数字语音信号采样帧序列中的相应帧进行各个特征参量匹配，得到各个特征参量匹配路径的子单元；

用于计算各个特征参量匹配路径每二者之间的路径偏差，获取综合匹配路径偏差的子单元。

与现有技术相比，本发明具有以下优点：

本发明提出一种混合参数的高性能说话人识别系统，采用基音、功率谱和倒谱作为说话人识别系统的三个特征参量，这三种特征参量分别反映了说话人发音时的不同特征；同时，将三种特征有机的结合起来，根据三种特征的匹配路径进行待识别目标与特征模板的比对，通过综合判决来决定系统识别结果，这样，同现有技术中往往单独采用语音信号中一种或几种特征参量对说话人进行识别相比，大大提高系统的识别率，同时系统也更加稳定和可靠，不易模仿。

附图说明

图1是现有技术中说话人识别系统的结构框图；

图2是本发明一种说话人识别方法实施例的步骤流程图；

图3是特征参量匹配路径示意图；

图4是本发明一种说话人识别的系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面对于本发明涉及到的相关技术做一详细介绍。

利用模板匹配进行说话人的识别，首先要对语音进行训练并建立特征模板库，建立特征模板库包括建立识别基本单元的声学模型以及进行文法分析的语言模型；然后对采集说话人的语音信号进行特征提取，与模板库的特征进行比较，进行说话人的识别。

浊音的声带振动基频成为基音频率，是语音信号的重要参数之一。基音周期可以通过语音信号的短时自相关函数估计出来。自相关函数计算如下：

R_{x_{1} x_{1}} (m) = Σ_{n = 0}^{N - 1} x_{1} (n) x_{1} (n - m)

其中，x₁表示语音信号序列，N表示一帧信号长度(例如128个样本点)，m的取值范围为0～T_max，对于m在给定取值范围内的不同取值计算自相关值R_x1x1(m)，使得R_x1x1(m)最大的m值即为所求的基音周期T。

为了避免共振峰特性造成的干扰，一般让语音信号先通过一个LPC(LinearPredictive Coding，线性预测编码)逆滤波器，并通过求其残差信号的自相关函数来估计基音周期。采用LPC逆滤波的原因是，语音信号的浊音是由周期脉冲激励一个全极点系统(LPC逆滤波器)产生的，那么反过来，让语音信号经过这个逆系统(LPC逆滤波器)，就可以得到这个周期脉冲，即可准确得到基音周期。

倒谱特征是反映声道特性的重要参数，其定义如下：

如果

\hat{x} (n) = Z^{- 1} (\ln (Z (x (n))),

则称

是x(n)的倒谱，

由于对数声道频谱在对说话人语音的辨识过程中起关键作用，因此倒谱

是语音识别中一种重要的特征。本发明也将倒谱特征作为说话人识别中的一种特征参量。一般，可以通过LPC系数与倒谱的关系求出倒谱特征，具体表示如下：

\hat{h} (n) = Z^{- 1} [\ln {1 / \hat{A^{(P)} (Z)}}]

此外，功率谱特征是可以反映说话人的发音习惯的一种重要参数，并且这种特征不容易模仿。因而，本发明采用它，可以有效区分不同的说话人。

为了减小模板数量，提高算法效率，本发明并不对每条语音谱线的能量做模板，而是将整个语音频带等分为8个区域，为每个区域的能量创建一个模板，该区域的能量由包含在其内的所有谱线的能量平均得到。具体方法是：首先对一帧语音信号进行FFT(Fast Fourier Transform，快速傅里叶变换)变换，变换到频域，然后计算每条谱线的能量，然后按照区域平均，获得8个区域的能量，将每个区域所有帧的能量组成的序列作为该区域的特征序列，整个频带，即8个区域的特征序列可以组成一个特征矩阵，作为我们需要的功率谱特征。

本发明采用基音、功率谱和倒谱作为识别说话人识别的三个特征参量的原因在于：

第一，这些特征易于从语音信号中提取，不易被模仿，能够有效区分不同说话人，并且能够在同一说话人的话音发生变化时相对保持稳定；

第二，基音反映了说话人声源特性，倒谱反映了说话人声道特性，而功率谱的变化轨迹反映了说话人的发音习惯；可见，这三种特征参量反映了说话人发音时的不同特征，并不冗余，却又相得益彰；

第三，在进行基音和倒谱特征的计算时，都需要用到LPC分析，因此可以共用该算法，减小了算法复杂度。

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图2，示出了本发明一种说话人识别方法实施例，该实施例具体可以包括以下步骤：

步骤201、获取待识别说话人的语音信号；

步骤202、提取所述语音信号中的基音特征参量、倒谱特征参量及功率谱特征参量；

步骤203、将所述基音特征参量、倒谱特征参量及功率谱特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取待识别语音信号的综合匹配失真值及综合匹配路径偏差；

步骤204、根据所述综合匹配失真值及综合匹配路径偏差，获取待识别语音信号的最终比对误差；

步骤205、如果所述最终比对误差低于预设综合匹配对比阈值，则确认该说话人。

其中，所述待识别说话人的语音信号是说话人按照特征模板中预置文本内容发音的信号。

对于本发明，所述获取待识别语音信号的综合匹配失真值的步骤具体可以包括：

本发明中，假设采用的三种特征参量中基音特征的匹配失真为E_p，倒谱特征的匹配失真为E_c，功率谱特征的匹配失真为E_s，则综合匹配失真E_all可以通过加权得到，

E_all＝αE_p+βE_c+γE_s，其中，α+β+γ＝1

需要说明的是，上面得到的综合匹配失真E_all只是将三种特征参量各自得匹配失真加权平均的结果。三种特征间并没有建立有机的联系。对于一个正确的匹配，三种特征的匹配路径应该基本一致；而一个错误的匹配，有时，可能会在某个或者某几个特征上匹配失真较小。但是三种特征的匹配路径很难达到一致。因此，可以利用对比三种特征的匹配路径，来提高综合判决的可信度。

由此，本发明针对获取待识别语音信号的综合匹配路径偏差，提出了一种优选方案，具体包括以下步骤：

下面对该方案进行详细介绍。在取得了模板特征和待识别特征后，需要进行特征匹配，即相似度比较，来确定匹配结果。相似程度可以采用使模板特征和待识别特征两者均方距离最小的原则，由于语音中各个段落在不同情况下的持续时间会产生或长或短的变化，因此识别不可能是最佳的。为了达到最佳识别效果，可以采用DTW(Dynamic Time Warping，动态时间规整)算法，DTW算法是把时间规整和距离测度计算结合起来的一种非线性规整技术，DTW算法的质量就是运用动态规划的思想，利用局部最佳化的处理来自动寻找一条路径，两个特征矢量之间的积累失真量最小，从而避免由于时长不同而可能引入的误差。

无论在训练和建立模板阶段还是在识别阶段，都先采用端点算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板，一个参考模板可表示为R＝{R(1)，R(2)，......，R(m)，......，R(M)}，m为训练语音帧的时序标号，m＝1为起点语音帧，m＝M为终点语音帧，因此M为该参考模板所包含的语音帧总数，R(m)为第m帧的语音特征矢量。所要识别的一个输入语音称为测试模板，可表示为T＝{T(1)，T(2)，......，T(n)，......，T(N)}，n为测试语音帧的时序标号，n＝1为起点语音帧，n＝N为终点语音帧，因此N为该测试模板所包含的语音帧总数，T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量(如LPC系数)、相同的帧长、相同的窗函数和相同的帧移。

假设测试和参考模板分别用T和R表示，为了比较它们之间的相似度，可以计算它们之间的距离D[T，R]，距离越小则相似度越高。为了计算这一失真距离，应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号，d[T(n)，R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量，在DTW算法中通常采用欧氏距离。

若N＝M则可以直接计算，否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法，如果N<M可以将T线性映射为一个M帧的序列，再计算它与{R(1)，R(2)，......，R(M)}之间的距离。但是这样的计算没有考虑到语音信号中各个段在不同情况下的持续时间会产生或长或短的变化，因此识别效果不可能最佳。为了达到最佳的识别效果，更多采用的是动态规划的方法。

如果把测试模板的各个帧号n＝1～N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m＝1～M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络，网络中的每一个交叉点(n，m)表示测试模式中某一帧的交汇点。DTW算法可以归结为寻找一条通过此网络中若干交叉点的路径，路径通过的格点即为测试和参考模板中进行失真计算的帧号。路径不是随意选择的，首先任何一种语音的发音快慢都有可能变化，但是其各部分的先后次序不可能改变，因此所选的路径必定是从左下角出发，在右上角结束。

如图3所示，首先，将预置数字语音信号各采样帧帧号m及待识别数字语音信号采样帧序列中的各帧号n，分别在一个二维直角坐标系中的纵坐标及横轴上标出，网格中每一个交点(n，m)表示测试模式中某一帧与训练模式某一帧的交汇点。显然，从坐标系左下角到右上角的若干路经中，累计失真最小的路径就是最佳路径。这样，得到了匹配三种特征参量的最优比对路径，分别记做Rp[N]，Rc[N]和Rs[N]，其中N表示测试信号的特征长度。例如Rc[N]表示一个数组，Rc[i]表示待识别信号与模板的倒谱特征的比对路径，显然，i的取值为0～N-1，Rc[i]的取值为0～M-1。令D(X1，X2)表示两个向量的距离，则：

D (x_{1}, x_{2}) = \sqrt{\frac{Σ_{i = 0}^{i = N - 1} {(x_{1} [i] - x_{2} [i])}^{2}}{N}}

因此，可以计算出三个特征参量中每二者之间的比对路径偏差，分别记为D(Rp，Rc)，D(Rp，Rs)，D(Rc，Rs)，则综合匹配路径的偏差为：

E_route＝D(Rp，Rc)+D(Rp，Rs)+D(Rc，Rs)

最后，可以将所述综合匹配失真值及综合匹配路径偏差之间的乘积作为最终比对误差，即：

E_final＝E_allE_route

说话人识别可以分为说话人辨识和说话人确认两个范畴。前者是把未标记的语句判定为属于N个参考说话人之中的某一个所说，后者则是根据说话人的语句确认是否与其所声言的参考说话人相符，这种确认只有两种可能，或是肯定(即得到确认)，或是否定(拒绝承认)。

因此，对于说话人辨识系统，使E_final最小的模板对应的身份就是识别的对象；对于说话人确认系统，如果E_final小于设定的综合匹配失真的阈值，则承认确认。

参照图4，示出了本发明一种说话人识别的系统实施例的结构框图，所述系统具体包括：

取样模块401，用于获取待识别说话人的语音信号；

提取特征模块402，用于提取所述待识别的语音信号中包含的基音特征参量、倒谱特征参量及功率谱特征参量；

匹配模块403，用于将将所述基音特征参量、倒谱特征参量及功率谱特征参量与特征模板中预置的相应语音信号的特征参量分别进行匹配，获取待识别语音信号的综合匹配失真值及综合匹配路径偏差；

最终比对误差获取模块404，用于根据所述综合匹配失真值及综合匹配路径偏差，获取待识别语音信号的最终比对误差。

其中，所述匹配模块进一步可以包括：

所述匹配失真子模块进一步包括：

所述匹配路径偏差子模块进一步包括：

对于系统实施例而言，由于其基本相应于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种说话人识别方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种说话人识别的方法，其特征在于，所述方法包括以下步骤：

获取待识别说话人的语音信号；

2、根据权利要求1所述的方法，其特征在于，所述待识别说话人的语音信号是说话人按照特征模板中预置文本内容发音的信号。

3、根据权利要求1所述的方法，其特征在于，所述获取待识别语音信号的综合匹配失真值的步骤具体包括：

4、根据权利要求1所述的方法，其特征在于，所述获取待识别语音信号的综合匹配路径偏差的步骤具体包括：

5、根据权利要求1所述的方法，其特征在于，所述最终比对误差是由所述综合匹配失真值及综合匹配路径偏差之间的乘积得到。

6、一种说话人识别的系统，其特征在于，所述系统包括：

取样模块，用于获取待识别说话人的语音信号；

7、根据权利要求6所述的系统，其特征在于，所述待识别说话人的语音信号是说话人按照特征模板中预置文本内容发音的信号。

8、根据权利要求6所述的系统，其特征在于，所述匹配模块进一步包括：

9、根据权利要求8所述的系统，其特征在于，所述匹配失真子模块进一步包括：

10、根据权利要求8所述的系统，其特征在于，所述匹配路径偏差子模块进一步包括：

11、根据权利要求6所述的系统，其特征在于，所述最终比对误差是由所述综合匹配失真值及综合匹配路径偏差之间的乘积得到。