CN101051463A

CN101051463A - 说话人认证的验证方法及装置

Info

Publication number: CN101051463A
Application number: CNA2006100731426A
Authority: CN
Inventors: 栾剑; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-06
Filing date: 2006-04-06
Publication date: 2007-10-10
Anticipated expiration: 2026-04-06
Also published as: CN101051463B; JP2007279742A; US20070239449A1; US7809561B2

Abstract

本发明提供了说话人认证的验证方法和装置以及说话人认证系统。本发明的说话人认证的验证方法包括：输入说话人说出的包含密码的语音；从上述输入的语音提取声学特征向量序列；对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

Description

说话人认证的验证方法及装置

技术领域

本发明涉及信息处理技术，具体地涉及说话人认证(speakerauthentification)的技术。

背景技术

利用每个人说话时的发音特点可以识别出不同的说话人，从而可以进行说话人的认证。在K.Yu，J.Mason，J.Oglesby发表的文章“Speakerrecognition using hidden Markov models，dynamic time warping andvector quantisation”(Vision，Image and Signal Processing，IEEProceedings，Vol.142，Oct.1995，pp.313-18)中介绍了常见的三种说话人识别引擎技术：HMM(Hidden Markov Model，隐马尔可夫模型)，DTW(Dynamic Timing Warping，动态时间规整)和VQ(Vector Quantization，矢量量化)。

通常，一个说话人认证系统包括注册(enrollment)和验证(verification)两个部分。在注册阶段，根据说话人(用户)本人说出的包含密码的语音，生成该说话人的说话人模板；在验证阶段，根据说话人模板判断测试语音是否为该说话人本人说出的相同密码的语音。具体地，在验证过程中通常应用DTW算法对测试语音的声学特征向量序列与说话人模板进行DTW匹配，从而得到匹配得分，并将匹配得分与在测试阶段得到的分辨阈值进行比较，来判断测试语音是否为该说话人本人说出的相同密码的语音。在DTW中，计算测试语音的声学特征向量序列和说话人模板的全局匹配得分的方法通常是直接沿着最优的匹配路径将所有节点距离相加求和。然而，由于匹配错误在用户测试的时候常常会出现一些较大的节点距离。这给区分用户和冒充者带来了困难。

在X.Wen and R.Liu发表的文章“Enhancing the stability of speakerverification with compressed templates”，ISCSLP2002，pp.111-114(2002)中提出了一个基于帧级验证的说话人验证系统。在P.Mills，J.Bowles发表的文章“Fuzzy logic enhanced symmetric dynamic programming forspeech recognition”，Fuzzy Systems，Proceedings of the Fifth IEEEInternational Conference on，Vol.3，pp.2013-2019(1996)中则描述了一个基于模糊逻辑的语音识别系统。这两种方法的本质都是在DTW算法的节点距离上做了一种变换。然而，这两种变换都对参数非常敏感，只有为每个模板都设置合适的参数才能取得较好的效果。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了说话人认证的验证方法和装置以及说话人认证系统。

根据本发明的一个方面，提供了一种说话人认证的验证方法，包括：输入说话人说出的包含密码的语音；从上述输入的语音提取声学特征向量序列；对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括：语音输入单元(utterance input unit)，用于输入说话人说出的包含密码语音；声学特征向量序列提取单元(acoustic feature vector sequenceextractor)，用于从上述输入的语音提取声学特征向量序列；DTW匹配单元(DTW-matching unit)，用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；节点距离计算单元(localdistance calculator)，用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；节点距离非线性变换单元(local distancenonlinear-transform unit)，用于对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；匹配得分计算单元(matching score calculator)，用于根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及比较单元(compare unit)，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

根据本发明的另一个方面，提供了一种说话人认证系统，包括：前面所述的说话人认证的验证装置。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的说话人认证的验证方法的流程图；

图2示出了输入样本和参考模板的DTW匹配实例；

图3示出了非线性变换曲线的一个实例；

图4是根据本发明一个实施例的说话人认证的验证装置的方框图；以及

图5是根据本发明一个实施例的说话人认证系统的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明一个实施例的说话人认证的验证方法的流程图。下面就结合该图，对本实施例进行描述。

如图1所示，首先在步骤101，由进行验证的用户输入包含密码的语音。其中，密码是用户在注册阶段设定的用于验证的特定短语或发音序列。

接着，在步骤105，从输入的语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制，可以采用例如，MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒频谱参数)、LPCC(Linear Prediction Cepstrum Coefficient，线性预测倒谱参数)或者其它基于能量、基音频率或小波分析等得到的各种系数等，只要是能够表现说话人的个人语音特点即可；但是，应当与在注册阶段用于表示声学特征的方式相对应。

接着，在步骤110，对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配，获得最优匹配路径。具体地，图2示出了输入样本和参考模板的DTW匹配实例。如图2所示，横轴为说话人模板的帧节点，纵轴为输入语音的帧节点。在进行DTW匹配时，计算说话人模板的一个帧节点与对应的输入语音的帧节点和其相邻的帧节点之间的节点距离，选择节点距离最小的输入语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤，找出与说话人模板的每个帧节点相对应的输入语音的帧节点，从而获得最优匹配路径。

本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板，其中至少包含与密码语音对应的声学特征和分辨阈值。在此，对说话人认证的注册过程进行简要描述。首先，输入说话人说出的包含密码的语音。接着，从输入的密码语音提取声学特征。然后，生成说话人模板。为了提高说话人模板的质量，可以采用多个训练语音来构建一个说话人模板。首先选定一个训练语音作为初始模板，然后用DTW的方法将第二个训练语音与之时间对齐，并用两段语音中相对应的特征向量的平均来生成一个新的模板，然后再将第三个训练语音与新模板时间对齐，如此循环直到所有的训练语音都结合到一个独立的模板中，即所谓的模板合并。详细内容可以参考W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003，pp.1576-1579)。

此外，在说话人认证的注册过程中，说话人模板中包含的分辨阈值可以如下确定。首先，通过采集大量说话人和他人对同一密码发音的语音数据，分别与训练出的说话人模板进行DTW匹配，得到说话人和他人的匹配得分分布。然后，至少可以通过以下三种方法来估计该说话人模板的分辨阈值：

a)将两条分布曲线的交叉点，即，错误接受率(FAR，False Accept Rate)和错误拒绝率(FRR，False Reject Rate)的和最小处的值作为阈值；

b)将等误识率(EER，Equal Error Rate)对应的值作为阈值；或者

c)将错误接受率在某个值(如0.1％)时对应的值作为阈值。

返回到图1，接着，在步骤115，计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离。也就是说，计算在图2的最优匹配路径中输入语音与说话人模板的对应的各个帧节点之间的节点距离。

然后，在步骤120，对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重。在本实施例中，利用函数：S＝exp(-d/para)进行非线性变换，该函数的曲线如图3所示。在图3中，横轴为节点距离d，纵轴为函数值S。在本实施例的非线性变换公式中，d是节点距离，para为该变换的一个参数，可以调整该函数曲线的形状。

在具体实现中，这个参数para可以是不依赖于模板，即一个定值；也可以依赖于模板，即每个模板对应一个固定的参数值，例如将模板的分辨阈值作为参数值；或者可以是既依赖于模板也依赖于帧(节点)，即每个模板的每一帧都有一个独立的参数值。

依赖于模板的参数可以通过上述计算说话人模板的分辨阈值的方法获得。

依赖于帧的参数可以通过与上述计算说话人模板的分辨阈值同样的方法获得，只是分别对每帧进行独立统计。具体地，通过采集大量说话人和他人对同一密码发音的语音数据，分别与训练出的说话人模板进行DTW匹配，得到说话人和他人的每个帧节点距离的分布。然后，至少可以通过以下三种方法来估计依赖于每个帧的参数：

a)将每个帧对应的说话人和他人的两条分布曲线的交叉点，即，错误接受率(FAR，False Accept Rate)和错误拒绝率(FRR，False Reject Rate)的和最小处的值作为参数；

b)将等误识率(EER，Equal Error Rate)对应的值作为参数；或者

c)将错误接受率在某个值(如0.1％)时对应的值作为参数。

当然，参数也可以根据不同的非线性变换函数作适当的调整，如加上一个常数4，即S＝exp(-d/(para+4))，以期得到最佳的性能。

此外，本发明的非线性变换并不限于S＝exp(-d/para)，所有三阶导函数在(0，∞)区间内为负值的函数都可以达到上文提及的“对较小的节点距离给予较大的权重”的目的。例如S＝ln(d/para)，S＝arctan(d/para)，S＝para/d以及它们的嵌套组合如S＝arctan(exp(-d/para))或者基于它们的扩展如S＝pow(exp(-d/para)，2)。

然后，在步骤125，根据上述非线性变换后的各个节点距离，计算DTW匹配得分。具体地，可以通过累加非线性变换后的各个节点距离来获得匹配得分。

接着，在步骤130，判断上述DTW匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是，则在步骤135认定是同一说话人说出的相同的密码，验证成功；如果否，则在步骤140认定验证失败。

通过以上描述可知，如果采用本实施例的说话人认证的验证方法，通过非线性变换可以在计算整体匹配距离时着重强调较小的节点距离，所以它对参数不敏感。即使对所有的模板使用一个固定的参数，这个变换仍然是有效的。另外，如果使用了依赖于模板的参数，该变换具有比上述的两个方法更好的性能。不仅如此，还可以使用依赖于帧的参数，通过使用这种依赖于帧的参数，系统性能可以得到进一步提高。

在同一发明构思下，图4是根据本发明一个实施例的说话人认证的验证装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图2所示，本实施例的说话人认证的验证装置200包括：语音输入单元(utterance input unit)201，用于输入说话人说出的包含密码语音；声学特征向量序列提取单元(acoustic feature vector sequence extractor)202，用于从上述输入的语音提取声学特征向量序列；DTW匹配单元(DTW-matching unit)203，用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；节点距离计算单元(localdistance calculator)204，用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；节点距离非线性变换单元(local distancenonlinear-transform unit)205，用于对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；匹配得分计算单元(matching score calculator)206，用于根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及比较单元(compare unit)207，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

在本实施例中，上述说话人模板是利用说话人认证的注册方法生成的说话人模板，包含说话人在注册过程中使用的密码语音的声学特征以及分辨阈值。本实施例的说话人认证的验证装置200被设计为在比较单元207进行比较，如果由匹配得分计算单元206计算出的DTW匹配得分小于预先定义的分辨阈值，则判断输入的语音是上述注册说话人说出的包含密码的语音，否则，判断为验证失败。

本实施例的说话人认证的验证装置200及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的说话人认证的验证装置200，操作上可以实现前面结合图1描述的实施例的说话人认证的验证方法。

在同一发明构思下，图5是根据本发明一个实施例的说话人认证系统的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，本实施例的说话人认证系统包括：注册装置300，其可以为说话人认证的注册装置300；以及验证装置200，其可以为前面实施例描述的说话人认证的验证装置200。由注册装置300生成的说话人模板通过任意的通信方式，例如，网络、内部信道、磁盘等记录媒体等，传递给验证装置200。

这样，如果采用本实施例的说话人认证系统，经变换后求得的匹配得分将比传统方法更具有分辨力，从而显著提供系统的性能。此外，如果使用依赖于帧的参数将比以往仅仅依赖于模板的参数获得更好的性能。

以上虽然通过一些示例性的实施例对本发明的说话人认证的验证方法和装置以及说话人认证系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种说话人认证的验证方法，包括：

输入说话人说出的包含密码的语音；

从上述输入的语音提取声学特征向量序列；

对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；

计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；

对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；

根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及

比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

2.根据权利要求1所述的说话人认证的验证方法，其中，通过三阶导数在(0，∞)区间内为负值的函数进行非线性变换。

3.根据权利要求2所述的说话人认证的验证方法，其中，所述函数包括选自如下的一种：exp(-d/para)、ln(d/para)、arctan(d/para)、d/para以及它们的组合，其中d为节点距离，para为参数。

4.根据权利要求3所述的说话人认证的验证方法，其中，所述参数是常数。

5.根据权利要求3所述的说话人认证的验证方法，其中，所述参数是依赖于上述说话人模板的参数。

6.根据权利要求5所述的说话人认证的验证方法，其中，所述依赖于上述说话人模板的参数是所述分辨阈值。

7.根据权利要求3所述的说话人认证的验证方法，其中，所述参数是依赖于帧的参数。

8.根据权利要求7所述的说话人认证的验证方法，其中，通过在注册过程中对每个帧距离独立进行统计获得所述依赖于帧的参数。

9.一种说话人认证的验证装置，包括：

语音输入单元(utterance input unit)，用于输入说话人说出的包含密码语音；

声学特征向量序列提取单元(acoustic feature vector sequenceextractor)，用于从上述输入的语音提取声学特征向量序列；

DTW匹配单元(DTW-matching unit)，用于对上述提取出的声学特征向量序列与注册说话人注册的说话人模板进行DTW匹配；

节点距离计算单元(local distance calculator)，用于计算DTW匹配后的声学特征向量序列与说话人模板之间的各个节点距离；

节点距离非线性变换单元(local distance nonlinear-transform unit)，用于对上述计算所得的各个节点距离进行非线性变换，以使对较小的节点距离给予较大的权重；

匹配得分计算单元(matching score calculator)，用于根据上述非线性变换后的各个节点距离，计算DTW匹配得分；以及

比较单元(compare unit)，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的语音是否为上述注册说话人说出的包含密码的语音。

10.一种说话人认证系统，包括：

根据权利要求9所述的说话人认证的验证装置。