CN1197526A

CN1197526A - 说话者验证系统

Info

Publication number: CN1197526A
Application number: CN96194550A
Authority: CN
Inventors: R·J·曼蒙; 凯文·法雷尔; 马尼什·夏尔马; 奈克·德旺; 张晓宇; 哈立德·阿萨雷; 刘汉生
Original assignee: Rutgers State University of New Jersey
Current assignee: Rutgers State University of New Jersey
Priority date: 1995-06-07
Filing date: 1996-06-06
Publication date: 1998-10-28
Also published as: TR199701555T1; DE69636057D1; FI974339A; US5839103A; JPH11507443A; AU711496B2; EP0870300B1; NO975475D0; EP0870300A1; IL122354A; IL122354A0; WO1996041334A1; NO975475L; NO321125B1; CA2221415A1; KR19990022391A; RU2161336C2; DE69636057T2; ATE323934T1; FI117954B

Abstract

本发明涉及一种模式识别系统(图1),它使用数据组合,从而把来自多个提取特征(60、61、62)的数据与多个分类器(70、71、72)组合起来。利用以判别式为基础和以失真为基础的分类器,可准确地验证说话者的模式。可使用一种利用一组“留下一个”的训练数据的新方案,从而以减少的数据组对系统进行训练(图7A、7B、7C)。可使用减小信道效应的极点滤波方法(图11B)以及改善训练和测试数据之间相关性的仿射变换(图14)来改善提取的特征。

Description

说话者验证系统

技术领域

本发明涉及一种模式识别系统，尤其是一种说话者(speaker)验证系统，该系统为了准确地验证所要求的个性，利用数据组合方法把来自多个提取特征和多个分类器的数据相混合。

背景技术

模式识别涉及对模式诸如话音、说话者或图像进行识别。为了从发音中确定存在哪一个说话者，可把识别的说话者模式用于说话者识别系统中。

说话者验证系统的目的是从发音中验证说话者所要求的个性。说话者验证系统的口头输入可以与文本有关或与文本无关。与文本有关的说话者验证系统在验证预定短语或口令的发音后识别说话者。与文本无关的说话者验证系统识别说话者时不管发音如何。从用户的观点来看，常规的与文本无关的系统更方便，因为它们不需要口令。

如名为“说话者识别验证系统”的08/203,988号审查中美国专利申请(该申请已转让给本发明的受让人并在本申请中引用)所述，已利用其中使用在每个话音帧处加权的自适应分量的调制模型，从说话者信息中提取特征。自适应分量加权方法减弱了非元音区域分量，并对提高某个信道上说话者识别的话音分量归一化。

另一种常规的特征提取方法包括从频谱或从线性预报中得到的频谱编码系数中确定倒频谱系数。已使用与说话者无关的数据联用的神经树形网络(NTN)来确定以判别式为基础的说话者间的参数。NTN是一个分层的分类器，该分类器组合了IEEE Transactions on Computers，C-42：221-229，March 1993中A.Sankar和R.J.Mammone在“神经树形网络的发展和删节”中所述的判断树形网络和神经网络的特性。为了进行说话者识别，由所需说话者的数据和来自其它说话者的数据来构成NTN的训练数据。NTN把特征空间分成若干具有给定几率的区域，这些几率反映了说话者将如何产生落在说话者区域内的特征矢量。与文本无关的系统的缺点是需要大量数据来模拟和估计说话者的声学特征。

第4,957,961号美国专利描述了一种神经网络，它能容易被训练成对连接的字进行可靠的识别。使用一种动态编程技术，其中输入层的输入神经细胞单元被分组成为多层神经网络。为了识别输入模式，把每个特征矢量的矢量分量提供给从三个连续编号的输入层帧中选中的输入层中一个输入层的各个输入神经细胞单元，中间层把至少两个输入层帧的输入神经细胞单元连接起来。输出神经细胞单元连到中间层。调节单元连到中间层，用于调节输入-中间和中间-输出的连接，以使输出单元产生一输出信号。当调节单元把输出信号调节到最大值时，神经网络把输入模式作为预定模式予以识别。每个话音模式使用大约四十次训练，对动态神经网络进行训练。

已发现，使用与文本有关的说话者的发音，可减少训练和测试验证系统所需的数据量。有一种与文本有关的常规说话者验证系统使用动态时间偏移(DTW)技术，根据失真对特征鉴别进行时间校准，见IEEE Transactions on Acoustics，Speech，and Signal Processing，ASSP-29：254-272，April 1981中S.Furui的“自动说话者验证的倒频谱分析技术”一文。在测试期间，从一个口令的几个发音中产生基准模板。由说话者的发音失真是否降到低于预定的阈值来判断接受或拒绝说话者所要求的个性。该系统的缺点是精度不高。

如J.J.Naik，L.P.Netsch和G.R.Doddington在Proceedings ICASSP(1989)中的“在长距离电话线上进行说话者验证”一文所述，与DTW系统相比，另一种使用隐性(Hidden)Markov模型(HMM)的技术在性能上有所改进。在与文本有关的说话者验证中已使用几种形式的HMM。例如，对于说话者验证，已考虑使用A.E.Rosenberg，C.H.Lee和F.K.Soong在Proceedings ICASSP，pages 269-272(1990)的“使用隐性Markov模型的子字单元说话者验证”中所述的子字模型以及A.E.Rosenberg，C.H.Lee和S.Gokeen在Proceedings ICASSP，pages 381384(1991)的“使用全字隐性Markov模型的连接字说语者识别”中所述的全字模型。HMM技术的局限性在于，它一般需要足够多的大量数据来估计模型参数。DTW和HMM系统的一个通病是它们只模拟说话者，而不考虑用该系统模拟其它说话者的数据。由于不能进行判别式训练，所以更容易使冒名顶替者侵入这些系统。

最好提供一种能提高模式识别精度的模式识别系统，其中，可在多个预定的分类器中组合多个提取的特征。

发明内容

概括地说，本发明包括一种模式识别系统，该系统在多个分类器中组合了多个提取的特征，所述分类器包括以不同的训练数据和重叠训练基层进行训练(例如下述的“留下一个”的技术)的分类器。此模式识别系统最好用于从说话者发出的话音中提取特征的说话者验证。使用多个分类器对提取的特征进行分类。组合分类输出，以识别说话者发出的话音与预先存储在说话者中的话音的相似性。根据组合的分类输出判定是否接受或拒绝该说话者。最好通过对发出的口令进行验证的动态时间偏移分类器与鉴别其它说话者的经修正的神经树形网络相结合，对话音进行分类。在说话者验证系统中使用判别式训练的分类器，优点是可以准确地把一个说话者从其它说话者中区分出来。

该系统也可包括根据对说话者发出的字(即，说话者的口令)进行字识别来初步确定是否接受或拒绝该说话者。如果说话者的口令被接受，则分类器被使能。最好把多个发音加到分类器而留下一个发音，从而对分类器进行训练。可把留下的发音加到该分类器，以确定0到1之间识别说话者的几率。可把这些几率与分类器的阈值相比较，以判定是否接受或拒绝该说话者。

说话者发出的文本可以与说话者相关或与说话者无关。提取的特征也可分成若干子字。子字最好是音素。可以至少用一个分类器来模拟每个子字。为了提供以子字为基础的验证系统，可组合以子字为基础的分类器的输出。

为了减少对话音的信道效应，最好用极点滤波方法来提取特征。此外，为了减少训练和测试环境之间的失配，可用仿射变换来调节提取的特征。

将参考附图对本发明进行更全面的描述。

附图概述

图1是依据本发明所述的说话者验证系统的示意图。

图2A是图1所示字识别模块在系统训练期间的示意图。

图2B是图1所示字识别模块在系统测试期间的示意图。

图3是一说话者验证模块的示意图，该模块组合了多个提取的特征和多个分类器。

图4是在图1所示说话者验证模块中所使用的经修正的神经树形网络和动态时间偏移分类器组合的示意图。

图5是在图1所示说话者验证模块中所使用的经修正的神经树形网络(MNTN)分类器的示意图。

图6是在图1所示说话者验证模块中所使用的动态时间偏移(DTW)分类器的示意图。

图7A是在说话者验证模块训练中所使用的多个发音的示意图。

图7B是图7A所示多个发音在说话者验证模块中应用的示意图。

图8是一个说话者和其它说话者的得分(score)图。

图9是以子字为基础的说话者验证系统的示意图。

图10A是以子字为基础的分类系统在训练期间的示意图。

图10B是以子字为基础的分类系统在测试期间的示意图。

图11A是已有技术的信道归一化系统的示意图。

图11B是本发明的信道归一化系统的示意图。

图12是极点滤波信道归一化的图。

图13A是一帧话音的频谱图。

图13B是本发明的归一化系统的一帧话音与已有技术归一化系统的一帧的频谱图。

图14是仿射变换系统的示意图。

本发明的较佳实施模式

在此描述中，用相同的的标号来识别示出本发明的不同图中的相同元件。

图1示出依据本发明所示的说话者验证系统10的一个实施例的示意图。说话者11发出话音12。把话音12作为话音输入信号13加到特征提取模块14。特征提取模块14确定代表话音输入信号13的特性参数的话音特征矢量15。最好以线性预报(LP)分析方法确定话音特征矢量15，以确定LP倒频谱系数。可通过用常规技术抬高的正弦窗对LP倒频谱系数进行带通提高，对倒频谱系数进行更好识别。

此外，特征提取模块14还可结合LP分析方法用多种方法来提取特征。例如，可使用上述08/203,988号美国专利中所述的自适应分量加权方法来提取话音特征矢量15。自适应分量加权技术通过对话音输入信号13的预定分量进行加权，从而产生提高信号的元音区域特征而减少非元音区域效果的归一化频谱来提取特征。特征提取模块14也可使用常规的方法，诸如对数面积比、线性频谱对和反射系数等方法从线性预报(LP)系数中产生其它线性预报得出的特征。特征提取模块14也可对线性和对数频率刻度、基频(峰值)、响度系数和过零速率产生快速Fourier变换(FFT)获得的频谱特征。

字识别模块20接收话音特征矢量15并把话音特征矢量15同与话音特征矢量15相关的数据16相比较。数据16可以存储在数据库50中。例如，说话者11可发出一口令当作话音12。话音特征矢量15代表说话者11的口令的发音。一组闭合的口令可以用数据16代表并存储在数据库50中。这组闭合的口令对应于一组说话者个性，包括说话者11的口令。在字识别模块20处，如果在字识别模块20处接收到的话音特征矢量15与存储在数据库50中的数据16匹配，例如与所要求个性的口令匹配，则说话者验证模块30被使能。如果接收到的话音特征矢量15与存储在数据库50中的数据16不匹配，例如存储在数据库50中的口令与所要求的个性不匹配，则在模块21中提醒用户11再次呼叫。

说话者验证模块30最好使用数据组合方法，以把多个分类器与话音特征矢量15相混合，以下将详细描述该技术。在判定组合逻辑模块40处接收到说话者验证模块30的组合分类器输出35。判定组合逻辑模块40最终判定否接受或拒绝所要求的说话者11的个性，从而验证所要求的说话者个性。

图2A和2B分别示出说话者11登记和说话者11测试期间的字识别模块20。在说话者验证系统10的说话者11登记期间，由说话者11发出训练话音22。例如，训练话音22可包括重复四次说话者11的口令。由字匹配识别模块28来识别每次重复。在字匹配识别模块28中最好使用基于DTW的模板匹配算法，以产生识别字23。可把识别字23集结成与说话者有关的模板24。也可使用说话者验证系统10，以识别字23和其它说话者25发出的相同训练话音22的重复数据来产生与说话者无关的模板26。可使用字识别匹配模块28对识别字23的大多数选票来识别说话者11的用户口令27。

在说话者11测试期间，用户11发出话音12，在字识别匹配模块28中把话音12与说话者相关模板24和说话者无关模板26相比较。如果话音12代表说话者11的口令27且与说话者相关字模板24或说话者无关字模板26匹配，则把“接受”响应输出到线29。如果话音12与说话者相关字模板24或说话者无关字模板26都不匹配，则把“拒绝”响应输出到线29。

说话者验证模块30最好使用数据组合方法，从而如图3所示把多个提取的特征60、61和62与多个分类器70、71和72相混合。特征60、61和62可代表用上述多种预定提取方法而提取的话音特征矢量15。分类器70、71和72可代表多种预定分类方法，诸如神经树形网络(NTN)、多层感知(MLP)、隐性Markov模型(HMM)、动态时间偏移(DTW)、高斯混合模型(GMM)和矢量量化(QV)。在另一个实施例中，特征60、61和62可代表其它模式诸如话音或图像的提取特征，分类器70、71和72可代表话音或图像模式的预定分类方法。可在判定组合逻辑模块40中混合来自各个分类器70、71和72的输出73、74和75，从而最终判定是否接受或拒绝说话者11。判定组合模块40可使用常规的技术，例如线性意见库、对数意见库、Baysian混合法则；用投票方法或附加的分类器来把分类器70、71和72组合起来。很清楚可以把任意数目的特征或分类器组合起来。分类器也可包括以不同训练数据和重叠训练数据基层进行训练(例如下述的留下一个的技术)的分类器。

图4示出在本发明的说话者验证系统中所使用的较佳说话者验证模块30。话音特征矢量102被输入神经树形网络(NTN)分类器104、106、108和110以及动态时间偏移(DTW)分类器120、122、124和126。在分类期间，每个NTN分类器104、106、108和110以及126确定特征矢量102是否超过预定的各个阈值，即存储在数据库132中的NTN的“T_NTN”。每个DTW分类器120、122、124和126确定特征矢量102是否超过存储在数据库132中的DTW的各个预定阈值“T_DTW”。如果特征矢量102超过各个阈值T_NTN和T_DTW，则把二进制输出“1”分别输出到线240和线241。如果特征矢量102小于各个预定阈值T_NTN和T_DTW，则把二进制输出“0”分别输出到线240和线241。

在用说话者验证系统10对说话者11进行测试期间，判定模块40接收来自线240和241的二进制输出。在判定模块40的一个较佳实施例中，可取判定模块240中二进制输出的大多数选票来确定是否接受或拒绝说话者11。在此实施例中，如果大多数二进制输出为“1”，则接受该说话者，如果大多数二进制输出为“0”，则拒绝该说话者。

可把指定为经修正的神经树形网络(MNTN)200的较佳分类器用作说话者验证模块30中以判别式为基础的分类器。如图5所示，MNTN 200具有多个互连结点202。204和206。结点204耦合到叶结点208和叶结点210，结点206耦合到叶结点212和叶结点214。由于通过阻止MNTN 200的生长超过预定水平来进行树形的“前向修剪”，所以在每个叶结点208、210、212和214处进行几率测量。

通过使用说话者验证系统10应用来自其它说话者25的数据201，从而对说话者11训练MNTN 200。给标为“S_i”的对说话者11所提取的特征矢量15分配标志“1”，给使用说话者识别系统10所提取的其它说话者25的特征矢量分配标志“0”。把数据220、230、240和250分别加到所提取的特征矢量的叶结点208、210、212和214。对每个叶结点208、210、212和214投票。对每个叶结点208、210、212和214规定多数票的标志。把“置信度”定义为大多数的标志数与总标志数的比值。例如，给包括八个“0”特征的数据220分配标志“0”，和“1.0”的置信度。给包括六个“1”特征和四个“0”特征的数据230分配标志“1”和“0.6”的置信度。

可在说话者验证模块30中使用经训练的MNTN 200，以从来自话音12的一系列特征矢量“X”中确定相应的说话者得分。可由以下公式来确定相应的说话者得分P_MNTN(X/S_i)：

P_{MNTN} (X | S_{i}) = \frac{Σ_{j = l}^{M} c_{j}^{l}}{Σ_{j = 1}^{N} C_{j}^{0} + Σ_{j = 1}^{M} c_{j}^{1}}

这里，说话者11标为S_i，c¹是说话者11的置信度得分，C⁰是其它所有说话者的置信度得分。M和N分别对应于分类为“1”和“0”的矢量数目。

一个较佳的DTW分类器使用图6所示以失真为基础的方案对两个波形或两个特征模式进行时间校正。由X轴上话音特征矢量15的基准模式和Y轴上话音特征矢量15的测试模式来代表波形，其中N代表基准模式的数目，M代表测试模式的数目。包容的约束线270、271、272和273代表对动态时间偏移路径275的限制。可通过常规方法来确定动态时间偏移路径275，这些方法例如H.Sakoe和S.Chiba在IEEE Trans.on Acoustics，Speech and Signal Processing，vol.ASSP-26，no.1，pgs.43-49，Feb.1978的“口述字识别的动态编程算法优化技术”中所述的方法。

相对于其它说话者使用说话者验证系统10而言，最好把根据失真方法的分类器(即，提供与说话者有关的信息的DTW分类器)和根据判别式方法的分类器(提供与说话者有关的信息的NTN或MNTN分类器)组合起来。把DTW分类器与MNTN或NTN分类器组合起来的优点还在于，DTW分类器所提供的临时信息一般不是NTN或MNTN分类器的部分信息。

如图7A和7B所示，可以用训练模块300对NTN分类器104、106、108和110以及DTW分类器120、122、124和126进行训练。训练模块300也可用于对可在说话者验证模块30中使用的MNTN分类器、DTW分类器和其它分类器进行训练。最好在训练模块300中使用一种名为“留下一个”的重复采样技术。从说话者11接收到预定数目的训练话音的发音。在本实施例中，使用话音22(例如说话者的口令)定义为302、304、306和308的四个发音。把四个发音中三个发音的组合加到成对的NTN分类器104、106、108和110与DTW分类器120、122、124和126，而只留下一个发音。这三个发音用于训练这些分类器，而余下的一个发音用作单独测试的情况。例如，可把发音302、304和306加到NTN分类器104和DTW分类器120；可把发音304、306和308加到NTN分类器106和DTW分类器122；可把发音302、306和308加到NTN分类器108和DTW分类器124；以及可把发音302、304和308加到NTN分类器110和DTW分类器126。

在把各三个发音加到每对NTN分类器104、106、108和110与DTW分类器120、122、124和126后，如图7C所示，把留下的一个发音加到各对NTN分类器104、106、108和110与DTW分类器120、122、124和126。例如，把发音308加到NTN分类器104和DTW分类器120，把发音302加到NTN 106和DTW 122，把发音304加到NTN 108和DTW 124，以及把发音306加到NTN110和DTW 126。计算指定为310、312、314和316 0到1之间的几率P。在判定组合逻辑模块40的投票模块321中，把几率310、312、314和316与阈值T_DTW相比较，并把几率317、318、319和320与阈值T_NTN相比较。

图8是其它说话者25的说话者间得分以及说话者11的说话者间得分图，这些得分可用于确定说话者验证系统10中所使用的分类器的阈值，诸如阈值T_DTW和T_NTN。由具有平均说话者得分351的图形350来表示说话者11对话音12的说话者间得分。由具有平均说话者得分361的图形360来表示其它说话者25对话音12的说话者间得分。可从以下公式来确定阈值T：

T＝x^*说话者间+y^*说话者间

可通过话音12比阈值T大或小的数量来确定软(soft)得分S。每个分类器的得分C在零和1之间，其中零是最确信的拒绝，1是最确信的接受。在阈值T和1之间的接受置信度C_接受可从以下公式来定义：在0到阈值T之间的拒绝置信度C_拒绝可定义为：

图9示出以子字为基础的说话者验证系统400的示意图。在特征提取模块14中提取话音特征矢量15后，在子字分割模块402中把话音特征矢量15分割成子字404。子字404最好是音素。可把子字404加到训练说话者模块406和测试说话者模块408。

图10A是基于子字的说话者验证系统400在应用训练说话者模块406期间的示意图。把表示说话者11训练发音的说话者提取特征15以及口令拷贝410加到子字音素级分割模块402。口令拷贝410可由说话者11发出、通过计算机输入或通过卡片扫描，或者可以类似的模式产生。话音分割模块402把说话者提取特征15分割成子字1到M，例如，模块420中的子字“1”，模块422中的子字“m”，以及模块424中的子字“M”，其中M是所分割的子字数目。子字420、422和424可存储在在数据库425中。受监控的学习矢量标注系统430把用于训练话音矢量的标志确定为训练分类器440、442和444用的“0”或“1”。例如，其它说话者25的所有子字可以标注为“0”，说话者15的子字可以标注为“1”。此外，可在数据库425中搜索到最近似的音素。为了对每个子字进行分类，把子字分类器440、442和444加到各个子字420、422和424。子字分类器440、442和444最好使用NTN和MNTN分类方法。

图10B是以子字为基础的说话者验证系统400在应用测试说话者模块408期间的示意图。把表示说话者11测试发音的说话者提取特征15与口令拷贝410一起加到子字音素级分割模块402。子字分类器440、442和444对从表示说话者11测试发音的提取说话者特征15中确定的各个子字420、422和424进行分类。把来自分类器440、442和444的输出445加到判定组合逻辑模块40，以根据上述从分类器440、442和444的组合输出而计得的接受置信度C_接受来确定是否接受或拒绝说话者11。

为了产生对信道差是固定的话音特征矢量15，可在特征提取模块14中使用名为“极点滤波”的较佳方法。极点滤波使用所有极点线性预报(LP)滤波器的智能滤波对信道进行归一化。

如果净话音C_s用脉冲响应为h的信道卷积，则原始倒频谱平均的信道倒频谱可表示为

C_{s} = Σ_{m = 1}^{M} S_{m} + h,

这里

S_{s} = Σ_{m = 1}^{M} S_{m}

相应于只因以下净话音所引起的平均倒频谱分量。为了使信道匹倒频谱估计值C_s相应于以下实际卷积失真的倒频谱估计值h，净话音引起的分量平均应为零。

根据经验，对于短的发音，净话音所引起的平均倒频谱分量不再为零，对于说话者验证系统10的训练和测试也是同样的情况。

图11A中示出已有技术的信道归一化系统500，其中话音被加到帧内加权模块502。自适应分量加权(ACW)是为信道归一化而进行帧内加权的一个例子。为了除去附加的信道效应，帧内处理模块506处接收到被加权的话音504。一种除去信道效应的常规帧内方法是应用倒频谱平均相减(CMS)。由于信道倒频谱包括信道所引起的大量倒频谱分布以及话音，所以从每个话音帧的倒频谱中消去失真的信道倒频谱估计值的常规方法相当于对不可靠的信道估计值进行解卷积(deconvolve)。

图11B示出本发明的信道归一化系统600。话音12被加到信道估计值极点滤波模块602。极点滤波削弱了话音S_s所引起的不变分量的作用。经整理的信道估计值用于对信道进行归一化。最好以迭代法对信道的倒频谱进行整理。

信道倒频谱的估计值c_s依赖于发音中有效的话音帧的数目。在有效的话音发音足够长的情况下，可得到一个接近于实际信道估计值h的信道倒频谱估计值。在大多数的实际情况下，训练或测试用的发音的持续时间不会长到足以允许S_s→0。通过确定极点在话音帧中的占有率及其对信道倒频谱估计值的作用，可提高倒频谱的平均估计值。

通过把平均倒频谱转换成线性预报系数并研究相应复数共轭极点对的占有率，来确定元音区域的每种模式对平均倒频谱的作用。对于话音的一个帧，如果频谱分量相应于最靠近单位圆周复数共轭极点对(最小带宽)，则频谱分量的占有率最大，如果频谱分量相应于离单位圆周最远的复数共轭极点对(最大带宽)，则频谱分量的占有率最小。

为了在倒频谱域中获得更平滑继而更准确的逆信道估计值，使话音的极点限制成对应于经修正的平均倒频谱，

{C_{S}}^{P &Integral;}

从而削弱与话音引起的不变分量有关的倒频谱偏置。经整理的平均倒频谱去除排除了话音引起的大量频谱分布分量，从而提供了一种改进的信道归一化方案。

把从信道极点滤波模块602确定的最佳信道估计值与解卷积模块730中的话音12相结合，以在时域内对它们进行解卷积而提供归一化话音735。可把常规的帧间耦合502和干扰处理506加到归一化话音735，以提供信道归一化话音特征矢量740。可用与图1所示话音特征矢量15相同的模式来利用话音特征矢量740。改善信道估计值的一个较佳方法使用经极点滤波的倒频谱系数PFCC，其中如图12所示，提高窄频带极点的带宽，而其频率保持不变。把极点801、802、803、804、805、806移动到经修正的极点811、812、813、814、815和816。此效果相当于沿相同的半径移动单位圆周内的窄频带极点，从而使频率保持恒定而扩大带宽。

与话音特征矢量15同步，确定话音的极点滤波倒频谱系数PFCC。通过分析帧12中一个极点的带宽是否小于预定的阈值t来确定极点滤波倒频谱系数PFCC。如果话音12小于预定阈值且该极点的带宽固定于阈值t，则可用极点滤波倒频谱系数来估计经修正的平均倒频谱。利用最接近于实际逆信道滤波器的极点滤波倒频谱系数PFCC来获得改善的逆滤波器估计值。从话音的倒频谱帧中减去经修正的平均倒频谱既保留了频谱信息，又更加准确地补偿了信道的频谱倾斜。

图13A示出话音一个帧的样品频谱700。图13B示出从频谱700中减去已有技术平均倒频谱C_s的频谱710。频谱720是从频谱700中减去经极点滤波修正的平均倒频谱

。频谱720示出对频谱710有所改善的频谱信息。

图14示出仿射变换系统900，它可用于说话者验证系统10的训练和测试。通过对特征提取模块14提取的倒频谱系数进行仿射变换可减小训练和测试环境之间的失配。矢量x的仿射变换y定义为

y＝Ax+b

这里A是一个表示线性变换的矩阵，b是一个表示转换的非零矢量，y是测试数据，而x对应于训练数据。在话音处理域中，矩阵A模拟噪声引起的各个倒频谱系数的减小，矢量b说明了信道效应所引起的平均倒频谱的偏移。

单数值分解(SVD)描述了具有以下公式的仿射变换的几何形状：

y＝U∑V^T+b

这里U和V^T是一元矩阵，∑是斜列。其几何含义是由V^T旋转x，被∑重新定标，并再由U旋转。矢量b也引入了一种解释。

已发现实际上用不同的值对每个倒频谱系数进行定标，伴随着倒频谱系数的重新定标，角度稍有变化。可把嘈杂的倒频谱矢量c_ns表示为净倒频谱矢量c与一矩阵的乘积，即，

c_ns＝Ac。

为了同时表示信道和噪声所引起的失真，可使用以下所示的仿射映射

c′＝Ac+b从以下的仿射变换式来定义仿射变换参数

\overset{&OverBar;}{x} = A^{- 1} (y - b)

这里等价于x。使用最小二乘方方法可得到仿射变换参数A和b，以解出以上有关训练或交叉验证数据组的方程。

在说话者验证系统10的训练期间，话音特征矢量15与仿射变换模块902相连，并在测试期间通过分类器输入线901加到分类器904。在训练期间，话音特征矢量15与仿射变换模块902相连，并通过分类器输入线903加到分类器904。分类器804最好是一个矢量量化分类器。例如，分类器804可对应于图2所示的分类器70、71、72或图4所示的NTN分类器104、106、108、110以及DTW分类器120、122、124和126。

在说话者验证系统10中，要求其真实个性的说话者可叫做真实说话者，而要求伪个性的说话者11叫做冒名顶替者。在对说话者进行估计时，说话者验证系统10可产生两种差错：(a)误拒绝(FR)以及误接受(FA)。在要求真实个性的真实说话者被说话者验证系统10拒绝时，产生误拒绝(FR)差错。当冒名顶替者被说话者验证系统10接受时，产生误接受(FA)差错。判定是否接受或拒绝个性依赖于上述阈值T。依据每种差错的代价，可把系统设计成以另一个差错为代价而折衷地选择另一个差错。此外，为了估计竞争技术，可比较系统的等差错率(EER)。当以相等的几率产生两种差错(即，FR和FA)时，可实现等差错率。

在名为YOHO的常规话音集(可通过Philadelphia的语言数据协会(LDC)来获得)上评价本发明以子字为基础的说话者验证系统。在相同的条件下，与以1.66％等差错率(EER)的以常规隐性Markov模型(HMM)为基础的系统相比，本发明以子字为基础的说话者验证系统10可产生0.36％的EER。

本发明的优点是把来自不同分类器的多个标志组合起来，以提供一种可准确识别给定模式的强有力的识别系统。在说话者验证的实施例中，可把以失真为基础的分类器与以判别式为基础的分类器组合起来，以把与说话者有关的标志以及说话者与其它说话者组合起来。最好用神经树形网络对来自说话者和其它说话者的数据进行分类，从而减少处理。字识别使能模块可把较高的精度加到验证系统并减少拒绝说话者处理。此外，分类器可以是以子字为基础的分类器，带有与文本有关或无关的数据。此外，可用留下一个的方法来训练验证系统，从而减少训练系统所需的数据。可使用极点滤波来减轻系统中的信道失真。对提取特征的仿射变换改善了训练和测试数据之间的相关性。为了说明老化现象，系统也可在进行肯定验证后对说话者模型进行更新。

虽然已参考较佳实施例对本发明进行了描述，此描述不是限制。本领域内的那些中等技术人员应理解可对本发明进行修改而不背离本发明的精神和范围。

Claims

1.一种用于说话者验证的方法，其特征在于包括以下步骤：

从所述说话者发出的第一话音中提取至少一个特征；

为了形成多个分类输出，用多个分类器对所述至少一个特征进行分类的装置；

通过确定所述多个分类输出与所述说话者预先发出的第二话音的相似性来识别所述多个分类输出的装置；以及

根据所述经识别的多个分类输出确定是否接受或拒绝所述说话者的装置。

2.如权利要求1所述的方法，其特征在于还包括以下装置：

根据所述经识别的多个分类输出确定置信度。

3.如权利要求2所述的方法，其特征在于在对所述至少一个特征进行分类前，所述方法还包括以下步骤：

为了确定是否预备接受或预备拒绝所述说话者，通过把所述至少一个特征与预先存储的所述说话者的数据相比较，对所述说话者发出的所述第一话音进行字识别；

如果确定预备接受所述说话者，则进行对所述至少一个特征进行分类的所述步骤，如果确定预备拒绝所述说话者，则让回叫模块使能。

4.如权利要求3所述的方法，其特征在于所述第一话音包括所述说话者一口令的至少一个发音。

5.如权利要求4所述的方法，其特征在于所述数据包括预先从说话者发出的第一话音中形成的与说话者有关的模板，以及预先由至少一个第二说话者发出的第一话音形成的与说话者无关的模板。

6.如权利要求1所述的方法，其特征在于由神经树形网络(NTN)分类器和动态时间偏移分类器来进行所述分类步骤。

7.如权利要求1所述的方法，其特征在于由经修正的神经树形网络(MNTN)和动态时间偏移分类器来进行所述分类步骤。

8.如权利要求7所述的方法，其特征在于由以下公式来定义所述MNTN分类器的说话者得分：

P_{MNTN} (X | S_{i}) = \frac{Σ_{j = 1}^{M} c_{j}^{1}}{Σ_{j = 1}^{N} C_{j}^{0} + Σ_{j = 1}^{M} c_{j}^{1}}

这里c¹是说话者S_i的置信度得分，C⁰是其它所有说话者的置信度得分，M和N分别对应于定为“1”和“0”的矢量的数目。

9.如权利要求1所述的方法，其特征在于通过以下步骤来训练所述识别步骤：把所述说话者的话音的多个第一发音加到所述多个分类器中的一对分类器，在所述发音中留下定义为留下发音的一个发音；

把所述留下发音加到所述分类器对；

计算所述分类器对中每个所述分类器的几率；以及

根据所述几率确定所述分类器对中每个所述分类器的阈值，

其中通过把所述分类器与所述阈值相比较来确定所述多个分类输出的所述相似性。

10.如权利要求1所述的方法，其特征在于为了提取所述至少一个特征，通过对所述第一和第二话音进行极点滤波来进行所述提取步骤。

11.如权利要求1所述的方法，其特征在于还包括以下步骤：

在所述提取步骤后把所述至少一个特征分成子字。

12.如权利要求11所述的方法，其特征在于所述子字是音素。

13.如权利要求12所述的方法，其特征在于所述子字与说话者有关。

14.如权利要求12所述的方法，其特征在于所述子字与说话者无关。

15.如权利要求1所述的方法，其特征在于使用仿射映射变换来校正所述至少一个特征。

16.一种说话者验证系统，其特征在于包括：

从所述说话者发出的第一话音中提取至少一个特征的装置；

17.如权利要求16所述的系统，其特征在于还包括：

为了确定是否预备接受或预备拒绝所述说话者，通过把所述至少一个特征与预先存储的所述说话者的数据相比较，以对所述说话者发出的所述第一话音进行字识别的装置；以及

如果确定预备接受所述说话者，则让对所述至少一个特征进行分类的所述装置使能的装置，如果确定预备拒绝所述说话者，则让回叫模块使能的装置。

18.如权利要求17所述的系统，其特征在于所述数据包括从说话者预先发出的第一话音形成的与说话者有关的模板，以及预先由至少一个第二说话者发出的第一话音形成的与说话者无关的模板。

19.如权利要求18所述的系统，其特征在于所述分类装置包括经修正的神经树形网络(MNTN)和动态时间偏移分类器。

20.如权利要求19所述的系统，其特征在于用一全极点滤波器来实施所述提取装置。

21.如权利要求20所述的系统，其特征在于使用仿射变换来校正所述至少一个特征。