CN1302427A

CN1302427A - 用于说话者认证的模型自适应系统和方法

Info

Publication number: CN1302427A
Application number: CN98812890A
Authority: CN
Inventors: K·法雷尔; W·米斯特雷塔
Original assignee: T- Neitikesi Co
Current assignee: T- Neitikesi Co; T Netix Inc
Priority date: 1997-11-03
Filing date: 1998-11-03
Publication date: 2001-07-04
Also published as: EP1027700A1; WO1999023643A1; US6519561B1; EP1027700A4; AU1305799A

Abstract

本发明的模型自适应系统是一种说话者认证系统,该系统体现了能够调整在注册分量过程中学习到的模型以跟踪用户声音时效的能力。该系统具有以下优点:仅需要用于识别模型的单个注册,其中的识别模型包括神经树网络(22)、高斯混合模型(26),动态时间规划(16)或多个模型(30)(即,神经树网络(22)、高斯混合模型(26),动态时间规划(16)的组合(30))。此外,本发明可以应用于文本相关或文本无关系统。

Description

用于说话者认证的模型自适应系统和方法

对相关申请的交叉参考

该申请优先于临时申请60/064,069，该临时申请发布于1997年11月3日，名称为用于说话者认证的模型自适应系统和方法。

发明背景

1发明领域

本发明涉及一种系统和方法用于调整说话者认证模型以便在认证过程中获得增强的性能，本发明特别涉及基于子字的说话者认证系统，该系统能够调整神经树网络(NTN)，高斯混合模型(GMM)，动态时间规划模板(DTW)，或上述的组合，而不需要重新训练模型所需的额外时间。

本发明涉及数字语音处理和说话者认证领域。

2相关技术的描述

说话者认证是一种其中利用他或她的声音样本来确认某个人身份的语音技术。特别的，说话者认证系统试图将正在进行身份认证的某个人的声音与已知的声音匹配。这比其它的安全测量，如个人身份号码(PIN)和个人信息更优越，因为一个人的声音唯一依赖于他或她的身份。说话者认证给出一种用于安全增强的强有力方法，该方法可以用于包括计算机电话的很多不同的应用领域中。

在说话者识别中，两个主要的领域是说话者辨别和认证。说话者辨别系统试图利用他或她的声音样本在已知人群中确定说话者的身份。相比而言，说话者认证系统试图利用他或她的声音样本来确定某人宣称的身份(某人声称的身份)是否正确。

说话者认证包括确定语音样本是否与所宣称的身份充分匹配。语音样本可以是基于文本的或与文本无关。基于文本的说话者认证系统在特定的口令短语之后确认该说话者。口令短语是由系统或用户在注册过程中确定的，相同的口令被用于后续的认证中。一般的，口令短语被限制为固定的词汇，例如有限个数字。有限数量的口令短语使得冒名顶替者很可能发现某个人的口令，从而降低了系统的可靠性。

文本无关说话者认证系统并不需要如文本相关说话者认证系统那样，同一文本用于注册和测试。因此，这里不存在口令的概念，不管用户说什么，他或她都会被识别。

语音辨别和说话者认证的任务可能涉及大量的词汇，其中不同词汇字的拼音值会基本上重叠。这样，存储和比较整个字模会变得过度冗余，因为各个单字的组成音被独立处理而不考虑它们可识别的类似性。出于这些原因，传统的词汇语音识别和文本相关说话者认证系统基于拼音子字单元来构造模型。

执行文本相关说话者认证的传统方法包括统计建模，如隐马尔可夫模型(HMM)或基于模板的建模，如用于语音建模的动态时间规划(DTW)。例如，在A.E.Rosenberg,C.H.Lee ad F.K Soong的文章”Subword Unit Talker Verification Using Hidden MarkovModels”,Proceedings ICASSP,pages 269-272(1990)中描述的子字模型，和在A.E.Rosenberg,C.H.Lee adS.Gokeen的文章”Connected Word Talkef Recognition Using Whole Word HiddenMarkov Models”,Proceedings ICASSP,pages 381-384(1991)中描述的整个字模型已经被说话者认证和语音识别系统考虑。HMM技术具有下面的局限性：通常需要大量的数据来充分估计模型参数。

其它方法包括神经树网络(NTN)的使用。NTN是一种分级分类器，它组合了判断树和神经网络的特性，如A.Sankar和R.J Mammone,的文章”Growing and Pruning Neural Tree Networks”,IEEETransactions on Computers,C-42:221-229,March 1993中描述的那样。对于说话者识别，NTN的训练数据包括期望说话者的数据和来自其它说话者的数据。NTN将特征空间划分成一些区域，它们被赋予反映说话者产生落在该说话者区域中的特征矢量的可能性的概率。

上面描述的建模技术依赖于正在被分段成子字的语音。子字级的建模扩展了系统的多功能性。此外，还假设不同说话者中说话风格的改变可以通过子字级建模更好地被捕获。传统上，语音数据的分段和标注是由受过训练的语言学者利用听觉和视觉提示来手工进行的。然而，该方法存在几个不利的地方，包括任务的时间消耗本质和手工处理所需判断的高度主观的本质。

手工语音分段问题的一个解决方法是使用自动语音分段过程。传统的自动语音分段处理使用了分级和非分级方法。

分级语音分段涉及多级，精-粗分段，它们可以显示为一个树状形式，称为树状图。最初的分段是情况有限的一个矢量等于一个段的精细级。此后，利用类似性测量值，一个段被选择来与它的左或右邻居合并。这种过程一直重复直到整个发音由一个单个的段来描述。

非分级语音分段试图通过利用基于知识工程的规则组或通过使失真或成绩度量极端化来找到最佳的段边界。用于分级和非分级语音分段的技术具有下面的局限性：需要有关语音段数量和相应段模块的先验知识。

不需要有关簇数的先验知识的技术被定义为“盲目”聚类。该方法在题为”Blind C1ustering of Data With Application to SpeechProcessing System”，发布于1997年4月1日的美国专利申请08/827,562以及相应的题为”B1ind Speech Segmentation”，发布于1996年四月2日的美国临时申请60/014,537中描述，这两篇文档在这里作为参考引用。在盲目聚类中，当聚类开始时，簇的数目是未知的。在前面提到的申请中，数据样本的最小簇数和最大簇数的范围估计值被确定。一簇数据样本包括具有同样特性的对象。对于估计的簇数会定义一个最佳准则。最佳准则确定对于估计的簇数与给定的聚类数据样本来说，怎样才是最佳适合的。数据样本中的最佳簇数是根据最佳准则确定的。基于段之间的最佳边界位置和最佳段数，语音样本被分段。

盲目分段方法可以用于文本相关说话者认证系统中。盲目分段方法被用来将未知的口令短语分成子字单元。在说话者认证系统的注册过程中，说话者口令的重复被盲目分段模型用来估计口令中子字的数量以及找到最佳子字边界。对于说话者的每个子字段来说，子字分段器模型，如神经树网络或高斯混合模型可以被用来模拟每个子字的数据。

此外，存在很多多模型系统，它们将不同模型的结果组合以便进一步增强性能。

上面描述的任何一种说话者认证系统中可以直接影响其成功性的一个关键的方面是针对会话中的变化和时效性的强度。会话中的变化指当用户在某一天和另一天使用认证系统时，说话者的声音会经历微小的变化。在注册后立即进行认证时，用户可以预测说话者认证系统具有最佳性能。然而，经过一段时间之后，当使用该系统时，用户可能会经历一些困难。对于实际的时间段，例如几个月到几年，时效的效果也会降低系统性能。因为当在几周的时间段上测量时说话者的谱变化可能很小，但是随着时间的流逝，这种变化将加大，如S.Furui在文章”Comparison of Speaker recognition Methods usingStatisticai Features and Dynamic Features”,IEEE Transactionson Acoustics,Speech and Signal Processing,ASSP-29:342-350,342-350页，1981年四月中描述的那样。对于某些用户，时效的影响将使得最初的声音模型不可用。

所需要的是用于说话者认证系统的自适应系统和方法，特别是用于判别和多模型的自适应系统和方法，它们需要最小的计算和存储资源。所需要的是补偿会话中的变化和时效效果的自适应系统。

简要地描述，本发明涉及用于说话者认证系统的新模型自适应方案。模型自适应随时间动态改变在注册分量过程中学习到的模型以跟踪用户发音的时效。本发明的说话者自适应系统具有只需要说话者注册一次的优点。一般的，如果说话者仅在一个会话中注册，那么由于时效性以及会话中的变化性造成的声音失真会使说话者认证系统的性能降低。因此，说话者认证系统的性能可能变得如此差使得说话者需要重新注册，这样要求用户重复他或她的注册过程。一般的，每隔几个月，该过程必须被重复一次。

采用本发明的模型自适应系统和方法，就不再需要再次注册了。自适应过程对用户来说是完全透明的。例如，用户可以打电话到他或她的“专用分组交换机”以获得对未受限制的外线的访问。如通常的说话者认证系统那样，用户会被要求陈述其口令。在本发明的自适应系统中，这种更新的发音可以被用来调整说话者认证模型。例如，每次某个用户被成功确认之后，测试数据可以被看做注册数据，利用分段之后的步骤，模型被训练并被建模。如果口令被系统接受了，调整后的系统几乎立即使用更新的声音特征来更新特定的说话者识别模型。模型自适应有效地增加了注册样本的数量并提高了系统的准确性。

最好的是，本发明的自适应方案可以适应于几种类型的包括神经树网络(NTN)，高斯混合模型(GMMs)，动态时间规划(DTW)或多个模型(即，NTNs,GMMs和DTW的组合)的说话者识别系统。此外，本发明可以适用于文本无关或文本相关系统。

例如，本发明给出一种调整神经网络树(NTN)模块的自适应系统和过程。NTN是一种分级分类器，它组合了判断树和前馈神经网络的特性。在最初的注册过程中，神经树网络学习区分属于目标说话者的特征空间区域和那些很可能属于冒名顶替者的特征空间区域。特征空间的这些区域对应于包含概率的神经树网络中的“叶子”。概率表明产生落在特征空间那个区域中的数据的目标说话者的可能性。每个区域中说话者观测值是由落在该区域的“目标矢量”的数量决定的。NTN每个叶子上的概率是按照说话者观测值与注册过程中在该叶子上遇到的总观测值的比例来计算的。

在本发明的自适应方法中，目标矢量数或说话者观测值是在叶子上的新发音的基础上更新的。自适应发音的每个矢量被施加到NTN上，并且该矢量所在叶子的说话者观测值计数被增加。通过保持每个叶子上的说话者观测值和冒名顶替者观测值的原始数目，概率可以以这种方式更新。然后，会采用新的叶子计数来计算概率。以这种方式，判别模型可以被更新以使得因时效性和会话中的变化造成的恶化的模型性能偏移。

在本发明的另一个实施方案中，统计模型如高斯混合模型(GMM)可以基于新的声音发音而调整。在GMM中，目标说话者的特征空间区域是由一组多元高斯分布来表示的。在最初的注册过程中，某些分量分布参数被确定，包括均值，协方差和对应于观测值的混合加权。基本上，在自适应过程中，基于以更新的声音发音获得的观测值的相加值，每个参数都被更新。例如，通过首先以原始观测值数来缩放均值，该均值被更新。然后，基于更新的发音，该值被加入新的均值，并且这些均值的和被除以总的观测值数。以类似的方式，协方差和混合加权也被更新。

在本发明的另一个实施方案中，基于模板的方法，如动态时间规划(DTW)可以利用新的声音发音来更新。给定一个用N个发音的特征训练过的DTW模板，新发音的特征可以被平均到该模板中。例如，用于原始数据模板的数据可以通过乘以用于训练它的发音数来缩放，或者在这种情况下，以N来缩放。用于新发音的数据然后被加入该缩放后的数据中，所得到的和被除以该模型中使用的发音的新数目，N+l。这种技术非常类似于用来更新高斯混合模型均值分量的技术。

尽管不需要，用于本发明的自适应建模方法最好基于用于NTN和GMM模型的子字建模。这种自适应方法发生于认证过程中。为了调整DTW模板，最好的是使用整个字建模。作为认证的一部分，首先根据任何传统的特征提取方法来为自适应发音提取特征值。然后，这些特征值与DTW模板匹配或“规划”到该模板。这样给出1)与DTW模板最佳匹配的一组修正后的特征值以及2)可以用做说话者真实性测量值的距离或“失真”。DTW规划输出的修正后的特征值可以补救在口令之前或之后的噪声或语音的负面效果。在这一点上，规划后的特征被用于调整DTW模板。

然后，特征数据被分段成子字用于输入到NTN和GMM模型。尽管几种类型的分段方案可以结合本发明使用，包括分级和非分级语音分段方案，但是最好的是，谱特征被用于盲目分段算法，例如在发布于1997,4的题为“Blind C1ustering of Data With Application toSpeech Processing Systems”美国专利申请号08/827,562和其对应的发布于1996,4,2的题为“Blind Speech Segmentation”的美国临时专利申请号60/014,537中描述的那样，这两篇文档在这里作为参考引用。在说话者认证系统的注册过程中，说话者声音中的重复语音被盲目分段模块用来估计口令中的子字数，并找到最佳的子字边界。

最好以第一和第二建模模块来对每个子字中的数据建模。例如，第一建模模块可以是神经树网络(NTN)第二建模模块可以是高斯混合模型(GMM)。在该实施方案中，除了DTW模板之外，本发明的自适应方法和系统被分别适用于这些子字模型以实现整个性能的增强。

这些模型即NTN,GMM和DTW的输出被根据该领域中已知的多个模型组合算法中的任何一个来组合，以作出关于该说话者的判断。

自适应之后的性能可以与通过额外的新语音发音重新训练模型而得到的性能相比。然而，尽管重新训练是耗费时间的，在消耗最小的计算资源的情况下，自适应过程可以在认证之后很方便地执行。此外，这种自适应对于说话者是透明的。自适应的另一个好处是原始的训练数据并不需要被存储，存储数据对于某些用于大量人口的系统来说会是一个负担。

除了这里描述并宣称的模型自适应之外，本发明可以结合一些其它的自适应技术来使用。这些技术包括聚变自适应，信道自适应和阈值自适应。

参考附图，本发明将被完整地描述。

附图简要描述

图1是根据本发明思想的说话者认证系统的方框图。

图2说明了说话者认证过程中动态时间规划(DTW)模板自适应的流程图。

图3是说话者认证过程中神经网络树自适应系统的流程图。

图4是说明根据本发明思想的神经网络树(NTN)模块的图。

图5是说明在说话者认证过程中高斯混合模型(GMM)自适应的流程图。

优选实施方案的描述

图1说明了多模型说话者识别系统10的方框图。最好的是，该模型是一种包括动态时间规划元件16，神经树网络元件(NTN)22和高斯混合模型(GMM)26元件的文本相关说话者识别系统。另外可选地，本发明可以被用来调整包括以下组合的模型或单独的模型：DTW与NTN模型的组合，GMM模型和NTN模型的组合，DTW和GMM模型的组合。

子字处理由分段器18进行，每个子字输出被传送给NTN22和GMM26模块。下面参考图1给出的说话者认证系统详细描述本发明的自适应建模系统和方法。

作为认证的一部分，必须先为自适应发音提取特征。这样语音样本作为语音信号被传递给预处理和特征提取模块14用来将语音信号转换成谱特征矢量。预处理包括语音信号的模数转换。模数转换可以以标准的电话板如Dialogic公司生产的电话板来进行。语音编码方法如ITU G711标准μ和A规则可以被用来对语音样本进行编码。最好的是，使用8000Hz的采样率。另外可选地，可以以数字形式获得语音，如来自ISND传输的语音。在这种情况下，电话板被用来处理Telco信令协议。

在优选实施方案中，用于说话者认证系统的计算机处理单元是至少100MHZ的具有近似10MB相关RAM存储器和存储用的硬盘或固定驱动器的英特尔奔腾平台通用计算机处理单元(CPU)。另外可选地，附加的实施方案可以是Dialogic Antares板。

预处理可以包括信号直流偏移的均值去除，规一化语音谱中的谱倾斜的预加重，以及语音信号中背景无声段的去除。语音信号中的背景无声段可以利用传统的方法，如利用能量和/或过零点的语音和无声段分离技术来去除。因此，预处理的语音被加上汉明窗并被分析；例如用连续帧之间具有10毫秒移位的30毫秒分析帧来分析。

在预处理之后，在模块14中对处理后的语音进行特征提取。谱特征是由在每帧处理后的语音信号中确定的语音特征矢量表示的。在特征矢量模块14中，可以用传统的方法如傅里叶变换分析，滤波器组分析和确定LP谱系数的线性预测(LP)分析来获得谱特征矢量。在题为“Speaker Identification and Verification System”的发布于1996年5月28日的美国专利5,522,012中描述了一种特征提取方法，本发明作为参考在这里引用。用来获得谱特征矢量的优选方法是用来确定12阶谱系数的12阶LP分析。

特征提取模块的结果是产生表示发音模板的矢量。最好的是，该模板存储在数据库中。在模板存储之后，就对语音进行动态时间规划。

其次，特征数据是利用动态时间规划模板16来规划的。这样除去了口令之前或之后的额外噪声或语音。规划后的特征数据被用于后续的分段和模型评估。另外，在规划过程中，会计算出一个分数并存储起来。该分数给出发音和DTW模板之间的类似性测量值，该值可以被用作说话者认证分数。该分数，称作“x”，表示0到无限之间的距离值。通过将其负值放到指数上，即exp(-x)该分数可以被映射到概率值。到此为止，该值可以与NTN和GMM的分数组合起来以给出趋向整个模板分数的第三分数分量。

其次，最好利用盲目分段模块18将语音分段成子字。产生子字的优选技术是自动盲目语音分段或“盲目聚类”，如在发布于1997年四月1日的题为“B1ind Clustering of Data With Applicationto Speech Processing System”的美国专利申请号08/827,562和其对应的发布于1996年四月2号的题为“B1ind SpeechSegmentation”的美国临时申请号60/014,537中描述的那样，这两个专利在这里作为参考引用，并且转让本发明的受让人。在说话者认证系统的注册过程中，自动盲目语音分段确定口令中的子字数量以及最佳子字边界的位置。另外，子字的持续时间被声音短语的总持续时间归一化并存储在数据库中用于在后面的认证中使用。

另一种用于产生子字的方法可以结合本发明使用，第一种可选方法是传统的方法，其中语音数据的分段和标注是由受过训练的语言学者通过听和看来手工进行的。

第二种可选的产生子字的方法是自动分级语音分段，该方法涉及多级式的由精到粗的分段。这种分段可以显示为树状，称为树状图。最初的分段是情况有限的一个矢量等于一个分段的精细级。此后，其中一个段被选择利用类似性测量值来与其做左或右邻居合并。这种过程一直重复直到整个发音用一个段来描述。

第三种产生子字的方法是自动非分级语音分段。这种分段方法试图找到最佳的段边界，其方式是利用基于知识工程的规则组或使失真或分数量度极端化。

在获得子字之后，每个子字的数据被利用第一和第二建模模块的一个或多个组合来进行最佳建模，如图1所示。

例如，第一建模模块可以是神经树网络(NTN)22，第二模拟模块可以是高斯混合模块(GMM)26。NTN22给出一个基于判断的说话者分数，GMM26给出一个基于统计测量值的说话者分数。图1给出用于NTN分类器22的N个模型和用于GMM分类器26的N个模型。模块22和26都可以为子字段的每个谱矢量确定一个分数。

模块NTN22和GMM26的分数可以被组合来获得块30中子字的组合分数。在优选实施方案中，动态时间规划16，神经树网络22和高斯混合模型26的结果被利用线性评估组合来组合，如下所述。然而，其它包括对数评估组合或“选举”机制的组合数据的方法也可以结合本发明使用，其中来自DTW16,NTN22和GMM26的硬判断在选举处理中被考虑。由于这三个建模方法倾向于具有不相关的误差，通过组合这些模型输出可以提高性能。

NTN模块22被用来模拟用户口令的子字段。NTN22是分级的分类器，它使用树结构来实现后续的线性判断策略。具体地，用于NTN22的训练数据包括来自目标说话者的数据，标注为1，以及来自其它说话者的数据，标注为0。来自其它说话者的数据最好存储在可以是RAM,ROM,EPROM,EEPROM，硬盘，CD ROM，文件服务器或其它存储设备的数据库中。

NTN22学习区分属于目标说话者的特征空间区域和那些更可能属于冒名顶替者的特征空间区域。这些特征空间区域对应于NTN22中的包含概率的叶子。这些概率表示具有落在该特征空间区域中的所产生数据的目标说话者的似然性，如K.R.Farrell,R.J.Mammone,和K.T.Assaleh在“Speaker Recognition using Neural Networks andConventional Classifiers”,IEEE Trans,Speech and AudioProcessing,2(1)，部分2(1994)中描述的那样。涉及说话者识别的NTN网络的功能也在发布于1993年11月29日的题为“RapidlyTrainable Neural Tree Network”的美国专利申请号08/159,397和题为“Speaker Verfication System”的美国专利申请号08/479,012和发布于1997年4月1日的题为“Blind Clustering ofdata With Application to Speech Processing Systems”的美国专利申请号08/827,562和对应的发布于1996年4月2日的题为“Blind Speech Segmentation”的美国临时专利申请号60/014,537中描述，这些专利在这里作为参考引用。NTN22模型的自适应在下面详细描述。

如上面讨论的，高斯混合模型GMM26也被用来模拟每个子字。在GMM26中，目标说话者的特征空间区域由一组多变量的高斯分布来表示。在优选实施方案中，子字段的均值矢量和协方差作为盲目分段模块18的副产品而获得，并作为GMM26的部分来存储，如在发布于1997年4月1日的题为“Blind Clustering of data With Applicationto Speech Processing Systems”的美国专利申请号08/827,562和其对应的发布于1996年4月2日的题为“Blind SpeechSegmentation”的美国临时专利申请号60/014,537中描述的那样，这两个专利在这里作为参考引用。GMM概率分布函数表示如下：

p (x / φ) = \underset{i = 1}{Σ} P (w_{i}) p (x / μ_{1}, σ_{1}^{2}) .

每个C混合分量由混合加权P(ω_i)和归一化分布函数p(x/μ_i,σ_i ²)的确定，其中μ_i是均值矢量，σ_i是协方差矩阵。在优选实施方案中，归一化分布被限制为具有矢量σ_i ²定义的对角线协方差矩阵。PDF被用来产生子字GMM分数。

计分算法被用于NTN和GMM模型中的每一个。子字模型的输出分数(估计的后验概率)在口令短语的所有子字上组合，以便产生该发音的组合分数。

用于组合子字模型22,26的分数的计分算法可以基于下述方案：(a)短语-平均：在整个短语上，平均各矢量的输出分数。(b)子字-平均：在平均(平均后的)子字分数之前，在子字内平均各矢量分数。(c)子字加权：与(b)一样做子字分数平均，但是(平均后的)子字分数在最终的平均过程中被加权。

在计算口令短语的组合分数时，子字间的瞬时(或长期)概率也可以使用。优选实施方案是相位平均计分。计分的结果给GMM26提供一个分数，并给NTN22提供一个分数，然后这些分数必须被组合。

在优选实施方案中，线性评估组合方法被用于组合来自DTW16，NTN22和GMM26的输出分数。线性评估组合方法按照为每个模型输出的加权和来计算最终的分数：

p_{Linoar} (x) = Σ_{i = 1}^{n} a_{1} p_{1} (x)

一旦上面等式中的变量已知，阈值被输出并存储在数据库中。阈值输出与测试分量中的“最终分数”比较来确定是否测试用户的声音很好地匹配模型使得可以说这两个声音来自同一个人。

既然模型10已经作了一般描述，现在对应用于前面提到的DTW16,NTN22和GMM26模块的自适应方法作详细描述。自适应发生于认证过程中。首先，从自适应发音中提取特征值。这些特征值被规划到DTW模板16，并且在分段器18中分段成子字部分，这些子字部分可以被对应的NTN22和GMM26模型在每个子字基础上处理。

DTW自适应的优选方法在图2中给出。总之，DTW16规划特征数据，以便于分段器18的后续使用。可以通过将规划后的特征数据平均使其DTW模板16调整为原始DTW模板16。所产生的模板在模型中被更新。

参考图2,DTW自适应方法可以更好地解释。第一个步骤100是查找用于计算当前DTW模板的所存储的发音数(称做M)。流入的特征数据然后被规划到DTW模板，如在步骤104中描述的那样。将特征数据规划到DTW模板的结果是新特征数据与DTW模板长度一样。换句话说，流入数据与DTW模板具有相同数量的特征矢量。DTW模板的每个特征矢量被用于计算原始模板的发音数量缩放(意思是，乘以)，如在步骤108所示。然而参考步骤112，规划后的特征数据被加入缩放后的DTW特征数据中。这是通过将每个规划后的特征矢量的每个元素加入DTW模板中缩放后的特征矢量的相应元素中而完成的。然后，如在项116中表示的，缩放和规划后的特征数据之和通过除以新的发音数M+1而被归一化。

NTN自适应的优选方法在图3中给出。通过遍历树，并找到矢量所在叶子的概率，NTN22确定给定矢量的说话者分数。NTN22每个叶子的概率按照说话者观测值(即，目标矢量)与训练中遇到的总观测值(总矢量)的比例来计算。通过在每个叶子上保持说话者观测值和冒名顶替者观测值，如在步骤34阐明的，概率更新变得很简捷。自适应发音的每个矢量被施加给NTN22，如在块38中阐明的。叶子中说话者观测值的数目被计算，如在块42中阐明的。说话者观测值和总观测值的新数目被存储在存储器中。这样结束了NTN的认证过程。然而，如果测试的话，新的说话者观测值数被除以总的观测值数以获得更新的概率，如在步骤46中阐明的。

参考图4可以更好地理解NTN自适应方法。在图中，原始的说话者目标矢量被标注为“1”。冒名顶替者矢量被标注为“0”。基于更新后的声音发音的自适应矢量是那些在虚线圆70,74中的矢量。对于图4中最左边的叶子71，原始的概率为0.6，其计算方式为将原始说话者目标矢量数(即3)除以总矢量数(即5)。在施加了更新后的语音发音之后，通过将说话者目标矢量(即4)除以总的矢量数(即6)调整后的概率被确定为0.67。通过对新观测值施加更大的加权值，也可以获得好处。

由于NTN22在每个叶子还保留冒名顶替者计数，因此也可以用冒名顶替者的发音来调整。这将以说话者计数相加的同样方式来完成。具体地说，冒名顶替者发音的特征矢量应用于NTN22，叶子冒名顶替者计数被更新以反映出到达该叶子的冒名顶替者数据。NTN22在下面意义上是唯一的：即它可以用冒名顶替者数据来调整(与DTW和GMM模型相比)。

由于在自适应过程中只有NTN22的叶子被修正，存在的假设是特征空间划分不必改变。调整判断边界不是很容易，因为节点和叶子仅包含涉及加权矢量和观测值计数的信息。

在优选实施方案中，GMM26模块也被利用得自盲目分段的子字数据而分别调整。单个子字GMM模块26的自适应被描述，因为该处理过程对于每个子字都一样。用于单个子字GMM的自适应方法在图5中给出。参考上面的第一等式，在处理器控制下，自适应过程为GMM PDF产生一组更新的GMM参数{P(ω_i)′,μ_i′,s_i2；i=…C}，这些参数反映出自适应短语的作用，如下面描述的。

自适应数据的聚类作为各个GMM自适应的第一步执行，如在步骤82给出的。如果自适应特征由具有N个矢量的X定义，聚类将数据划分成C个子组Xⁱ,i=1…C，其中Xⁱ包括Ni个矢量。输入矢量之间的简单欧几里德距离和分量分布均值被用于划分数据。

认证模型保留用于训练GMM的发音数信息以及以前自适应数的信息。在加入新统计值之前，这些值M的和被用来缩放混合加权值，均值和方差，如步骤86阐明的。该算法还假设以前的发音都包含N个训练矢量。这样做是因为以前训练和自适应发音的真实大小并不作为认证模型的一部分而保留。给定这些假设，调整后的分量分布参数(即，混合加权值，均值和协方差)可以在步骤88,90和92确定：

P (ωi)^{'} = \frac{P (ωi)^{'} MN + Ni}{(M + 1) N} - - - - - - (3)

μ' i = \frac{μiMNP (ωi) + Σ_{j = 1}^{Ni} \times i}{MNP (ωi) + Ni} - - - - - - (4)

{σi}^{2} = \frac{σ^{2} iM (N - 1) P (ωi) + Σ_{j = 1}^{Ni} (x^{'} j - μ^{'} i)^{2}}{M (N - 1) P (ωi) + Ni - 1} - - - - - - (5)

调整分布参数的该方法对所有的训练发音和自适应发音同样加权。这样意味着每个新的自适应短语对GMM的具有较小的影响。通过将M限制在一个最大值，简单的遗忘因子可以引入到自适应中。例子

例子1

这里的所有结果是通过对包含9个注册说话者的认证数据进行实验得到的，此外，有80个不同的说话者用做训练神经树网络的开发说话者。数据库包括两个数据组，这两个数据库的收集时间相隔6个月。第一组包括每个人重复13次说出他们的全名和5次重复说出其它人的名字的语音。这样每个说话者有58个记录。第二组包括每个人再重复10次他们自己的名字的语音。我们称说出自己名字的重复语音为真实说话者重复语音，说出其它人名字的重复语音为冒名顶替者重复语音。两个数据集被称做最近组和老化组。

三种训练方案被分析。在每种情况中，所有的训练重复语音都取自最近的收集组。这些方案在下面简要给出：

1用三个真实说话者重复语音来训练认证模型(TR3)。

2用六个真实说话者重复语音来训练认证模型(TR6)。

3用三个真实说话者重复语音来训练认证模型并对三个真实说话者重复语音进行调整(TR3AD3)。

对于第二和第三训练方案，第一方案中的三次训练重复语音保持固定而第二组的三次重复语音被重采样方案改变。重采样技术基于M个数据一组来划分数据，其中M=3。对于每次训练，三个新的重复语音被使用。这样对于10个真实说话者的重复语音可以有三个独立的训练序列。用于方案2和3的固定训练重复语音与方案1中一样。第一方案给出系统的基本性能，第二方案表现出将说话者信息加入原始训练的好处，而第三方案表现出利用附加的说话者信息来调整模型的好处。

最初对每个训练方案进行三个实验。这包括分别测试GMM26模型和NTN22模型以及组合模型。对于该例不进行DTW分析。所有的测试重复语音都取自最近的语音收集组。对于基本的训练方案，对于每个说话者模型，10个真实说话者重复语音和45个冒名顶替者重复语音被测试。通过在所有说话者范围内收集性能，会计算出系统的相等误差率(ERR)。

对于方案2和3，对于每个实验会进行三次重采样实验。对于每次实验，适当的三个真实说话者重复语音被排除在该实验之外。这导致每个测试有7个真实说话者重复语音和45个冒名顶替者重复语音或者对于每个说话者来说有21个真实说话者重复语音和135个冒名顶替者重复语音。

表1给出这些实验的性能。当观察该表时，可以得到几个观测值。首先，当模型在所有数据上被训练时，附加的语音数据可以提高性能。对附加训练数据的第二次调整在某种程度上也会提高性能。在匹配训练性能方面GMM自适应比NTN自适应表现的好。尽管NTN不象GMM那样调整的好，当对组合模型进行自适应时，它仍然能帮助降低ERR。

表1

训练场景	GMM	NTN	组合式
训练场景	GMM	NTN	组合式	TR3	5.3％	6.0％	4.0％
TR6	1.9％	1.8％	0.63％	TR3	5.3％	6.0％	4.0％
TR6	1.9％	1.8％	0.63％	TR3AD3	1.7％	4.3％	1.5％

表1．比较数据：几种训练方案和认证模型类型的认证ERR性能。所有的实验都以最近的数据集来计算。

例子2

对组合认证模型进行第二组实验。对于该组实验，真实说话者测试重复语音是从老化收集组得到的。所有其它的训练和测试条件都保持与以前的实验一样。这些结果在表2中给出。该表给出当计算老化的真实说话者重复语音时所有训练方案的经受的误差。这是可以预料到的，因为认证模型是在短期内收集的数据上训练的。即使当模型在来自最近组的附加数据上训练时，系统性能仍然会存在提高。如以前的实验那样，自适应也能提高性能，但是不如完全训练那样提高的多。

表2

训练场景	组合模型
训练场景	组合模型	TR3	12.0％
TR6	5.4％	TR3	12.0％
TR6	5.4％	TR3AD3	7.2％

表2．比较数据：对于几种方案和组合模型类型的认证EER性能。所有实验用老化集数据来计算。

上面给出当对附加训练数据进行调整时，GMM误差率从5.3％降低到1.7％，NTN性能从6.0％改善到4.3％。组合这两个模型的分类器给出同样的性能提高并且比任何一个分离的分类器表现要好。另外，当在老化数据上测试组合分类器时，错误率从12.％降低到7.2％。利用自适应的整个系统性能可以与以附加信息训练模型所得到的系统性能相比。

参考文字相关的说话者认证系统，该模型自适应方法和系统已经被描述。然而，本发明也可以用于文字无关系统。因为不存在特征数据的时间性排序，最好只有单个的NTN或GMM被训练。在这种情况下，DTW模板被省略，因为它并不依赖于特征数据的时间性排序，上面描述的自适应过程可以应用于任何这种模型。

尽管已经参考多模型系统描述了自适应方法和过程，明显地，本发明可以用来分别增强基于模板的说话者认证模型(DTW)、基于神经树网络模型的说话者认证系统或统计说话者认证模型(GMM)的性能。

已经表明，自适应是用来提高说话者认证模型性能的有效方法。然而，同样很重要的是讨论确定什麽时候该采用自适应的准则。以不是来自模型被训练的说话者的发音来调整模型会具有负面的性能影响。因此，必须有一种策略用来选取哪些数据应该用于自适应，哪些数据应该被抛弃。三种选取自适应的准则如下：一个是将组合模型分数与阈值比较并确定如果通过了一些阈值准则的话，确定其可以进行自适应。另一种方法是，分别分析模块分数，如果模型的大多数都推荐采用自适应(通过计算阈值准则)，那麽就用数据来调整所有的模型。最后，另一种情形可以是，已知数据属于其模型将要被调整的说话者。在这种情况下，准则检查可以被省略，模型可以用这些数据来更新。

除了调整模型的模型分量之外，也可以调整阈值分量。在本发明的优选实施方案中，按照下述方式计算阈值。在模型训练过程中，会得出平均说话者分数和平均冒名顶替者分数的估计值。平均说话者分数是通过以原始训练发音计算训练模型并记录分数而得到的。然后根据这些分数可以得到平均分数并且平均分数被缩放以计算数据中的偏差。这样作是补偿这样的事实：用于训练模型的数据总是比与模型训练无关的数据分数高。平均冒名顶替者分数是通过将冒名顶替者数据应用于训练模型并计算结果分数的平均值而得到的。冒名顶替者对于说话者模型的尝试可以通过访问来自反说话者数据库的特征数据而合成，其中的数据类似于用于训练模型的子字数据。这种数据可以拼成冒名顶替者的尝试数据并应用于说话者模型。阈值是通过在平均冒名顶替者分数和平均说话者分数之间选出一个值而计算出来的。

自适应可以按下述方式应用于模型的阈值分量。首先，用于计算冒名顶替者平均值(称作N)和说话者平均值(称作M)的发音数必须是模型的一部分并在自适应时可得到。当用来自正确说话者的分数来调整阈值时，说话者均值被乘以M并且自适应分数被加入该值。所产生的和被除以(M+1)，该值表示新的说话者均值。类似的，当用冒名顶替者分数调整阈值时，冒名顶替者均值被乘以N并且自适应分数被加入该值。所产生的和被除以(N+1)，该值表明新的冒名顶替者均值。将来的阈值位置将使用修正后的说话者和冒名顶替者均值。

本发明的自适应说话者识别系统可以应用于电话服务如蜂窝电话服务和第三方付费电话服务的用户确认。该系统还可以用于计算信息系统访问的帐户正确性。

本发明的模型自适应技术可以与融合自适应和阈值自适应组合，如在由Sharma et al发布于1997年11月21日的题为“VoicePrint System and Method”的美国专利申请序列号08/976,280中描述的那样，该专利作为参考在这里引用。所有的自适应技术会导致获得错误的负值结果或正值结果的数目和概率，因此应该小心使用。这些自适应技术可以结合信道自适应来使用，或者同时使用或者在不同授权时使用。

前面对于本发明的描述是出于说明和描述的目的，这些说明和描述并不试图将被发明限制于已经描述的特定实施方案。因此，与上面思想一致的在相关技术领域范围内的改变和修正都是本发明的一部分。附加的权利要求被构造为在规则允许的程度上包括另外可选的实施方案。

Claims

1．一种具有模型自适应的自适应说话者认证系统，该系统包括：

接收机，该接收机获得声音发音；

连接到接收机的装置，用来提取声音发音的预定特征；

与提取装置操作性连接的装置，用于将声音发音的预定特征分段，其中的特征值被分成多个子字；

连接到分段装置的至少一个自适应模型，其中的模型模拟所述多个子字并输出一个或多个分数，并且这些模型基于所接收的声音发音来动态更新以引入改变的用户声音的特性。

2．权利要求1的自适应说话者认证系统，还包括：

连接到接收机的模数转换器用于以数字形式给出所获得的声音发音。

3．权利要求1的自适应说话者认证系统，还包括：

连接到提取装置的装置，用于将声音发音规划到动态规划模板，该规划装置给出DTW分数，

其中规划装置基于声音发音被调整。

4．权利要求1或3的自适应说话者认证系统，其中自适应分类器包括至少一个自适应高斯混合模型，自适应高斯混合模型产生GMM分数。

5．权利要求1或3的自适应说话者认证系统，其中自适应模型包括至少一个自适应神经树网络模型，自适应神经树网络产生NTN分数。

6．权利要求1或3的自适应说话者认证系统，其中自适应模型包括：

至少一个自适应高斯混合模型，自适应高斯混合模型产生GMM分数。

至少一个自适应神经树网络模型，自适应神经树网络模型产生NTN分数。

7．权利要求1的自适应说话者认证系统，还包括连接到模型的装置，用于组合模型分数，该组合装置产生用于组合系统的最终分数。

8．权利要求3的自适应说话者认证系统，还包括连接到模型和规划装置的装置，用于组合DTW分数和模型分数，该组合装置产生用于组合系统的最终分数。

9．权利要求1的自适应说话者认证系统，其中分段装置基于自动盲目语音分段来产生子字。

10．权利要求7的自适应说话者认证系统，其中组合装置是一个线性评估组合。

11．一种自适应说话者认证方法，包括以下步骤：

获得来自已知个人的注册语音；

接收来自用户的测试语音；

提取测试语音的预定特征；

利用动态时间规划模板来规划预定的特征，其中动态规划模板在测试语音的预定特征的基础上被调整，导致产生规划后的特征数据和来自调整后的动态规划模板的动态时间规划分数；

产生来自规划后特征数据的子字；

利用多个自适应模型为子字计分，其中自适应模型在得自测试语音的子字基础上被调整；

将每个分类器分数和动态时间规划分数的结果组合来产生最终的分数；

将最终的分数与阈值比较以确定测试语音和注册语音是否来自已知的个人。

12．权利要求11的自适应说话者认证方法，还包括以下步骤：

将获得的测试语音数字化；

预处理数字化的测试语音。

13．权利要求11的自适应说话者认证方法，其中计分的步骤还包括对至少一个自适应神经树网络模型计分的步骤。

14．权利要求11的自适应说话者认证方法，其中的计分步骤包括对至少一个自适应高斯混合模型计分的步骤。

15．权利要求11的自适应说话者认证方法，其中计分步骤还包括以下步骤：

对至少一个自适应高斯混合模型计分，自适应高斯混合模型产生GMM分数；

对至少一个自适应神经树网络模型计分，自适应神经树网络模型产生NTN分数。

16．权利要求11的自适应说话者认证方法，其中产生步骤包括利用自动盲目语音分段来产生子字。

17．权利要求11的自适应说话者认证方法，其中组合步骤包括利用线性评估组合来组合分数。

18．一种自适应说话者认证方法，其中至少一个神经树网络模型被基于自适应发音而调整，该方法包括下述步骤：

存储说话者观测值数目，冒名顶替者观测值数目和来自以前注册或认证的总的观测值数目。

获得来自说话者的自适应发音；

从说话者自适应发音中提取预定的特征；

将预定的特征分段成多个子字；

将该多个子字应用于至少一个神经树网络模型；

计算神经树网络的每个叶子中更新后的说话者观测值的数目；

在存储器中存储更新后的说话者观测值数目；

通过将更新后的说话者观测值数除以每个叶子上总的观测值数来更新概率，因此导致调整后的神经树网络模型。

19．权利要求18的自适应说话者认证方法，还包括以下步骤：

将所获得的自适应说话者发音数字化；

预处理数字化的说话者发音。

20．权利要求18的自适应说话者认证方法，其中分段步骤包括利用自动盲目语音分段来产生子字。

21．权利要求18的自适应说话者认证方法，还包括以下步骤：

利用动态时间规划模板规划来自说话者自适应发音的预定特征，其中动态规划模板在测试语音预定特征的基础上被调整，导致规划后特征数据的创建；

其中分段步骤将规划后的特征数据分段成多个子字。

22．一种自适应说话者认证方法，其中动态时间规划模型可以利用调整后的声音发音来调整，该方法包括以下步骤：

为特定的用户创建原始的动态时间规划模板，导致原始的动态时间规划模板数据；

将用于计算原始的动态时间规划模板的发音数存储起来；

获得自适应声音发音；

将自适应声音发音规划到原始动态时间规划模板中，产生规划后的自适应数据；

将原始的动态规划模板数据缩放，其中通过将模板数据乘以用于训练原始模板的发音数来缩放模板数据；

将规划后的自适应数据加入缩放后的原始模板数据以创建一个总和值；

通过将总和值除以用于模型所采用的新的总发音数来规一化总和值以创建调整后的模型。

23．权利要求22的自适应说话者认证方法，还包括从自适应声音发音中提取预定特征值的步骤。

24．权利要求22的自适应说话者认证方法，还包括以下步骤：

数字化所得到的自适应声音发音；

预处理数字化的声音发音。

25．一种自适应说话者认证方法，其中至少一个高斯混合模型被基于自适应发音而调整，该方法包括以下步骤：

存储用于训练高斯混合模型的发音数和以前的自适应发音数；

获得来自说话者的自适应发音；

从说话者自适应发音中提取预定的特征；

将预定的特征分段成多个子字；

将子字应用于每个高斯混合模型；

确定一个缩放值，该缩放值涉及训练发音数与以前自适应发音数的和；

利用缩放值确定一个或多个调整后的分量分布参数，因此导致调整后的高斯混合模型，其中调整后的分量分布参数反映出说话者自适应发音的作用。

26．权利要求25的自适应说话者认证方法，还包括以下步骤：

数字化所得到的自适应声音发音；

预处理数字化的声音发音。

27．权利要求25的自适应说话者认证方法，其中分段步骤包括利用自动盲目语音分段来产生子字。

28．权利要求25的自适应说话者认证方法，还包括以下步骤：

利用动态时间规划模板规划来自说话者自适应发音的预定特征，其中的动态规划模板在语音预定特征的基础上被调整，导致规划后特征数据的创建；

其中分段步骤将规划后的特征数据分段成大量的子字。

29．权利要求25的说话者认证方法，其中调整后的分量分布参数包括一个混合加权值，调整后的均值和调整后的协方差。

30．一种自适应说话者认证方法，其中至少一个神经树网络模型被基于自适应发音来调整，该方法包括下述步骤：

存储说话者观测值数，冒名顶替者观测值数和来自以前注册或认证的总的观测值数，

获得来自冒名顶替者的自适应发音；

从冒名顶替者自适应发音中提取预定的特征；

将预定的特征分段成多个子字；

将该多个子字应用于至少一个神经树网络模型；

计算神经树网络的每个叶子中更新后的冒名顶替者观测值的数目；

在存储器中存储更新后的冒名顶替者观测值数；