CN1178202C

CN1178202C - 用于执行说话者适应或规范化的方法

Info

Publication number: CN1178202C
Application number: CNB991183916A
Authority: CN
Inventors: ¡; 罗兰德·库恩; �ˡ��˶��˹; 帕特里克·贵恩; ��͵¡��߶��˾; 吉恩－克劳德·琼克瓦
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 1998-09-04
Filing date: 1999-09-03
Publication date: 2004-12-01
Anticipated expiration: 2019-09-03
Also published as: TW452758B; DE69916951D1; EP0984429A2; CN1253353A; DE69916951T2; US6343267B1; EP0984429A3; EP0984429B1; JP2000081893A

Abstract

本发明公开了一种用于执行说话者适应或规范化的方法，该方法包括以下步骤：通过对训练的说话者提供一组模型，来构造表示多个所述训练说话者的本征空间，并对所述模型组执行维数降低，以产生定义所述本征空间的一组基向量；产生适应模型，使用来自新的说话者的输入语音以训练所述适应模型，同时使用所述基向量组来约束所述适应模型，使所述适应模型位于所述本征空间内。

Description

用于执行说话者适应或规范化的方法

技术领域

本发明一般涉及语音识别，并特别涉及说话者适应，从而修改语音识别模型参数以便更好地识别新的说话者语音。

背景技术

语音识别系统可以是说话者相关的或说话者无关的。通过给出由个人发出的大量词语例子(这些例子称为“训练数据”)说话者相关系统受到训练，以便理解单独的个人说的是什么。说话者相关系统对于它们所针对训练的个人可能是很精确，而对于其它每一个人是不精确的。说话者无关系统设计为由讲应用语言的任何人使用；一般来说，他们就来自许多不同的人的数据受到训练。对不在训练数据内说话者执行识别，说话者无关系统的错误率，与可比的说话者相关系统对系统被训练的说话者执行识别的错误率相比大约为二到三倍高。

为了改进性能，许多语音识别系统包括用于执行说话者适应的装置，从而语音识别系统在使用中被调节以降低错误率。在当前的技术文献中所描述的基本有三种说话者适应方法。它们是：

(1)说话者规范化(也称为“变换”)--对由新的说话者特征向量产生的数字化信号的观测被变换，以便更接近来自说话者相关系统为其被训练的基准说话者的观测。在某些情形下，变换以相反方向执行：基准模式被变换而更加接近于来自新的说话者数据。

(2)说话者分簇--使用新的说话者的观测，以便选择训练说话者的簇；每一簇与只对这一簇中的说话者训练的隐藏马尔科夫模型(HMM)完全集相关。一旦选择到最适合该说话者的簇，则使用仅来自这一簇的HMM执行识别。

(3)模型适应--更新一定的HMM参数以反映适应数据的各方面。两个最普遍的模型适应技术是极大后验估计(MAP)及极大似然线性回归(MLLR)。

虽然已经证明这些适应技术每一个都是有益的，但每一个都有某些缺陷。一般来说，比较有效的适应技术倾向于需要可观的计算资源，并还要求对说话者个人方面很多的训练。

本发明带来了全新的技术，使用这种技术可执行说话者规范化及说话者与环境适应。该技术使最初的说话者无关识别系统能够快速获得对新的说话者及接近说话者相关系统的新的声音环境的性能水平，而无需对每一新的说话者大量的训练数据。我们称我们的技术为“本征话音适应”。我们已经发现本征话音适应能够用于各种不同的场合，这些场合将通过某些特定的例子说明。

一般来说，本征话音适应涉及能够大大改进执行说话者与环境适应的速度和效率的先进的维数降低。维数降低是指高维空间到低维空间的映射。可使用各种不同的技术实现维数降低。这些技术包括主成分分析(PCA)，线性鉴别分析(LDA)，因素分析(FA)，单值分解(SVD)及其它使用基于方差的降低准则的变换。

与文献中描述的其它适应技术不同，我们的本征话音适应技术将维数降低用于完全说话者模型集，以便找到覆盖这些说话者模型空间的基向量。作为说明，使用维数降低在脱机步骤分析大量收集的说话者模型，以产生我们称为“本征话音向量”或“本征话音”的本征向量集合。这一脱机步骤计算上是相当密集的，虽然只需要执行一次。这之后，每次使用语音识别系统时，对从新的说话者获得的适应数据执行计算上耗费不大的操作，以获得由本征话音覆盖的空间中的向量。这一新的向量对新的说话者给出了适应模型。

发明内容

本发明的能力的一部分从训练说话者的收集集合及识别系统要对得其适应新的个别说话者的本征话音表示导出。换言之，在维数降低步骤形成的本征空间表示所有的训练说话者集合的语音特性。定义这一n维空间的各本征向量每一个包含不同的信息，并例如能够表示为有序的列表或阵列的成员。

根据本发明的一个方面，提供了一种用于执行说话者适应或规范化的方法，该方法包括以下步骤：

通过对训练的说话者提供一组模型，来构造表示多个所述训练说话者的本征空间，并对所述模型组执行维数降低，以产生定义所述本征空间的一组基向量；

产生适应模型，使用来自新的说话者的输入语音以训练所述适应模型，同时使用所述基向量组来约束所述适应模型，使所述适应模型位于所述本征空间内。

根据本发明的另一个方面，提供了一种执行说话者适应或规范化的方法，所述方法包括步骤：

通过对训练的说话者提供一组模型，构造表示多个所述训练说话者的本征空间，并对所述模型组执行维数降低，以产生定义所述本征空间的一组基向量；

产生适应模型，使用来自新的说话者的输入语音以便在定义所述适应模型的本征空间中找出极大似然向量，使所述适应模型位于所述本征空间内。

根据本发明的再一个方面，提供了一种执行说话者适应或规范化的方法，该方法包括步骤：

将多个训练说话者表示为第一组变换矩阵，以及变换矩阵所适用的模型；

通过对所述第一组变换矩阵执行维数降低而构造表示多个训练说话者的本征空间，以产生一组定义所述本征空间的基向量；

使用来自新的说话者的输入语音产生第二组变换矩阵，同时使用所述基向量组来约束所述第二组变换矩阵，使得所述第二组变换矩阵位于所述本征空间内。

使用本发明大大降低了计算负担，因为本征向量是正交的，允许通过解一组线性方程式执行计算机能够易于执行的随后的计算。

能够以数种不同的方式实现将新的说话者放入本征空间内。虽然能够使用简单的几何投影，将新的说话者放入本征空间中，但我们已经研发了一种我们称为极大似然本征话音分解(MLED)这样一种改进的技术，用于将新的向量放入由本征话音覆盖的空间。极大似然技术涉及基于来自新的说话者的观测数据并还基于如何构造隐藏马尔科夫模型的知识而构造概率函数。使用这一概率函数，通过取导数并求局部极大值而获得极大似然向量。这样这一极大似然向量被固有地约束到由本征话音覆盖的空间内，并在该空间内成为对给出可用的输入语音数据新的说话者良好的表示。

当使用精确的说话者相关模型良好的训练集合作为维数降低的基础时，我们的本征话音适应技术给出出色的结果。因而根据本发明的一个方面，在使用辅助的适应技术使维数降低之前可获得说话者相关模型并使之加强。这类技术包括极大A后验估计(MAP)及其它基于变换的方法，诸如极大似然线性回归(MLLR)。

根据本发明的另一方面，本征话音适应技术用来开发初始适应模型，并且这一模型后来使用诸如上述那些辅助技术进而被改进。通过首先使用MLED技术并然后使用这些辅助适应技术之一，可以获得最好的结果。

到此所讨论的本征话音适应技术已经涉及施加给训练说话者集合的维数降低。本发明的另一方面涉及将维数降低应用于从诸如MLLR这种基于变换的适应技术所得到的变换矩阵。这种方法中，使用每一训练说话者估计来自说话者无关模型(例如使用MLLR)的变换矩阵集合。然后对于每一训练说话者的变换矩阵集合向量化(转换为高维超向量)。然后对超向量集合应用维数降低技术以产生我们称为“本征变换向量”或“本征变换”的低维本征向量集合。

为了快速适应新的说话者，系统假设新的说话者的变换矩阵位于由本征变换覆盖的子空间中，并对说话者无关模型施加结果变换。

维数降低跳跃到本征空间提供了相当的灵活性及计算上的经济性。例如我们发现，统计处理技术可用于低维本征空间本身。因而，根据本发明的另一方面，诸如贝叶斯估计这样的统计过程可在本征空间中执行，以便作为更好定位新的说话者处于本征空间中处何的方法。关于说话者空间什么区域密集或稀疏分布的先验知识(例如来自训练说话者)用来加细在本征空间内何处定位新的说话者的估计。

实际上，这里所述的本征话音适应技术将允许基于很短的、并潜在不完整的训练周期的卤棒性适应模型的构成。这样这些技术有助于在不能获得大量适应数据的场合的说话者和环境适应应用。例如，这些技术将能在语音可用交互式市场系统中很好地工作，其中新的说话者通过电话响应系统导航提示，并且在说话者通过系统导航提交定单时系统自动地适应新的说话者。

附图说明

为了更完整理解本发明、其目的和先进性，请参照以下说明和附图。

图1示出了有助于理解本发明的示例性隐藏马尔科夫模型(HMM)；

图2是表示如何由多个训练说话者构造本征空间的数据流程图；

图3是表示根据本发明如何使用本征话音构造适应模型的数据流程图；

图4是本征空间简化(二维的)说明，比较投影运算与本发明的MLED极大似然运算；

图5是表示根据本发明来自新说话者的观测数据如何通过本征空间变换为适应模型的数据结构图示；

图6是表示本发明的极大似然本征空间适应过程的流程图；

图7是表示用于基于变换矩阵定义本征空间的维数降低过程数据流程图；

图8是用于理解贝叶斯估计技术的框图；

图9是总结说明书中所述各种本征话音适应技术的数据流程图。

具体实施方式

为了更好地理解本发明的说话者适应技术，对语音识别系统基本的理解是有帮助的。当前大多数语音识别器采用隐藏马尔科夫模型(HMM)表示语音。隐藏马尔科夫模型是涉及状态图的建模方法。任何语音单元(诸如短语、词、半词、音素等)都能够以包含在该模型中的所有知识源被建模。HMM表示产生离散区间可观测的输出序列一种未知的过程，输出是某些有限的字母成员(对应于语音单元预定的集合)。这些模型被称为“隐藏的”，因为产生可观测输出的状态序列是未知的。

如图1所示，HMM10由状态集合(S₁，S₂，...S₅)、定义图1中箭头所示的某些状态对之间的转移的向量以及概率数据集合来表示。特别地，隐藏马尔科夫模型包括与转移向量相关的转移概率集合12及与每一状态观测的输出相关的输出概率集合14。对模型从一个状态到另一状态按规则间隔、离散区间定时。按时钟时间，模型可以从其当前状态变为对其转移向量存在的任何状态。如图所示，转移可从给定的状态返回到自身。

转移概率表示当对模型计时时从一个状态向另一状态转移将发生的似然率。于是如图1所示，每一转移与一概率值(0与1之间)相联系。处于任意状态的所有概率之和等于1。举例来说，在转移概率表格12中给出了示例性转移概率值集合。应当理解，在一有效的实施例中，这些值将由训练数据产生，其限制是处于任意状态的所有概率之和等于1。

每次执行转移时，可以将模型设想为发出或输出其字母表的一个成员。在图1所示的实施例中，假设基于音素的语音单元。这样在输出概率表14中定义的符号对应于标准英语中找到的音素。在每一转移时发出哪一个字母表成员取决于输出概率值或训练期间学习的函数。这样发出的输出表示观测的序列(基于训练数据)，并且每一字母表成员有一被发出的概率。

在对语音建模中，通常实际的作法是将输出作为与离散字母表符号序列相对的连续向量序列。这需要输出概率表示为与单个数值相对的连续概率函数。这样，HMM常常基于包括一个或多个高斯分布的概率函数。当使用多个高斯函数时，如在16处所示，它们一般相加地混合在一起以定义一复合的概率分布。

无论表示为单一高斯函数还是表示高斯函数的混合，概率分布能够由多个参数描述。如同转移概率值(表12)那样，这些输出概率参数可能包含浮点数。参数表18标识一般用来基于来自训练说话者的观测数据表示概率密度函数(pdf)。由图1中高斯函数16的方程式所示，要执行建模的观测向量O的概率密度函数是乘以高斯密度N的每一混合分量的混合系数的叠代和，其中高斯密度具有平均向量u_j，以及从倒谱或滤波器组系数语音参数计算的协方差矩阵U_j。

隐藏马尔科夫模型识别器实现的细节从一个应用到另一应用可以有很大变化。图1所示的HMM例子只是要解释隐藏马尔科夫模型是如何构造的，并不是作为对本发明范围的限制。就此而言，有许多各种不同的隐藏马尔科夫建模概念。正如从以下说明能够更充分理解那样，本发明的本征话音适应技术能够很好地适用于每一种不同的隐藏马尔科夫模型变形，以及其它基于参数的语音建模系统。

构造本征话音空间

构造表示多个训练说话者的本征空间的过程示于图2。说明假设训练说话者20的数目T提供了本征空间将在其上构造的一训练数据22语料库。最好有合理的大量说话者(数量级100到200)提供训练数据。然后这些训练数据用来训练如24所示的说话者相关(SD)模型。在步骤24对每一说话者构造一模型，每一模型表示要由识别系统理解的声音单元的整个库存。根据以上由图1提供的说明，每一模型可以是HMM的一个集合，对每一声音单元一个HMM。这表示在图2中26处。

在训练集合表示精确的说话者相关模型时可以得到出色的结果。因而，如果需要，可以使用辅助的适应技术加强说话者相关模型。这种技术包括极大A后验估计(MAP)及其它基于变换的方法，诸如极大似然线性回归(MLLR)。这一可选的辅助适应处理示于图2中27处。当构造大词汇量应用时，其中对给定的说话者每个参数训练数据量可能是低的，这样加强说话者相关模型特别占优势。

在来自T个说话者的所有训练数据已经用于训练相应的说话者相关模型之后，在28处构造T个超向量的集合。这样对T个说话者每一个将有一个超向量30。每一说话者的超向量包括对应于该说话者隐藏马尔科夫模型的参数18至少一部分的参数(一般是浮点数)的一有序列表。对应于声音单元的参数包含在给定的说话者超向量中。参数可以按任何方便的顺序组织。顺序是不重要的；然而，一旦采用了一种顺序，则必须对所有的T个说话者遵循该顺序。

然后有序的隐藏马尔科夫模型参数被连接起来以形成超向量。选择哪些HMM参数包含在超向量中可取决于可用的处理能力。我们发现，从高斯均值构造超向量给出良好的结果。如果可使用较大的处理能力，则超向量也可以包含其它HMM参数，诸如转移概率(图1，表12)或协方差矩阵参数(图1，参数18)。当然，如果隐藏马尔科夫模型产生离散输出(与概率密度相反)，那么这些输出值可用来组成超向量。

在对每一训练说话者已经构造了超向量之后，在步骤32执行维数降低。维数降低是通过将高维空间映射到低维空间而实现的。可使用各种不同技术实现维数降低。这些技术包括主成分分析(PCA)、线性鉴别分析(LDA)、因素分析(FA)、独立成分分析(ICA)、单值分解(SVD)及其它使用基于方差的降低准则的变换。

更具体来说，实现本发明中使用的维数降低技术的类型定义如下。考虑从用于语音识别的说话者相关模型获得的T个训练超向量的集合。设这些超向量的每一个有维数V；这样，我们能够将每一超向量标记为X＝[x1，x2，...xV]^T(V*1向量)。考虑可施加到超向量(即施加到任何维数V的向量)以产生新的维数E的向量(E小于或等于T，训练超向量数目)的线性变换M；每一被变换的向量能够标记为W＝[w1，w2，...wE]^T。以某种方法从T个训练超向量集合计算M的参数值。

这样，我们有了线性变换W＝M*X。M有维数E*V，而W有维数E*1，其中E＜＝T；对于T个训练超向量的特定集合，M将是常数。可用使用几种维数降低技术从T个训练超向量集合计算线性变换M，使得W有维数E＜＝T。

例子包含主成分分析，独立成分分析，线性鉴别分析、因素分析及单值分解。在输入向量是从说话者相关建模推导的训练超向量，且M用来执行实现上述技术的特定情形下，本发明可以使用寻找这种固定线性变换M的任何方法(不只是列出的方法)实现。

如在34处那样，对T个超向量维数降低产生T个本征向量。这样，如果已经使用了120个训练说话者，则系统将产生120个本征向量。这些本征向量定义我们称之为本征话音空间或本征空间的东西。

形成本征话音空间的本征向量包含不同的信息；它们每一个表示不同的维，通过这些维可以区分不同的说话者。原始训练集合中每一超向量能够表示为这些本征向量的线性组合。本征向量按它们在对数据建模中的重要性来排序：第一个本征向量比第二个重要，第二个比第三个重要，等等。至此我们对这一技术的经验表明，第一本征向量好象对应于性别维。

既然在步骤32产生了极大T个本征向量，实际上能够抛弃这些向量中的几个，而只保留前N个本征向量。这样在步骤36我们可选地抽取T个本征向量中的N个，在步骤38组成减少参数的本征空间。能够舍弃较高阶的本征向量，是因为它们包含在说话者之中执行鉴别的较次要信息。降低本征话音空间到少于训练说话者总数，提供了能够有助于在以有限的存储器和处理器资源构造实用系统时的内在的数据压缩。

执行适应

一旦构造了本征话音空间，能够易于实现说话者规范化、说话者适应或环境适应。虽然构造本征空间计算上有些烦琐，并一般是脱机执行的，但在新的说话者正在使用系统时适应还是能够执行的比较简单的计算操作。参见图3，在步骤42使用来自新的说话者40的语音以训练说话者相关模型，构造HMM集合44(每一声音单元一个)。说话者相关模型能够或者以监视模式训练，其中训练系统事先知道训练语音的内容，或者以非监视模式训练，其中语音识别系统使用说话者无关模型确定适应语音的内容。

对这一新的说话者训练的说话者相关模型通常至少在开始很不适用于执行识别。然而，模型却可能用来构造超向量。在步骤46构造超向量，使得强制超向量(超向量48)落入先前从训练说话者生成的本征话音空间38。以强加的约束构造超向量48，使得用于识别的HMM模型必须是构成本征话音空间38的本征话音的线性组合。

说话者相关模型44用来估算将组成对新的说话者适应模型的系数的线性组合。这样在步骤50，基于超向量48构造新的HMM集合以产生适应模型52。如果需要，可以在54执行可选的叠代过程，以便从适应的模型52构造新的超向量，并此后构造HMM的另一集合，从该集合可构造进一步的适应模型。

图4以二维空间示出约束新的说话者语音模型处于本征空间38内的过程。如上所述，本征空间是阶数等于通过维数降低而产生的本征向量数的多维空间。

图4中为了简化表示只示出两维，但是应当理解，本征空间38的阶一般比两维高得多。

新的说话者是通过数据点60图示出的。数据点60将对应于图3中所示的超向量48。注意，60处新的说话者位于本征空间38之外。如上所讨论，适应过程涉及在本征空间内寻找表示对这一新的说话者良好适应模型的点。适应模型基于由新的说话者发出的输入语音，但约束处于本征空间38内。

用于在本征空间内置位新的说话者的一个简单技术要使用线条62所示的简单投影运算。投影运算在本征空间内寻找尽可能靠近本征空间之外对应于新的说话者输入语音的点。这样的简单投影将将新的说话者置位于本征空间38内的点64。应当记住，这些点实际上是从其能够重新组成HMM集合的超向量。

投影运算是不能保证本征空间中的点对新的说话者是优化的比较粗糙的技术。此外，投影运算要求新的说话者的超向量包含数据的完全集合，以便表示该说话者HMM的整个集合。这一要求引起相当大的实用上的限制。当使用投影约束新的说话者到本征空间时，该说话者必须提供足够的输入语音，以使在数据中表示出所有的语音单元。例如，如果指定隐藏马尔科夫模型表示英语语言中所有的音素，则在能够使用简单投影技术之前，训练说话者必须提供所有音素的例子。在很多应用中这一限制完全是不实际的。

极大似然本征话音分解(MLED)技术

本发明的极大似然技术是为了解决上述简单投影的两缺陷。本发明的极大似然技术在本征空间38内寻找表示对应于隐藏马尔科夫模型的超向量的点66，该隐藏马尔科夫模型具有产生由新的说话者提供的语音的最大概率。为了示例，极大似然过程由图4中的线条68表示。

而简单的投影运算将所有的超向量成员作为具有同等重要性对待，最大似然技术是基于从实际适应数据引起的概率的，使信息越多的数据权重越重。与简单投影技术不同，即使新的说话者没有提供完全的训练数据集合(即对某些声音单元的数据缺失)，极大似然技术仍将有效。实际上，极大似然技术将构造超向量的上下文考虑在内，即从涉及一定模型比另外的模型更可能产生由新说话者提供的输入语音的概率的隐藏马尔科夫模型执行构造。

实际上，极大似然技术将在本征空间内选择与新的说话者输入语音最一致的超向量，而不论实际上究竟有多少输入语音可得。为了说明，假设新的说话者是Alabama的当地人年轻女性。在收到来自这一说话者发出的一些音节时，极大似然技术将在本征空间内选择表示与说话者的当地Alabama女性口音一致的所有音素(即使那些在输入语音中还没有表示的音素)的点。

图5表示极大似然技术如何工作。来自新的说话者的语音输入用来构造超向量70。如上所述，超向量包括对应于倒谱系数等语音参数的连接列表。在所示的实施例中，这些参数为表示从对应于新说话者的隐藏马尔科夫模型集合抽取的高斯均值的浮点数。其它的HMM参数也可使用。在图示中，这些HMM均值作为如72处的点示出。当以数据完全分布时，超向量70将对每一HMM均值包含对应于由HMM模型表示的每一声音单元的浮点数。为了执行说明，这里假设音素“ah”的参数出现，而音素“iy”的参数缺失。

本征空间38由本征向量74、76和78的集合表示。对应于来自新说话者的观测数据的超向量70可在本征空间中由每一本征向量乘以标记为W₁，W₂，...W_n的对应的本征值表示。这些本征值起初是未知的。极大似然技术寻找这些未知本征值的值。如将以下更充分说明那样，通过寻找将能在本征空间中最佳表示新说话者的优化解选择这些值。

在使本征值与对应的本征空间38的本征向量相乘并对结果乘积求和之后，产生一个适应模型80。由于输入语音的超向量(超向量70)可能已有某些缺失的参数值(例如“yi”参数)，表示适应模型的超向量80以数值完全分布。此即本发明的一个好处。此外，超向量80中的值表示优化解，即它在本征空间中具有表示新说话者的极大似然值。

各本征值W₁，W₂，...W_n可看作为构成极大似然向量，这里称为极大似然向量。图5在82处图示出向量。如图示所示，极大似然向量82组成本征值W₁，W₂，...W_n的集合。

图6中示出使用极大似然技术执行适应的过程。来自新说话者组成观测数据的语音用来构造如100处所示的HMM集合。然后HMM集合102用于构成如104处所示的超向量。如图所示，超向量106构成从HMM模型102抽取的HMM参数的连续的列表。

使用超向量106，在108构造概率函数Q。当前优选的实施例采用一种概率函数，该函数表示对HMM模型102的预定集合产生被观测数据的概率。如果函数包含的不只是概率项P，而且还有这项的对数logP，则易于执行概率函数Q的后继操作。

然后在步骤110通过分别对每一本征值W₁，W₂，...W_n取概率函数的导数，得到概率函数最大值。例如，如果本征空间维数为100，这一系统计算概率函数Q的100个导数，置每一个为零并对各个W求解。虽然这好象是很大的计算量，但是比传统的MAP或MLLR技术执行一般所需的成千次的计算在计算耗费上要小得多。

这样获得的Ws结果集合表示标识本征空间中对应于极大似然点的点所需的本征值。这样，Ws的集合构成本征空间中极大似然向量。就此而言，每一本征向量(图5中的本征向量74、76和78)定义了一组正交向量或坐标，本征值乘以该坐标而定义约束在本征空间内的点。在112示出的这一极大似然向量用来构造对应于本征空间中最优点(图4中的点66)的超向量114。然后在步骤116超向量114可用来构造对新说话者的适应模型118。

在本发明的极大似然结构的上下文中，我们希望使观测O＝o1...oT的似然关于模型λ最大化。这可通过叠代求辅助函数Q的最大值(以下)执行，其中λ是叠代处的当前模型，而是估计的模型。我们有：

作为最初的逼近，我们可希望只对均值进行最大化。在概率P由HMM集合给出的场合下，我们获得以下结果：

其中：

h (o_{t}, m, s) = {(o_{t} - {\hat{μ}}_{m}^{(s)})}^{T} {C_{m}}^{(s) - 1} (o_{t} - {\hat{μ}}_{m}^{(s)})

并设：

o_t 为时间t处的特征向量

C_m ^(S)-1 为状态s的混合高斯逆协方差

为对状态s的逼近的适应均值，混合分量m

γ_m ^(S)(t) 为P(使用混合高斯m|λ_so_t)

设新说话者的HMM的高斯均值位于本征空间中。设这一空间是由均值超向量μ_j覆盖的空间，j＝1...E，

{\overset{&OverBar;}{μ}}_{j} = [\begin{matrix} {\overset{&OverBar;}{μ}}_{2}^{(1)} (j) \\ {\overset{&OverBar;}{μ}}_{2}^{(1)} (j) \\ \cdot \\ \cdot \\ {\overset{&OverBar;}{μ}}_{m}^{(s)} (j) \\ {\overset{&OverBar;}{μ}}_{{Ms}_{λ}}^{(S_{λ})} (j) \end{matrix}]

其中μ_m ^(s)(j)表示在本征向量(本征模型)j的状态s下混合高斯m的均值向量。

然后我需要：

\hat{μ} = Σ_{j = 1}^{E} w_{j} {\overset{&OverBar;}{μ}}_{j}

μ_j为正交的，且W_j是我们的说话者模型的本征值。这里我们假设，可对任何新的说话者建模为被观测的说话者数据库的线性组合。然后

{\hat{μ}}_{m}^{(s)} = Σ_{j = 1}^{E} w_{j} {\overset{&OverBar;}{μ}}_{m}^{(s)} (j)

s是M的混合高斯值中的λ、m的状态。

由于我们需要使Q最大化，我们只需设定

\frac{&PartialD; Q}{&PartialD; w_{e}} = 0, - - - e = 1 . . . E .

(注意，因为本征向量是正交的，故

\frac{{&PartialD; w}_{i}}{&PartialD; w_{j}} = 0, i &NotEqual; j . .)

因而我们有

计算以上的导数，我们有：

0 = \underset{s}{Σ} \underset{m}{Σ} \underset{t}{Σ} {γ_{m}}^{(s)} (t) {{- \overset{&OverBar;}{μ}}_{m}^{(s) T} (e) {C_{m}}^{(s) - 1} o_{t} + Σ_{j = 1}^{E} w_{j} {\overset{&OverBar;}{μ}}_{m}^{(s) T} (j) {C_{m}}^{(s) - 1} {\overset{&OverBar;}{μ}}_{m}^{(s)} (e)

由此我们求得线性方程式组

\underset{s}{Σ} \underset{m}{Σ} \underset{t}{Σ} {γ_{m}}^{(s)} (t) {\overset{&OverBar;}{μ}}_{m}^{(s) T} (e) {C_{m}}^{(s) - 1} o_{t} = \underset{s}{Σ} \underset{m}{Σ} \underset{t}{Σ} {γ_{m}}^{(s)} (t) Σ_{j = 1}^{E} w_{j} {\overset{&OverBar;}{μ}}_{m}^{(s) T} (j) {C_{m}}^{(s) - 1} {\overset{&OverBar;}{μ}}_{m}^{(s)} (e), e = 1 . . . E

在本征空间求得说话者模型之后的辅助适应

上述的本征话音适应技术发展了对新的说话者的初始适应模型。如果需要，然后可使用辅助适应技术进一步改进这一模型，以便进一步细化适应模型。适用的辅助适应技术包括极大A后验估计(MAP)及其它基于变换的方法，诸如极大似然线性回归(MLLR)。在至今的实验中我们发现，如图所示，最好的结果常常是通过首先采用MLED技术并然后采用这些辅助适应技术之一而获得的。

本征话音技术试图估计新的说话者在本征空间中的位置。然而，除非新的说话者也是训练的说话者，否则他或她不大可能精确位于这一子空间中。如果新的说话者接近本征话音空间中被估计的位置，则本征话音技术很有效，但是不可能总是这样。于是一般来说，仅仅使用本征话音技术不大可能对新的说话者提供“真正”的模型。本征话音技术不能表示出新的说话者特有的音素(即在训练的说话者之中没有看到的)。本征话音技术的优点在于，它们能快速对新的说话者提供合理的逼近模型。

另一方面，MAP和其它诸如MLLR基于变换的方法颇为能够求得对新的说话者“真正”的模型；但是它们如果从说话者无关模型开始(通常的方法)，这些方法达到模型是缓慢的。MLED或某些其它本征话音技术，后跟诸如MAP或其它诸如MLLR这种基于变换的方法的辅助处理，提供了两方面的最佳效果：对新的说话者合理良好模型的快速估计，后跟向“真正”模型的收敛。

将维数降低用于变换矩阵

诸如MLLR这种基于变换的辅助适应技术，也能够对维数降低提供原始资料。这种情形下，对与维数降低模型参数相反的维数降低变换矩阵执行本征话音适应。

在到此所呈现的例子中，说话者模型用来构造超向量，并然后使这些超向量维数降低以产生本征空间。在根据本发明一个方面的另外的技术中，使训练的说话者数据通过变换过程，并然后使用产生的变换矩阵产生本征空间。

为了说明参见图7，其中在130处的T个说话者提供训练数据132，并然后通过基于变换的适应技术，诸如MLLR，对这些训练数据执行运算，以便在134处估计变换矩阵，每一说话者一个。这产生如136处所示的每一说话者一个的一组变换矩阵W₁。这组变换矩阵将施加到表示每一说话者的说话者模型137。

然后这组变换矩阵在步骤138用来构造T个超向量140。类似于前面的例子中连接说话者模型参数的方式，这些超向量可通过连接变换矩阵参数构造。然后在步骤142执行维数降低，产生T个“本征变换”向量的本征空间144。如果需要，如146处所示，该过程可以可选地抽取T个本征变换的子集N。这一结果得到N个本征变换的本征空间148。

为了快速适应新的说话者，系统假设对该新的说话者适当的变换W_i位于由这些本征变换覆盖的子空间中。系统使用简单投影或其它诸如上述MLED技术这样的技术估计本征变换适当的线性组合。这一结果是对新的说话者的一个本征变换向量，这向量可用于说话者

无关模型，以便达到对新的说话者适应的模型。

在本征空间内使用贝叶斯估计

来自训练的说话者通过维数降低处理的数据定义了本征空间的分界和边界。一般来说，训练的说话者本身不是在本征空间中均匀分布的。而是有一概率分布，本征空间内某些区域稀疏分布，而其它区域稠密分布。由于这一概率分布来源于训练的说话者并在训练之后即被得知，故在本征空间中益使用贝叶斯估计。

贝叶斯估计即考虑(原有的训练说话者)先验的概率分布，又考虑来自新的说话者的观测数据。形式上，假设对说话者模型λ先验的概率分布为g(λ)。对新的说话者给出观测O，贝叶斯估计试图求得使以下关系式最大化的λ：

L(O|λ)*g(λ)

即我们使用关于说话者空间什么区域为密集或稀疏分布这样的先验的知识(从训练的说话者推测)，来加细我们的估计∧帽：

\hat{λ}

即在这空间中新的说话者的位置。这样的贝叶斯估计涉及使用新的观测数据调和先验概率分布，其中对新的估计寻求极大概率。

有几种方法在本征空间中进行贝叶斯估计。以下将讨论这些方法中的一些方法，但是这一讨论并不是要包括所有的方法。

一项技术使用以上讨论的MLED技术在本征话音空间中估计新说话者，其中w是在以下等式中定义的本征话音权重向量：

在以上等式中Aw＝b是解方程获得MLED估计。∧帽是对新说话者模型(例如说话者无关模型)初始估计，v是从先验概率对数的一阶导数获得的向量，τ是时间因子。时间因子τ对说话者就时间的可变性建模-具体的本征维数时间变化越多，在该维先验概率上放置的权重越大。

在本征话音空间中结合先验概率并执行贝叶斯估计的另一方法是使用这种数据到低维本征空间的投影估计高维数据的高斯密度。如果x是从类别Ω画出的观测向量，而E是通过选择前K个本征向量获得的本征空间，这前K个本征向量是从对来自Ω的训练数据执行维数降低导出的，这时以下等式成立：

\hat{P} (x | Ω) = P_{E} (x | Ω) * P_{\overset{&OverBar;}{E}} (x | Ω)

在以上等式中本征空间E中的单高斯密度由以下项表示：

P_E(x|Ω)

在对偶空间即在与本征空间正交的空间中单一高斯分布由以下项表示：

P_E(x|Ω)

能够仅使用到E的投影和残差从训练数据向量集完全估计这两项。

计入先验概率的一个简单、近似的方法是假设每一本征维大体是独立的。然后每一维能够划分为小的数目的簇，每一簇具有单一高斯输出分布及先验概率(从训练的说话者计算)。然后适应涉及基于从新的说话者的观测，在每一维中选择最可能的分布。这一方法在训练数据中有高置信度并在来自新说话者的数据中有较低置信度的情形下是有吸引力的。

另外，训练的说话者能够划分为本征话音空间中有限数目的输出分布，每一带有先验概率。然后适应在于找到与新的观测最佳匹配的簇。这一技术在先验概率上比新的观测数据放置更多的权重。

图8总结了施加于本征话音空间的基本贝叶斯估计技术。参见图8，训练数据产生在150所示的模型∧。这些模型对应于本征空间152。模型在本征空间中不是均匀分布，而是有稠密分布区域及稀疏分布区域。这已经以“拓扑”图的形式示出。这些模型∧具有在154图示的概率分布，并在156由概率函数g(∧)示出。

新的说话者160提供在162图示的观测数据O。概率分布156和观测值O在贝叶斯方程164中相乘，且这一乘积用来寻找使贝叶斯方程164最大化的新的说话者模型∧。注意，方程164包括与遇到的观测值O的概率相关的给出模型∧参数的第一项；以及与原始训练数据的概率分布相关的第二项。这样，第一项表示新的说话者而第二项表示先验概率。

环境适应

虽然到此对本发明作为说话者适应技术已经执行了说明，该技术可易于扩展到环境适应。例如许多语音识别系统对环境条件，诸如麦克风位置、空间声学、背景噪声及音频信号信道质量是相当敏感的。本征向量能够用来对不同的说话环境建模，这正如它们用来对不同的说话者建模那样。

在大多数情形下，希望协调说话者适应和环境适应的需要。为了做到这点，我们只需保证在环境广泛的变化中记录训练的说话者。为了获得良好的性能，训练的说话者数目和记忆的本征话音数目可能需要比对于安静环境中本征话音适应必须的数目大。否则，过程与上述相同。

为了产生适应环境而不是说话者的说话者无关系统，适应与上述技术稍微不同的变形。首先，训练E个说话者无关模型，其中E是训练数据中不同环境数。E个模型的每一个对相同的环境中许多不同的说话者训练。理想地，E个不同的记录环境将尽可能多样化。然后，本征话音过程如上述执行。这种情形下，本征话音向量将表示环境之间的变化成分。这样，第一本征向量可能或可能不象说话者适应例子中所作的表示性别维。

所提供的本征话音技术总结

本发明的本征话音适应技术能够用于各种不同的场合。它们可单独使用或与以上概述的其它适应技术一同使用。图9总结了本征话音适应技术的某些可能的应用和实现。参见图9，训练的说话者200对用来产生说话者模型204的初始集合的模型构造器202提供输入。在这点可采取几种不同的方法。

如206所示，可对说话者模型204执行维数降低，以便产生本征空间208。

另外，可使用辅助适应过程210加细说话者模型204，以产生加细的或加强的模型集合212。如以上所指出，辅助适应过程能够实现MAP估计或其它诸如MLLR基于变换的方法。然后维数降低206可施加到这些加强的模型上，基于训练的说话者200加强的模型产生本征空间208。

诸如新的说话者214这样的新的说话者的适应是通过适应过程216执行的，该过程通过任何上述技术将新的说话者放置到本征空间208中。当前优选的实施例使用极大似然技术MLED用于将新的说话者放置到本征空间。

如上所讨论，本征空间内每一向量对应于一说话者模型。这样向本征空间放置新的说话者214的结果是得到本征空间中表示对这新的说话者适应模型的向量。图9中，这一适应模型在218处标记。

如果需要，如220处所示，新的说话者214到本征空间中的放置能够通过贝叶斯估计加强。贝叶斯估计使用来自训练的说话者200关于说话者空间区域哪些是密集的或哪些是稀疏分布的这样的先验概率知识，且这一知识用来加细在该空间内在哪里放置新的说话者的估计。

在适应模型218已经产生之后，可对其执行辅助适应过程222以产生在224所示的更为加细的适应模型。辅助适应过程222能够采用MAP估计或诸如MLLR某些基于变换的方法。与使用过程216结合使用辅助适应过程222提供了双重优点：适应过程216快速达到对新的说话者适应模型的估计；适应过程222对估计加细以找到最佳适应模型。

到此在这一总结讨论中，已经对说话者模型204执行维数降低步骤。回忆起维数降低过程涉及使用诸如隐藏马尔科夫模型参数这样的适当模型参数形成对每一训练的说话者相连的超向量。然而维数降低不限于说话者模型。维数降低还能够用于使用其它说话者适应技术产生的变换矩阵，诸如在210所示的辅助适应过程。

于是，图9还示出维数降低技术的替代使用。辅助适应过程210作为其运算的副产品产生变换矩阵。这些变换矩阵示于图9中226处。例如，辅助适应过程210可以是诸如MLLR基于变换的运算，这种运算从一说话者无关(SI)模型产生一组变换矩阵W_i。然后将对每一训练的说话者的这一组矩阵如通过连接向量化，以产生高维超向量。然后在步骤228执行维数降低以产生对应于一组“本征变换”向量的本征空间230。

为了适应新的说话者，诸如说话者232，适应过程234假设对该新的说话者适当的变换W_i位于由本征变换覆盖的子空间(本征空间230)中。例如使用MLED方法，已经估计了本征变换的适当的线性组合，然后系统将产生的变换W_i施加到说话者无关模型，以产生对新的说话者适应模型236。

在重新查看图9时，请记住，图9是要总结这一文献中其它地方所描述的数个不同的本征话音适应技术。这样，图9中的解释只是要表示这些技术在各种场合中的应用。根据本发明给出的实现可以使用这里所示的某些过程，但是不是完全必须的。此外，图9不是要包括一切。在所附权利要求中所述本发明范围内还可生成许多其它组合。

虽然对本发明就其当前优选实施例执行了说明，但是应当理解，本发明能够适用于各种不同的应用。于是，上述的例子是要说明本发明的构思，而不是限制权利要求的范围。

Claims

(修改)

1.一种用于执行说话者适应或规范化的方法，该方法包括以下步骤：

通过对训练的说话者提供一组模型，来构造表示多个所述训练说话者的本征空间，并对所述模型组执行维数降低，以产生定义所述本征空间的一组基向量；

产生适应模型，使用来自新的说话者的输入语音以训练所述适应模型，同时使用所述基向量组来约束所述适应模型，使所述适应模型位于所述本征空间内。
2.根据权利要求1的方法，其中通过连接从所述模型组抽取的多个模型参数，并通过对所述模型参数执行线性变换，执行所述维数降低。
3.根据权利要求1的方法，其中通过从由主成分分析、线性鉴别分析、因素分析、独立成分分析以及单值分解组成的组中选择的变换过程执行所述维数降低。
4.根据权利要求1的方法，其中用于所述训练说话者的模型定义多个模型参数，且所述构造本征空间的步骤包括连接用于所述训练说话者的模型参数以便构造一组超向量，并对所述超向量执行线性维数降低变换，从而产生所述基向量。
5.根据权利要求4的方法，其中用于每一所述训练说话者的模型对应于一组不同的语音单元，且其中每一超向量被定义为对应于按预定顺序分类的语音单元的模型参数的连接。
6.根据权利要求4的方法，其中所述模型参数为倒谱系数。
7.根据权利要求1的方法，其中所述执行维数降低的步骤产生一组数目等于训练说话者数目的基向量。
8.根据权利要求1的方法，其中所述执行维数降低的步骤产生基向量的有序列表，并且其中所述构造本征空间的步骤包括放弃所述有序列表的预定部分，以降低所述本征空间阶数。
9.根据权利要求1的方法，其中所述约束所述适应模型的步骤通过向所述本征空间投影所述输入语音执行。
10.根据权利要求1的方法，其中所述说话者模型组定义多个参数，并且所述方法还包括通过调节所述模型的至少某些参数来强化所述说话者模型，以定义一组强化的说话者模型的步骤。
11.根据权利要求10的方法，其中使用极大后验估计执行所述强化步骤。
12.根据权利要求10的方法，其中使用基于变换的估计过程执行所述强化步骤。
13.根据权利要求10的方法，其中使用极大似然线性回归估计执行所述强化步骤。
14.根据权利要求10的方法，其中所述产生适应模型的步骤包括使用来自所述新的说话者的输入语音以产生极大似然向量，以及利用所述极大似然向量来构造所述适应模型，使得所述适应模型位于所述本征空间内。
15.根据权利要求1的方法，还包括步骤：

通过从所述适应模型抽取模型参数而强化所述适应模型，并基于来自所述新的说话者的输入语音来至少调节某些所述参数。
16.根据权利要求15的方法，其中使用极大后验估计执行所述强化步骤。
17.根据权利要求15的方法，其中使用基于变换的估计过程执行所述强化步骤。
18.根据权利要求15的方法，其中使用极大似然线性回归估计执行所述强化步骤。
19.根据权利要求15的方法，其中所述产生适应模型的步骤包括使用来自所述新的说话者的输入语音以产生极大似然向量，以及利用所述极大似然向量来构造所述适应模型，使得所述适应模型位于所述本征空间内。
20.根据权利要求19的方法，其中使用极大后验估计执行所述强化步骤。
21.根据权利要求19的方法，其中使用基于变换的估计过程执行所述强化步骤。
22.根据权利要求19的方法，其中使用极大似然线性回归估计执行所述强化步骤。
23.根据权利要求1的方法，其中所述模型组定义第一概率分布，且所述输入语音定义观测数据，且其中所述适应模型的产生使得所述观测数据和所述第一概率分布的乘积最大化。
24.根据权利要求23的方法，还包括向所述第一概率分布及所述第二概率分布施加置信因子，以反映由所述分布提供的信息置信度对时间如何变化。
25.一种执行说话者适应或规范化的方法，所述方法包括步骤：

通过对训练的说话者提供一组模型，构造表示多个所述训练说话者的本征空间，并对所述模型组执行维数降低，以产生定义所述本征空间的一组基向量；

产生适应模型，使用来自新的说话者的输入语音以便在定义所述适应模型的本征空间中找出极大似然向量，使所述适应模型位于所述本征空间内。
26.根据权利要求25的方法，其中所述产生极大似然向量的步骤包括：

定义表示对预定的一组模型产生观测数据的概率的概率函数，其中所述输入语音提供所述观测数据；以及

最大化所述概率函数以找出所述极大似然向量。
27.根据权利要求25的方法，其中所述适应模型通过使极大似然向量系数乘以所述基向量，而根据所述极大似然向量导出。
28.根据权利要求26的方法，其中所述最大化步骤通过以下执行：

将所述极大似然向量表示为一组本征值变量；

对于所述本征值变量取所述概率函数的一阶导数；以及

当所述一阶导数等于零时，求出所述本征值变量对应的值。
29.一种执行说话者适应或规范化的方法，该方法包括步骤：

将多个训练说话者表示为第一组变换矩阵，以及变换矩阵所适用的模型；

通过对所述第一组变换矩阵执行维数降低而构造表示多个训练说话者的本征空间，以产生一组定义所述本征空间的基向量；

使用来自新的说话者的输入语音产生第二组变换矩阵，同时使用所述基向量组来约束所述第二组变换矩阵，使得所述第二组变换矩阵位于所述本征空间内。
30.根据权利要求29的方法，其中所述第一组变换矩阵是通过极大似然线性回归产生的。
31.根据权利要求29的方法，还包括使所述第一组变换矩阵每一个向量化以定义一组超向量，并对所述超向量执行维数降低以定义所述本征空间。
32.根据权利要求29的方法，还包括使用来自新说话者的输入语音产生所述第二组变换矩阵，以产生极大似然向量，使用所述极大似然向量确定所述本征空间内的位置。