CN1551101B

CN1551101B - 压缩声音模型的自适应

Info

Publication number: CN1551101B
Application number: CN2004100435508A
Authority: CN
Inventors: A·J·古纳瓦答纳
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-05-15
Filing date: 2004-05-17
Publication date: 2012-04-11
Anticipated expiration: 2024-05-17
Also published as: ATE531032T1; CN1551101A; EP1477966B1; KR101036712B1; US7499857B2; US20040230424A1; EP1477966A3; KR20040098589A; EP1477966A2; JP2004341532A

Abstract

使用本发明，用自适应(诸如发言人相关的训练数据)使在子空间中量化的声音模型适应。将声音模型压缩成多维子空间。为每个子空间产生码本。估计自适应变换，并且将它应用于码本中的码字，而不是应用于均值本身。

Description

压缩声音模型的自适应

技术领域

本发明涉及语音识别系统中的声音模型。更具体地说，本发明涉及在计算机实现语音识别所中使用的压缩高斯模型(gaussian model)的自适应。

背景技术

语音识别系统接收语音信号，并且尝试译码语音信号以识别由语音信号表示的词语串。常规的语音识别器尤其包括通常由训练数据构成的声音模型和语言模型。声音模型基于训练数据模型化语音单元(诸如音素)的声音特征。语言模型按照在训练数据中找出的的词语顺序模型化词语顺序。

当接收语音信号用于语音识别时，从语音信号中提取声音特征，并将它们与声音模型中的模型比较，以识别包含在语音信号中的语音单元。在给定其历史(或语境)时，将有可能的词语与语言模型比较，以判定说出一个词语的概率。

经常希望的是，设计语音识别，以便可在具有较低处理能力和/或较低存储性能的计算机系统中使用它们，而不损失语音识别的准确性。语音识别系统的一个重要的存储密集部分是声音模型的存储。在基于语音识别系统的隐马尔可夫模型(Hidden Markov Model)(HMM)中，声音模型通常由好几万具有对角方差矩阵(diagonal covariance matrix)的多维高斯概率分布(multidimensional gaussian probability distribution)组成的。例如，高斯分布每一个可以是39维。每一维需要一个均值和一个方差。因此，如果一个模型具有40,000个39维的高斯(gaussian)，每个具有一个均值和一个方差，一般被存储为四字节的浮点值，则该模型将占用超过十兆字节用以存储。

能用标量量化(scalar quantization)存储每个一字节的均值和每个一字节的方差，并且常常在差错率上不导致降级，并且得到4倍的压缩(在上述例子中的模型将是2.5MB)。一个这样类型的标量量化是线性标量量化，它能通过找出每个参数的最大值和最小值并且线性地量化最大值与最小值之间的点来完成。

能使用已知的聚类技术压缩声音模型，因此它占用较少的存储器用以存储。通常，此技术被称为子空间编码(subspace coding)，并且包括将不同的维度集合在一起。一般地，将代表性的高斯分布存储在用于每组维度的码本。存储码本以构成声音模型，并在语音识别期间通过索引访问码本以处理输入信号。

而且，常规地，使用许多不同的发言人训练声音模型。那些发言人可以是，例如，具有不同重音的男性和女性，并且具有不同语音音调。发言人可能讲得快或慢。使用所有这些类型的发言人训练声音模型，以获得与发言人无关的声音模型，它在用户的大范围上工作良好。

不过，普遍认识到，对于一给定的发言人，发言人相关的声音模型比发言人无关的声音模型更准确。过去，为了使声音模型适应，从要使模型适应的发言人收集训练数据。然后估计模型变换并将它应用于声音模型。存在各种各样的已知方法用于使声音模型适应。用于使常规声音模型适应的一个常规的技术，在Leggetter和Woodland的SPEAKER ADAPTATION OF CONTINUOUS DENSITYHWM USING MULTIVARIATE REGRESSION中阐述，它在Computer Speech andLanguage(计算机语音和语言)的卷9的第171-185(1994)。

不过，当将模型压缩成子空间时，如上所述，在声音模型中的各高斯变量被在各子空间中量化。常规的发言人自适应过程(诸如MLLR)不能应用于这样的模型，因为将不再压缩适应的均值，并且因此要求更多的存储器。

概述

本发明用于使用自适应训练数据(诸如发言人相关的训练数据)使在子空间中量化的声音模型适应。将声音模型压缩到多维子空间中。为每个子空间产生一个码本。估计自适应变换，并将它应用于码本中的码字，而不是应用于均值本身。

在一个实施例中，进一步将码本划分成类，称为回归类。回归类可反映高斯变量是否属于语言类，诸如元音或辅音或无声的语音，或者类是否能基于其它特性导出。在将码本划分成回归类的实施例中，自适应变换能基于码字所属的特定回归类应用于码本中的码字。那样，在属于一个回归类的给定码本中的均值的分量，能与属于不同回归类的码本中的均值的分量被不同地变换。

附图说明

图1是能使用本发明的环境的一个示例性实施例。

图2是按照本发明一个实施例的语音识别系统的方框图。

图3A是形成聚类的高斯分布的图。

图3B是具有用于一维的均值和方差的码本的示意图。

图3C是具有用于二维的均值和方差的码本的示意图。

图4是流程图，例示聚类和子空间编码的方法。

图5例示聚类成子空间的两个均值向量。

图6是按照本发明一个实施例表示均值的分块对角矩阵的简化实例。

图7A例示相应于两子空间的两个码本。

图7B例示按照本发明的回归树的一个实施例。

图8例示具有相应于四个码本的方块的分块对角矩阵的一部分。

图9例示被分割成子空间的分块对角矩阵的一部分，并且例示基于在每个码本中的回归类，能将自适应变换不同地应用于在码本中的码字。

详细说明

本发明的一个方面涉及构成声音模型的自适应子空间编码的高斯模型。不过，在详细地讨论这个和其它方面之前，将提供能使用本发明的一个示例性计算环境和计算机实现的应用。

图1例示适合于在其上实现本发明的计算系统环境100的例子。计算系统环境100只是适合的计算环境的一个例子，并且不是想要建议关于本发明的用途或功能范围的任何限制。不应该将计算环境100解释为与在示例性操作环境100中例示的组件的任何一个或组合有关的依赖性或要求。

本发明可与众多的其它通用或专用计算系统环境或配置一起运行。可适用于本发明的、众所周知的计算系统、环境和/或配置的例子包括，但不限于，个人计算机、服务器计算机、手持或膝上型/便携式设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括任何上述系统或设备的分布式计算环境等等。

可在由计算机可执行指令诸如由计算机执行的程序模块的一般环境中描述本发明。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明也可在分布式计算环境中实施，在所述分布式计算环境中由通过通信网络链接的远程处理设备执行任务。在分布式计算环境中，程序模块通常位于本地和远程两者包括存储器设备在内的计算机存储介质中。在下面并且在图的帮助下描述由程序和模块执行的任务。在本领域那些熟练技术人员能将描述和图实现为处理器可执行指令，可将所述指令写在任何形式的计算机可读介质上。

参考图1，用于实现本发明的示例性系统包括计算机110形式的通用计算设备。计算机110的组件包括，但不限于，处理单元120，系统存储器130，以及将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可能是任何几种类型总线结构包括存储器总线或存储控制器，外设总线，使用任何各种各样总线结构的局部总线。作为例子，但不限于，这样的结构包括工业标准结构(ISA)总线，微通道结构(MCA)，增强ISA(EISA)总线，视频电子标准协会(VESA)局部总线，以及外围部件互连(PCI)总线，也被称为夹层(Mezzanine)总线。

计算机110一般包括各种条样的计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质，并且包括易失性介质和非易失性介质两者，可移动和不可移动的介质。作为例子，且不限于，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于信息存储的任何方法或技术实现的易失性和非易失性两者，可移动和不可移动的介质，这些信息诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储介质包括，但不限于，RAM，ROM，EEPROM，闪存或者其它存储技术，CD-ROM，数据通用盘(DVD)或其它光盘存储器，磁带盒，磁带，磁盘存储器或者其它磁存储设备，或者能用于存储想要的信息以及能由计算机110访问的任何其它介质。通信介质一般包括在调制的数据信号诸如载波或者其它传输机制中的计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。术语″调制的数据信号″指具有以这样一种方式以便在信号中编码信息来设置或改变其一个或多个特征的信号。作为例子，不是限制，通信介质包括有线的介质诸如有线网络或者直接线的连接，以及无线介质诸如声音、RF、红外线和其它无线介质。任何上述各项的组合也应该包括在计算机可读介质的范围内。

系统存储器130包括易失性/或非易失性存储器形式的计算机存储介质，诸如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)，包含帮助在计算机110内的部件之间，诸如在启动时传送信息的例程，一般存储在ROM 131中。RAM 132一般包括数据和/或程序模块，可由处理单元120立即访问和/或当前操作。作为例子，但不限于，图1例示操作系统134，应用程序135，其它程序模块136和程序数据137。

计算机110还可包括其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质。只作为例子，图1例示了读写不可移动的、非易失性的磁介质的硬盘驱动器141，读写可移动的、非易失性磁盘152的磁盘驱动器151，以及读写可移动的、非易失性光盘156诸如CD ROM或者其它光介质的光盘驱动器155。能在示例性操作环境中使用的其它可移动的/不可移动的、易失性的/非易失性的计算机存储介质包括，但不限于，磁带盒、闪存卡、数字通用盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141一般通过不可移动的存储器接口诸如接口140连接至系统总线121，以及磁盘驱动器151和光盘驱动器155一般通过可移动的存储器接口诸如接口150连接至系统总线121。

上面讨论的并且在图1中所示的驱动器及其相关的计算机存储介质，为计算机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，例如，硬盘驱动器141被例示为存储操作系统144、应用程序145、其它程序模块146以及程序数据147。注意，这些组件能够与操作系统134、应用程序135、其它程序模块136和程序数据137或者相同或者不同。在这里为操作系统144，应用程序145，其它程序模块146和程序数据147给出不同的数字用以说明，至少它们是不同的拷贝。

用户可通过输入设备诸如键盘162、话筒163和指定设备161诸如鼠标、轨迹球或者触摸板，将命令和信息输入到计算机110中。其它输入设备(未示出)可包括话筒、操纵杆、游戏板、卫星天线、扫描仪等等。这些和其它输入设备常常通过连接到系统总线的用户输入接口160连接到处理单元120，但可通过其它接口和总线结构连接，诸如并行口、游戏口或者通用串行总线(USB)。监视器191或者其它类型的显示设备也可通过接口诸如视频接口190连接到系统总线121。除监视器外，计算机还可包括其它外部输出设备诸如扬声器197和打印机196，它们可通过输出外设接口195连接。

计算机110可在使用逻辑连接至一个或多个远程计算机诸如远程计算机180的网络化环境中操作。远程计算机180可能是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或者其它公共网络节点，并且一般包括许多或者所有上面相关于计算机110所述的部件。在图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但还可包括其它网络。这样网络环境在办公室、企业级计算机网络、企业内部互联网和因特网中是很普通的。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时，计算机110一般包括调制解调器172或者用于在WAN 173诸如因特网上建立通信的其它装置。可能是内置或外置的调制解调器172，可通过用户输入接口160或者其它适当的机制连接至系统总线121。在网络化环境中，相对于计算机110所述的程序模块或者其部分，可存储在远程存储器设备中。作为例子，不是限制，图1例示远程应用程序185为驻留在存储器设备181上。将理解到，所示的网络连接是示例性的，并且可使用在计算机之间建立通信连接的其它方法。

图2例示示例性语音识别系统的方框图，所述语音识别系统具有受益于本发明的高斯分布和码字自适应的子空间编码的声音模型。

在图2中，发言人400对着话筒404讲话。由话筒404检测的音频数据被转换成电子信号，并提供给模拟-数字(A至D)转换器406。

A至D转换器406将来自话筒404的模拟信号转换成一系列的数字值。在几个实施例中，A至D转换器406以16kHz和每样本16比特取样模拟信号，因此创建每秒32千字节的语音数据。将这些数字值提供给帧构造器(frameconstructor)407，在一个实施例中，帧构造器407将值分组成相隔10毫秒开始的25毫秒帧。

将由帧构造器407创建的数据帧提供给特征提取器(featureextractor)408，它从每个帧提取特征。特征提取模块的例子包括，用于执行线性预测编码(Linear Predictive Coding)(LPC)、LPC导出的倒谱(LPC derivedcepstrum)、知觉线性预测(Perceptive Linear Prediction)(PLP)、听觉模型(Auditory model)特征提取和美频倒谱系数(Mel-Frequency CepstrumCoeffients)(MFCC)特征提取的模块。注意，本发明不受限于这些特征提取模块，并且在本发明的环境内可使用其它模块。

特征提取模块408产生特征向量的流，每个特征向量与语音信号的帧相关联。将这个特征向量的流提供给译码器412，译码器412基于特征向量的流、词典414、语言模型416(例如，基于N元语法、语境无关语法或它们的混合)和声音模型418，识别一个最有可能的词语序列。用于译码的特定方法对于本发明不重要。不过，本发明的方面包括对声音模型418和其使用的修改。

可将最有可能的假设词语序列提供给可任选的置信测度模块(confidencemeasure module)420。置信测度模块420识别哪个词语最有可能已由语音识别器不正确地识别。这可部分地基于一个第二声音模型(未示出)。置信测度模块420接着将假设词语序列连同标识符一起提供给输出模块422，所述标识符表示哪个词语可能已不正确地识别。在本领域的那些熟练技术人员将认识到，置信测度模块420对于本发明的实施不是必需的。

在训练期间，相应于训练文本426的语音信号连同训练文本426的词汇抄本(lexical transcription)一起输入到译码器412。训练器424基于训练输入训练声音模型418。本发明的一个方面包括的适应一压缩的声音模型418。

在描述子空间分组或聚类技术和本发明的自适应之前，简要地回顾用于声音模型418的先前的编码技术可能是有帮助的。如在背景部分所讨论的，典型的声音模型是由好几万多维高斯概率分布构成的和表示的。例如，普通的声音模型包括许多39维对角高斯概率分布。在本实施例中，每个高斯具有39个均值分量(″m″)和39个方差分量(″v″)，每维一个。在一个实施例中，相应于一给定维的均值和方差被处理为单个高斯分布分量，因此每个高斯分布是由39个这样的分量组成的，每个具有一个均值和一个方差。而不是保存高斯分布的全部，以一种方式聚类或者分组高斯分布分量(即，聚类每个分量的均值和方差)，使得产生代表性的高斯分布分量，在此也被称为“形心”。图3A示意性地例示用于一维的部分聚类。在图3A中，每个点代表一个具有均值和方差的高斯分布分量，其中在图3A中平均值参考水平轴500，而方差值参考相对于垂直轴502。聚类涉及将相似的高斯分布的均值和/或方差分量分组在一起，在图3A中表示为虚线圆504。在图3A中，例示四个聚类并表示为“零”、“一”、“二”和“三”。

如上所述，获得形心以代表1-维高斯分布分量的聚类。每个形心因而包括相应的均值和方差。一个编码技术包括用单个数字表示每个形心(每个均值和每个方差)，然后能使用它引用并因此获得均值和方差值。这个技术是子空间量化的简化形式(其中每个子空间是一维)并且涉及构成示意性地在图3B中示出的码本520，对本发明来说，码本520可以是形心或者分别是其均值或方差的集合。如上所述，每个形心具有相应的均值和方差分量，它们存储在码本中分别作为列522和524。第三列526包括引用识别符(或索引)，它相应于在图3A的图中形成的聚类。码本可具有任意数量的项(码字)，例如，0至15(16项)，或0至255(256项)等。图3A的图代表最前面的四个聚类和相应的形心。应该注意，也能分别对每个均值和每个方差编码。

码本520存储在处理期间使用的、引用至第三列526的均值和方差。例如，如果高斯均值和方差是由索引数字2代表的，则码本表示应该使用的1.40374的均值，同时应该使用0.0072的方差。

现在讨论进一步减少声音模型的大小的一种方法。对于本发明来说，用于子空间编码的特定方法不是重要的，并且只是为了示例性目的提供下列描述。为了子空间编码，将几维表示在一起。例如，有可能将39维高斯分布的维1和3分组在一起，并且用一个单个索引数字以与上面关于一维所述的相似的方式代表相应的均值和方差。图3C例示一个码本540，其中维1和3被分组在一起。列542和544代表用于维1的均值和方差(将它作为在图3B中所代表的维)，而列548和550代表用于维3的均值和方差(这是另一维，以前未示出)，它们全部被引用至标识符546。因而编码在此码本中的高斯分量是由2个均值和2个方差组成的。

通过将两维分组在一起，能按大约二倍的因数减少模型。这个技术称为子空间编码，因为原来的模型可具有39维空间，而减少的模型具有20维空间(19维代表原来的均值和方差分量的分组对，其中一个保留其自己的)，它是原来39维空间的子空间。在一个例示性实施例中，每个码本编码相应于39维特征空间的子空间的高斯分布分量。也应该注意，进一步的减少是通过使用诸如在图3C中例示的码本来实现的，在码本中在列546中的单个数字代表相应于多于二维的原来的均值和多于二维的原来的方差的子空间。这些子空间是通过以使得识别器性能不被不利地影响的这样一种方法分组维度来例示性地选择的。

图4例示用于执行聚类的步骤，并且还例示用于执行子空间编码或分组的步骤。再次，存在许多方法这么做并且下列描述只是示出一个示例性方法。方法开始于步骤600。在步骤602，将每维的高斯分布聚类成选定数量的聚类，其中每个聚类具有一个代表性的或计算的形心。存在各种众知的标准技术用于聚类。通常，必须确定如何初始化聚类，并且接着，如何增加聚类，如果最初不是从所要求数量的聚类开始的。在此步骤可使用K-均值聚类(K-meansclustering)。例如，一个方法包括从只有一个包括所有高斯分布的聚类开始，并且接着周期性地分离所有聚类，直到达到所要求数量的聚类。可供替换地，可从所要求数量的聚类开始，并且接着在初始聚类中相等地分配概率分布。在聚类时，通常计算与聚类操作相关联的成本，如在方框604所示。

除聚类每个单个维的高斯分布中的均值和方差(步骤602至604)之外，相同类型的技术也能应用于多维均值和方差向量的维分量，以将多维向量划分成子空间(例如，维0可以与维1分组，维0可以与维2分组，维0可以与维2和3分组，等)。在图4中的步骤606和608代表聚类和用于维的组合的成本确定步骤。在此阶段，分组是由两维组成的。例如，图5示出具有x维的多维均值和方差向量700，其中x可以是例如39或另一个所要求的数字。为了将向量700划分成子空间，方差700的维分量可以被分组在一起。再次，这可以以各种各样的已知方法来完成，并且这只是一个示例性方法。在步骤608中，分组向量700的两个分量。在步骤608计算分组那些分量的成本。

在步骤610，重复过程，直到已经计算所有各种组合。这可以用图来代表，如在图6中，二维数组代表全部维测度用于维的每种组合。特别地，对角元素(∑S_dT 0，0)相应于用于单维的聚类和成本确定(即步骤602和604)，而对角线外的元素(∑S_dT0，2)相应于用于合并两维的聚类和成本确定。

在步骤612，具有成本上最小增加的两维被分组在一起。在一个实施例中，在成本上的最小增加是通过下列公式确定的。

方程1

合并分组A和分组B的成本＝成本[A&B]-成本[A]-成本[B]其中，在第一次迭代中，A和B各自代表单维(例如，0，1，2等)。然而，在以后的迭代中，A和B也可代表已经合并的维(例如，1和26，2和13等)。

回来参考图6，在第一次迭代中，成本[A&B]是对角线外的元素，而成本[A]和成本[B]是从对角线元素获得的。

在步骤612已经将二维合并在一起，维的总数已经减1(例如，从39维到38维)。

如果在步骤614还没有到达所要求的维的减少，则过程返回至步骤606，在此基于相对于每个其它维新形成的分组计算聚类和成本决定。这可以图示为减少一行和一列(即32乘32)的二维数组，其中新对角线元素代表新形成分组的成本，并且已增加对角线外元素以反映其它维的各种组合。再一次，在步骤608，具有最小成本增加的两个分组基于上面方程1的计算而被合并。迭代步骤606、608、610、612和614的进一步重复，直到已经通过原来维的分组而达到所要求的维数。在步骤616完成子空间编码。

这导致一个被划分成n个标记为d₁-d_n的子空间的向量702。例如，向量702示出原来的维1和2被组合以构成子空间d₁。此外，原来的维3-5被组合以构成子空间d₂，等等。应该注意，尽管被分组到子空间的原来的维在向量中是连续的，但它们不必是这样。当然总可以重新排序它们，使它们是连续的。

因为维向量700现在已经被重新分组和重新安排成如在图5中702所示的子空间，所以声音模型可以是由一个大的表(诸如采用在图3C中的形式的表)代表的。不过，为各种各样的理由，将表分割成较小的块，允许更好和更准确的压缩。因此，按照本发明一个实施例，其中一个码本相应于原来的向量被划分成的每个子空间d₁-d_n。

例如，对于具有高斯混合放射密度(gaussian mixture emission density)，由下式给出状态放射(state emission)：

方程2

q (o | s; θ) Π_{m = 1}^{M} w_{m} N (o; μ_{s, m}, Σ_{s, m})

其中0是观测帧，s代表状态，μ_sm是用于状态混合分量的均值，以及∑_sm是用于相同的状态混合分量的方差。

现在假设，如在图5中所示，将维观测向量0分割成独立的子空间分量(0₁-0_n)，其中0_i是维数d_i并且

方程3

Σ_{i = 1}^{n} d_{i} = d

然后：

方程4

q (o | s; θ) = Π_{m = 1}^{M} w_{m} Π_{i = 1}^{n} N (o_{i}; μ_{s, m, i}, Σ_{s, m, i}) .

当高斯分布是编码的子空间时，将独立的码本分配给每个子空间。因此，按下式从第i个码本选择用于其子空间分量的均值和方差：

方程5

q (o | s; θ) = Π_{m = 1}^{M} w_{m} Π_{i = 1}^{n} N (o_{i}; μ_{i} (s, m), Σ_{i} (s, m)) .

图7A例示两个不同码本704和706。码本704代表在图5中所示的子空间d1，以及码本706代表在图5中所示的子空间d2。因此，在表704中第一位置包括两项，因为它包括均值和方差700和702的最前面的两个维数分量。同样，在码本706中的每个项目包括三项，因为子空间d2相应于均值向量702的维数分量3-5。

尽管以此方法代表码本允许考虑有利的压缩特性，但它也提出另一个问题。已知声音模型的自适应(诸如发言人相关的自适应)增强用于给定发言人的声音模型的性能。在未压缩的形式中，自适应是相对直接的并且能以各种各样的已知方法来完成。一个这样的方法包括ICSLP(1994)，Leggetter和Woodland的SPEAKER ADAPATION OF CONTINUOUS DENSITY HMMS USING MULTIVARIATELINEAR REGRESSION中阐述的方法。

不过，一旦将码本表示为在图7A中所示的那些，自适应就不再是直接的。均值的不同维分量现在被划分在不同码本704和706中。

按照本发明的一个实施例，通过使在码本本身中码字项适应，来使子空间编码的HMM适应。在一个例示性实施例中，不是估计用于每个码字项的变换，而是首先将每个码本中的码字项分组成类。这能以各种各样的不同方法来完成。例如，按照一个实施例，为每个码本建造语言回归树。因此，按照回归树将每个码本中的码字项划分成回归类。变换与回归树中的每个回归类相关联。因此，按照回归树将每个码本中的码字的分组分配给单个变换。

在一个例示性实施例中，基于码字中的相似性产生使用的回归树。换句话说，基于相似性迭代地聚类的码字，并且最终的聚类构成回归类。为每个类估计变换，并将变换应用于使模型适应。

要更详细地说明这个过程，将描述另一个实施例。图7B按照本发明的一个例示性实施例，示出一个语言回归树的一个例子。在图7B中，基于语言问题分组码本中的码字项。例如，在树中的第一个节点询问码字项是否与无声语音相关联。如果是，则将它分配给具有一个相关联的变换T_sil的回归类。如果否，在回归树中的下一个节点询问码字项是否相应于元音语音。如果是，则将它分配给相应于变换T_vowel的回归类。然而，如果当前所选择的码字项不相应于元音语音，则将它分配给具有相应辅音变换T_cons的回归类。当然，能基于任何所要求的准则使用多种多样的其它回归树，以及并且在特定方式中分组码本中的码字项和用于分组它们的准则对于本发明是不重要的。仅为示例的缘故，在此将分组称为回归类。

一旦分组码字项，存在用于每个子空间的状态和混合分量的回归类r_i(s，m)，并且均值T_i，r的变换与每个回归类相关联。应用变换给出一输出状态发射状态密度：

方程6

q (o | s; θ) = Π_{m = 1}^{M} w_{m} Π_{i = 1}^{n} N (o_{i}; T_{i, r_{i} (s, m)} μ_{i} (s, m), Σ_{i} (s, m)) .

能看到，这将分块对角变换结构强加于总的均值向量μ_s，m，其中方块相应于子空间。例如，图8图示地例示分块对角矩阵740的一部分，其中对角方块742、744、746和748各自相应于不同子空间。方块742-748的大小因而相应于由相应码本中每个项目代表的维分量的数量。

例如，码本704包含用于子空间d1的项，它本身包括均值向量的两个维分量(以及相应的方差分量)。因而，相应于子空间d1的方块742是二乘二的方块。类似地，块744对应于子空间d2的码本。因为子空间d2中有三维分量，方块744是三乘三的方块。当然，这个模式继续用于每个码本。

应该注意，这允许在应用变换时更灵活的结构，因为矩阵的不同方块可以不同地系于回归树，因为每个子空间码本具有其自己的回归树。参考图9更好地说明这个。

图9示出，由于分块对角矩阵的每个方块是通过使用不同的回归树来选择的，所以分块对角矩阵结构740实际上产生多个不同的变换，示出其中的两个变换(740A和740B)。这样的变换的实际数量取决于每个码本被划分成的回归类的数量。存在相应于码本704被划分成的回归类的数量的方块742的数量。同样，存在相应于码本706被划分成回归类的数量的方块744的数量。

为了本例的缘故，假设简单地将码本704和706两者划分成两个回归类，并且与第一回归类相关联的自适应变换T₁是由方块742A的阴影例示的，同时与第二回归类相关联的自适应变换T₂是由方块742B中的阴影例示的。由于码本704只被划分成两个回归类，层740A例示方块742A具有应用于它的第一变换T₁，而层740B例示方块742B具有应用于它的第二变换T₂。同样，由于码本706被划分成两个回归类，层740A示出方块744A具有应用于它的第一变换T₁，以及层740B示出方块744B具有应用于它的第二个变换T₂。

因而，应用于任何码本704-706等分量的特定变换按码字或者按码字的分组变化。其中码字的分组是由来自回归树的回归类定义的，接着应用于码本的各种元素的变换，能基于给定分量所属的回归类而变化。在方块742A和742B之间的阴影不同，以例示由那两个方块代表的码本704的分量驻留在不同的回归类中。同样，方块744A和744B的阴影是不同的，以例示相应于那些方块的码本706中的分量也驻留在不同回归类中。能产生的可能的整个变换的数量是每个子空间中的回归类数量的乘积。

要计算所应用的特定变换，可与标准最大可能线性回归(maximumlikelihood linear regression)(MLLR)过程一起使用估计最大化(estimationmaximization)(EM)算法。只是为了示例，现在简要地讨论这个。在下面的推导中，为了简单的缘故，假设每个码本具有单个变换，只使均值适应，并且每个状态在其发射密度中具有单个高斯变量。只是为了简化表示而作出这些假设。

按如下估计一个变换：

方程7

T^{*} = \underset{T}{\arg \max} Q (T | T^{'})

= \underset{T}{\arg \max} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) \log q (\underset{&OverBar;}{w}, s_{1}^{l}, o_{1}^{l}; T)

= \underset{T}{\arg \max} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) Σ_{τ = 1}^{l} \log q (o^{(τ)} | s^{(&upsi;)}; T) .

= \underset{T}{\arg \max} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) \log q (w, s_{1}^{l}) (o_{1}^{l} | s_{1}^{l}; T)

从方程6代入；

方程8

T^{*} = \underset{T}{\arg \max} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) Σ_{τ = 1}^{l} Σ_{i = 1}^{n} \log N (o_{i}^{(τ)}; T_{i} μ_{i} (s^{(τ)}), Σ_{i} (s^{(τ)}))] .

= \underset{T}{\arg \max} Σ_{i = l}^{n} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) Σ_{τ = 1}^{l} \log N (o_{i}^{(τ)}; T_{i} μ_{i} (s^{(τ)}), Σ_{i} (s^{(τ)}))

。

在上述推导中，应该注意w代表实际的词语抄本。为了获得给定词语抄本时的状态序列的概率，使用下式：

方程9

q (s^{l} | \underset{&OverBar;}{w}) = ΣP (π | \underset{&OverBar;}{w}) P^{'} (s_{1}^{l} | π)

其中π代表语音序列，以及在求和中的第一项是给定特定词语时的语音序列的概率。这些概率可以例示性地从发音词典获得。在求和中的第二项代表给定语音序列时的状态序列的概率。

也应该注意，辅助函数是由n个分量组成的，可以通过改变相应变换T_i来独立地最大化每个分量。

方程10

T^{*} = \underset{T}{\arg \max} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l} T^{'}) Σ_{τ = 1}^{l} Σ_{i = 1}^{n} \log N (o_{i}^{(τ)}; T_{i} μ_{i} (s^{(τ)}), Σ_{i} (s^{(τ)}))

= \underset{T}{\arg \max} \underset{s}{Σ} Σ_{τ = 1}^{l} \underset{s_{1}^{l}}{Σ} q (s_{1}^{l} | \underset{&OverBar;}{w}, o_{1}^{l}; T^{'}) 1 (s^{(τ)} = s) \log N (o_{i}^{(τ)}; T_{i} μ_{i} (s), Σ_{i} (s))

= \underset{T}{\arg \max} \underset{s}{Σ} Σ_{τ = 1}^{l} γ_{s} (τ; T) \log (o_{i}^{(τ)}; T_{i} μ_{i} (s), Σ_{i} (s))

= \underset{T}{\arg \max} \underset{s}{Σ} Σ_{τ = 1}^{l} γ_{s} (τ; T) (o_{i}^{(τ)} - T_{i} μ_{i} (s))^{T} Σ_{i} {(s)}^{- 1} (o_{i}^{(τ)} - T_{i} μ_{i} (s))

相对于分量T_i求导数，并将其设置为零并重新安排，给出；

方程11

Σ_{τ = 1}^{l} \underset{s}{Σ} γ_{s} (τ; T) Σ_{i} {(s)}^{- 1} o_{i}^{(τ)} μ_{i} (s))^{T} = Σ_{τ = 1}^{l} \underset{s}{Σ} γ_{s} (τ; T) Σ_{i} {(s)}^{- 1} T_{i} μ_{i} (s) μ_{l} {(s)}^{T} .

能够看到，方程11与标准MLLR重新估计方程相同，除了它处于子空间水平，以及在码字水平上保持计数。重新推导的、带有多个混合分量和多个回归类的方程11产生下式：

方程12

Σ_{τ = 1}^{l} \underset{(s, m) &Element; r_{i}}{Σ} γ_{s, m} (τ; T) Σ_{i} {(s, m)}^{- 1} o_{i}^{(τ)} μ_{i} (s, m))^{T} .

= Σ_{τ = 1}^{l} \underset{(s, m) &Element; r_{i}}{Σ} γ_{s, m} (τ; T) Σ_{i} {(s, m)}^{- 1} T_{i, r_{i}} μ_{i} (s, m) μ_{i} {(s, m)}^{T}

。

其中：

γ＝正向/反向概率计数；

r＝回归类；

m＝混合分量；

s＝状态；

l＝帧的数量；以及

s，m＝识别码本中的码字的状态混合分量组合。

因而能够看到，方程12在代表s，m为给定回归类的ri的元素的所有码字上，累加那个码字相关联的计数，与在码本i中由s，m识别的码字的方差、与码本i的回归ri相关联的变换以及由s，m识别的码字作为应用于那个码字的均值的乘积。

因而能够看到，本发明提供发言人自适应过程用于声音模型，所述声音模型是被压缩的使得将它们被量化成子空间。在一个实施例中，本发明使用MLLR过程的一个修改以使每子空间量化码本适应于发言人，而不是适应于均值本身。在一个实施例中，应用于码本的变换能基于码字而不同。在另一个实施例中，为码本建立回归树，并且基于码本的分量所驻留的回归类应用变换。在又另一个实施例中，为每个不同的码本建立不同的回归树，因此不同码本中的码字不同地被分组，从一个码本至下一个。以这个方法，变换能不同地应用于不同的码本，基于码本被划分成的不同回归类。

尽管已经参考特定的实施例描述了本发明，但本领域的熟练技术人员将认识到，在不脱离本发明的精神和范围的情况下，可在形式上和细节上作出修改。

Claims

1.使声音模型适应于在语音识别引擎中使用的方法，包括：

子空间编码声音模型以获得多个码本，每个码本包括多个码字，多个码本包括每子空间至少一个码本；以及

基于自适应训练数据使码本中的码字适应。

2.如权利要求1所述的方法，还包括：

在基于自适应训练数据使码本中的码字适应之前，将每个码本中的码字划分成多个不同的类。

3.如权利要求2所述的方法，其特征在于，所述使适应的步骤包括：

基于码字属于多个类的哪一个，将自适应变换应用于码字。

4.如权利要求3所述的方法，其特征在于，所述划分码字的步骤包括：

建立相应于每个码本的回归树；以及

通过遍历相应于给定码本的回归树，将给定码本中的码字分组成多个回归类中的一个。

5.如权利要求4所述的方法，其特征在于，所述建立回归树的步骤包括：

建立语言回归树。

6.如权利要求4所述的方法，其特征在于，所述建立回归树的步骤包括：

通过码字的迭代聚类，建立回归树。

7.如权利要求3所述的方法，其特征在于，所述应用自适应变换的步骤包括：

估计相应于多个类的每一个的自适应变换。

8.如权利要求1所述的方法，其特征在于，每个码字代表至少一个高斯均值，以及其特征在于，所述使码字适应的步骤包括使高斯均值适应。

9.如权利要求8所述的方法，其特征在于，每个码字代表至少一个高斯方差，以及其特征在于，所述使码字适应的步骤包括使高斯方差适应。

10.如权利要求1所述的方法，其特征在于，所述基于自适应训练数据使码本中的码字适应的步骤包括：

基于发言人相关的自适应训练数据，使码字适应。

11.在语音识别器中训练声音模型的计算机实现的方法，包括：

产生具有多个码本的子空间编码声音模型，一个码本相应于将声音模型编码到其中的每个声音子空间，每个码本在其中具有多个码字，每个码字代表模型化的语音单元的声音特性的至少一个分量；以及

基于自适应训练数据，修改码字。

12.如权利要求11所述的计算机实现的方法，其特征在于，所述修改的步骤包括：

接收自适应训练数据；以及

基于自适应训练数据估计变换。

13.如权利要求12所述的计算机实现的方法，其特征在于，所述修改的步骤包括：

将每个码本中的码字分组成多个类的一个。

14.如权利要求13所述的计算机实现的方法，其特征在于，所述估计变换的步骤包括：

估计用于多个类的每一个的变换。

15.如权利要求14所述的计算机实现的方法，其特征在于，所述分组的步骤包括：

建立相应于每个码本的回归树。

16.如权利要求15所述的计算机实现的方法，其特征在于，所述分组的步骤包括：

遍历回归树以将相应码本中的码字分组成回归类。

17.如权利要求16所述的计算机实现的方法，其特征在于，所述估计变换的步骤包括：

估计用于每个回归类的变换。

18.如权利要求17所述的计算机实现的方法，其特征在于，所述修改码字的步骤包括：

将变换应用于给定的码字，所述变换相应于给定码字所驻留的回归类。

19.一种用于使声音模型适应的计算机实现的方法，包括：

接收包括相应于每个子空间的一个码本的经子空间编码的声音模型和每个码本中的多个码字；

接收训练数据；以及

基于训练数据使码本中的码字适应。