CN1514432A

CN1514432A - 语音处理中基于高斯模型的动态时间弯曲系统和方法

Info

Publication number: CN1514432A
Application number: CNA2003101212470A
Authority: CN
Inventors: -; 杰－弗朗索瓦·波纳斯特雷; Ħ��˾; 菲利蒲·摩林; ͵¡�Լ�Ⱒ; 杰－克劳德·约库阿
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-12-18
Filing date: 2003-12-15
Publication date: 2004-07-21
Also published as: US20040122672A1; JP2004199077A; EP1431959A3; EP1431959A2

Abstract

高斯动态时间弯曲模型提供了一种表示声音图形的分级统计模型。模型的第一层代表普通的声音空间；第二层代表每个讲话者空间而第三层代表包含在每个注册语音发音中的临时结构信息，所述临时结构信息以相等区间的时间间隔为基础。这三层是分级构筑的：第二层从第一层中得出，第三层从第二层中得出。该模型在语音处理应用领域，特别是在用定位识别模式的词汇和讲话者识别领域非常有用。

Description

语音处理中基于高斯模型的动态时间弯曲系统和方法

技术领域

本发明主要涉及在语音处理领域内用于表示语音的模型。更确切地说，本发明涉及一种建模技术，其优先采用独立文本统计学声音空间建模和临时序列建模来形成支持语音和讲话者自动识别领域的建模系统和方法，所述系统和方法包括定位(spotting mode)模式，并且比传统的统计建模技术明显减少了注册数据。

背景技术

语音建模技术目前已广泛用于从语音识别到讲话者查验/辨别等不同的应用领域。当前大多数系统使用隐式马尔科夫模型(HMM)来解决大量词汇、连续语音识别等富有挑战性的问题。隐式马尔科夫模型以多种状态来表示语音，其中每种状态对应于不同的声音单元。使用前，从识别方式公知的人类语言实例中构建一组隐式马尔科夫模型。在训练时，进行统计分析以产生存储在隐式马尔科夫模型中的概率数据。将这些概率数据存储在预先确定的状态转换模型(HMM模型)中，所述模型存储从一种状态到下一种状态的遍历似然性以及在每一种状态下产生给定声音单元的似然性。通常，以浮点数的形式存储似然数据，所述浮点数代表平均值、方差和/或加权参数等高斯参数。

就训练资料的需求而言，以隐式马尔科夫模型为基础的识别系统是非常昂贵的。它们对识别系统有很高的存储器要求和处理器速度要求。此外，传统的隐式马尔科夫模型识别系统往往采用额外的端点检测形式的预处理来鉴别实际输入的语音(即，为进行识别而应检验的信号部分)和背景噪音(即，应忽略的信号部分)。

在可用少量注册数据的场合，常常使用称之为动态时间弯曲(DTW)的不同技术。动态时间弯曲过程试图在先前的训练模板模型和输入的序列之间寻找“最低成本”校正(alignment)。通常，这种模型是通过下述方式构建的，即，捕捉输入的训练语音，把所述语音分解成相同尺寸的帧，然后通过例如倒频谱处理或快速傅里叶变换处理等多种公知处理技术中的一种将每一帧表示成一组声音矢量。使用时，通过抽取声音矢量和计算每个瞬时帧的分数逐帧处理输入的检验语音。预先确定引入和删除误差的惩罚值(penalties)并且选择具有最低累积分数的序列作为最好的适配。

动态时间弯曲系统在跟踪瞬时语音发音序列时工作得很出色。与隐式马尔科夫模型识别器相比，它们仅需要少量的训练数据而且真正考虑了声音的临时结构信息(TSI)。

然而，动态时间弯曲系统存在明显缺点。当在目标事件(例如，将要定位的目标单词)中存在大量可变性的情况下，这些系统不能很好地工作。DTW系统也很难适用于新条件。因此，当条件相对稳定时，可以有效地利用DTW系统进行包含定位应用的单词和讲话者的识别。当在目标事件(单词或讲话者)中存在很大的可变性或在遇到的环境中存在很大可变性时，所述系统将不能很好地适应。

在必须进行讲话者查验/辨别的场合，常选择采用被称为高斯混合模型(GMM)的第三种建模系统。高斯混合模型实质上是一种单态隐式马尔科夫模型。逐帧捕捉输入的训练语音，并将输入的训练语音表示成一组声音矢量(例如，应用倒频谱处理或FFT处理)。搜集和组合从多个讲话者训练语音实例中得到声音矢量从而产生代表该讲话者的单个混合模型。遗憾的是，这种建模过程放弃了所有临时信息。因此，丢失了与帧到帧之间实际存在的临时结构(TSI)有关的信息。

尽管上述每一种建模系统在选定的语音范围内都有其自身的位置，但是，在没有与大型配套的隐式马尔科夫模型系统相关的大量训练资料的情况下，特别是在需要提高讲话者查验/辨别特性或提高单词定位应用的特性范围内还是留下了希望改进的空间。本发明通过使用专用的新型建模系统实现了这种改进，所述系统能建立很好的模型模板序列信息并能很好地处理可变性，从而能容易地调节声音空间中的变化。

发明内容

本发明提供了一种新型语音建模技术，这种技术我们称之为高斯动态时间弯曲(GDW)。GDW语音模型提供了代表声音空间的上层；代表讲话者空间的中层；和代表注册语音临时结构的下层，所述注册语音建立在等空间时间间隔或帧的基础上。这三层是分级构筑的：中间层与上层相连，下层与中间层相连。

按照另一方面，本发明提供一种用于构建GDW语音模型的方法，其中，通过多个讲话者构建上层声音空间模型。然后根据声音空间模型，利用与一个讲话者(或一组讲话者)有关的注册语音构筑适合每个讲话者(或一组讲话者)的中层讲话者模型。然后，通过依次表示与对应于该事件的有效注册语音相关的每个时间间隔来构建下层的TSI(临时结构信息)。目标事件由单词(或短语)构成而且可以是单词本身(单词识别范围)或是两者(单词、讲话者辨别)(以密码为基础的讲话者识别范围)。与给定目标事件对应的GDW语音模型由三个分级连接的元素构成：声音空间模型，讲话者模型和TSI(临时结构信息)模型。

按照另一方面，本发明提供一种构建语音模型的通用方法，其中根据从多个讲话者获得的多个发音构成声音空间模型。然后，通过利用从单个讲话者或一组讲话者得到的注册语音进行声音空间模型适配来构建讲话者模型。随后通过声音空间模型构建临时结构信息模型、讲话者模型和与目标事件对应的注册语音。

下面将参照以下的说明和附图来进一步理解本发明、本发明的目的和优点。

附图说明

通过详细的说明和附图将能更完整地理解本发明，其中：

图1是表示本发明所述高斯动态时间弯曲(GDW)模型主要结构的方框图；

图2和图3包括表示如何构建和训练GDW模型的流程图；

图4是GDW模型更详细的分级模型图，其对于理解如何将声音空间、讲话者空间和临时结构信息存储到GDW模型中是非常有用的；

图5是对比模型图，其表示本发明的GDW模型和传统模型，例如高斯混合模型(GMM)和传统的动态时间弯曲(DTW)模型之间的一些差异；

图6是时间弯曲的校正图，其对于理解如何通过优选实施例的临时序列处理系统完成DTW解码是非常有用的；和

图7表示在优选实施例中对减少计算用存储器需求非常有用的帧相关加权视窗系统。

具体实施方式

以下对优选实施例的说明实际上仅是示例性的，其并不试图限制本发明、本发明的应用或用途。

高斯动态时间弯曲(GDW)模型

优选系统和方法的核心是分级构筑的模型，我们称之为高斯动态时间弯曲(GDW)模型。如下面将更全面解释的那样，该模型的基础是统计学声音空间信息、统计学讲话者空间信息和与注册语音相关的统计学临时结构信息。因此，GDW语音模型捕捉与语音系统使用环境有关的声音空间信息。GDW模型还捕捉与提供注册语音的讲话者声音特征有关的信息。最后，GDW模型捕捉临时结构信息和与注册语音本身的发音内容有关的信息。在后一方面，诸如“赛车”等注册语音与“密西西比”(Mississippi)的发音以及与“停车场”的发音具有明显不同的TSI图形。

GDW语音模型的一个极好的方面是通过针对每个临时段对高斯参数进行不同的改变来构建临时序列信息模型，所述高斯参数还用于表示声音空间和讲话者空间信息。优选的是，对于给定的临时段只选择和改变少量参数。本优选实施例代表了声音空间可变性信息、与讲话者有关的信息、和临时序列信息，其中声音空间可变性信息包含(GDW模型)上层高斯协方差参数；与讲话者有关的信息包含GDW模型中间层的高斯平均值参数，临时序列信息包含用于格式化高斯混合模型的GDW模型下层加权值。

图1表示GDW方法的一般原理。如图所示，GDW模型捕捉与声音空间10有关的先前知识和与临时结构信息(临时约束)12有关的先前知识。将声音空间10的先前知识送到统计声音空间建模系统14，该建模系统还接收作为输入信号的声音数据16。声音数据16代表或来源于在训练期间和在检验阶段(即，在使用期间)提供的注册语音。

将临时约束的先前知识12同样输送到临时约束处理系统18。临时约束处理系统采用了下面将更全面解释的动态时间弯曲(DTW)算法。一般来说，临时寸约束处理系统将定义在注册训练期间和检验期间(即，在使用过程中)使用的临时序列信息(TSI)约束。

系统14和18的相应输出送到GDW的核心系统20，核心系统20将做出响应从而对统计声音空间建模系统14和临时约束处理系统18之间的信息交换和修正进行管理。GDW的核心20最终将构建和管理GDW模型22。

GDW模型由三个等级的层构成。在上层，所述模型包括一般的声音空间模型，也称作背景模型(BM)32，所述背景模型描绘的是全局(global)声音空间和全局记录条件。与背景模型32相关的等级是一组包括中间层38的讲话者模型。该层的每一个模型代表特定讲话者的语音特性(对于指定的一个讲话者或一组讲话者)并且在下面将象征性地标以符号X。

讲话者模型38是描绘讲话者(或一组讲话者)全局声音空间的声学模型。讲话者模型源于背景模型(在此为等级关系)。下一等级的GDW模型元素是用TSI模型表示的临时结构信息模型。该层的TSI模型42由一组具有连续顺序(order)的帧相关模型构成。对于目标事件的每一帧n，将相应的帧相关模型表示为Xn并且所述帧相关模型可从相应的X模型中推出。

上述模型层的等级关系和存储在这些分级层中的信息特性使GDW模型变得非常丰富、紧凑和耐用(Robust)。这样可在GDW模型的基础上依次赋予语音处理系统在具有潜在的大目标事件可变性和环境可变性条件下完成词汇识别和语音识别(借助定位模式)的能力。正如在以下部分中将更加全面描述的那样，当构建讲话者X模型时将采用声音空间信息(通常是在改变噪声条件的情况下通过多个讲话者构筑)。X模型捕捉与注册的讲话者(或一组讲话者)有关的信息，但是用X模型构建的信息模型是声音空间模型的变型，因此，至少部分保留了来自背景模型的声音空间信息。同样，用X模型来构建相应的临时结构信息(TSI)模型。TSI模型由一组帧相关模型构成，因此，帧相关模型捕捉与特定目标事件发音有关的临时信息，同时保留来自讲话者模型X和背景模型BM的信息。

GDW模型的训练

图2和图3表示目前优选的训练GDW模型的方法。理解了如何进行模型训练就能进一步深入了解GDW模型的特性和它的很多优点。

参照图2，在30中搜集多个讲话者的数据和用这些数据构建背景模型32。可以从多个不同的发音中和在多个不同的背景噪音条件下抽取多个讲话者的声音数据30。可以用多种不同的统计学声音建模技术构建背景模型32。在本优选实施例中，用快速傅里叶变换(FFT)或倒频谱技术来获得和处理声音数据以便抽取一组声音矢量。然后对声音矢量进行统计分析以便构筑代表声音空间的声音模型，所述声音空间是通过在声音数据捕捉期间所用环境中的讲话者群体确定的。按照这一方面，术语“声音空间”是指由声音数据覆盖的抽象数学空间，而不是指捕捉数据的实际空间(尽管实际空间的环境混响特性和背景噪音对声音空间有影响)。

在本优选实施例中，可以使用任何合适的声音数据30的声音建模模型。例如，可以使用高斯混合模型GMM或隐式马尔科夫模型HMM。可以根据先前获得的声学知识量来选择GMM或HMM。如果获得的量很大，优选HMM模型；如果获得的数据量很小，则优选GMM模型。在任一情况下，均可使用传统的方式(优选使用期望值最大化算法)来训练模型。在训练模型的过程中，可以使用最大似然标准来建立最佳标准。

为了表示完整的背景模型声音空间，常常用几百个高斯分量来构筑模型。如果已经选择高斯混合模型(GMM)作为背景模型(BM)，则所用的似然参数是每个分量给出的帧的似然加权平均值，其中用相应的平均矢量和协方差矩阵来表示一个分量。因此，对于以GMM为基础的背景模型而言，可以根据下面的公式1来确定似然性。

l (y | G) = Σ_{i = 1}^{R} w_{i} . N (, μ_{i}, Σ_{i})

(公式1)

其中，y是声音矢量，G是GMM，g是G的分量数目，wl是第i个分量的加权值，μl是元素的平均值，∑i是分量的(对角线)协方差矩阵，和N()是正态概率密度函数。

就基于HMM的背景模型而言，似然参数是给出HMM相应状态的输入帧的似然性，该模型是可用公式1计算似然性的GMM模型。然而，在这种情况下，用维特比解码来确定与输入帧顺序对应的状态的最佳顺序。

在构筑了背景模型32之后，从注册的讲话者获取声音数据

在36中用声音数据34与背景模型适配并由此构建如38所示的讲话者模型X。尽管可以使用各种不同的适配技术，但是当前优选的技术采用最大A后验(MAP)适配。在优选实施例中，仅适配混合分量的高斯平均值参数。

在前面的步骤中，构建背景模型(BM)。该模型本身包含与使用系统的环境有关的声音信息。根据该模型，讲话者模型(X)保持环境信息，而且将该信息加到与每个参与注册的特定讲话者相关的信息中。把下面将要讨论的后处理步骤加到与对应于给定目标事件的句式相关的讲话者模型(X)临时序列信息中。

图2中示出了将临时构建的信息编码成GDW模型的后处理步骤，其从步骤40开始，并延续到图3。在步骤40中，根据每个注册循环的相应讲话者模型38构建GDW TSI模型。TSI模型由图2中42所示一个模型/每帧构成。这些模型可以通过适配高斯加权分量从讲话者(X)模型中推出。下面的公式2表示如何用MAP适配算法来适配加权分量。加权的MAP适配可以用直接内插策略来实现。

w_{i}^{X_{m}} = α . w_{i}^{X} + (1 - α) . {\hat{w}}_{i}^{X_{m}}

and {\hat{w}}_{i}^{X_{m}} = \frac{w_{i}^{X} . N (y, μ_{i}, Σ_{i})}{Σ_{j = 1}^{g} w_{j}^{X} . N (y, μ_{j}, Σ_{j})}

(公式2)

其中，wi^Xm是用y数据子集从X推出的第n个状态/帧相关模型的第i个分量的最终(适配的)加权值，wi^Xn是根据y子集算出的相应的预计加权值，wl^x是作为在先信息的模型X的第i个分量的加权值，α是适配系数。

在构筑了给定目标事件的初始组GDW TSI之后(与目标事件对应的每个注册循环的一个TSI模型)，在44中计算交叉距离矩阵。所述矩阵代表每个TSI模型42和每个声音数据34注册循环之间的所有距离。此后，计算每个TSI模型和该组注册循环之间的平均距离并选择具有最小平均距离的TSI模型48作为最佳或“中心模型”。

构筑了中心模型之后，进行附加的适配，从而更严格地为所有与该目标事件相关联的注册语音确定模型。在步骤56中完成这种模型适配。可以通过将中心模型52与声音数据34匹配(图2)，然后如图所示进行单次或反复多次适配来完成所述适配。最后得到合适的中心模型58，在所需要的语音处理领域中，该模型可作为对应于目标事件的TSI模型使用。

GDW建模和传统建模的比较

图4中示出的GDW技术包含三个层次构建的模型。上层是背景模型(BM)层32。中间层包括从BM得出的讲话者(X)模型38。下层包括由一组帧相关模型42构成的临时结构信息(TSI)模型，所述帧相关模型依次从相应的X中得出。TSI模型包括给定句式的语音内容和临时结构信息。上层实例与中间层实例和下层实例相结合构成GDW目标事件模型。

图4表示在这三层中如何利用相应的声音空间。如标号60所示，背景模型(BM)覆盖的声音空间包含对应于讲话者的声音空间62。如标号64所示，每个讲话者模型(例如讲话者模型3)包含与TSI模型对应的数据66，所述TSI模型包括一组帧相关模型和所述模型之间的临时序列。

在本优选实施例中，GDW的每一层包括一组高斯模型。在上层(BM)，声音空间模型通过高斯协方差参数引入了声音可变性。

在中间层，用高斯平均值参数更具体地表示由与讲话者相关的所有注册资料给出的讲话者特性。

将临时语音结构信息本身与讲话者表达的语音内容相结合。GDW模型下层的TSI模型考虑了所述临时信息。该信息主要用帧相关模型的混合加权参数表示。

尽管本发明的GDW建模系统在很多方面与传统的建模技术不同，但是在此重中这些差别中的一部分差异是很有益，下面将说明模型训练过程。图5中对GDW建模系统和传统的GMM及DTM建模系统进行了比较。如图中所示，GMM建模系统未捕捉临时序列信息(TSI)，因此，未嵌入TSI约束。DTW建模系统捕捉了临时序列信息，然而，该系统嵌入了极少的声音空间模型。本发明的GDW系统捕捉了其他系统能够做到的：捕捉声音空间模型信息和TSI约束。

实现本优选实施例的其他细节

TSI处理

如上所述，GDW建模系统在用讲话者模型构建TSI模型分量、帧相关模型时，考虑了语音事件的临时序列信息。为此，在本优选实施例中使用了动态时间弯曲算法。DTW算法试图在输入信号(用声音矢量流表示)和由多个预定的帧相关高斯模型构成的模型之间找出适合每个临时瞬间的最佳校正。按照这一方面，GDW系统与HMM模型明显不同，其在HMM模型的状态和输入信号的帧之间没有预定的相关性。

图6表示目前优选的DTW解码。在GDW系统中，DTW算法受三个要素的控制：罚函数组，输入帧和TSI帧相关模型之间的本地距离，和临时约束调节参数。

罚函数组包括两个函数。第一函数在几个输入帧与一个帧相关模型相关时给出惩罚值。第二函数在一个输入帧与几个帧相关模型相关时给出惩罚值。图6示出了这两种惩罚的实例。

目前优选的实施例中的某些实施例也采用调节系数来控制影响系统工作的临时约束程度。这可以通过引入调节系数来实现。首先，在帧相关模型的适配过程中用alpha参数(公式2的)值使帧相关模型的特性衰减。如果将alpha置于1，则帧相关模型全部相等(对于给定的目标事件而言)，而且临时约束的影响将会很低。如果将alpha置于0，模型完全自由，应对临时约束给予强烈关注。在计算本地距离时可以选择归一化系数。这样做的作用是平衡或调节临时信息在目标事件所有方面行使权力的限度。

计算帧的似然性

用于匹配的本地距离

DTW解码需要计算每个输入帧和每个帧相关模型之间的距离(即，相似性测量)。该距离可从测量帧特性的似然比中得出。比例式的分子是给定的帧相关模型的帧的似然性而分母接近给定的全局事件模型X的帧的似然性。为了考虑帧中有益的信息，利用X和BM(背景模型)的结合来估计分母。更准确地说，通过下式进行本地距离匹配：

LocalDist (y, X_{n}) = NormDist (\log (\frac{l (y | X_{n})}{beta . l (y | X) + (1 - beta) . l (y | BM)}))

(公式3)

其中y是输入帧，Xn是帧相关模型，X是全局事件模型，BM是背景模型而beta是组合系数。

NormDist是()是用于把似然比转换成与距离等同的记录的归一化函数：

NormDist (a) = 0 ifa > Max, 1 ifa < Min, \frac{(Max - a)}{(Max - Min)} else

(公式4)

其中Max和Min是输入的极限。

在上述两个公式中，LocalDist()测量的是与全局目标模型相比，帧模型是否更靠近输入帧。当该测量相关时，用BM模型进行加权，由此可以说明输入帧是否相关。将函数进行归一化处理以便输出[0，1]空间。

匹配记录

最终的匹配记录是本地距离和DTW惩罚的结合，所述DTW惩罚通过选定路径中的本地距离进行加权。

由于帧相关模型结构而使得存储器尺寸和计算成本降低

如果在某种程度上是基于统计学的建模系统，那么，GDW模型通常需要存储和计算大量的高斯分量。因此，需要根据应用情况考虑计算机的资源条件。此外，尽管将GDW的下层模型(TSI帧相关模型)看作是完整的高斯模型，但其实际上表示的是中间层模型(X)的变型，而中间层表示的是上层模型(BM)的变型。只有当必须存储和重新计算变化的元素时，该结构才允许保留存储器空间和计算资源。在目前的优选实施例中，对于给定的帧相关模型而言，只存储了取入“适配窗”中的极少数高斯分量加权值并且只重新计算给定帧相关模型的相应值。

如图7所示，视窗系统仅选择所有有效高斯分量的子集，和仅存储选定分量的加权值。所有其他分量都在上层模型中采集或直接从上层模型中算出。

用两个量之和来计算已知Xn时y(测试帧)的似然性(相对于事件X的第n个帧相关模型)：SumAdapted(和适配)()以及SumNonAdapted(和不适配)()。SumAdapted()表示选定的所述帧相关模型(视窗中)分量分享；而SumNonAdapted()表示其他分量分享。在公式5中进一步示出了所述似然性。

l(y|X_n)＝SumAdapted(y，X_n)+SumNonAdapted(y，X_n，X) (公式5)

其中SumAdapted()表示在帧相关模型中选定的分量分享，而SumNonAdapted()表示收集到X(相应的讲话者模型)中的其他分量的分享。

下面的公式6和7表示如何计算SumAdapted()和SumNonAdapted()：

SumAdapted (y, X_{n}) = Σ_{i}^{m} W_{i}^{X_{n}} l (y | g_{i}^{X})

(公式6)

其中Wi^Xn是在帧模型Xn中选定的第i个分量的加权值，I(y|g_i ^x)是已知X的第i(高斯)个分量时y的似然性，m是加权视窗的尺寸。

SumNonAdapted (y, X_{n}, X) = (l (y | X) - Σ_{i}^{m} W_{i}^{X} . l (y | g_{i}^{X})) * NormWeight (X, X_{n})

NormWeight (X, X_{n}) = \frac{1 - Σ_{i}^{m} W_{i}^{X_{n}}}{1 - Σ_{i}^{m} W_{i}^{X}}

(公式7)

其中Wi^Xn是在帧相关模型Xn中选定的第i个分量的加权值，W_i ^x是X中相应分量的加权值，l(y|g_i ^x)是已知X的第i(高斯)个分量时y的似然性，m是加权视窗的尺寸，和l(y|X)是已知X(相应的讲话者模型)时y的似然性。

在公式7中，应注意SumNonAdapted()是已知帧相关模型(收集到相应的X模型中的)的不适配部分时输入帧的似然性，用把X模型中的分量加权值之和加到1的方式对不适配部分进行归一化处理。

GDW模型的一些用途

讲话者识别

讲话者识别是一种能从GDW技术中获益的语音处理的应用。在这种应用中，BM模型可以适应于比较大的GMM(例如2048个分量)。目标事件可以包括讲话者确认和密码(结合)。

可相对于由对准过程(临时结构信息子系统)给出的每一对(帧相关模型，输入帧)计算以帧为基础的记录。公式8中给出了记录函数，BioScore()：

BioScore (y, X_{n}) = \log (\frac{(local . l (y | X_{n})) + (1 - local) l (y | X)}{l (y | BM)})

(公式8)

其中y是输入帧，X是讲话者模型，Xn是帧相关模型，BM是背景模型而local是0和1之间的加权值，称为LocalBioWeight。

BioScore()表示输入帧和相应的帧相关模型之间的相似性测量。为了拒绝非信息帧(例如非语音帧)，而用BM模型将BioScore()进行归一化处理。由local(本地)参数给出帧相关目标模型(与全局目标模型相比)。通常，将本地参数置1，提供对帧相关模型的所有控制。最终的记录是用相应的帧参量加权的BioScore()算术平均值。

词汇识别的应用

词汇识别的应用(潜在的定位模式)是能从GDW系统获益极大的另一种应用。与传统的DTW或HMM方法相比，其主要优点在于通过全局GMM与新的讲话者或新的环境条件适配而形成适配潜能。如果需要的话，可以仅移动普通模型(在该文献中的X和UBM)的分量，用词汇相关的模式进行适配。

本发明的说明实际上仅仅是示例性的，因此，未脱离本发明要点的变型应视为落在本发明的范围内。这些变型不应视为脱离了本发明的构思和范围。

Claims

1.一种用于构建语音模型的方法，包括：

用从多个讲话者获得的多个发音构建声音空间模型；

通过用从至少一个讲话者得到的注册语音与声音空间模型适配构建讲话者模型；

识别与所述注册语音相关的临时结构；和

以所述讲话者的注册语音为基础构建语音模型，同时将所述注册语音的临时结构保存在所述的语音模型中。

2.根据权利要求1所述的方法，其中通过构建一组能变换成一组帧的帧相关模型而将所述注册语音的临时结构保存到所述语音模型中。

3.根据权利要求2所述的方法，其中所述一组帧具有相关的时间基准，该基准是根据所述注册语音的时间建立的并且直接保存所述注册语音的时间。

4.根据权利要求1所述的方法，其中所述声音空间模型、所述讲话者模型和所述临时结构共享一个共用的等级关系。

5.根据权利要求1所述的方法，其中通过统计建模构建所述声音空间模型。

6.根据权利要求1所述的方法，其中通过从多个讲话者获取语音、从获得的读音中抽取特征并用高斯参数表示所抽取的特征来构建所述声音空间模型。

7.根据权利要求1所述的方法，其中用隐式马尔科夫模型表示所述声音空间模型。

8.根据权利要求1所述的方法，其中用高斯混合模型表示所述声音空间模型。

9.根据权利要求1所述的方法，其中通过统计建模来构建所述讲话者模型，并且通过使后面的适配最大化来完成适配声音空间模型的步骤。

10.根据权利要求1所述的方法，其中通过统计建模来构建所述临时结构信息模型，所述统计建模采用了适合多种注册语音发音的讲话者模型和声音空间模型。

11.根据权利要求10所述的方法，其中通过构建适合多种注册语音发音中每一种发音的临时结构信息模型、然后选择最佳的临时结构信息模型来进一步建立所述临时结构信息模型。

12.根据权利要求10所述的方法，进一步包括根据所述注册语音的发音来适配所述临时结构信息模型。

13.一种构建语音模型的方法，包括：

根据从多个讲话者获得的多个发音构建声音空间模型；

通过利用从至少一个讲话者得到的注册语音进行声音空间模型适配来构建讲话者模型；通过将讲话者模型表示成多个帧相关模型而构建临时结构信息模型，所述多个帧相关模型对应于与所述注册语音相关的顺序时间间隔；和

通过用所述注册语音、所述讲话者模型和所述声音空间模型进行临时结构信息模型适配来构建所述的语音模型。

14.根据权利要求13所述的方法，进一步包括将所述声音空间模型表示成多个高斯参数。

15.根据权利要求13所述的方法，进一步包括将所述声音空间模型表示成包括高斯平均值参数的多个参数，而且其中通过适配所述高斯平均值参数来完成适配声音空间模型的步骤。

16.根据权利要求13所述的方法，进一步包括将所述声音空间模型表示成包括高斯加权参数的多个参数，而且其中通过适配所述高斯加权参数来完成适配临时模型的步骤。

17.根据权利要求13所述的方法，其中通过从至少一个单个讲话者获得多个注册语音实例并构建以帧为基础的临时结构信息模型进一步构建所述临时模型。

18.一种分级的语音模型包括：

代表声音空间的第一层；

代表讲话者空间的第二层；

代表注册语音临时结构的第三层，所述临时结构与预定的帧结构相对应。

19.根据权利要求18所述的语音模型，其中所述第一层是一组高斯模型参数。

20.根据权利要求18所述的语音模型，其中所述第二层是一组高斯模型平均值参数。

21.根据权利要求18所述的语音模型，其中所述第三层是一组高斯模型加权参数。

22.根据权利要求18所述的语音模型，其中所述第二层与所述第一层有等级关系。

23.根据权利要求18所述的语音模型，其中所述第三层与所述第二层有等级关系。

24.根据权利要求23所述的语音模型，其中在调节所述第三层和所述第二层之间影响程度的适配系数的基础上，所述第三层与所述第二层相关。

25.语音处理系统，包括：

语音识别器，其具有一组可测试输入语音发音的概率模型；

所述一组概率模型的结构包含：

代表声音空间的第一层；

代表讲话者空间的第二层；

代表临时语音结构的第三层，所述临时结构与预定的帧结构相对应。

26.根据权利要求25所述的语音处理系统，其中所述一组概率模型存储注册的发音而所述语音识别器完成词汇定位功能。

27.根据权利要求25所述的语音处理系统，其中所述一组概率模型存储注册的发音而所述语音识别器完成讲话者识别功能。

28.根据权利要求25所述的语音处理系统，其中所述第一层是一组高斯模型参数。

29.根据权利要求25所述的语音处理系统，其中所述第二层是一组高斯平均值参数。

30.根据权利要求25所述的语音处理系统，其中所述第三层是一组高斯加权参数。

31.根据权利要求25所述的语音处理系统，其中所述第二层与所述第一层有等级关系。

32.根据权利要求25所述的语音处理系统，其中所述第三层与所述第二层有等级关系。

33.根据权利要求32所述的语音处理系统，其中在调节所述第三层和所述第二层之间影响程度的适配系数的基础上，所述第三层与所述第二层相关。