CN1296886C

CN1296886C - 语音识别系统和方法

Info

Publication number: CN1296886C
Application number: CNB2004100586870A
Authority: CN
Inventors: 斯科特·E·阿克塞罗德; 斯里拉姆·维斯瓦纳·巴拉克汉; 斯坦利·F·陈; 高雨青; 拉梅什·A·戈皮纳特; 郭宏光; 贝诺特·迈松; 大卫·那哈姆; 迈克尔·阿兰·皮奇尼; 乔治·A·萨翁; 杰弗里·G·芝威哥
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-11-28
Filing date: 2004-07-28
Publication date: 2007-01-24
Anticipated expiration: 2024-07-28
Also published as: US20080312921A1; JP2005165272A; US7464031B2; JP4195428B2; CN1622196A; US20050119885A1

Abstract

本发明公开了一种语音识别系统和方法。在语音识别系统中，提供对数-线性模型与多个语音特征的组合，以识别未知的语音发声。该语音识别系统用对数-线性模型对与语音识别有关的语言单元的后验概率进行建模。该后验模型在给定了观测到的语音特征和后验模型的参数的前提下获取语言单元的概率。可以在给定了多个语音特征的前提下用单词序列假设的概率确定所述后验模型。利用从少量的数据或者不完全的数据得到的特征来使用对数-线性模型。所使用的语音特征可以包括异步、重叠和统计上不独立的特征。不是所有在训练中使用的特征都需要出现在检测/识别中。

Description

语音识别系统和方法

技术领域

本发明总体上涉及语音识别系统，尤其是使用对数-线性模型利用多种语音特征的语音识别系统。

背景技术

语音识别系统用来识别来自未知的语音发声的单词序列。在一种举例的语音识别系统中，用特征提取器从未知的发声提取语音特征，比如倒频谱(cepstra)和增量倒频谱(delta cepstra)特征，以表征所述未知的发声。然后进行搜索，比较从未知的发声提取出来的特征与语音单元(比如短语、单词、音节、音素、次音素等)模型，从而计算不同的单词序列假设的概率分数。一般，通过去除不太可能的假设来限制搜索空间。与最高分数或者最高似然性或者最高概率相关的单词序列被识别为所述未知的发声。除了声音模型之外，在计算单词序列假设的总体分数时，还使用语言模型。语言模型用于确定不同的单词序列的相对似然性。

通过训练操作，确定语音识别模型的参数。语音识别模型可以用来对作为声音特征的序列的语音，或者由次音素、音素、音节、单词、短语等的不可观测的“真实(正确，true，truth)”状态序列产生的观测结果建模。从训练操作输出的模型参数常常被估计为将训练观察结果的似然性最大化。通过将训练数据的似然性最大化，确定用于语音识别的参数的最优集合。语音识别系统利用在给定观测到的语音信号的情况下的最大后验概率来确定单词序列，从而识别未知的语音发声。通过搜索过程确定最佳的单词序列假设，所述搜索过程考虑搜索空间内所有可能的假设的分数。

发明内容

根据本发明的作为举例的方面，提供了一种语音识别系统。

根据本发明的各种实施例，提供了具有多种语音特征的对数-线性模型的组合以识别未知的语音发声。

根据本发明的各种实施例，所述语音识别系统对假设的后验概率(posterior probability)，也就是在给定观测到的语音信号(以及可能的其它信息)的情况下语言单元序列的条件概率，使用一种对数-线性模型进行建模。

根据这些举例的方面，后验模型(posterior model)在给定的观测到的语音特征以及后验模型的参数的前提下，获取语言单元序列的概率。

根据本发明的这些举例的方面，可以在给定多种语音特征的情况下使用单词序列假设的概率来确定所述后验模型。也就是，根据这些举例的方面，在给定多种语音特征的情况下，使用带有定时信息和标记的单词序列的概率来确定后验模型。

根据本发明的各个举例的方面，所使用的语音特征可以包括异步的、重叠的以及统计上不独立的语音特征。

根据本发明的各个举例的方面，使用对数-线性模型(log-linearmodel)，其中，可以使用少量的或者不完全的训练数据来训练参数。

根据本发明的各个举例的方面，并非在训练中使用的所有特征都需要出现在检测/识别中。

附图说明

图1图示了实现本发明的举例的方面的一个举例的语音处理系统；

图2图示了实现本发明的举例的方面的一个举例的语音识别系统；

图3图示了实现本发明的举例的方面的一个举例的语音处理器；

图4图示了实现本发明的举例的方面的一个举例的解码器；

图5是一个流程图，图示了根据本发明的举例的方面的数据训练；

图6是根据本发明的举例的方面的语音识别的流程图。

具体实施方式

下面的说明详细描述了如何实现本发明的作为举例的各个方面。在整个说明书中，要参考附图1到6。当参考附图时，类似的结构和部件用类似的附图标记表示。

优选实施例的说明

在图1中，图示了实现本发明的举例的各方面的一个举例的语言处理系统。需要注意，图1的语音处理系统只是用于说明的目的，它只是能够实现本发明的各个方面的无数结构中的一种代表性结构。因此，不应将本发明视为局限于示于图中的系统结构。

如图1所示，该语言处理系统1000包括一个电话系统210、一个语音传输系统220、一个语音输入装置230以及一个服务器300。终端110-120通过电话网络215连接到电话系统210，终端140-150通过数据网络225连接到语音传输系统220。如图1所示，电话系统210、语音传输系统220和语音输入装置230被连接到语音识别系统300。该语音识别系统300还被连接到一个语音数据库310。

在工作时，一个远程用户通过网络215或者225从终端110-150之一发送语音，或者直接从语音输入装置230发送语音。响应该输入的语音，终端110-150运行各种语音识别和终端应用。

语音识别系统300接收所述输入的应用，并将语音识别结果提供给输入终端或者输入装置。

该语音识别系统300可以包括或者可以连接到一个语音数据库310，该语音数据库包括训练数据、语音模型、元数据、语音数据以及它们的正确转换、语言和发音模型，等等。该语音识别系统300然后将最优的单词序列作为识别结果输出，它或者可以提供一个与置信度分数对应的单词序列假设结果的阵列。

根据本发明的各个举例的方面，所述阵列可以具有多种实施方式，包括用图表概括假设结果的集合，所述图表可以具有复杂的拓扑结构。应当理解，如果图表包括环，则假设结果的集合可能是无限的。

如上所述，尽管上述实施例以特定的实施例描述了语言处理系统1000，该语言处理系统1000可以是现有技术中已知的用于语音处理的任何系统。因此，可以预期，语言处理系统1000可以被配置为包括本领域普通技术人员所知的各种拓扑结构和协议。

例如，可以理解，尽管图1仅仅图示了2个终端和一个语音输入装置，本发明的各个举例的方面不限于任何特定数目的终端和输入装置。因此，可以预期，可以在本发明中应用任何数目的终端和输入装置。

图2图示了实现本发明的举例的各方面的一个举例的语音识别系统300。如图2所示，该语音识别系统300包括一个语音处理器320、一个存储装置340、一个输入装置360和一个输出装置380，它们都通过总线395连接起来。

在工作时，语音识别系统300的处理器320通过输入装置360从在终端110-150或者语音输入装置230处的用户接收包括未知的发声和元数据的输入语音数据，所述元数据比如是呼叫者ID、发话者性别、通道条件等等。然后，语音处理器320根据存储在存储装置340中或者通过输入装置360从数据库310接收的合适的模型来进行语音识别。该语音处理器320然后通过输出装置380将识别结果发送到在请求终端110-150或者语音输入装置230处的用户，或者计算机媒介(计算机媒介可以执行对于用户所说的内容来说合适的动作)。

尽管图2图示了语音识别系统的一种特定形式，应当理解，其它的布局也是可能的，本发明的各个方面不限于这样的布局。

在上述实施例中，该语音处理器320可以根据存储在存储器340或者数据库310中的数据来提供识别结果。但是，可以理解，本发明的各个举例的方面不限于这种布局。

图3图解了实现本发明的举例的各方面的一个举例的语音处理器320。如图3所示，该语音处理器320包括一个解码器322，该解码器利用与使用对数-线性模型的语音识别有关的语言单元的后验概率来识别未知的发声。也就是，根据所确定的概率，解码器322确定具有最高概率的最优单词序列，并将该单词序列作为识别的输出结果进行输出。解码器可以对可能假设阵列进行修剪，以限制搜索空间，减少计算时间。

解码器322还被连接到一个训练存储器325和模型存储器327，训练存储器325存储用于训练的语音数据和它们的正确转换，模型存储器327存储从训练操作获得的模型参数。

图4进一步详细地图示了图3的解码器。如图4所示，解码器322包括一个特征提取器3222、一个对数-线性函数3224和一个搜索装置3226。

在工作时，在训练操作期间，将训练数据输入与来自训练存储器325的正确单词转换一起输入到解码器322中，在这里产生模型参数并输出到模型存储器327，以便在语音识别操作中使用。在语音识别操作过程中，将未知的语音数据与训练操作期间存储在模型存储器327中的模型参数一起输入到解码器322中，输出最优的单词序列。

如图3和图4所示，在训练操作期间，将训练数据与元数据以及真实数据一起输入到特征提取器3222中，所述真实数据(truth)来自真实数据部件(truth element)325，可以由正确转换组成，正确转换一般是单词，但也可以是其它语言单元元，比如短语、音节、音素、声音语音学特征(acoustic phonetic features)、次音素，等等。一起输入的还可能但不一定有用于将正确转换中的语言单元元与相应的语音片断相匹配的时间对准信息(time alignments)。也就是，执行训练操作以确定正确数据的最大似然性。特征提取器3222使用多种提取部件从输入数据提取多种特征。应当理解，根据本发明的举例的各方面，所述各特征最好是异步的、重叠的以及统计上不独立的等。所述提取部件包括但不限于直接匹配部件、同步语音部件、语言语义语用特征部件，等等。

例如，作为举例的直接匹配部件可以相对于数据库中的各种参考语音片断计算动态时间扭曲分数(dynamic time warping score)。可以从传统特征比如唛耳倒频谱(mel cepstra)特征获得同步语音特征。声音语音学特征可以是异步特征，包括语言区别特征比如声带的牵动(voicing)、发音位置(place of articulation)等。

应当理解，根据本发明的各个实施例，这些特征提取器中的任何一个都不需要是完全精确的。特征可以包括也可以不包括从特定单词序列假设提取的较高级信息，例如从语义或者语法分析树或者从语用或者语义相关性提取的较高级信息。特征还可以是元数据比如发话者信息、说话速度、通道条件等。

然后将所述多个提取的特征提供给一个对数-线性函数3224，该函数利用所述对数-线性模型的参数，在给定提取的特征(可能还有假设的语言单元与语音数据的特定时间对准)的前提下，计算假设的语言单元或者序列的后验概率。在训练过程中，正确的单词序列是已知的，例如，通过人工转换语音来创建正确的序列。但是，由于发音的变化等，可能存在构成单词序列的多个有效的语言单元选择，例如音素。所有有效的序列可以被简洁地表达为一个阵列(lattice)。另外，任何特定单元序列对语音的正确时间对准可以是也可以不是已知的。训练器(图中未图示)以可能的与语音的时间对准来使用提取的特征、正确的单词序列或者语言单元序列，以优化对数-线性模型的参数。

这样，在训练时，对数-线性输出可以被提供给搜索装置3225，该搜索装置可以进一步求精，提供更好的语言单元序列选择，以及语言单元序列和语音的更精确的时间对准。然后将该新的对准循环回特征提取器3222作为反馈(FEEDBACK)，第二次重复所述过程以优化模型参数。应当理解，通过人工标注或者通过隐式马尔可夫模型技术(hidden Markov model)，初始时间对准可以自展(bootstrapped)。这样，确定了对应于最佳似然性的模型参数，作为训练模型参数，然后送往模型数据部件327，在这里它们被存储起来用于以后的语音识别操作。

在本发明的各种实施例中，用下述算法中的任何一种算法训练所述对数-线性模型。所述算法包括：改进的迭代缩放(iterative scaling)、迭代缩放、有前置条件的共轭梯度，等等。训练的结果是在某些标准方面优化模型的参数，所述标准比如是最大似然性或者受某些约束的最大熵(平均信息量)。训练由一个训练器(未图示)进行。该训练器使用特征提取器提供的特征、正确的语言单元序列以及相应的与语音的时间对准。

在一个实施例中，通过现有技术的隐式马尔可夫模型识别系统(未图示)进行预处理，以提取所述特征，并排列目标单元序列。例如，可以用隐式马尔可夫模型将语音帧与最优的次音素状态序列(sub-phone state sequence)对准，确定排序最前的高斯分布(Gaussian)。也就是，在隐式马尔可夫模型内，传统特征比如唛耳倒频谱(mel cepstra)特征的高斯概率模型，这种模型是预定的语音帧的最佳匹配。在此实施例中，次音素状态训练和排序的高斯数据是用来训练对数-线性模型的特征。

应当理解，此实施例只是一个特定的实现方式，在本发明的各个方面，也可以使用许多其它的使用对数-线性模型的训练实施例。

在语音识别操作期间，要识别的语音数据与元数据一道被输入到特征提取器3222中，一道输入的还可能有包括搜索装置3226的当前搜索空间的阵列。该阵列可以是由基于隐式马尔可夫模型的已知技术预先生成的，或者是基于前一轮识别产生的。该阵列是在该搜索空间中考虑的各种可能的假设的分数/概率的当前集合的简洁表达。特征提取器3222然后从输入数据利用多个提取部件提取多个特征。应当理解，根据本发明的各个举例的方法，所述特征可以是异步的、重叠的、统计上不独立的特征等。所述提取部件包括但不限于直接匹配部件、同步语音部件、声音语音学部件、语言语义语用特征部件，等等。然后将所提取的所述多个特征提供给对数-线性函数3224。

设置所述搜索装置3226来确定所有可能的单词序列中的最优单词序列。在一个实施例中，通过剪除不太可能的单词序列，所述搜索装置3226将搜索限制到最有希望的候选结果。该搜索装置3226就所有或者部分单词或者其它单元序列的似然性参考所述对数-线性函数3224。搜索装置3226所考虑的搜索空间可以由一个阵列连同分数/概率来表示，该阵列是积极考虑下的假设结果的简洁表达。这样的阵列被输入到搜索装置，约束搜索空间，或者约束搜索装置3226完成工作后的输出，以更新阵列中的概率或者剪除不太可能的路径。该搜索装置3226也可以有利地以非对数-线性的方式将来自对数-线性函数3224的概率/分数与来自其它模型比如语言模型、隐式马尔可夫模型等的概率/分数组合起来，所述非对数-线性的方式比如是在进行动态范围补偿(dynamic range compensation)之后的线性内插。但是，语言模型和隐式马尔可夫模型信息也可以被当作在对数-线性函数3224中被组合的特征。

搜索装置3226的输出是搜索空间中所有的假设结果中具有最高后验概率的最优单词序列。所述输出也可以输出一个经过高度修剪的阵列，其中，一个例子可以是高度似然假设结果的N最佳列表，它们可以由计算机媒介用来采取进一步动作。搜索装置3226也可以输出一个具有更新的分数和可能的对准的阵列，所述更新的分数和可能的对准可以被反馈给特征提取器3222和对数-线性函数3224，以对分数/概率求精。应当理解，根据本发明的各个实施例，该最后一步是可选的。

如上面的实施例所述，在本发明的举例的各方面的语音识别系统中，在搜索空间中存在许多可能的单词序列，这些单词序列理论上由词汇表中的任何单词序列构成，因此，由解码器322进行一种有效率的搜索操作，以获得最优单词序列。应当理解，如图4中的反馈环所示，可以应用单遍解码(single-pass decoding)或者多遍解码(multiple-passdecoding)，其中，可以在第一遍中使用一个粗糙的模型来产生一个阵列或者顶级假设的列表，然后可以循环回去，在随后的一遍中用更细致的模型重新计分。

在多遍解码中，评估阵列中每一个单词序列的概率。每一个具体单词序列的概率可能与其组成次音素状态序列的最佳排列的概率相关。应当理解，根据本发明的各个实施例，可以在任何种类的排列过程(alignment process)中找到最佳排列的状态序列，而本发明不限于任何特定的排列。

使用新的模型进行具有最高概率的单词序列的选择，以进行单词识别。

应当理解，根据本发明的各种实施例，可以将来自各种模型的概率与来自本发明的各个实施例的对数-线性模型的概率试探地组合起来。特别地，可以组合多个分数，包括通过动态范围补偿后的线性内插后传统的隐式马尔可夫模型似然性分数、语音模型分数，与来自本发明的各个实施例的对数-线性模型的概率分数。

根据本发明的各个实施例，搜索装置3226在确定不同序列的分数/概率时反复参考对数-线性函数3224。该搜索装置3226参考所述阵列来确定要考虑什么样的假设。阵列中的每一个路径对应于一个单词序列，并具有存储在该阵列中的相关概率。

在本发明的上述实施例中，基于给定多个语音特征的情况下假设结果的后验概率，确定对数-线性模型。对数-线性模型允许以统一的方式进行多特征的潜在组合。例如，可以将异步和重叠特征形式上混合起来。

作为一个简单的例子，后验概率可以被表示为与给定了声音序列的情况下某个假设结果相关的序列的概率：

其中：

H_j是包含单词(或者其它语言单元)序列w_l ^k＝w1w2...wk的一个序列的第j个假设结果；

i是表示第i个单词(或者单元)的下标；

k是所述假设结果中单词(单元)的数量；

T是语音信号的长度(例如帧数)；

w_l ^k是与假设结果H_j有关的单词序列；

o_l ^T是声音观测结果序列。

在上述等式(1)中，条件概率可以用一个最大熵对数-线性模型来表示：

P (w_{i} | w_{l}^{i - 1}, o_{l}^{T}) = \frac{e^{Σ_{j} λ_{j} f_{j} (w_{i}, w_{l}^{i - 1}, o_{l}^{T})}}{Z (w_{l}^{i - 1}, o_{l}^{T})}, - - - (2)

其中：

λ₁是对数-线性模型的参数；

f₁是提取的多个特征；

Z是确保等式2是真正的概率(和为1)的归一化因子。归一化因子是条件变量的函数。

如上面的实施例所示，根据本发明的各个举例的方面，示于图1到4的语音识别系统用对数-线性模型对与语音识别有关的语言单元的后验概率进行建模。如上所示，后验模型在给定了观测到的语音特征和后验模型的参数的前提下获取语言单元的概率。这样，后验模型可以在给定了多个语音特征的前提下确定单词序列假设结果的概率。

应当理解，上述表达只是一个例子。根据本发明的各个方面，可以应用无数的变型。例如，序列w_l ^k不一定是单词序列，也可以是短语、音节、音素、次音素单元的序列，以及与说出的句子相关的类似单元。另外，要理解，本发明的各个方面的模型因此可以应用在语言等级结构的不同层次，并且所述特征可以包括许多种可能，包括：同步的和异步的，不相交的和重叠的，相关的和不相关的，片断的和超片断的，声音语音学的，等级语言学的，元数据，更高级的知识，等等。

根据本发明的各个举例的方面进行建模时，所使用的语音特征可以包括异步的、重叠的和统计上不独立的语音特征。

在本发明的各个方面，一个特征可以被定义为具有下述属性的函数f：

其中：

表示决定概率的每一样东西，可以包括上下文和观测结果，

b是表示条件事件的某些属性的二元函数，w是目标(或者预测)状态/单元比如单词，

α是该函数的权重。

也就是，一个特征是一个取决于上下文和观测结果的可计算的函数，可以认为其对于特定的上下文/观测结果和特定的预测例如wi被激发或者变为活动的。

应当理解，函数α的权重可以等于1或0，或者是实数值。例如，在一个实施例中，权重α可以与是否在语音信号中检测到属性这一事实的置信度有关，或者与该属性的重要性有关。

根据本发明的各个举例的方面，从解码器322输出的阵列可以由多于一个的分数组成。例如，可以获得最前预定数量的匹配的分数。另外，搜索装置3226可以使用其它数据，包括诸如下述信息的信息：从隐式马尔可夫模型解码器获得的隐式马尔可夫模型分数，动态时间扭曲的不同匹配级的分数比如单词对音节对音位变体。

组合不同的分数的一个举例的方法是使用对数-线性模型，然后训练该对数-线性模型的参数。

例如，可以用不同分数的线性组合的和的指数给出路径H_i的后验概率的对数-线性模型：

P (H_{i}) = \exp (- \underset{w &Element; H_{i}}{Σ} \underset{j}{Σ} α_{j} F_{wj}) / Z - - - (4)

其中：

F_wj是单词w跨过的片段的第j个分数特征。例如，如果用各种已知的动态时间扭曲和隐式马尔可夫模型技术(图中未明确图示)获得的最前10个动态时间扭曲分数和隐式马尔可夫分数被返回，则对于阵列中的每一个单词来说有11个分数特征。

Z是指数项在所有路径(H_1...3)上的和

Z = \underset{i}{Σ} \exp (- \underset{w &Element; H_{i}}{Σ} \underset{j}{Σ} α_{j} F_{wj}

给出的归一化常数，需要它来确保等式(4)是真正的概率，也就是和为1。

对于在训练数据上产生的阵列，可以通过在所有的训练数据上求假设结果的概率的最大值来估计参数α_j。应当理解，上述实施例只是一个例子，由于可以使用等级结构分段，可以通过加入音节和音位变体特征来修改上述等式(4)。所述权重参数α_j可以具有自己的依赖性。例如，它们可以是单词长度的函数，或者用于该单词/音节/音素等的训练样本的数量的函数。

还应当理解，等式(4)可以进一步推广，使得其指数是推广特征的加权和，每一个推广特征是路径H_i以及声音观测序列o_l ^T的函数。

另外，应当理解，在此架构中还可以包括其它表示“非言语信息”的特征(所述非言语信息比如是：检测和训练序列是否来自同一性别、同一发话者、同一噪声条件、同一音素上下文，等等)，本发明的各个举例的方面不限于上述实施例。

在其它的实施例中，单个的单词分数E_wj本身可以被采纳为来自对数-线性模型的后验单词概率。即使使用大量的特征，也可以非常容易地计算对数-线性模型。特征的例子包括动态时间扭曲、隐式马尔可夫模型，等等。

根据本发明的各举例的方面，用对数-线性模型来最佳地利用探测到的特征的任何给定集合，而不使用关于不存在的特征的假设。也就是，与其它需要在训练和检测操作中使用同一组特征的模型比如隐式马尔可夫模型不同，对数-线性模型不对未观测的特征进行假设，因此当某些特征因为噪声掩盖而不能被观测时，对数-线性模型将对其它可用特征加以最佳利用。

根据本发明的举例的各方面，通过用对数-线性模型训练已知的模型，或者通过用要与本发明的对数-线性模型组合的已知模型进行解码，语音识别系统完全利用已知的模型，以获得第一阵列。

根据本发明的各个实施例，在一个传统高斯分布混合模型中，提供了对数-线性模型，其除了利用许多可能的特征之外，还利用作为传统的短时频谱特征的最佳匹配的高斯分布的同一性(identities of theGassians)以及语音片断与大量训练数据的匹配，该混合模型包括频谱特征比如在隐式马尔可夫模型中广泛使用的唛耳倒频谱特征的高斯分布的加权组合。

根据本发明的各个举例的方面，可以获得不需要在训练中使用的所有特征都在检测/识别操作中出现这样的好处。也就是，如果使用对数-线性模型之外的模型，则如果在训练中使用的特征不在检测中出现，则会获得“失配条件”，性能就差。因此，如果在训练中使用的某些特征被噪声遮蔽而在检测数据中不存在，则除了对数-线性模型以外的模型的使用常常导致失败。

图5图示了根据本发明的各个举例的方面，用于数据训练的方法的流程图。开始于步骤5000，控制前进到步骤5100，在这里将训练数据和元数据输入到解码器中。该数据包含一般收集并预先存储在训练存储器中的语音数据，包括所存储的正确值。应当理解，元数据可以包括诸如发话者性别或者身份、记录通道、发话者的个人简档这样的信息。所述正确值(truth)一般可以由真人转换员创建的正确单词序列转换构成。接下来，在步骤5200，将一个模型输入解码器。该模型是预先存储在模型存储器中的一般模型。然后在步骤5300，输入一个预先存储的阵列。控制过程然后前进到步骤5400。

在步骤5400，提取多个特征，进行搜索。这些特征包括：从传统的频谱特征比如唛耳倒频谱以及时间导数、声音语音学或者与发音有关的区别特征比如声带的牵动、发音位置等的特征，来自与语音片断的动态时间扭曲匹配的分数，从特定单词序列假设提取的，例如从语义或者语法分析树、语用或者语义相关性等提取的更高级信息，语速和通道条件，等等。应当理解，在本步骤中提取的某些特征可以包括将在此过程中被更新的对数-线性模型或者其它模型。

根据本发明的各种实施例，在此步骤中，用对数-线性函数确定具有分数的阵列、目标函数和辅助统计数据。应当理解，由于在此过程中要训练多个模型，也就是给出总体分数的对数-线性模型以及任何其它用于特征提取的模型，要计算多个目标函数。顶层目标函数是要被最大化的完全后验似然性。应当理解，有多种用于特征提取的目标函数。在各种实施例中，这些目标函数种类包括后验似然性、直接似然性、距离等。

在此步骤中，探索与正确单词序列转换一致的不同单元序列假设以及它们的相应的时间对准(时间排列)，确定部分和全部(整个)序列的概率。经过修剪的组合的结果确定一个带分数的更新阵列。

应当理解，根据本发明的各个举例的方面，在此步骤中计算的辅助统计数据可以包括梯度函数，以及使用辅助函数技术进行优化所需的其它统计数据。

下一步，在步骤5500，判断目标函数是否足够接近优化。应当理解，有多种最优性检验标准，包括目标函数或者梯度的增加的阈值。如果没有达到最优性，则控制过程前进到步骤5600，在这里更新模型，然后控制过程返回步骤5200。在步骤5600，用辅助统计数据对模型进行更新。还应当理解有多种更新模型的方法，包括但不限于准牛顿梯度(quasi-Newton gradient)搜索、推广的迭代缩放(iterative scaling)、扩展的鲍姆-韦尔奇方法(Baum-Welch)，以及期望值最大化。

还应当理解，有效率的实现方式可以在一个迭代中只更新参数的一个子集，这样，在步骤5400，只需要执行有限的计算。这种限制可以包括只更新单个特征提取器。

如果已经达到了最优，控制过程前进到步骤5700，其中输出模型参数。然后，在步骤5900，过程结束。

图6图示了根据本发明的各个举例的方面的语音识别方法的流程图。始于步骤6000，控制过程前进到步骤6100，其中，将检测输入输入到解码器。根据本发明的各实施例，从远程终端的用户通过电话或者数据网络接收所述检测数据，或者从位于语音输入装置的用户接收所述检测数据。所述数据还可以包括元数据比如发话者性别或者身份、记录通道、发话者个人简档等等。下一步，在步骤6200，输入模型。在训练操作中该模型被存储在模型存储器327中。然后，在步骤6300，输入一个预存的假设阵列。控制然后前进到步骤6400。

在步骤6400，提取多个特征，用这些特征的对数-线性模型执行搜索。这些特征包括来自传统频谱特征的特征。应当理解，在此步骤中提取的某些特征可以用对数-线性模型或者其它模型确定。

在此步骤中，探索不同的单元序列假设连同它们的相应时间排列，确定部分和全部(整个)序列的概率。应当理解，此步骤的该搜索受前一输入阵列的约束。经过修剪的组合的结果确定一个带分数的更新阵列。应当理解，该更新阵列的一个特定实施例可以是单个最可能的假设。

下面，在步骤6500，判断是否需要再来一遍。如果需要再来一遍，则控制过程返回到步骤6200。应当理解用在以后各遍中的特征和模型可以变化。步骤6400的阵列输出可以用作步骤6300的输入阵列。或者，如果不需要再来一便，则控制前进到步骤6600，在这里输出最优单词序列。也就是，输出对应于阵列中具有最高分数的假设的单词序列。应当理解，在另外的实施例中，输出阵列。

然后过程前进到步骤6700，过程结束。

上面对本发明的描述是用于说明的目的，而不是要穷尽本发明或者将本发明限制到这里所公开的具体形式。考虑到上述公开内容，其它的修改和变动是可能的。因此，这里所公开的实施例只是为了更好地解释本发明的原理，其实际应用使得本领域的普通技术人员能够以各种实施方式和对本发明的特定用途合适的各种修改来最佳地利用本发明。所附权利要求应当理解为包括本发明的除现有技术之外的其它各种实施方式。

Claims

1.一种语音识别系统，包括：

提取多个语音特征的特征提取器；

接收所述多个语音特征以在给定提取的多个语音特征的前提下确定假设的语言单元的后验概率的对数-线性函数；以及

搜索装置，参考所述对数-线性函数，确定未知的发声的识别输出。

2.如权利要求1所述的语音识别系统，其中，所述对数-线性函数用一个对数-线性模型对所述后验概率建模。

3.如权利要求1所述的语音识别系统，其中，所述语音特征包括异步、重叠以及统计上不独立的语音特征中的至少一个。

4.如权利要求1所述的语音识别系统，其中，至少一个提取的所述语音特征源自不完全精确的数据。

5.如权利要求1所述的语音识别系统，还包括一个反馈环，用于向所述特征提取器提供反馈。

6.如权利要求1所述的语音识别系统，其中，使用检测数据和训练数据之间的直接匹配来提取所述特征。

7.一种语音识别方法，包括：

提取多个语音特征；

在给定提取的多个语音特征的前提下，确定假设的语言单元的后验概率；以及

利用一个对数-线性函数，确定未知的发声的识别输出。

8.如权利要求7所述的语音识别方法，其中，所述对数-线性函数使用一个对数-线性模型对所述后验概率建模。

9.如权利要求7所述的语音识别方法，其中，所述语音特征包括异步、重叠以及统计上不独立的语音特征中的至少一个。

10.如权利要求7所述的语音识别方法，其中，至少一个所述语音特征源自不完全精确的数据。

11.如权利要求7所述的语音识别方法，还包括一个反馈步骤，以向所述特征提取器提供反馈。

12.如权利要求7所述的语音识别方法，其中，利用检测数据和训练数据之间的直接匹配来提取所述特征。