CN1531722B

CN1531722B - 使用隐含语者自适应的语音识别系统

Info

Publication number: CN1531722B
Application number: CN028105869A
Authority: CN
Inventors: N·马拉亚; A·P·德雅柯; C·张; S·贾里尔; 毕宁; H·加鲁达德里
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-03-28
Filing date: 2002-03-22
Publication date: 2011-07-27
Anticipated expiration: 2022-03-22
Also published as: EP1850324B1; DK1374223T3; EP1628289A3; KR20070106809A; US20020143540A1; KR100933109B1; KR100933108B1; HK1117260A1; KR20090106628A; TW577043B; JP4546555B2; DE60222249T2; JP2008077099A; AU2002255863A1; KR100933107B1; ATE525719T1; JP4546512B2; EP1850324A1; KR20090106630A; ATE372573T1

Abstract

揭示了一种语音识别(VR)系统，该系统采用语者无关(SI)(230和232)和语者特定(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合，以提供至少与纯SI声学模型的语音识别性能相同的水平。所揭示的SI/SD VR系统可连续使用非监督式的训练，来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR系统随后使用与至少一个SI声学模型(230和232)组合的经更新的SD声学模型(234)，在VR测试过程中提供改良的VR性能。

Description

使用隐含语者自适应的语音识别系统

背景技术

技术领域

本发明涉及语音信号的处理。更具体的说，本发明涉及通过非监督式训练来获得性能改善的新颖语音识别方法和装置。

技术背景

语音识别是最重要的技术之一，它可赋予机器以模拟智能，用于识别用户的语音命令且便于作为人类与机器的接口。采用从声学语音信号中恢复语言信息的技术的系统被称为语音识别(VR)系统。图1显示了基本的VR系统，它包括：预加重滤波器102，声学特征提取(AFE)单元104，以及模式匹配引擎110。AFE单元104将一系列数字语音样本转变为一组测量数值(例如，被提取的频率分量)，该测量数值可称之为声学特征矢量。模式匹配引擎110将一系列声学特征矢量与在VR声学模型112中所包含的模板相匹配。VR模式匹配引擎一般采用动态时间规整(DTW，Dynamic Timing Warping)或隐马尔可夫(Markov)模型(HMM)技术。DTW或HMM都是在本领域中所熟悉的，并且在Rabiner，L.R和Juang，B.H编著的《语音识别的基础》(Prentic Hall出版，1993年出版)中详细讨论了。当一系列声学特征与在声学模型112中所包含的一个模板相匹配时，可用该被识别的模板产生所希望的输出格式，例如，对应于输入语音的语言词汇的识别序列。

正如以上所指出的，声学模型112一般是HMM模型或者DTW模型。DTW声学模型可以认为是与需要识别的各种词汇有关的模板数据库。一般来说，DTW模板包括特征矢量的序列，该特征矢量序列是根据许多相关词汇的例子加以平均的。DTW模式匹配一般会涉及到将具有最小距离的存储模板置于表示输入语音的输入特征矢量序列中。在基于HMM的声学模型中使用的模板包含了对相关语音发音的详细统计描述。一般来说，HMM模板存储了一系列的平均矢量、方差矢量和一组转变的概率。这些参数可用于描述语音单元的统计并且是从许多语音单元的例子中估算出来的。HMM模式匹配一般涉及到根据与输入语音相关的输入特征矢量系列，为模型中的各个模板生成概率。具有最高概率的模板可选择为最类似输入的发音。

“训练”是指从一个和多个语者的特殊语音片段和音节中收集语音样本以便于产生声学模型112中的模板的过程。在声学模型中的各种模板与称为发音种类的特殊词汇或语音片段有关。在与同一发音种类有关的声学模型中可以有许多模板。“测试”是指将声学模型中的模板与从输入语音中提取的特征矢量序列相匹配的过程。给定系统的性能很大程度上取决于最终用户的输入语音和数据库中的内容之间的匹配程度，因此，也取决于在通过训练所产生的参考模板和用于VR测试的语音样本之间的匹配。

两种常用类型的训练是监督式训练和非监督式训练。在监督式训练中，与各组训练特征矢量有关的发音种类是先验已知的。提供输入语音的语者通常具有对应于预定发音种类的词汇和语音片段的原稿。随后，朗读原稿所产生的特征矢量可以合并到与正确发音种类有关的声学模型模板中。

在非监督式训练中，与一组训练特征矢量有关的发音种类不是先验已知的。在一组训练特征矢量可以合并到正确的声学模型模板中之前，必须正确地识别发音种类。在非监督式训练中，在对一组训练特征矢量识别发音种类时发生错误会导致在错误的声学模型模板中引起变化。此类错误一般会降低，而不是提高语言识别性能。为了能避免这类错误，基于非监督式训练的声学模型的任何变化一般都必须非常小心地来进行。只有具有相当高的可信程度认为已经正确识别了发音种类，则该组训练特征量才可以合并到声学模型中。这类必要的保守使得通过非监督式训练来构成SD声学模型是一个非常慢的处理过程。直到SD声学模型采用该方法来构成，VR性能或许对大多数用户是难以接受的。

最佳的是，最终的用户在训练和测试过程中提供语音声学特征矢量，使得声学模型112能与最终用户的语音有力匹配。适用于单个语者的个性化声学模型也可称为语者特定(SD)声学模型。产生SD声学模型一般要求最终用户能提供大量监督式训练样本。首先，用户必须为许多不同的发音种类提供训练样本。同样，为了获得最好的性能，最终用户必须为各个发音种类提供表示各种可能的声学环境的多个模板。因为大多数用户不能或者不希望提供产生SD声学模型所需的输入语音，所以许多现有的VR系统使用广义的声学模型作为替代，该模型是采用许多“代表性”语者的语音来训练的。这类声学模型可称为语者无关(SI)声学模型，并且可设计成对广泛范围的用户都具有最好的性能。然而，SI声学模型并不是对任何一个用户都是最佳的。使用SI声学模型的VR系统对特殊的用户并不能像使用适合于该用户的SD声学模型的VR系统那样工作。对某些用户来说，例如，具有强烈的外地口音的用户，使用SI声学模型的VR系统的性能就非常差，以致于根本不能有效地使用VR的服务。

最佳的是，对各个个性的用户产生SD声学模型。正如以上所讨论的，使用监督式训练来构成SD声学模型是不实际的。但是，使用非监督式训练来产生SD声学模型会花费很长的时间，在这过程中，基于部分SD声学模型的VR性能将是非常差的。因此，本领域需要一种VR系统，该系统能在使用非监督式训练来产生SD声学模型之前或过程中比较好地工作。

发明内容

本文所揭示的方法和装置提出了一种新颖和改进的语音识别(VR)系统，该系统采用了语者无关(SI)和语者特定(SD)声学模型的组合。将至少一个SI声学模型与至少一个SD声学模型组合使用，以使得所提供的语音识别性能的水平至少等于纯SI声学模型的水平。所揭示的混合SI/SD VR系统可继续使用非监督式训练来更新在一个或多个SD声学模型中的声学模板。混合的VR系统随后单独或与至少一个SI声学模型组合使用更新的SD声学模型，以便于在VR测试过程中提供改进的VR性能。

本文所使用的术语“示例”是指“用作一个例子、实例、或说明”。作为“示例性实施例”所讨论的任何实施例并不一定解释为好过或胜过其它实施例。

附图的简要说明

从结合附图所阐明的详细讨论中，本发明所揭示的方法和装置的性能、目标和优点将变得显而易见，在附图中，类似的参考符号将标示所对应的部件，其中：

图1示出基本语音识别系统；

图2示出根据示例性实施例的语音识别系统；

图3示出用于进行非监督式训练的方法；

图4示出用于产生在非监督式训练中所使用的组合匹配评价的示例性方法；

图5是示出使用语者无关(SI)和语者特定(SD)匹配评价两者来进行语音识别(测试)方法的流程图；

图6示出用于从语者无关(SI)和语者特定(SD)匹配评价中产生组合匹配评价的方法。

具体实施方法

图2显示了可以在无线远程站202中实现的混合语音识别(VR)系统的示例性实施例。在该示例性实施例中，远程站202通过无线信道(未显示)与无线通信网络(未显示)通信。例如，远程站202可以是与无线电话系统通信的无线电话。在本领域的专业人士会意识到，本文所讨论的技术可以同样应用于固定(不是便携的)的VR系统或者不包括无线信道。

在所示的实施例中，来自用户的语音信号在麦克风(MIC)210中转换成电信号，并且在模拟数字变换器(ADC)212转换成数字语音样本。该数字样本流随后使用预加重(PE)滤波器214进行滤波，例如，可以采用衰减低频信号分量的有限脉冲响应(FIR)滤波器。

滤波后的样本随后在声学特征提取(AFE)单元216中进行分析。该AFE单元216将数字语音样本转换成声学特征矢量。在示例性实施例中，AFE单元216对具有连续的数字样本的片段进行傅立叶变换，以产生对应于不同频率箱的信号强度的矢量。在示例性实施例中，频率箱可以根据巴克标度(bark scale)来变化带宽。在巴克标度中，各个频率箱的带宽具有与箱的中心频率有关的关系，使得更高频率箱可具有比较低频率箱更宽的频率带宽。在Rabiner，L.R和Juang，B.H编著的《语音识别的基础》(Prentic Hall出版，1993年出版)讨论了巴克标度。

在示例性实施例中，各个声学特征矢量是从在固定时间间隔中所收集的一系列语音样本中提取的。在示例性实施例中，这些时间间隔是重叠的。例如，声学特征可以从每个10毫秒开始的语音数据的20毫秒间隔中获得，使得每两个连续的间隔都可以公用10毫秒的片段。在本领域中的专业人士都会意识到，可以在不脱离本文所揭示实施例的范围的条件下，时间间隔可以被替换成非重叠的或者具有非固定的周期。

由AFE单元216所产生的声学特征矢量可提供给VR引擎220，该引擎进行模式匹配，以便根据一个和多个声学模型230、232和234的内容表征声学特征矢量的特征。

在图2所示的示例性实施例中，显示了三个声学模型：语者无关(SI)隐马尔可夫模型(HMM)的模型230，语者无关动态时间规整(Dynamic TimeWarping)(DTW)模型232，以及语者特定(SD)声学模型234。本领域的专业人士将会意识到，在其它实施例中可以使用SI声学模型的不同组合。例如，远程站202可以仅包括SIHMM声学模型230和SD声学模型234，而省去了SIDTW声学模型232。另外，远程站202可以包括单个的SIHMM声学模型230，一个SD声学模型234和两个不同的SIDTW声学模型232。另外，本领域的专业人士将会意识到，SD声学模型234可以是HMM类型的或者是DTW类型的或者是两者的组合。在示例性实施例中，SD声学模型234是DTW声学模型。

正如以上所讨论的，VR引擎220进行模式匹配，以确定在声学特征矢量和一个或多个声学模型230、232和234的内容之间的匹配程度。在示例性实施例中，VR引擎220根据声学特征的矢量与在各个声学模型230、232和234中的不同声学模板的匹配来产生匹配的评价。例如，VR引擎220根据一组声学特征矢量与在SIHMM声学模型230中的多个HMM模板的匹配来产生HMM匹配的评价。同样，VR引擎220根据声学特征的矢量与在SIDTW声学模型232中的多个DTW模板的匹配来产生DTW匹配的评价。VR引擎220根据声学特征矢量与在SD声学模型234中的模板的匹配来产生匹配的评价。

正如以上所讨论的，在声学模型中的各个模板是与发音种类有关的。在一个示例性实施例中，VR引擎220组合了与相同发音种类有关的模板的评价，以产生将在非监督式训练中使用的组合匹配评价。例如，VR引擎220组合了通过使一组输入的声学特征矢量相关所获得的SIHMM和SIDTW的评价，从而产生组合的SI评价。根据该组合的匹配评价，VR引擎220确定是否存储该组输入的声学特征矢量作为在SD声学模型234中的SD模板。在一个示例性实施例中，使用独特的SI匹配评价来进行用于更新SD声学模型234的非监督式训练。这就防止了在对其本身进行非监督式训练而使用扩展的SD声学模型234所引发的其它差错。进行非监督式训练的示例性方法将在下文中作更详细的讨论。

除了非监督式训练之外，VR引擎220在测试过程中使用了各种声学模型(230，232和234)。在示例性实施例中，VR引擎220从声学模型(230，232和234)中检索匹配的评价，并且产生适用于各个发音种类的组合匹配评价。组合匹配评价可用于选择最佳匹配于输入语音的发音种类。VR引擎220根据需要将连续发音种类集合在一起，以识别整个词汇或短语。随后，VR引擎220将有关识别的词汇或短语的信息提供给控制处理器222，该处理器222使用该信息来确定对语音信息或命令的适当响应。例如，响应于所识别的词汇或短语，控制处理器222可以通过显示器或其它用户接口向用户提供反馈。在另一个实施例中，控制处理器222可以通过无线调制解调器218和天线224向无线网络(未显示)发送信息，开始对与被发音和被识别的人的名字有关的目标电话号码的移动电话呼叫。

无线调制解调器218可以通过包括CDMA、TDMA或FDMA的多种无线信道类型中的任何一种来发送信号。此外，无线调制解调器218可以采用通过非无线信道通信的其它类型的通信接口来替代，这并不脱离所揭示实施例的范围。例如，远程站202可以通过任何一类通信信道来发送信令信息，其中：通信信道的类型可以包括地面-有线调制解调器、T1/E1、ISDN、DSL、以太网、或者甚至是印刷电路板(PCB)上的线径。

图3是显示进行非监督式训练的示例性方法的流程图。在步骤302，模拟数字转换器(ADC)(图2中212)采样模拟语音数据。随后，在步骤304，使用预加重(PE)滤波器(图2中的214)滤波数字样本流。在步骤306，声学特征提取(AFE)单元(图2中的216)从滤波后的样本中提取输入的声学特征矢量。VR 引擎(图2中的220)接收来自AFE单元216的输入声学特征矢量，并且进行输入声学特征矢量与SI声学模型(图2中的230和232)中的内容的模式匹配。在步骤308，VR引擎220从模式匹配的结果中产生匹配的评价。VR引擎220通过输入声学特征矢量与SIHMM声学模型230的匹配产生SIHMM匹配评价，并且通过输入声学特征矢量与SIDTW声学模型232的匹配产生SIDTW匹配评价。在SIHMM和SIDTW声学模型(230和232)中的各个声学模板都与特定的发音种类相关。在步骤310，对SIHMM和SIDTW评价进行组合，以形成组合匹配评价。

图4显示了在非监督式训练中使用的组合匹配评价的产生。在示例性实施例中，关于一特定发音种类的语者无关组合匹配评价S_{COMB_SI}是根据图示的等式1的加权和，其中：

SIHMM_T是目标发音种类的SIHMM匹配评价；

SIHMM_NT是适用于SIHMM声学模型中与非目标发音种类(不是目标发音种类的发音种类)有关的模板的下一个最佳匹配评价；

SIHMM_G是适用于“垃圾(garbage)”发音种类的SIHMM的匹配评价。

SIDTW_T是目标发音种类的SIDTW匹配评价；

SIDTW_NT是适用于SIDTW声学模型中与非目标发音种类有关的模板的下一个最佳匹配；以及，

SIDTW_G是适用于“垃圾”发音种类的SIDTW的匹配评价。

各种个体的匹配评价SIHMM_n和SIDTW_n可以被视为表示在一系列输入声学特征矢量和声学模型中一模板之间的距离值。输入声学特征矢量和模板之间的距离越长，则匹配的评价就越大。模板和输入声学特征矢量之间的紧密匹配会产生非常低的匹配评价。如果将一系列输入声学特征矢量与两个和不同发音种类相关的模板比较且产生近似相等的两个匹配评价，则VR系统就不能识别哪一个是“正确”的发音种类。

SIHMM_G和SIDTW_G是适用于“垃圾”发音种类的匹配评价。与垃圾发音种类相关的一个模板或多个模板都称为垃圾模板并且不会对应于具体的词汇和短语。正是这个原因，它们对所有的输入语音都同样趋于不正确，垃圾匹配评价作为一种在VR系统中的噪声水平的测量是非常有用的。一般来说，在可以确信能识别发音种类之前，一系列的输入声学特征矢量对与目标发音种类相关的模板的匹配程度应该比与垃圾模板的匹配程度好得多。

在VR系统可以确信识别出一个发音种类为“正确”的发音种类之前，输入声学特征矢量对与该发音种类相关的模板的匹配程度应该比对与其它发音种类相关的垃圾模板和其他模板有关的匹配程度更高。比基于单一声学模型的匹配评价相比，从各种声学模型中产生的组合匹配评价可以在发音种类之间得到更加确定的区分。在示例性实施例中，VR系统使用这类组合匹配评价来确定是否采用从一组新的输入声学特征矢量中获得的模板来取代在SD声学模型(图2中的234)中的模板。

可以选择加权因子(W₁...W₆)来提供在整个声学环境中的最佳训练性能。在示例性实施例中，加权因子(W₁...W₆)在所有的发音种类中都是恒定的。换句话说，用于产生第一目标发音种类的组合匹配评价所使用的W_n和用于产生另一个目标发音种类的组合匹配评价所使用的W_n是相同的。在另一个实施例中，加权因子根据目标发音种类而变化。对本领域的专业人士来说，进行图4所示组合的其他方法是显而易见的，并且可以视为在本文所讨论实施例的范围中。例如，也可以使用大于6或小于6的加权输入。另一个显而易见的变化是根据一类声学模型来产生组合的匹配评价。例如，根据SIHMM_T，SIHMM_NT和SIHMM_G来产生组合匹配评价，或者根据SIDTW_T，SIDTW_NT和SIDTW_G来产生组合匹配评价。

在示例性实施例中，W₁和W₄是负数，并且S_COMB的较大(即负得较少)数值表示在目标发音种类和一系列输入声学特征矢量之间有较大程度的匹配(较小的距离)。在本领域中的专业人士会意识到，在不脱离所揭示实施例的范围的条件下，加权因子的符号可以容易地重新设置，使得较大程度的匹配可以对应较小的数值。

再返回到图3，在步骤310，为与HMM和DTW声学模型(230和232)中的模板相关的发音种类产生组合匹配评价。在示例性实施例中，只为与最佳的n个SIHMM匹配评价相关的发音种类和与最佳的m个SIDTW匹配评价相关的发音种类产生组合匹配评价。为保存计算资源，此限制是需要的，即使在产生各个匹配评价时需消耗大量的计算功率。例如，如果n＝m＝3，可以为与最好的三个SIHMM匹配评价相关的发音种类和与最好的三个SIDTW匹配评价相关的发音种类产生组合匹配评价。根据与最好的三个SIHMM匹配评价相关的发音种类是否和与最好的三个SIDTW匹配评价相关的发音种类相同，此方法会产生三个至六个不同的组合匹配评价。

在步骤312，远程站202将组合匹配评价与SD声学模型中和所对应的模板一起存储的组合匹配评价进行比较。如果对于相同的发音种类，新的输入声学特征矢量系列比存储在SD模板中的旧的模板具有更大的匹配程度，那么从新的输入声学特征矢量系列中产生新的SD模板。在SD声学模型是DTW声学模型的实施例中，输入声学特征矢量系列自身就构成新的SD模板。随后，用新的模板替代旧的模板，并且将与新的模板有关的组合匹配评价存储在SD声学模型中，供以后比较使用。

在替换的实施例中，非监督式训练用于更新语者特定隐马尔可夫模型(SDHMM)的声学模型中的一个和多个模板。该SDHMM声学模型可以代替SDDTW模型使用，或者除了SDDTW模型以外，也在SD声学模型234中使用。

在示例性实施例中，在步骤312中的比较还包括将预期的新SD模板的组合匹配评价与恒定训练阈值进行比较。即使在SD声学模型中还没有存储任何适用于一特定发音种类的模板，则新的模板也不能存储在SD声学模型中，除非它具有比训练阈值的数值更好的组合匹配评价(表示匹配程度更大)。

在替换的实施例中，在替代SD声学模型中的任何模板之前，SD声学模型一般是由SI声学模型的模板来定义的。这样的初始化提供了一种替换方法，用于保证使用SD声学模型的VR性能在开始时至少和只使用SI声学模型的VR性能一样好。随着越来越多的在SD声学模型中的模板被更新，使用SD声学模型的VR性能会超越只使用SI声学模型的VR性能。

在替换的实施例中，VR系统允许用户进行监督式训练。用户必须在进行这类监督式训练之前将VR系统置于监督式训练的模式。在监督式训练的过程中，VR系统具有正确发音种类的先验知识。如果关于输入语音的组合匹配评价好于为该发音种类在先存储的SD模板的组合匹配评价，则用输入语音形成替换的SD模板。在替换的实施例中，VR系统允许用户在监督式训练过程中强制替换现有的SD模板。

SD声学模型可以采用适用于单个发音种类的多个(两个或多个)模板的情况来设计。在替换的实施例中，在SD模型中为每个发音种类存储了两个模板。因此，在步骤312所作的比较必然将用新模板所获得的匹配评价与为SD声学模型中关于相同发音种类的两个模板所获得的匹配评价进行比较。如果新的模板比在SD声学模型中任何一个较旧的模板具有更好的匹配评价，则在步骤314，具有最差匹配评价的SD声学模型模板可采用该新的模板来替代。如果新的模板的匹配评价没有两个旧的模板好，则跳过步骤314。另外，在步骤312，将用新的模板所获得的匹配评价与匹配评价的阈值进行比较。如此地，在用新的模板来覆盖SD声学模型的原先内容之前，进行新的模板与该阈值数值的比较，直到新的模板具有比存储在SD声学模型中的阈值更好的匹配评价。可以预料各种显而易见的变化，例如，根据组合匹配评价按分类次序存储SD声学模型模板以及将新的匹配评价与最低的匹配评价进行比较，这些变化被认为在本文所揭示的实施例的范围内。还可以预料对于存储在声学模型中的关于各个发音种类的模板数的各种显而易见的变化。例如，SD声学模型可以对于各个发音种类包含多于两个的模板，或者可以对于不同发音种类包含不同数量的模板。图5是显示了采用SI和SD声学模型的组合来进行VR测试的示例性方法的流程图。步骤302，304，306和308与图3的讨论相同。在步骤510，该示例的方法不同于图3所示的方法。在步骤510，VR引擎220根据输入特征矢量与在SD声学模型中模板的比较来产生SD匹配评价。在示例性实施例中，只为与最佳n个SIHMM匹配评价和最佳m个SIDTW匹配评价相关的发音种类产生SD匹配评价。在示例性实施例中，n＝m＝3。根据在两组发音种类之间的重叠程度，这可以导致为三个至六个发音种类产生SD匹配评价。正如以上所讨论的，SD声学模型可以包含单个发音种类的多个模板。在步骤512，VR引擎220产生混合的组合匹配评价，供在VR测试中使用。在示例性实施例中，这些混合的组合匹配评价是基于各个SI和各个SD匹配评价两者的。在步骤514，可选择具有最佳组合匹配评价的词汇或发音，并且将其与测试阈值相比较。如果某个发音的组合匹配评价超过了测试阈值，只认为识别出该发音。在示例性实施例中，用于产生训练用组合评价的加权[W₁...W₆](如图4所示)与用于产生测试用组合评价的加权[W₁...W₆](如图6所示)是相同的，但是训练的阈值不同于测试的阈值。

图6显示了在步骤512所进行的混合的组合匹配评价的产生。所示的示例性实施例的操作雷同于图4所示的组合器，除了采用加权因子W₄应用于DTW_T以替代SIDTW _T以及采用加权因子W₅应用于DTW_NT以替代SIDTW_NT。从与目标发音种类相关的SIDTW和SDDTW最佳评价中选择DTW_T(适用于目标发音种类的动态时间规整匹配评价)。类似地，从与非目标发音种类相关的SIDTW和SDDTW最佳评价中选择DTW_NT(适用于其余非目标发音种类的动态时间规整匹配评价)。

适用于特殊发音种类的SI/SD混合评价S_{COMB_H}是根据图示EQN.2的加权和，式中：SIHMM_T，SIHMM_NT，SIHMM_G和SIDTW_G与EQN.1中的SIHMM_T，SIHMM_NT，SIHMM_G和SIDTW_G是相同的。特别是，在EQN.2中：

SIHMM_T是目标发音种类的SIHMM匹配评价；

SIHMM_NT是适用于与非目标发音种类(不是目标发音种类的发音种类)有关的SIHMM声学模型中模板的下一个最佳匹配；

SIHMM_G是适用于“垃圾”发音种类的SIHMM匹配评价；

DTW_T是对应于目标发音种类的适用于SI和SD模板的最佳DTW匹配评价；

DTW_NT是对应于非目标发音种类的适用于SI和SD模板的最佳DTW匹配评价；以及，

SIDTW_G是适用于“垃圾”发音种类的SIDTW匹配评价。

于是，SI/SD混合评价S_{COMB_H}是各个SI和各个SD匹配评价的组合。最终的组合匹配评价并不整个依赖于SI或SD声学模型。如果匹配评价SIDTW_T比任何SDDTW_T的评价要好，则从较好的SIDTW_T评价中计算出SI/SD混合评价。类似地，如果匹配评价SDDTW_T比任何SIDTW_T的评价要好，则从较好的SDDTW_T评价中计算出SI/SD混合评价。因此，如果在SD声学模型中的模板产生较差的匹配评价，则VR系统仍旧可以根据SI/SD混合评价的SI部分来识别输入语音。这类较差的SD匹配评价可以具有多种原因，包括在训练和测试过程中声学环境之间的差异。或者或许是训练所使用的较差质量的输入。

在替换的实施例中，对SI评价的加权轻于SD评价，或者甚至可以全部忽略。例如，从与目标发音种类相关的最佳SDDTW评价中选择DTW_T，并忽略该目标发音种类的SIDTW评价。同样，可以从与非目标发音种类相关的最佳SIDTW或SDDTW评价中选择DTW_NT，代替使用两组评价。

尽管只采用适用于语者特定模式的SDDTW声学模型来讨论示例性实施例，本文所讨论的混合方法可以同样应用于使用SDHMM声学模型或者甚至于使用SDDTW和SDHMM声学模型的VR系统。例如，通过改进图6所示的方法，加权因子W₁可以应用于从最佳的SIHMM_T和SDHMM_T评价中选出的匹配评价。加权因子W₂可以应用于从最佳的SIHMM_NT和SDHMM_NT评价中选出的匹配评价。

于是，本文所揭示的是使用SI和SD声学模型的组合来改善在非监督式训练和测试过程中的VR性能的VR方法和装置。本领域的专业人士都会理解到：信息和信号可以采用多种不同工艺和技术中任何一种来表示。例如，在以上讨论中所参考的数据、指令、命令、信息、信号、比特、码元、和码片都可以采用电压、电流、电磁波、磁场或粒子、光场或粒子，或者其上述的组合来表示。同样，尽管上述的实施例主要考虑了动态时间规整(DTW)或隐马尔可夫模型(HMM)声学模型，但是所讨论的技术同样可以应用于其它类型的声学模型，例如，神经网络声学模型。

本领域的普通专业人士还会进一步意识到，参考本文所揭示的实施例所讨论的各种说明性的逻辑单元、模块、电路和算法步骤都可以采用电子硬件、计算机软件、及其两者的组合来实现。为了能简洁地说明这些硬件和软件的互换性，以上已经从功能上讨论了各种说明性的元件、逻辑单元、模块、电路以及步骤。这些功能是实现为硬件还是软件取决于施加在整个系统上的特定的应用和设计制约。专业人士都可以采用各种特殊应用的变化方式来实现上述的功能，但是这类实现方法都不应理解为脱离本发明的范围。

以上结合本文所揭示的实施例讨论的各种说明性的逻辑单元、模块、和电路可以采用通用处理器、数字信号处理器(DPS)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立的门电路和晶体管逻辑、分立硬件元件、或者为实现上述功能而设计的任何组合来实现或完成。通用处理器可以是微处理器，但是在替换中，处理器可以是任何一种常规的处理器、控制器、微控制器、或者状态机。处理器也可以用计算器件的组合来实现，例如，DSP和微处理器的组合、多个微处理器、一个或多个结合DSP芯核的微处理器，或者任何其它这类结构。

结合本文揭示的实施例所讨论的方法或算法的步骤可以直接嵌入在硬件中、直接嵌入在处理器所执行的软件模块中、或者直接嵌入在两者的组合之中。该软件模块可以驻留在RAM存储器，闪存存储器、ROM存储器、EPROM存储器、EPPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或者本领域中所熟悉的任何其它形式的存储媒介中。示例性存储媒介与处理器相耦合，使得处理器能从存储媒介中读取信息，也可以将信息写入该存储媒介中。在替换的实施例中，存储媒介可以集成于处理器。处理器和存储媒介可以驻留在ASIC中。在替换的实施例中，处理器和存储媒介可以驻留在用户终端中的分立元件中。

上述揭示实施例的说明使得本领域任何专业人士都能够产生或应用本发明。对本领域任何专业人士来说，各种对这些实施例的改进都是显而易见的，本文所定义的基本原理可以在不脱离本发明的精神和范围的条件下应用于其它实施例。于是，本发明并不试图受限于本文所显示的实施例，而是考虑与本文所揭示的原理和新颖特征相一致的最广泛范围。

Claims

1.一种语音识别设备，它包括：

语者无关声学模型；

语者特定声学模型；

语音识别引擎，用于进行非监督式语音识别训练和测试，所述语音识别引擎

将输入语音与所述语者无关声学模型的内容进行模式匹配以产生语者无关的模式匹配评价；

将所述语者无关的模式匹配评价和与存储在所述语者特定声学模型中的模板相关的评价作比较，并且

当所述语者无关的模式匹配评价好于与存储在所述语者特定声学模型中的模板相关的评价时，更新在所述语者特定声学模型中的至少一个模板。

2.如权利要求1所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型。

3.如权利要求1所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个动态时间规整声学模型。

4.如权利要求1所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。

5.如权利要求1所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个垃圾模板，其中所述比较包括将所述输入语音与所述至少一个垃圾模板作比较。

6.如权利要求1所述的语音识别设备，其特征在于，所述语者特定声学模型包括至少一个动态时间规整声学模型。

7.一种语音识别设备，它包括：

语者无关声学模型；

语者特定声学模型；

语音识别引擎，用于进行非监督式语音识别训练和测试；所述语音识别引擎

将第一输入语音片段与所述语者无关声学模型的内容进行模式匹配以产生语者无关的模式匹配评价；

将所述语者无关的模式匹配评价和与存储在所述语者特定声学模型中的模板相关的评价作比较；

当所述语者无关的模式匹配评价好于与存储在所述语者特定声学模型中的模板相关的评价时，更新在所述语者特定声学模型中的一个模板；

构造所述语音识别引擎以便将第二输入语音片段与所述语者无关声学模型和所述语者特定声学模型中的内容相比较从而产生至少一个组合的语者特定的和语者无关的匹配评价；并且

识别具有最佳组合的语者特定和语者无关的匹配评价的发音种类。

8.如权利要求7所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型。

9.如权利要求7所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个动态时间规整声学模型。

10.如权利要求7所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。

11.如权利要求7所述的语音识别设备，其特征在于，所述语者特定声学模型包括至少一个动态时间规整声学模型。

12.一种语音识别设备，它包括：

语者无关声学模型；

语者特定声学模型；

语音识别引擎，它

将所述输入语音与所述语者特定声学模型的内容进行模式匹配以产生语者特定的模式匹配评价；以及

根据所述语者无关的模式匹配评价和所述语者特定的模式匹配评价来产生关于多个发音种类的组合匹配评价。

13.如权利要求12所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型。

14.如权利要求12所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个动态时间规整声学模型。

15.如权利要求12所述的语音识别设备，其特征在于，所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。

16.如权利要求12所述的语音识别设备，其特征在于，所述语者特定声学模型包括至少一个动态时间规整声学模型。