CN1531722A

CN1531722A - 使用内置式扬声器的语音识别系统

Info

Publication number: CN1531722A
Application number: CNA028105869A
Authority: CN
Inventors: N; N·马拉亚; ��ſ��޹�˾; A·P·德雅柯; C·张; S·贾里尔; 毕宁; H·加鲁达德里
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-03-28
Filing date: 2002-03-22
Publication date: 2004-09-22
Anticipated expiration: 2022-03-22
Also published as: EP1850324B1; CN1531722B; KR101031744B1; WO2002080142A3; CN101221759A; JP4546512B2; DE60222249D1; EP1628289A2; CN101221759B; JP4546555B2; ES2288549T3; KR20030085584A; EP1850324A1; KR20070106808A; EP1374223A2; WO2002080142A2; KR101031660B1; JP2010211221A; EP1374223B1; DK1374223T3

Abstract

揭示了一种语音识别(VR)系统，该系统采用独立于扬声器(SI)(230和232)和依赖于扬声器(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合，以提供至少能相同与纯SI声学模型的语音识别性能的水平。所揭示的SI/SD VR系统可继续使用无人指导的训练，来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR系统随后使用与至少一个SI声学模型(230和232)组合中所更新的SD声学模型(234)，提供在VR测试过程中改良的VR性能。

Description

使用内置式扬声器的语音识别系统

背景技术

技术领域

本发明涉及语音信号的处理。更具体的说，本发明涉及适用于通过无人指导的训练获得改善的性能的新颖语音识别方法和装置。

技术背景

语音识别是最重要的技术之一，它可将具有模拟智能的机器用于识别用户的语音命令且以便于作为人类与机器的接口。采用从声学语音信号恢复语言信息技术的系统被称为语音识别(VR)系统。图1显示了基本的VR系统，它包括：预加重滤波器102，声学性能提取(AFE)单元104，以及模式匹配引擎110。AFE单元104将一系列数字语音样本转变为一组测量数值(例如，可提取的频率分量)，该测量数值可称之为声学性能矢量。模式匹配引擎110将一系列声学性能矢量与在VR声学模型112中所包含的模板相匹配。VR模式匹配引擎一般采用动态时间偏差(DTW)或隐含马尔可夫(Markov)模式(HMM)技术。DTW或HMM都是在本领域中所熟悉的，并且在Rabiner，L.R和Juang，B.H编著的《语音识别的基础》(Prentic Hall出版，1993年出版)中详细讨论了。当一系列声学性能与在声学模型112中所包含的模板相匹配时，可识别的模板用于产生所希望的输出格式，例如，对应于输入语音的语言词汇的识别序列。

正如以上所指出的，声学模型112一般是HMM模型或者DTW模型。DTW声学模型可以认为是与需要识别的各种词汇有关的模板的数据库。一般来说，DTW模板包括性能矢量的序列，该性能矢量是根据许多相关词汇例子加以平均的。DTW模式匹配一般会涉及到将具有最小距离的存储模板置于表示输入语音的输入性能矢量序列中。在基于HMM声学模式中所使用的模板包含了在相关语音发音的详细统计描述。一般来说，HMM模板存储了一系列的内容矢量、变化矢量和一组转变的概率。这些参数可用于描述语音单元的统计并且是从许多语音单元的例子所估算的。HMM模式匹配一般涉及到根据输入语音相关的输入性能矢量的模式中的各个模板的概率。具有最高概率的模板可选择为最类似输入的发音。

“训练”是指从一个和多个扬声器的特殊语音片段和音节中收集语音样本以便于产生声学模型112中的模板的处理。在声学模型中的各种模板与特殊的词汇或称为发音种类的语音片段有关。在与相同的发音种类有关的声学模型中可以有许多模板。“测试”是指在声学模型中的模板与从输入语音中提取的一系列性能矢量相匹配的过程。给定系统的性能很大程度上取决于在最终用户的输入语音和数据库中的内容之间的匹配程度，因此，也取决于在通过训练所产生的参考模板和用于VR测试的语音样本之间的匹配。

两种常用类型的训练是指导性训练和无人指导的训练。在指导性训练中，与各组训练性能矢量有关的发音种类是现有技术中所熟悉的。提供输入语音的扬声器通常是根据对应于预定发音种类的词汇和语音片段的原稿所提供的。随后，朗读原稿所产生的性能矢量可以合并到与正确发音种类有关的声学模型模板中。

在无人指导的训练中，与一组训练性能矢量有关的发音种类在现有技术中并不是熟悉的。在一组训练性能矢量可以合并到正确的声学模型模板之前，必须正确地识别发音种类。在无人指导的训练中，在对一组训练性能矢量识别发音种类中的错误会导致在错误的声学模型模板中的变化。此类错误一般降低，而不是提高语言识别性能。为了能避免这类错误，基于无人指导训练的声学模型的任何变化一般都必须非常小心地来进行。只要已经正确识别的发音种类具有相当高的可信程度，则该组训练性能矢量可以合并到声学模型中。这类必要的保守使得通过无人指导训练所构成的SD声学模型是一个非常慢的处理过程。直到SD声学模型采用该方法来构成，VR性能或许对大多数用户是难以接受的。

最佳的是，最终的用户在训练和测试过程中提供语音声学性能矢量，使得声学模型112能与最终用户的语音有力匹配。适用于单个扬声器的个性化声学模型也可称为依赖于扬声器(SD)声学模型。产生SD声学模型一般要求最终用户能提供大量指导性训练的样本。首先，用户必须提供许多不同的发音种类的训练样本。同样，为了获得最好的性能，最终用户必须提供表示适用于各个发音种类的各种可能的声学环境的多个模板。因为大多数用户不能或者不希望提供产生SD声学模型所需的输入语音，所以许多现有的VR系统替代了使用一般声学模型，该模型是采用许多“代表性”扬声器的语音来训练的。这类声学模型可称为独立于扬声器的(SI)声学模型，并且可设计成对广泛范围的用户都具有最好的性能。然而，SI声学模型并不是对任何一个用户都是最佳的。使用SI声学模型的VR系统对特殊的用户并不能像使用适合于用户的SD声学模型的VR系统那样工作。对某些用户来说，例如，具有强烈的外地口音的用户，使用SI声学模型的VR系统的性能就非常差，以致于根本不能有效地使用VR的服务。

最佳的是，对各个个性的用户产生SD声学模型。正如以上所讨论的，使用指导性训练来构成SD声学模型是不实际的。但是，使用无人指导的训练来产生SD声学模型会花费很长的时间，在这过程中，基于部分SD声学模型的VR性能将是非常差。因此，在该领域中需要在使用无人指导训练的SD声学模型的产生之前或过程中，VR系统能比较好地工作。

发明内容

本文所揭示的方法和装置提出了一种新颖和改进的语音识别(VR)系统，该系统采用了独立于扬声器(SI)和依赖于扬声器(SD)声学模型的组合。使用至少一个SI声学模型与至少一个SD声学模型组合，以提供语音识别性能的水平至少等于纯SI声学模型的水平。所揭示的混合SI/SD VR系统可继续使用无人指导的训练来更新在一个或多个SD声学模型中的声学模板。混合的VR系统随后单独或与至少一个SI声学模型组合使用更新的SD声学模型，以便于在VR测试过程中提供改进的VR性能。

本文所使用的术语“示例”是指“用于作为一个例子、实例、或说明”。作为“示例性实施例”所讨论的任何实施例并不一定要构成好过或胜过其它实施例。

附图的简要说明

从结合附图所阐明的详细讨论中，本发明所揭示的方法和装置的性能、目标和优点将变得显而易见，在附图中，类似的参考符号将标示所对应的部件，其中：

图1示出基本语音识别系统；

图2示出根据示例性实施例的语音识别系统；

图3示出适用于进行无人指导训练的方法；

图4示出用于产生在无人指导训练中所使用的组合匹配评价的示例性探讨；

图5是示出使用独立于扬声器(SI)和依赖于扬声器(SD)匹配评价来进行语音识别(测试)方法的流程图；

图6示出产生使用独立于扬声器(SI)和依赖于扬声器(SD)匹配评价的组合匹配评价的探讨。

具体实施方法

图2显示了可以在无线远程站202中实现的混合语音识别(VR)系统的示例性实施例。在该示例性实施例中，远程站202通过无线信道(未显示)与无线通信网络(未显示)通信。例如，远程站202可以是与无线电话系统通信的无线电话。在本领域的专业人士会意识到，本文所讨论的技术可以同样应用于固定(不是便携的)的VR系统或者不包括无线信道。

在所示的实施例中，来自用户的语音信号在麦克风(MIC)210中转换成电信号，并且在模拟数字变换器(ADC)212转换成数字语音样本。该数字样本流随后使用预加重(PE)滤波器214进行滤波，例如，可以采用衰减低频信号分量的有限脉冲响应(FIR)滤波器。

滤波后的样本随后在声学性能提取(AFE)单元216中进行分析。该AFE单元216将数字语音样本转换成声学性能矢量。在示例性实施例中，AFE单元216对片段连续的数字样本进行傅立叶变换，以产生对应于不同频率位的信号强度的矢量。在示例性实施例中，频率位可以根据外露的刻度来变化带宽。在外露的刻度中，各个频率位的带宽具有与位的中心频率有关的关系，使得更高频率位可具有比较低频率位更宽的频率带宽。在Rabiner，L.R和Juang，B.H编著的《语音识别的基础(Prentic Hall出版，1993年出版)讨论了外露的刻度。

在示例性实施例中，各个声学性能矢量是从在固定时间间隔中所收集的一系列语音样本中提取的。在示例性实施例中，这些时间间隔是重叠的。例如，声学性能可以从每个10毫秒开始的语音数据的20毫秒间隔中获得，使得两个连续的间隔都可以公用10毫秒的片段。在本领域中的专业人士都会意识到，可以在不脱离本文所揭示实施例的范围的条件下，时间间隔是可以替换成非重叠的或者具有非固定的周期。

由AFE单元216所产生的声学性能矢量可提供给VR引擎220，该引擎进行模式匹配，使之具有基于一个和多个声学模型230、232和234的内容的声学性能矢量的特征。

在图2所示的示例性实施例中，显示了三个声学模型：独立于扬声器(SI)隐含马尔可夫(Markov)模式(HMM)的模型230，独立于扬声器动态时间偏差(Dynamic Time Warping)(DTW)模型232，以及依赖于扬声器(SD)声学模型234。本领域的专业人士将会意识到，在其它实施例中可以使用SI声学模型的不同组合。例如，远程站202就可以包括SIHMM声学模型230和SD声学模型234，而省去了SIDTW声学模型232。另外，远程站202可以包括一个单个的SIHMM声学模型230，一个SD声学模型234和两个不同的SIDTW声学模型232。另外，本领域的专业人士将会意识到，SD声学模型234可以是HMM类型的或者是DTW类型的或者是两者的组合。在示例性实施例中，SD声学模型234是DTW声学模型。

正如以上所讨论的，VR引擎220进行模式匹配，以确定在声学性能矢量和一个或多个声学模型230、232和234的内容之间的匹配程度。在示例性实施例中，VR引擎220根据声学性能的矢量与在各个声学模型230、232和234的不同声学模板的匹配来产生匹配的评价。例如，VR引擎220根据一组声学性能矢量与在SIHMM声学模型230中的多个HMM模板的匹配来产生HMM匹配的评价。同样，VR引擎220根据声学性能的矢量与在SIDTW声学模型232中的多个DTW模板的匹配来产生匹配的评价。VR引擎220根据声学性能矢量与在SD声学模型234中的模板的匹配来产生匹配的评价。

正如以上所讨论的，在声学模型中的各个模板是与发音种类有关的。在一个示例性实施例中，VR引擎220组合了可与相同发音种类有关的模板的评价。来产生在无人指导训练中所使用的组合匹配评价。例如，VR引擎220组合了从校正声学性能矢量的输入组所获得的SIHMM和SIDTW的评价，来产生组合的SI评价。根据该组合的匹配评价，VR引擎220确定是否存储声学性能矢量的输入组作为在SD声学模型234中的SD模板。在一个示例性实施例中，使用独特的SI匹配评价来进行更新SD声学模型234的无人训练。这就防止了在使用适合于无人指导训练而扩展的SD声学模型234所引发的其它差错。进行无人指导训练的示例性方法将在下文中作更详细的讨论。

除了无人指导训练之外，VR引擎220在测试过程中使用了各种声学模型(230，232和234)。在示例性实施例中，VR引擎220从声学模型(230，232和234)中重新获得匹配的评价并且产生适用于各个发音种类的组合匹配评价。组合匹配评价可用于选择最佳匹配输入语音的发音种类。VR引擎220根据需要一起组成了连续发音种类，以识别整个词汇或短语。随后，VR引擎220提供有关识别的词汇或短语的信息，来控制处理器222，该处理器222使用该信息来确定对语音信息或命令的适当响应。例如，响应所识别的词汇或短语，控制处理器222可以提供显示器或其它用户接口向用户提供反馈。在另一个实施例中，控制处理器222可以通过无线调制解调器218和天线224向无线网络(未显示)发送信息，开始对与发音和识别人的名字有关的目标电话号码的移动电话调用。

无线调制解调器218可以通过包括CDMA、TDMA或FDMA的多种无线信道中的任何一种来发送信号。此外，无线调制解调器218可以采用通过非无线信道通信的其它类型的通信接口来替代，这并不脱离所揭示实施例的范围。例如，远程站202可以通过任何一类通信信道来发送信令信息，其中：通信信道可以包括地面一有线调制解调器、T1/E1、ISDN、DSL、以太网、或者甚至是印刷电路板(PCB)上的线径。

图3是显示进行无人指导训练的示例性方法的流程图。在步骤302，模拟数字转换器(ADC)(图2中212)采样模拟语音数据。随后，在步骤304，使用预加重(PE)滤波器(图2中的214)滤波数字样本码流。在步骤306，声学性能提取(AFE)单元(图2中的216)从滤波后的样本中提取输入的声学性能矢量。VR引擎(图2中的220)接受来自AFE单元216的输入声学性能矢量并且进行输入声学性能矢量与SI声学模型(图2中的230和232)中的内容的模式匹配。在步骤308，VR引擎220从模式匹配的结果中产生匹配的评价。VR引擎220通过输入声学性能矢量与SIHMM声学模型230的匹配产生SIHMM匹配评价，以及通过输入声学性能矢量与SIDTW声学模型232的匹配产生SIDTW匹配评价。在SIHMM和SIDTW声学模型(230和232)中的各个声学模板是与特殊的发音种类相关。在步骤310，SIHMM和SIDTW评价是组合的，以形成匹配的评价。

图4显示了在无人指导训练中使用的组合匹配评价的产生。在示例性实施例中，适用于特殊发音种类的独立于扬声器组合匹配评价S_{COMB_SI}是根据所示的EQN.1的加权和，其中：

SIHMM是目标发音种类的SIHMM匹配评价；

SIHMM_NT是适用于在与非目标发音种类有关的SIHMM声学模型中模板的下一个最佳匹配(不是目标发音种类的发音种类)；

SIHMM_G是适用于“垃圾”发音种类的SIHMM的匹配评价。

SIDTW_T是目标发音种类的SIDTW匹配评价；

SIDTW_NT是适用于在与非目标发音种类有关的SIDTW声学模型中模板的下一个最佳匹配(不是目标发音种类的发音种类)；以及，

SIDTW_G是适用于“垃圾”发音种类的SIDTW的匹配评价。

各种个性的匹配评价SIHMM_n和SIDTW_n可以视为表示在一系列输入声学性能矢量和在声学模型中的模板之间的距离数值。在输入声学性能矢量和模板之间的距离越长，则匹配的评价就越大。在模板和输入声学性能矢量之间的紧密匹配会产生非常低的匹配评价。如果将一系列输入声学性能矢量与两个和不同发音种类相关的模板比较且产生近似相等的两个匹配评价，则VR系统就不能识别哪一个是“正确”的发音种类。

SIHMM_G和SIDTW_G是适用于“垃圾”发音种类的匹配评价。与垃圾发音种类相关的模板和多个模板都称为垃圾模板并且不会对应于特殊的词汇和短语。正是这个原因，它们对所有的输入语音都是趋于同样的不正确，垃圾匹配评价作为一种在VR系统中的噪声水平的测量是非常有用的。一般来说，在可以确信能识别发音种类之前一系列输入声学性能矢量应该具有比与垃圾模板的匹配更好程度的目标发音种类相关的模板匹配。

在VR系统可以确信识别出一个发音种类作为“正确”的发音种类之前，输入声学性能矢量应该具有比其它发音种类相关的垃圾模板和多个模板有关的匹配更高程度的发音种类相关的模板匹配。从各种声学模型中产生的组合匹配评价可以在发音种类之间得到比基于单一声学模型的匹配评价更加确定的区分。在示例性实施例中，VR系统使用这类组合匹配评价来确定是否采用从新的一组输入声学性能矢量中获得模板来取代在SD声学模型(图2中的234)中的模板。

可以选择加权因子(W₁...W₆)来提供在整个声学环境中最佳训练性能。在示例性实施例中，加权因子(W₁...W₆)在所有的发音种类中都是恒定的。换句话说，用于产生第一目标发音种类的组合匹配评价的W_n和用于产生另一个目标发音种类的组合匹配评价的W_n是相同的。在另一个实施例中，加权因子根据目标发音种类变化。对本领域的专业人士来说，图4所示的组合的另一种方法是显而易见的，并且可以视为在本文所讨论实施例的范围中。例如，也可以使用大于6或小于6的加权输入。另一个显著的变化是根据一类声学模型来产生组合的匹配评价。例如，根据SIHMM_T，SIHMM_NT和SIHMM_G来产生组合匹配评价，或者根据SIDTW_T，SIDTW_NT和SIDT_WG来产生组合匹配评价。

在示例性实施例中，W₁和W_n是负数，并且S_COMB的较大(或较小的负)数值表示在目标声学阶段和一系列输入声学性能矢量之间的较大程度的匹配(较小的距离)。在本领域中的专业人士会意识到，在不脱离所揭示实施例的范围的条件下，加权因子的符号可以容易地重新设置，使得较大程度的匹配可以对应较小的数值。

再返回到图3，在步骤310，产生对应于在HMM和DTW声学模型(230和232)的模板所相关的发音种类的组合匹配评价。在示例性实施例中，只产生对应于具有最佳n SIHMM匹配评价相关的发音种类和具有最佳m SIDTW匹配评价相关的发音种类的组合匹配评价。这限制是需要的，可以保存计算的资源，尽管在产生各个匹配评价需消耗大量的计算功率。例如，n＝m＝3，可以产生对应上面三个SIHMM匹配评价相关的发音种类和上面三个SIDTW匹配评价相关的发音种类的组合匹配评价。取决于上面三个SIHMM匹配评价相关的发音种类是否和上面三个SIDTW匹配评价相关的发音种类相同，这探讨会产生三个至六个不同组合匹配评价。

在步骤312，远程站202将组合匹配评价与存储在SD声学模型中所对应的模板的组合匹配评价进行比较。如果新的系列输入声学性能矢量比相同发音种类存储在SD模板中旧的声学性能矢量具有更大的程度，那么从新的系列输入声学性能矢量中产生新的SD模板。在SD声学模型是DTW声学模型的实施例中，系列输入声学性能矢量自身就构成新的SD模板。随后，采用新的模板替代旧的模板，并且与新的模板有关的组合匹配评价存储在以后比较中需要使用的SD声学模型中。

在替换的实施例中，无人指导训练用于更新在依赖于扬声器隐含马尔可夫(Markov)模式(SDHMM)的声学模型中的一个和多个模板。该SDHMM声学模型可以在SDDTW模型中使用，或者除了SDDTW模型以外，在SD声学模型234中使用。

在示例性实施例中，在步骤312中的比较还包括预期新的SD模板的组合匹配评价与恒定训练阈值的比较。甚至如果在适用于特殊发音种类的SD声学目标中还没有存储着模板，则新的模板也不能存储在SD声学模型中，除非它具有比训练阈值的数值更好的组合匹配评价(表示匹配的更大程度)。

在替换的实施例中，在SD声学模型中的任何模板都已经被替代之前，SD声学模型一般是由SI声学模型的模板来定义的。这样的初始化提供了一种替换方法，来保证使用SD声学模型的VR性能至少和只使用SI声学模型的VR性能一样好。随着越来越多的在SD声学模型中模板被更新，使用SD声学模型的VR性能会超越只使用SI声学模型的VR性能。

在替换的实施例中，VR系统允许用户来进行有人指导训练。用户必须在进行这类有人指导训练之前将VR系统置于有人训练的模式。在有人指导训练的过程中，VR系统具有正确发音种类的预备知识。如果适用于输入语音的组合匹配评价好于原先在存储的发音种类的SD模板的组合匹配评价，则输入的语音用于形成替换的SD模板。在替换的实施例中，VR系统允许用户在有人指导训练过程中强制替换现有的SD模板。

SD声学模型可以采用适用于单个发音种类的多个(两个和多个)模板室来设计。在替换的实施例中，在SD模型中存储了各个发音种类的两个模板。之后，在步骤312的比较将继续进行新的模板所获得的匹配评价与适用于相同发音种类在SD声学模型中的两个模板所获得的匹配评价的比较。如果新的模板比在SD声学模型中的较旧的模板具有更好的匹配评价，则在步骤314，具有较差匹配评价的SD声学模型模板可采用新的模板来替代。如果新的模板的匹配评价没有两个旧的模板好，则跳过步骤314。另外，在步骤312，新的模板所获得的匹配评价与匹配评价的阈值进行比较。所以，直到新的模板具有比存储在SD声学模型中的阈值更好的匹配评价，在新的模板用于覆盖SD声学模型的原先内容之前，进行新的模板与该阈值数值的比较。例如，根据组合匹配评价在搜索命令中存储SD声学模型模板以及新的匹配平级与最低的匹配评价进行比较，其显著的变化是显而易见的并且在本文所揭示的实施例的范围内。在声学模型中存储各个发音种类的众多模板的显著变化也是显而易见的。例如，SD声学模型可以包含各个发音种类的多于两个的模板，或者可以包含不同发音种类的不同数量的模板。

图5是显示了采用SI和SD声学模型的组合来进行VR测试的示例性方法的流程图。步骤302，304，306和308与图3的讨论相同。在步骤510，该示例的方法不同于图3所示的方法。在步骤510，VR引擎220根据输入性能矢量与在SD声学模型中模板的比较来产生SD匹配评价。在示例性实施例中，只产生一个与最佳n SIHMM匹配评价和最佳m SIDTW匹配评价相关的发音种类的SD匹配评价。在示例性实施例中，n＝m＝3。根据在两组发音种类之间的重叠程度，这可以导致三个至六个发音种类的SD匹配评价的产生。正如以上所讨论的，SD声学模型可以包含单个发音种类的多个模板。在步骤512，VR引擎220产生在VR测试中所使用的混合的组合匹配评价。在示例性实施例中，这些混合的组合匹配评价是基于各个SI和各个SD的匹配评价。在步骤514，可选择具有最佳组合匹配评价的词汇或发音，并且与测试阈值相比较。发音只是一种所希望的识别，只要它的组合匹配评价超过了测试阈值。在示例性实施例中，用于产生适用于训练(如图4所示)的加权[W₁...W₆]与用于产生适用于测试(如图6所示)的加权[W₁...W₆]是相同的，但是训练的阈值不同于测试的阈值。

图6显示了在步骤512所进行的混合的组合匹配评价的产生。所示的示例性实施例的操作雷同于图4所示的组合，除了采用加权因子W₄应用于DTW_T以替代SIDTW _T以及采用加权因子W₅应用于DTW_NT以替代SIDTW _NT。从与目标发音种类相关的SIDTW和SDDTW的最佳评价中选择DTWT(适用于目标发音种类的动态时间偏差匹配评价)。类似地，从与非目标发音种类相关的SIDTW和SDDTW的最佳评价中选择DTW_NT(适用于其余非目标发音种类的动态时间偏差匹配评价)。

适用于特殊发音种类的SI/SD混合评价S_{COMB_H}是根据所示的EQN.2的加权和，式中：SIHMM_T，SIHMM_NT，SIHMM_G和SIDTW_G与EQN.1中的SIHMM_T，SIHMM_NT，SIHMMG和SIDTW_G是相同的。特别是，在EQN.2中：

SIHMM是目标发音种类的SIHMM匹配评价；

SIHMM_G是适用于“垃圾”发音种类的SIHMM的匹配评价；

DTW _T是对应于目标发音种类适用于SI和SD模板的最佳DTW匹配评价；

DTW_NT是对应于非目标发音种类适用于SI和SD模板的最佳DTW匹配评价；以及，

SIDTW_G是适用于“垃圾”发音种类的SIDTW的匹配评价。

于是，SI/SD混合评价S_{COMB_H}是各个SI和各个SD匹配评价的组合。最终的组合匹配评价并不依赖于整个或两个SI或SD声学模型。如果匹配评价SIDTW_T比任何SDDTW_T的评价要好，则从最好的SIDTW_T中计算出SI/SD混合评价。类似地，如果匹配评价SDDTW_T比任何SIDTW_T的评价要好，则从最好的SDDTW_T中计算出SI/SD混合评价。因此，在SD声学模型中的模板产生较差的匹配评价，则VR系统仍旧可以根据SI/SD混合评价的SI部分来识别输入语音。这类较差的SD匹配评价可以具有包括在训练和测试过程中声学环境之间的差异或者或许是训练所使用的较差质量的输入的多种原因。

在替换的实施例中，SI评价是加权的且稍轻于SD评价，或者甚至于全部忽略。例如，在与目标发音种类相关的最佳SDDTW评价中选择DTW_T，并忽略了在目标发音种类的SIDTW。同样，在与非目标发音种类相关的最佳SIDTW或SDDTW评价中选择DTW_NT。

通过只采用适用于依赖于扬声器模式的SDDTW声学模型来讨论示例性实施例，本文所讨论的混合方法可以同样应用于使用SDHMM声学模型或者甚至于使用SDDTW和SDHMM声学模型的VR系统。例如，通过改进图6所示的方法，加权因子W₁可以应用于从最佳的SIHMM_T和SDHMM_T中选出的匹配评价。加权因子W₂可以应用于从最佳的SIHMM_NT和SDHMM_NT中选出的匹配评价。

于是，本文所揭示的是使用SI和SD声学模型的组合来改善在无人指导训练和测试过程中的VR性能的VR方法和装置。本领域的专业人士都会理解到：信息和信号可以采用多种不同工艺和技术中任何一种来表示。例如，在以上讨论中所参考的数据、指令、命令、信息、信号、位、字符、和片段都可以采用电压、电流、电磁波、磁场或粒子、光场或粒子，或者其上述的组合来表示。同样，尽管上述的实施例主要考虑了动态时间偏差(DTW)或隐含马尔可夫(Markov)模式(HMM)声学模型，但是所讨论的技术同样可以应用于其它类型的声学模型，例如，神经网络声学模型。

本领域的普通专业人士还会进一步意识到，参考本文所揭示的实施例所讨论的各种说明性的逻辑单元、模型、电路和算法步骤都可以采用电子硬件、计算机软件、及其两者的组合来实现。为了能简洁地说明这些硬件和软件的互换性，以上已经从功能的考虑上讨论了各种所说明的元件、逻辑单元、模型、电路以及步骤。无论这些功能是如何实现的，硬件和软件取决于施加在整个系统上的特定应用软件和设计制约。专业人士都可以采用各种特殊应用的变化方式来实现上述的功能，但是这类实现方法都不应理解为脱离本发明的范围。

以上结合本文所揭示的实施例讨论的各种说明的逻辑单元、模型、和电路的实现和完成可以采用普通通用处理器、数字信号处理器(DPS)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门电路和晶体管逻辑、分立硬件元件、或者及其上述的组合设计来实现上述功能。普通通用处理器可以是微处理器，但是在替换中，处理器可以是任何一种常规的处理器、控制器、微控制器、或者状态机。处理器也可以计算器件的组合来实现，例如，DSP和微处理器的组合、多个微处理器、一个或多个结合DSP芯核的微处理器，或者任何其它这类结构。

结合本文揭示的实施例所讨论的方法或算法的步骤可以直接嵌入在硬件中、嵌入在处理器所执行的软件模型中、或者嵌入在两者组合之中。该软件模型可以驻留在RAM存储器，闪存存储器、ROM存储器、EPROM存储器、EPPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或者本领域中所熟悉的任何其它存储媒介的形式中。示例性存储媒介与处理器相耦合，使得处理器能从存储媒介中读取信息，也可以将信息写入该存储媒介中。在替换的实施例中，存储媒介可以集成于处理器。处理器和存储媒介可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替换的实施例中，处理器核存储媒介可以驻留在用户终端中的分立元件中。

上述揭示实施例的说明使得本领域任何专业人士都能够产生或应用本发明。对本领域任何专业人士来说，各种对这些实施例的改进都是显而易见的，本文所定义的基本原理可以在不脱离本发明的精神和范围的条件下应用于其它实施例。于是，本发明并不试图限制于本文所显示的实施例中，而是考虑与本文所揭示的原理和新颖性能相一致的最广泛范围。

Claims

1.一种语音识别装置，它包括：

独立于扬声器的声学模型；

依赖于扬声器的声学模型；

语音识别引擎；以及，

嵌入在进行无人指导语音训练和测试的方法中计算机可读媒介，该方法包括：进行输入语音与所述独立于扬声器声学模型内容的模式匹配来产生独立于扬声器模式匹配的评价；将独立于扬声器模式的匹配评价与存储于所述依赖于扬声器声学模型中的模板相比较，以及根据比较结果至少更新在所述依赖于扬声器声学模型中的一个模板。

2.如权利要求1所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含马尔可夫(Markov)模式(HMM)的声学模型。

3.如权利要求1所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个动态时间偏差(warping)(DTW)模式的声学模型。

4.如权利要求1所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含马尔可夫(Markov)模式(HMM)的声学模型和至少一个动态时间交织(DTW)模式的声学模型。

5.如权利要求1所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个垃圾模板，其中，所述比较包括输入语音与至少一个垃圾模板的比较。

6.如权利要求1所述的语音识别装置，其特征在于，所述依赖于扬声器声学模型包括至少一个动态时间偏差(DTW)模式的声学模型。

7.一种语音识别装置，它包括：

独立于扬声器的声学模型；

依赖于扬声器的声学模型；

语音识别引擎；以及

嵌入在进行无人指导语音训练和测试的方法中计算机可读媒介，该方法包括：进行第一输入语音片段与所述独立于扬声器声学模型内容的模式匹配来产生独立于扬声器模式匹配的评价；将独立于扬声器模式的匹配评价与存储于所述依赖于扬声器声学模型中的模板相比较；根据比较结果至少更新在所述依赖于扬声器声学模型中的一个模板；构成所述语音识别引擎进行第二输入语音片段与存储于所述独立于扬声器声学模型和所述依赖于扬声器声学模型中的内容相比较来产生至少一个组合依赖于扬声器和独立于扬声器匹配评价；以及识别具有最佳组合依赖于扬声器和独立于扬声器匹配评价的发音种类。

8.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含的马尔可夫(Markov)模式(HMM)的声学模型。

9.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个动态时间偏差(DTW)模式的声学模型。

10.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含马尔可夫(Markov)模式(HMM)的声学模型和至少一个动态时间偏差(DTW)模式的声学模型。

11.如权利要求7所述的语音识别装置，其特征在于，所述依赖于扬声器声学模型包括至少一个动态时间偏差(DTW)模式的声学模型。

12.一种语音识别装置，它包括：

独立于扬声器的声学模型；

依赖于扬声器的声学模型；

语音识别引擎；以及

一种语音识别引擎，它适用于进行输入语音与所述独立于扬声器声学模型内容的模式匹配来产生独立于扬声器模式匹配的评价和进行输入语音与所述依赖于扬声器声学模型内容的模式匹配来产生模式匹配的评价；以及根据独立于扬声器模式匹配的评价和依赖于扬声器的模式匹配的评价来产生多个发音种类的组合匹配评价。

13.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含马尔可夫(Markov)模式(HMM)的声学模型。

14.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个动态时间偏差(DTW)模式的声学模型。

15.如权利要求7所述的语音识别装置，其特征在于，所述独立于扬声器声学模型包括至少一个隐含马尔可夫(Markov)模式(HMM)的声学模型和至少一个动态时间交织(DTW)模式的声学模型。

16.如权利要求7所述的语音识别装置，其特征在于，所述依赖于扬声器声学模型包括至少一个动态时间偏差(DTW)模式的声学模型。

17.一种适用于进行语音识别的方法，该方法包括：

进行第一输入语音片段与至少一个独立于扬声器声学模板的模式匹配，以产生至少一个输入模式匹配评价；

进行至少一个输入模式匹配评价与存储于相关声学模型中所存储的评价相比较；

根据所述比较的结果来替换所存储的声学模板。

18.如权利要求17所述的方法，其特征在于，进行模式匹配还包括：

进行第一输入语音片段与至少一个HMM模板的隐含马尔可夫(Markov)模式(HMM)的模式匹配；

进行第一输入语音片段与至少一个DTW模板的动态时间交织(DTW)模式的模式匹配；以及，

进行至少一个HMM匹配评价和至少一个DTW匹配评价的至少一个加权和，以产生所述至少一个输入模式匹配评价。

19.如权利要求17所述的方法，还包括：

进行第二输入语音片段与至少一个独立于扬声器声学模板的模式匹配，以产生至少一个独立于扬声器的匹配评价；

进行第二输入模式匹配评价与所存储的声学模板的模式匹配，以产生依赖于扬声器的匹配评价；以及

将至少一个独立于扬声器匹配评价与依赖于扬声器匹配评价的组合，来产生至少一个组合的匹配评价。

20.如权利要求19所述的方法，还包括识别与至少一个组合匹配评价中最佳评价相关的发音种类。

21.一种进行语音识别的方法，该方法包括：

进行输入语音片段与至少一个独立于扬声器声学模板的模式匹配，以产生至少一个独立于扬声器的匹配评价；

进行输入语音片段与至少一个依赖于扬声器声学模板的模式匹配，以产生至少一个依赖于扬声器的匹配评价；以及

22.一种进行语音识别的方法，其特征在于，该方法包括：

进行一组输入声学性能矢量与在独立于扬声器声学模型中的独立于扬声器模板相比较，以产生独立于扬声器模式匹配评价，其中，所述独立于扬声器模板与第一发音种类有关；

进行一组输入声学性能矢量与在依赖于扬声器声学模型中的依赖于扬声器模板相比较，以产生依赖于扬声器模式匹配评价，其中，所述依赖于扬声器模板与第一发音种类有关；

将所述独立于扬声器模式匹配评价与依赖于扬声器模式匹配评价进行比较，以产生组合的模式匹配评价；以及

将所述组合模式匹配评价与第二发音种类相关的至少一个其它组合模式匹配评价相比较。

23.一种进行语音识别的装置，该装置包括：

用于进行第一输入语音片段与至少一个独立于扬声器声学模板的模式匹配以产生至少一个输入模式匹配评价的部件；

用于进行至少一个输入模式匹配评价与所存储的声学模板的存储评价比较的部件；以及

用于根据所述比较结果来替换所存储声学模板的部件。

24.一种进行语音识别的装置，该装置包括：

用于进行输入语音片段与至少一个独立于扬声器声学模板的模式匹配以产生至少一个独立于扬声器的匹配评价的部件；

用于进行输入语音片段与至少一个依赖于扬声器声学模板的模式匹配以产生至少一个依赖于扬声器的匹配评价的部件；以及

用于将至少一个独立于扬声器匹配评价与至少一个依赖于扬声器匹配评价的组合以产生至少一个组合匹配评价的部件。