CN1965218A

CN1965218A - 交互式语音识别系统的性能预测

Info

Publication number: CN1965218A
Application number: CNA2005800183020A
Authority: CN
Inventors: H·肖尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-06-04
Filing date: 2005-05-24
Publication date: 2007-05-16
Also published as: WO2005119193A1; EP1756539A1; JP2008501991A; US20090187402A1

Abstract

本发明提供了一种交互式语音识别系统以及一种相应的方法，该方法用于根据记录的背景噪声来确定一种语音识别过程的性能水平。本发明系统有效地利用了用户输入需要进行语音识别的语音之前发生的语音停顿。优选地，本发明的性能预测有效利用了经过训练的噪声分类模型。此外，为了给出一个关于所述语音识别过程的性能的可靠反馈，向用户指示了预测的性能水平。通过这种方式，本发明的语音识别系统能够对不适合用于生成可靠语音识别的噪声条件作出反应。

Description

交互式语音识别系统的性能预测

本发明涉及到交互式语音识别领域。

自动语音识别系统(ASR)的性能与可靠性强烈地依赖于背景噪声的特征和水平。存在几种提高系统性能以及对付各种不同的噪声条件的方法。一般的构想是基于噪声消减和噪声抑制方法来提高语音和噪声之间的信噪比(SNR)。主要地，这可以通过适当的噪声滤波器来实现。

其它方法关注于针对特定背景噪声场景的噪声分类模型。这种噪声分类模型可以被合并到用于自动语音识别的声学模型或语言模型中并且需要在特定噪声条件下进行训练。因此，利用噪声分类模型，一种语音识别过程可以自适应到不同的预定义的噪声场景。此外，可以应用显式噪声鲁棒声学建模方法，该方法将先验知识合并到分类模型。

然而，所有这些方法要么试图提高语音质量，要么试图匹配各种噪声条件，因为这些噪声条件可能会在典型的应用场景中出现。不考虑这些噪声分类模型的种类和质量，则不可能通过合理的噪声消减和/或噪声匹配努力来覆盖很大量的不可预测的噪声以及干扰场景。

因此，向自动语音识别系统的用户指示瞬间噪声水平是有实际用途的，这样，用户就能够获悉到可能会导致错误的语音识别的一种有问题的录音环境。最典型地，噪声指示器显示了麦克风输入的瞬间能量水平，并且用户自己能够评估所指示的水平是否处于一种允许足够的语音识别质量的适当区域。

例如，WO 02/095726 A1公布了这样一种语音质量指示器。这里，一个接收到的语音信号被提供给一个语音质量评估器，该评估器对该信号的语音质量进行量化。结果语音质量测量被提供给一个指示器驱动器，该驱动器生成了一个当前接收到的语音质量的适当指示。借助一个指示器，使得这种指示变成对话音通信设备的用户是明显的。所述语音质量评估器能够以各种方式来量化语音质量。可以使用的语音质量测量的两个简单例子是：(i)语音信号水平(ii)语音信噪比。

显示给用户的语音信号和信噪比水平可以被自适应来指示一种有问题的录音环境，但是基本上未被直接地关联到所述自动语音识别系统的语音识别性能。例如当能够充分地过滤掉一个特定的噪声信号时，低信噪比不一定与所述语音识别系统的低性能相关联。另外，现有技术中已知的解决方案被典型地自适应来生成指示信号，该指示信号基于当前接收到的语音质量。这通常意味着一部分接收到的语音已经接受了一个语音识别过程。因此，一个语音质量测量的生成典型地基于已经接受一个语音识别过程的记录的语音和/或语音信号。在两种情形中，在用户有机会改善录音条件或降低噪声水平之前至少一部分语音已经被处理。

本发明提供了一种用于识别用户语音的交互式语音识别系统。本发明的语音识别系统包括：用于接收声音信号的装置，所述声音信号包括一个背景噪声；用于根据接收到的声音信号来选择一个噪声模型的装置；用于根据所选择的噪声模型来预测一个语音识别过程的性能水平的装置；以及用于向用户指示所预测的性能水平的装置。特别地，所述用于接收声音信号的装置被设计优选地用于在用户向所述交互式语音识别系统提供任何语音信号之前记录噪声水平。通过这种方式，甚至在生成将要接受语音识别过程的语音信号之前就获得了指示背景噪声的声音信号。特别在对话系统中，适当语音停顿在某些预定的时间点上发生，并且可以被有效地利用来记录噪声特定的声音信号。

本发明的交互式语音识别系统进而被自适应来利用噪声分类模型，所述模型在所述语音识别系统的特定应用条件下被训练。优选地，所述语音识别系统能够访问各种噪声分类模型，其中每种模型指示了一种特定噪声条件。典型地，对一个噪声模型的选择指的是对所接受到的声音信号的分析以及与先前存储的经训练的噪声模型作比较。于是选择那个与所接收到并分析的声音信号最匹配的特定噪声模型。

根据这个选择的噪声模型，预测了所述语音识别过程的一个性能水平。因此，用于预测性能水平的该装置甚至在实际语音识别开始之前就提供了所述语音识别过程的质量测量的一种估计。这提供了一种在一系列语音识别步骤中尽可能早地估计并识别一个特定噪声水平的有效手段。一旦预测出语音识别过程的一个性能水平，用于指示的该装置被自适应来向用户通知所预测的性能水平。

特别地通过向用户指示一个关于语音识别过程的估计的质量测量，用户可能会被尽早地告知不足的语音识别条件。通过这种方式，甚至在用户实际使用语音识别系统之前，他能够对不足的语音识别条件作出反应。这种功能在一个对话系统中特别有利，在那里用户使用声音来输入控制命令或请求。因此，本发明的语音识别系统被优选地实现成这样一种自动对话系统，该系统被自适应来处理用户的语音输入并且提供所请求的信息，诸如例如一个公共交通时间表信息系统。

按照本发明的又一个优选实施例，用于预测性能水平的该装置被进一步自适应来根据噪声参数预测性能水平，所述噪声参数是根据所接收到的声音信号确定的。这些噪声参数例如指示了一种语音录制水平或一种信噪比水平，并且可被进一步利用来预测所述语音识别过程的性能水平。本发明以这种方式提供了一种有效的手段，用于将噪声分类模型的应用与一般的噪声特定的参数组合成单个参数，即一个直接指示所述语音识别系统的语音识别性能的性能水平。

备选地，用于预测性能水平的该装置能够分开地使用噪声模型或噪声参数。然而，通过结合分开生成的噪声参数来评估所选择的噪声模型，可以预期一种更加可靠的性能水平。因此，用于预测性能水平的该装置可以普遍地使用多个噪声指示输入信号来提供一个真实的性能水平，该性能水平直接地指示了一个语音识别过程的特定错误率。

按照本发明的又一个优选实施例，所述交互式语音识别系统进而被自适应来根据所预测的性能水平而调整至少一个所述语音识别过程的语音识别参数。以这种方式，所预测的性能水平不仅被用于向用户提供适当的性能信息，而且还被用来主动地改进所述语音识别过程。例如，一个典型的语音识别参数是修剪水平，它指定了用于一个语言识别过程的相关音素序列的有效范围，所述语言识别过程典型地基于使用例如隐式马尔可夫模型(HMM)的统计过程。

典型地，提高修剪水平导致错误率降低但需要明显地更高的计算能力，这反过来减缓了语音识别过程。例如，错误率可以指字错误率(WER)或概念错误率(CER)。通过根据预测的性能水平调整语音识别参数，作为对期望的性能的响应，可以普遍地修改所述语音识别过程。

按照又一个优选实施例，所述交互式语音识别系统进而包括一种用于根据预测的性能水平切换一个预定义的交互模式的装置。特别在对话系统中，存在一个语音识别和/或对话系统的多种交互和通信模式。特别地，语音识别系统和/或对话系统可以被自适应来重现识别的语音并且向用户提供识别的语音，用户进而必须确认或拒绝所述语音识别过程的结果。

这种验证提示的触发可以通过预测的性能水平来有效地进行监控。例如，在坏的性能水平的情况下，验证提示可能被非常频繁地触发，而在高性能水平的情况下，这种验证提示可能极少被插入到对话中。其它交互模式可能包括完全拒绝接收到的语音序列。这在极坏的噪声条件下特别合理。在这种情况中，可能会简单地指导用户来降低背景噪声水平或重复一个语音序列。备选地，当本能地切换到一个需要更多计算时间的较高的修剪水平来补偿一个增长的噪声水平时，可以简单地通知用户所述语音识别系统的相应延迟或降低的性能水平。

按照本发明的又一个优选实施例，用于接收声音信号的该装置进而被自适应来记录背景噪声，以作为对接收到一个激活信号的响应，所述激活信号是由一个激活模块生成的。由所述激活模块生成的所述激活信号触发该用于接收声音信号的装置。由于该用于接收声音信号的装置被优选地自适应来记录用户开始说话之前的背景噪声，当预计到没有语音的时候，所述激活模块试图选择性地触发用于接收声音信号的装置。

这可以由用户按下一个激活按钮并结合一个就绪指示器来有效地实现。通过按下所述激活按钮，用户将所述语音识别系统切换到出席状态并且经过一个短暂的延迟后，所述语音识别系统指示其就绪。在这个延迟中，可以假定用户仍然还没有说话。因此，按下激活按钮和指示系统就绪之间的延迟可以被有效地用于测量并记录瞬间背景噪声。

备选地，也可以根据声音控制来执行按下激活按钮。在这样一个实施例中，所述语音识别系统处于一个连续侦听模式，所述侦听模式基于一种单独的鲁棒语音识别器，所述语音识别器被专门地自适应来捕获特定的激活短语。另外，这里系统被自适应以使其不会向一个识别的激活短语立即作出反应，而是利用预定义延迟来收集背景噪声信息。

另外，当实现成一个对话系统时，典型地会在对话系统的欢迎消息之后出现一个语音停顿。因此，本发明的语音识别系统有效地利用定义良好的或人工生成的语音停顿来充分地确定所述基础背景噪声。优选地，背景噪声的确定通过利用自然语言停顿或语音停顿而被合并，所述语音停顿对于语音识别和/或对话系统是典型的，这样，用户就不会感觉到背景噪声记录阶段。

按照本发明的又一个实施例，用于向用户指示所预测的性能的该装置被自适应来生成一个可听和/或可视信号，所述信号指示了预测的性能水平。例如，所述预测的性能水平可以通过色彩编码的例如LED的闪烁或闪光而向用户显示。诸如绿、黄、红等不同颜色可以指示好、中或差的性能水平。此外，可以将多个光点排成一条直线，然后由同时闪烁的光点的数量来指示性能水平。另外，可以由一个蜂鸣音来指示性能水平，并且在更加成熟的环境中，所述语音识别系统可以通过预定义语音序列来以听觉方式指导用户，所述预定义语音序列可以被所述语音识别系统重现。后者被优选地实现成只能通过例如电话访问的基于语音识别的对话系统。这里，在预测的性能水平较低的情况下，所述交互式语音识别系统可以指导用户降低噪声水平和/或重复所说的词。

在另一方面，本发明提供了一种交互式语音识别方法，该方法包括：接收声音信号的步骤，所述声音信号包括背景噪声；根据接收到的声音信号从多个训练的噪声模型中选择一个噪声模型；根据所选择的噪声模型来预测一个语音识别过程的性能水平；以及向用户指示所预测的性能水平。

按照本发明的又一个优选实施例，每个经训练的噪声模型指示了一种特定噪声并且它是利用第一训练过程生成的，所述第一训练过程是在一个相应的噪声条件下执行的。这需要一个专门的训练过程来生成多个噪声模型。例如，如果将本发明的语音识别系统自适应到一个自动环境，那么必须在自动条件或至少模拟的自动条件下训练出一个相应的噪声模型。

按照本发明的又一个优选实施例，所述语音识别系统的性能水平的预测是基于一个第二训练过程的。所述第二训练过程训练根据所选择的噪声条件和所选择的噪声模型来预测性能水平。因此，所述第二训练过程被自适应以使其对于每个与特定噪声模型相对应的噪声条件监视所述语音识别过程的性能，所述特定噪声模型是利用第一训练过程生成的。因此，所述第二训练过程用来提供经训练的数据，所述经训练的数据表示所述语音识别过程的一个特定错误率，例如WER或CER，该错误率是在特定噪声条件下测量的，其中所述语音识别利用一个相应的噪声模型。

在另一方面，本发明提供了一个用于交互式语音识别系统的计算机程序产品。本发明的计算机程序产品包括计算机程序装置，所述计算机程序装置被自适应用于：接收包括背景噪声的声音信号、根据接收到的声音信号选择一个噪声模型、根据所选择的噪声模型计算一个语音识别过程的性能水平、以及向用户指示所预测的性能水平。

在又一方面，本发明提供了一个对话系统，所述对话系统用于通过处理由用户生成的语音输入而向该用户提供一项服务。所述对话系统包括一个发明的交互式语音识别系统。因此，本发明的交互式语音识别系统作为一个集成部分被合并到一个对话系统，诸如提供公共交通信息的自动时间表信息系统。

此外，应当注意到权利要求书中的任何参考符号都不能被理解为是限制本发明的范围。

下面将参考附图详细地描述本发明的优选实施例中，其中：

图1显示了所述语音识别系统的一个框图，

图2显示了所述语音识别系统的一个详细框图，

图3显示了用于预测所述语音识别系统的性能水平的流程图，

图4显示了一个流程图，其中性能水平预测被合并到语音识别过程。

图1显示了本发明的语音识别系统100的一个框图。所述语音识别系统具有一个语音识别模块102、一个噪声记录模块104、一个噪声分类模块106、一个性能预测模块108、以及一个指示模块110。一个用户112可以通过提供由语音识别系统100识别的语音以及通过指示模块110接收指示语音识别的性能的反馈来与所述语音识别系统100进行交互。

单个模块102...110被设计用于实现所述语音识别系统100的一个性能预测功能。另外，所述语音识别系统100包括那些在现有技术中熟知但没有显式地显示的标准语音识别部件。

由用户112提供的语音通过某种诸如麦克风的录音设备而被输入到语音识别系统100，所述录音设备将一个声音信号转换成一个相应的可以由语音识别系统100处理的电信号。语音识别模块102表示语音识别系统100的中央部件并且提供对所录制音素的分析以及执行到字序列或短语的映射，所述字序列或短语是由一个语言模型提供的。实际上，任何语音识别技术都可以被用于本发明。此外，由用户112输入的语音被直接提供给语音识别模块102以用于语音识别。

噪声记录和噪声分类模块104、106以及性能预测模块108被设计用于预测语音识别过程的性能，所述语音识别过程是由语音识别模块102仅仅根据记录的背景噪声执行的。噪声记录模块104被设计用于记录背景噪声以及向噪声分类模块106提供记录的噪声信号。例如，噪声记录模块104在语音识别系统100的一个延迟期间记录一个噪声信号。典型地，用户112激活语音识别系统100并且在经过一个预定义的延迟间隔后，所述语音识别系统向用户112指示它的就绪。在这个延迟期间，可以假定用户112简单地等待所述语音识别系统的就绪状态并且因此不会产生任何语音。因此，期望在所述延迟间隔期间，所记录的声音信号排他地表示背景噪声。

当通过噪声记录模块104记录噪声之后，所述噪声分类模块用来识别所记录的噪声信号。优选地，噪声分类模块106使用存储在语音识别系统100中的噪声分类模型，并且所述模型对于不同的背景噪声场景是不同的。典型地，这些噪声分类模型是在相应的噪声条件下被训练的。例如，一个特定的噪声分类模型可以指示自动背景噪声。当用户112在一个自动环境中使用语音识别系统100时，一个记录的噪声信号极有可能被噪声分类模块106识别为自动噪声并且可以选择相应的自动噪声分类模型。特定噪声分类模型的选择也是利用噪声分类模块106执行的。噪声分类模块106可以进而被自适应来提取并指定各种噪声参数，诸如噪声信号水平或信噪比。

一般地，所选择的噪声分类模型以及由噪声分类模块106确定并选择的其它噪声特定参数被提供给了性能预测模块108。性能预测模块108进而可以从噪声记录模块104中接收所记录的未改变的噪声信号。接着性能预测模块108根据所提供的噪声信号、噪声特定参数或所选择的噪声分类模型中的任何一个计算出语音识别模块102的一个期望的性能。此外，性能预测模块108被自适应以便通过使用各种提供的噪声特定输入来确定一个性能预测。例如，为了确定所述语音识别系统的一个可靠的性能预测，性能预测模块108有效地组合了一个所选择的噪声分类模块和一个噪声特定参数。结果是，性能预测模块108生成了一个提供给指示模块110和语音识别模块102的性能水平。

通过向指示模块110提供所述语音识别过程的一个确定的性能水平，能够向用户112有效地告知所述语音识别系统的所期望的性能和可靠性。指示模块110能够以多种方式实现。它可以产生一个必须由用户112解释的闪烁的、色彩编码的输出。在一个更加成熟的实施例中，为了向用户112生成一个可听的输出，还可以向指示模块110提供语音合成装置，为了提高语音质量和/或降低背景噪声，所述可听的输出甚至会指导用户112执行一些动作。

语音识别模块102进而被自适应来直接从用户112接收输入信号、从噪声记录模块104接收记录的噪声信号、从噪声分类模块106接收噪声参数和所选择的噪声分类模型、以及从性能预测模块108接收预测的性能水平。通过向语音识别模块102提供任何生成的参数，不仅可以确定所述语音识别过程的期望的性能，而且语音识别过程本身可以被有效地自适应于当前的噪声情景。

特别地，通过由噪声分类模块106向语音识别模块102提供所选择的噪声模型以及相关的噪声参数，基础的语音识别过程能够有效地利用所选择的噪声模型。此外，通过由性能预测模块108向语音识别模块102提供期望的性能水平，所述语音识别过程能够被适当地调整。例如当确定性能预测模块108有相对较高的错误率时，为了提高所述语音识别过程的可靠性，可以自适应地对所述语音识别过程的修剪水平进行调整。由于使修剪水平向较高的值偏移需要可观的额外计算时间，所述基础语音识别过程的整体效率可能会显著降低。结果是以速度减缓为代价，整个语音识别过程变得更加可靠。在这个案例中，使用指示模块110向用户112指示这种较低的性能是合理的。

图2示例了本发明的语音识别系统100的一个更加成熟的实施例。与图1所示的实施例相比，图2示例了交互式语音识别系统100的额外部件。这里，语音识别系统100进而包括一个交互模块114、一个噪声模块116、一个激活模块118以及一个控制模块120。优选地，语音识别模块102被连接到不同的模块104...108，如图1所示。控制模块120被自适应来控制交互作用以及协调交互式语音识别系统100的各种模块的功能。

交互模块114被自适应以便从性能预测模块108接收预测的性能水平并且控制指示模块110。优选地，为了与用户112进行通信，交互模块114提供了各种可以应用的交互策略。例如，交互模块114被自适应以便触发验证提示，所述验证提示由指示模块110提供给用户112。这种验证提示可以包括用户112的识别的语音的重现。接着用户112必须根据重现的语音是否真正表示该用户原始语音的语义含义来确认或丢弃重现的语音。

优选地，交互模块114是由所述语音识别过程的预测的性能水平控制的。根据预测的性能的水平，可以相应地自适应验证提示的触发。在性能水平指示出不可能有可靠的语音识别的极端的情况下，交互模块114甚至可以触发指示模块110生成一个适当的用户指令，例如指令用户112降低背景噪声。

噪声模型模块116被用作为各种噪声分类模型的存储器。优选地，由相应的训练过程在各个噪声条件下生成了多个不同的噪声分类模型。特别地，为了选择一个特定的噪声模型，噪声分类模块106访问噪声模型模块116。备选地，还可以利用噪声模型模块116来实现噪声模型的选择。在这种情况中，噪声模型模块116从噪声记录模块104接收记录的噪声信号，将所接收的噪声信号的一部分与各种存储的噪声分类模块进行比较，并且确定至少其中一种与部分所记录的噪声相匹配的噪声分类模型。接着，最匹配的噪声分类模型被提供给可以生成更多噪声特定参数的噪声分类模块106。

激活模块118被用作为一个供噪声记录模块104使用的触发器。优选地，激活模块118被实现成一个专门设计的语音识别器，所述语音识别器被自适应以便捕获某些由用户说出的激活短语。作为对接收到一个激活短语以及相应地识别出该激活短语的响应，激活模块118激活噪声记录模块104。另外，为了向用户112指示就绪状态，激活模块118还通过控制模块120触发指示模块110。优选地，在噪声记录模块104已经被激活之后才执行就绪状态指示。在这个延迟期间，可以假定用户112不说话而是等待所述语音识别系统100就绪。因此，这个延迟间隔非常适用于记录纯粹指示实际背景噪声的声音信号。

除了利用单独的语音识别模块来实现激活模块118，也可以由某种其它类型的激活装置来实现激活模块。例如，激活模块118可以提供一个激活按钮，为了激活语音识别系统，用户112必须按下该按钮。这里也可以相应地实现一个记录背景噪声所需的延迟。特别当所述交互式语音识别系统118被实现成一个基于电话的对话系统时，激活模块118可以被自适应以便在向用户112已经提供某种类型的对话系统的消息之后激活噪声记录。最典型地，在向用户112提供了一个欢迎消息之后，出现了一个可被用于背景噪声记录的适当停顿。

图3示例了一个流程图，用于预测本发明的交互式语音识别系统的性能水平。在第一步骤200中接收到一个激活信号。该激活信号可以指：当实现成为一个基于电话的对话系统时通过接收到一个用户说出的激活短语或者向用户112提供一个欢迎消息之后，由用户112按下一个按钮。作为对步骤200中接收到激活信号的响应，在后续步骤202中记录了一个噪声信号。由于激活信号指示了一个无语音期间的开始，所记录的信号极有可能唯一地表示背景噪声。在步骤202中记录了背景噪声之后，在后面的步骤204中，通过噪声分类模块106对所记录的噪声信号进行了评估。噪声信号的评估指在步骤206中选择一个特定的噪声模型以及在步骤208中生成噪声参数。利用步骤206、208，就可以确定一个特定的噪声模型和相关的噪声参数。

基于所选择的噪声模型以及所生成的噪声参数，在后面的步骤210中，利用性能预测模块108对所述语音识别过程的性能水平进行了预测。所预测的性能水平接着在步骤212中通过利用指示模块110向用户进行指示。此后或同时，在步骤214中处理语音识别。由于性能水平的预测是基于语音输入之前的噪声输入，原则上，甚至可以在用户开始说话之前就向用户112显示所预测的性能水平。

此外，可以根据额外的训练过程来生成所预测的性能水平，所述训练过程提供了各种噪声模型和噪声参数以及测量的错误率之间的一种关系。因此，所预测的性能水平关注一个语音识别过程的期望输出。优选地，预测的和期望的性能水平不仅指示给用户，而且由所述语音识别过程用于降低错误率。

图4示例了在一个语音识别过程中使用预测的性能水平的一个流程图。步骤300到308对应于已经在图3中所示的步骤200到208。在步骤300中接收到激活信号，在步骤302中记录了一个噪声信号，之后在步骤304中评估了所记录的噪声信号。噪声信号的评估指步骤306和308，其中选择了一个特定的噪声分类模型以及生成了相应的噪声参数。一旦在步骤308中生成了噪声特定参数，所生成的参数被用于在步骤318中调整所述语音识别过程的识别参数。当在步骤318中已经调整好诸如修剪水平的语音识别参数之后，在步骤320中处理所述语音识别过程，并且当实现成一个对话系统时，在步骤320中还执行了相应的对话。一般地，步骤318和步骤320代表利用噪声特定参数来提高语音识别过程的一种现有技术解决方案。相反地，步骤310到步骤316代表本发明的基于背景噪声评估的所述语音识别过程的性能预测。

当在步骤306中选择所述噪声模型之后，步骤310检查所执行的选择是否成功。在无法选择特定的噪声模型的情况下，该方法继续步骤318，其中使用所确定的噪声参数来调整所述语音识别过程的识别参数。当在步骤310中已经确认成功选择了特定噪声分类模型的情况下，该方法继续步骤312，其中根据所选择的噪声模型预测了所述语音识别过程的性能水平。另外，性能水平的预测也可能会包括利用步骤308中确定的噪声特定参数。当在步骤312中已经预测了性能水平之后，步骤314到318被同时或交替执行。

在步骤314中，针对所预测的性能水平对用于交互模块114的交互参数进行了调整。这些交互参数指定了一个时间间隔，在该时间间隔之后，在对话系统中必须触发验证提示。备选地，交互参数可以指定所述交互式语音识别系统和用户之间的各种交互场景。例如，一个交互参数可以控制用户必须在可执行语音识别过程之前降低背景噪声。在步骤316中，利用指示模块110向用户指示了所确定的性能水平。以这种方式，用户112能够有效地获悉性能程度以及因而获悉所述语音识别过程的可靠性。另外，在步骤318中执行的识别参数的调整能够有效地利用在步骤312中预测的性能水平。

步骤314、316、318可以同时地、顺序地或选择性地执行。选择的执行指这种情况：其中步骤314、316、318中的仅仅一个或两个被指定。然而，当执行步骤314、316、318中的任何一个之后，在步骤320中执行所述语音识别过程。

因此，本发明提供了一种用于根据所记录的背景噪声来估计一个语音识别过程的性能水平的有效装置。优选地，甚至在语音被输入到所述识别系统之前，本发明的交互式语音识别系统被自适应以便向用户112提供一个适当的性能反馈。由于能够以多种不同的方式来实现所预测的性能水平的利用，本发明的性能预测可以在各种现有的语音识别系统中普遍地实现。特别地，本发明的性能预测可以与现有的噪声消减和/或噪声水平指示系统普遍地相结合。

参考数字列表

100语音识别系统

102语音识别模块

104噪声记录模块

106噪声分类模块

108性能预测模块

110指示模块

112用户

114交互模块

116噪声模型模块

118激活模块

120控制模块

Claims

1.一种用于识别用户(112)语音的交互式语音识别系统(100)，所述语音识别系统包括：

-用于接收包括一个背景噪声的声音信号的装置，

-用于根据所接收到的声音信号选择一个噪声模型的装置(106)，

-用于根据所选择的噪声模型预测一个语音识别过程的性能水平的装置(108)，

-用于向用户指示(110)所预测的性能水平的装置(110)。

2.按照权利要求1所述的交互式语音识别系统(100)，其中用于预测性能水平的装置(108)进而被自适应以便根据噪声参数来预测性能水平，所述噪声参数是根据所接收到的声音信号确定的。

3.按照权利要求1所述的交互式语音识别系统(100)，还被自适应以便根据所预测的性能水平调整所述语音识别过程的至少一个语音识别参数。

4.按照权利要求1所述的交互式语音识别系统(100)，还包括用于根据所预测的性能水平切换到一个预定义的交互模式的装置(114)。

5.按照权利要求1所述的交互式语音识别系统(100)，其中用于预测性能水平的装置(108)被自适应以便在执行所述语音识别过程之前就预测性能水平。

6.按照权利要求1所述的交互式语音识别系统(100)，其中作为对接收到由激活模块(118)生成的激活信号的响应，用于接收声音信号的装置还被自适应以便记录背景噪声。

7.按照权利要求1所述的交互式语音识别系统(100)，其中用于向用户(112)指示所预测的性能的装置(110)被自适应以便生成一个指示所预测的性能水平的听觉和/或视觉信号。

8.一种交互式语音识别方法，包括如下步骤：

-接收包括背景噪声的声音信号，

-根据所接收到的声音信号选择多个训练的噪声模型中的一个噪声模型，

-根据所选择的噪声模型预测一个语音识别过程的性能水平，

-向用户指示所预测的性能水平。

9.按照权利要求8所述的方法，还包括利用第一选练过程在相应的噪声条件下生成每个噪声模型。

10.按照权利要求8所述的方法，其中所述语音识别过程的性能水平的预测是基于一个第二训练过程的，所述第二训练过程被自适应以便对于每个噪声条件都监视所述语音识别过程的性能。

11.一种用于交互式语音识别系统的计算机程序产品，所述产品包括计算机程序装置，所述计算机程序装置被自适应以便：

-接收包括背景噪声的声音信号，

-根据所接收的声音信号来选择一个噪声模型，

-根据所选择的噪声模型来计算一个语音识别过程的性能水平，

-向用户指示所预测的性能水平。

12.一种自动对话系统，包括按照权利要求1所述的一个交互式语音识别系统。