CN105390138A

CN105390138A - 用于使用语音识别解释剪短的语音的方法和装置

Info

Publication number: CN105390138A
Application number: CN201510525105.3A
Authority: CN
Inventors: E.T.内尔森
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2014-08-26
Filing date: 2015-08-25
Publication date: 2016-03-09
Also published as: EP2991072A1; US20160063990A1

Abstract

提供了一种用于接收和分析与话音识别技术兼容的数据的方法。该方法接收包括至少清晰表达的语句的子集的语音数据；基于接收到的语音数据来执行多个处理以生成多个概率，多个处理中的每一个与相应候选清晰表达的语句相关联，并且所生成的多个概率中的每一个包括关联的候选清晰表达的语句包括该清晰表达的语句的可能性；以及分析所生成的多个概率来确定识别结果，其中，识别结果包括清晰表达的语句。

Description

用于使用语音识别解释剪短的语音的方法和装置

技术领域

这里描述的主题的实施例一般地涉及语音识别系统。更具体地，主题的实施例涉及针对可能不完整的语音数据样本的语音识别。

背景技术

在使用即按即说设备期间，对用户普遍发生的是，由于在语音已经开始之后按下即按即说按钮或者在完成清晰表达的语句之前释放即按即说按钮而非故意地缩短（例如，切断或“剪短”）消息。当用户与第二用户（经由即按即说设备）进行通信时，即使第二用户没有接收到整个消息，第二用户通常也仍然可以理解第一用户说了什么。

当用户使用配备有语音识别技术的即按即说设备时，缩短或剪短消息可能导致语音识别算法失败。此外，在不使用即按即说技术的自动获得控制系统的情况下，剪短可能发生。例如，如果一个人开始过轻地讲话，则命令的开始可能被剪短。移除该消息的第一部分的剪短对用于语音识别的包括隐式马尔可夫模型（HMM）的信号处理算法是不利的。HMM单独地评估每个码字，并且基于其之前的码字来确定每个码字的概率。如果话语的第一码字被剪短，则语音识别系统将很可能无法识别说了什么，并且这可能导致差的语音识别性能。

因此，期望提供一种用于使用语音识别技术来识别和解释剪短的语音的方法。此外，结合附图和前述的技术领域和背景技术进行理解，其他期望特征和特性根据后续具体描述和所附权利要求将变得显而易见。

发明内容

本发明的一些实施例提供了一种用于接收和分析与话音识别技术兼容的数据的方法。该方法接收包括至少清晰表达的语句的子集的语音数据；基于接收到的语音数据来执行多个处理以生成多个概率，多个处理中的每一个与相应候选清晰表达的语句相关联，并且所生成的多个概率中的每一个包括关联的候选清晰表达的语句包括该清晰表达的语句的可能性；以及分析所生成的多个概率来确定识别结果，其中，识别结果包括清晰表达的语句。

一些实施例提供了一种用于接收与语音识别技术兼容的数据的系统。该系统包括：用户输入模块，配置为接收音频数据集合；数据分析模块，配置为：基于接收到的语音数据来计算一个或多个概率，所计算的多个概率中的每一个指示音频数据集合包括候选词语的统计可能性；并且基于所计算的多个概率来确定语音识别结果。

一些实施例提供了一种非临时性计算机可读介质，在其上包含指令，该指令在由处理器执行时执行一种方法。响应于接收到的与语音识别（SR）技术兼容的用户输入集合，该方法：执行多个多线程处理来计算多个概率，所述多个概率中的每一个与所述多个多线程处理中的相应一个相关联；比较所述多个概率中的每一个以识别高于预定义的阈值的一个或多个概率；以及基于所识别的高于预定义的阈值的一个或多个概率来呈现识别结果。

提供本发明内容来以简化形式介绍概念的选择，该概念在以下的具体描述中被进一步描述。本发明内容不意在标识要求保护的主题的关键特征或必要特征，其也不意在用作确定要求保护的主题的范围的辅助。

附图说明

当结合下述特征一起考虑时，可以通过参考具体描述和权利要求来得到对主题的更全面的理解，其中遍及附图，相似的附图标记指类似的元件。

图1是根据一些实施例的语音数据识别系统的示意性框图表示；

图2是图示用于接收与语音识别技术兼容的数据的处理的实施例的流程图；

图3是图示用于接收与语音识别技术兼容的数据的处理的另一实施例的流程图；

图4是图示用于将接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语作比较的处理的实施例的流程图；

图5是图示用于执行用于剪短语音识别的多个处理的处理的实施例的流程图；

图6是根据一些实施例的语音数据识别系统的示意图表示；

图7是根据一些实施例的可能的前缀的数据库的示意图表示；

图8是图示用于分析接收到的语音数据的处理的实施例的流程图；以及

图9是图示用于准备用于语音识别应用的语音识别系统的处理的实施例的流程图。

具体实施方式

下面的详细描述本质上仅仅是说明性的并且不意在限制主题的实施例或者这样的实施例的应用和使用。如本文使用的词语“示例性”是指“用作示例、实例或说明”。本文描述为示例性的任何实现方式不必然被解释为比其他实现方式更优选或更有利。此外，不意在受到在前面的技术领域、背景技术、发明内容或以下具体描述中呈现的任何明确的或暗示的理论的限制。

本文提出的主题涉及用于解释接收到的语音数据的方法和装置，不论该语音数据是完整的还是不完整的语句。由用户清晰表达的语句传达语音数据的集合。该接收到的语音数据的集合可能已经在清晰表达期间被“剪短”或切断，或者换言之，接收到的语音数据的集合可能由于省略的部分而是不完整的。省略的部分可以包括一个或多个完整词语、音素、码字或话语的其他定义的部分。系统执行用于语音识别的多个信号处理算法，以便计算与下述各项相关联的概率：（i）接收到的语音数据与完整的语句相关联，以及（ii）接收到的语音数据与由于剪短的部分而不完整的语句相关联。

在本申请的上下文中，术语“语音识别”和“话音识别”是可互换的。此外，术语“语音数据”和“话音数据”也是可互换的。语音数据的样本或集合包括至少一个词语。一个或多个词语被单独地存储在系统词典中。每个词语包括一个或多个音素，音素可以被定义为使一个词语与另一个区分的特定语言中的声音的感知上不同的单元中的任何一个。音素可以包括但不限于，与英语语言相关联的声音的不同单元。音素提供每个词语的子集的音素表示，每个词语的子集可以包括该词语的一部分，至多并且可能包括整个词语。每个音素可以与一个或多个码字、或词语的各部分的子音素表示相关联。此外，词语可以使用系统语言模型来被提及，以取回独立的词语和/或词语组合在接收到的语音数据的集合中可能出现的概率。

现在参考附图，图1是根据一些实施例的语音数据识别系统的示意性框图表示。语音数据识别系统100可以使用任何期望的平台来实现。例如，话音数据识别系统100可以被实现为下述各项（但不限于下述各项）中的任何一个：台式计算机、膝上型计算机、服务器系统、移动设备、诊断设备的专用部件、基于嵌入式处理器的设备或系统或包括处理器架构102的任何其他设备。

语音数据识别系统100可以包括但不限于：处理器架构102；系统存储器104；用户接口106；信号处理模块108；系统准备模块110；参数模块112；和数据分析模块114。在实践中，语音数据识别系统100的实施例可以包括按期望用于特定应用的附加或替代元件和组件。例如，在不背离本公开的范围的情况下，可以采用附加组件，诸如显示器和用户输入组件。为了便于说明和清楚，在图1中没有描绘用于这些元件和特征的各种物理、电气和逻辑耦合和互连。此外，应该理解，语音数据识别系统100的实施例将包括协作支持期望功能的其他元件、模块和特征。为了简单，图1仅描绘了涉及以下更具体描述的语音数据识别和完成技术的特定元件。

处理器架构102可以使用任何适当的处理系统来实现，该处理系统诸如是一个或多个处理器110（例如，多个芯片或单个芯片上的多个核心）、控制器、微处理器、微控制器、处理核心和/或跨任何数目的分布式或集成系统（包括任何数目的“基于云”的系统或其他虚拟系统）分布的其他计算资源。

处理器架构102与系统存储器104进行通信。系统存储器104表示能够存储用于在处理器架构102上执行的编程指令的任何非临时性短期或长期存储装置或其他计算机可读介质，包括任何种类的随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器、磁或光学大容量存储装置和/或类似物。应当注意，系统存储器104表示这样的计算机可读介质中的一个适当实现方式，并且替代地或附加地，处理器架构102可接收外部计算机可读介质并且与外部计算机可读介质协作，该外部计算机可读介质被实现为便携式或移动组件或应用平台，例如便携式硬盘驱动器、USB闪存驱动器、光盘等。

用户接口106接受来自语音数据识别系统100的用户的信息，包括接收和识别语音数据所需要的语音数据和信息。用户接口106可以包括将用户输入传送到语音数据识别系统100中的任何装置，包括但不限于：麦克风、即按即说或即按即传（PTT）设备、通过蜂窝的即按即说（PoC）设备或能够接收音频数据的其他输入设备。用户接口106还可以包括计算机键盘、鼠标、触摸板、跟踪球、触摸屏设备；和/或其他输入设备。

信号处理模块108被适当地配置为分析接收到的语音数据以获得所识别的码字的集合。为了完成这一点，信号处理模块108可以利用连续到离散信号转换技术（例如，快速傅立叶变换（FFT）、线性预测编码（LPC）、滤波器组等）来进行信号处理，以生成接收到的语音数据的量化特征向量表示。信号处理模块108还被配置为基于该量化处理来预定义设置数目的量化向量或码字。在量化处理期间，信号处理模块108将连续信号变换成离散信号（例如，码字）。

系统准备模块110被配置为确定并存储通过信号处理模块108识别的码字和与特定语言相关联的音素中的一个之间的概率关系。在特定实施例中，语音数据识别系统100利用的音素与英语语言相关联。在一些实施例中，语音数据识别系统100利用与非英语语言相关联的音素。通常，每个音素与多个码字相关联。系统准备模块110使用多个接收到的特定音素的样本来确定所识别的码字和特定音素之间的概率关系。

参数模块112被配置为通过将接收到的语音数据的解释限制为保留在系统存储器104中的预定义的可能性集合（通常被称为语音数据识别系统100词典）来约束语音数据识别系统100的操作。词典可以包括词语和/或词语组及其相应音素。词典中的每个词语包括一个或多个“组分”音素，表示在词语的清晰表达期间每个发音。参数模块110可以：（i）与系统准备模块110进行通信以获得接收到的语音数据集合的音素，其中每个音素在概率上与接收到的码字组相关；以及（ii）将与接收到的语音数据相关联的音素和与存储在词典中的词语相关联的音素作比较，以及（iii）限制候选词语及其组分音素，其进一步由数据分析模块114来评估（以下更具体描述）。

参数模块110进一步被配置为通过使用也被保留在系统存储器104中的语言模型来根据上下文限制接收到的语音数据的解释，来约束语音数据识别系统100的操作。语言模型用于在给定先前说出的词语的情况下来预测话语中的下一词语的概率。这可以用于识别词语（及其组分音素）或词语组（及其组分音素）在语音数据集合中发生的概率。参数模块110可以从可以适用于接收到的语音数据集合的词典（及其相应的音素）中识别可能词语的有限集合。

数据分析模块114适当地被配置为确定特定音素串（每个音素与一个或多个码字相关联）对应于接收到的语音数据集合的概率。在特定实施例中，接收到的语音数据集合包括完整的清晰表达的语句，或者换言之，完整的语音数据集合。在该情况下，数据分析模块114被配置为确定特定音素串对应于接收到的语音数据集合的概率。在特定实施例中，接收到的语音数据集合包括完整的语音数据集合的不完整部分，其中由于错误（例如，用户错误、系统错误等）而导致没有接收到完整的语音数据集合。在该情况下，数据分析模块114被配置为确定特定音素串对应于完整语音数据集合的概率。

数据分析模块114可以执行隐式马尔可夫模型（HMM）来计算音素序列对应于完整的语音数据集合的概率，其中接收到的语音数据集合至少包括完整语音数据集合的子集或一部分。在特定实施例中，音素序列中的一个音素在概率上与来自接收到的语音数据集合的一个或多个识别的码字相关。在一些实施例中，音素序列可以仅包括来自该接收到的语音数据集合的识别的音素。然而，在一些实施例中，除了来自接收到的语音数据集合的识别的音素，音素序列还包括一个或多个附加音素来使接收到的语音数据集合完整。

在示例性实施例中，数据分析模块114能够执行HMM以计算音素序列对应于完整的语音数据集合的概率，如上所述。然而，在一些实施例中，数据分析模块114可以使用能够进行时间模式识别的其他技术，包括神经网络。

数据分析模块114进一步被配置为确定特定音素串可以在适用于候选词语的正确词语组合中使用的概率；并且当多于一个的音素候选串可以对应于接收到的语音数据集合时，比较概率以确定规定数目的选项。

数据分析模块114被配置为执行多个处理，每个处理包括至少一个隐式马尔可夫模型（HMM）。每个处理表示特定数目的可能忽略的音素。例如，在一种情况下，话音数据识别系统100可以被配置为执行与零个（0）剪短音素、一个（1）剪短音素以及两个（2）剪短音素相关的分析。在另一情况下，语音数据识别系统100可以被配置为执行与零个（0）剪短音素、一个（1）剪短音素、两个（2）剪短音素和三个（3）剪短音素相关的分析。语音数据识别系统100可以被配置为执行对任何期望数目的剪短音素的分析，但是针对增加数目的剪短音素的较大数目的执行的处理产生逐渐失去其准确性并且大大增加处理要求的概率。

与特定数目的可能省略的音素相关联的每个执行的处理包括一个或多个隐式马尔可夫模型（HMM）。每个HMM被执行以确定特定音素串对应于接收到的语音数据集合的概率。一旦被执行，HMM就生成包括多个概率的数据集合，与一个或多个音素（包括已知音素和未知候选音素）构成的特定串相关联的每个概率可以在适用于候选清晰表达的语句的正确词语和/或词语组合中使用。每个HMM产生用户可能清晰表达（并且因此，由语音识别系统100至少部分地接收到）的词语和/或短语的列表，并且该列表上的词语或短语中的每一个与其发生的概率相关联。比较从所有HMM产生的概率以确定所说出的最可能的词语或短语，或者换言之识别结果。

在实践中，信号处理模块108、系统准备模块110、参数模块112和数据分析模块114可以利用处理器架构102实现（或与之协作）以执行本文更具体描述的功能和操作中的至少一些。在这方面，信号处理模块108、系统准备模块110、参数模块112和数据分析模块114可以被实现为适当写入的处理逻辑、应用程序代码等。

图2是图示用于接收与语音识别技术兼容的数据的处理20的实施例的流程图。（以下参考图3描述了用于接收与语音识别技术兼容的数据的一种适当的方法。）首先，处理200接收并且处理包括至少清晰表达的语句的子集的语音数据（步骤202）。通常，当用户清晰表达（即，大声说出）了语音数据时，经由用户输入设备来接收语音数据，用户输入设备要求用户指示语音数据的开始点和停止点。这样的用户输入设备可以使用即按即说（例如，按下、讲话、释放）、一键启动（例如，按下、释放、讲话，并且系统决定语音数据何时结束）或关键字（例如，系统连续“监听”输入的语音数据）技术来完成这一点。换言之，用户必须经由推动按钮或某个其他方法来指示处理200开始接收语音数据的时间点。在一些实施例中，要求用户指示处理200停止接收语音数据的时间。处理200接收并且随后分析在这两个指示之间的语音数据。每个指示的定时的错误可能导致接收到不完整的语音数据。这样的错误可以包括语音数据已经开始的晚指示（例如，在用户开始讲话之后发生的指示）和/或语音数据已经结束的早指示（例如，在用户停止讲话之前发生的指示），导致语音数据的部分被“剪短”或没有接收到。在特定示例性实施例中，语音数据的剪短由于诸如按钮之类的即按即说（PTT）指示器的晚推动和/或早释放而发生。在其他实施例中，诸如开关、触发器或操作杆之类的其他手动操作指示器可以用于表示语音数据输入的开始或结束。这里，正如在PTT指示器的情况下，语音数据的剪短可能由于开关、触发器或操作杆在用户已经开始讲话之后或者在用户输入语句已经被完整地清晰表达之前被移动而发生。在再其他实施例中，可以使用虚拟操作的指示器，包括在计算机屏幕、触摸屏或其他用户接口上的图形元素。一旦被接收到，处理200就使用公知的信号处理技术来分析并且操纵接收到的语音数据集合，以生成处理的音频数据供进一步使用（本文参考图8更具体描述）。

应当注意，剪短还可以在使用自动获得控制的情况下发生。在使用自动获得控制的特定实施例中，处理200连续地“监听”用户清晰表达语音数据集合，并且不需要处理200开始接收语音数据的时间点的指示。在一些实施例中，还可以使用即按即说或关键字技术。对于自动获得控制的情况，如果该清晰表达的语音数据的第一部分被轻声说出，或者存在增加量的音频干扰，则语音数据可能被“剪短”。这里，接收到的语音数据的一部分可能不被适当地接收和解释，并且接收到的语音数据集合被不完整呈现。

接下来，处理200执行多个处理，以基于接收到的语音数据来生成多个概率，所生成的多个概率中的每一个包括关联的候选清晰表达的语句包括清晰表达的语句的可能性（步骤204）。在特定实施例中，多个处理以多线程的方式被执行，即同时执行与每个处理相关联的分析。每个处理可以执行对指定量的剪短或省略的语音数据的分析，并且每个处理可以包括与所述量的省略的语音数据相对应的一个或多个隐式马尔可夫模型（HMM）。所生成的概率与每个HMM相关联，包括与指定量的省略的语音数据（例如，省略的码字串）直接相关联的概率。

然后，处理200分析所生成的多个概率来确定识别结果（步骤206），其中，识别结果包括至少一个候选清晰表达的语句，该候选清晰表达的语句与指示清晰表达的语句包括至少一个候选清晰表达的语句的多个概率中的相应一个相关联。通常，阈值概率值被指定为指示音素串包括清晰表达的语句的最小计算的概率。在特定实施例中，特定结果被识别，并且被呈现给用户以供验证。在一些实施例中，可以识别多于一个结果。在该情况下，多于一个的计算的概率是高于预定义阈值的值。

图3是图示用于接收与语音识别技术兼容的数据的处理300的另一实施例的流程图。应当理解，图3中描述的处理300表示以上在图2的讨论中描述的处理200包括附加细节的一个实施例。首先，处理300接收语音数据集合（步骤302）。语音数据通常经由语音数据输入装置（例如，麦克风）来接收。语音数据输入装置可以包括一机构，该机构用于指示处理300开始接收语音数据的时间点，如上关于图2所述的，并且这里将不多余地描述。

接下来，处理300将接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语作比较（步骤304）。在图4中呈现了包括更多细节的步骤304的实施例。图4是图示用于将接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语作比较的处理400的实施例的流程图。首先，处理400分析和处理接收到的语音数据集合以确定码字序列，其中，接收到的语音数据集合包括码字序列（步骤402）。

接下来，处理400利用所存储的、码字和关联音素之间的概率关系来确定与码字序列相关联的音素序列（步骤404）。在系统准备（参见图9中所示的实施例）之后，在音素和一个或多个码字之间存在概率关系。例如，存在码字X是音素A的实例的第一数学概率、码字X是音素B的实例的第二数学概率、以及码字X是音素C的实例的第三数学概率。基于这些数学概率，处理400能够确定音素A、B和C构成的组中被说出的最可能的音素。一旦第一码字（在该示例中，码字X）与最可能的音素相关联，则处理400继续移动到接收到并识别出的码字序列中的下一码字（或码字组），并且确定接收到的语音数据集合中的下一音素。使用概率关系来确定针对每个接收到的码字或码字集合的关联音素导致了针对接收到的语音数据集合确定的音素序列。

在确定与接收到码字的序列相关联的音素序列（步骤404）之后，处理400识别音素序列中的第一音素（步骤406）。一旦已经识别了音素序列中的第一音素（步骤406），处理400就将第一音素与多个候选第一音素作比较，多个候选第一音素中的每一个与存储在系统词典中的相应候选词语相关联（步骤408）。系统词典包括所存储的候选词语，并且对于每个候选词语，包括与每个存储的词语相关联的多个音素。第一确定音素与接收到的语音数据序列中的第一码字或第一码字组相关联。将第一确定音素与针对存储在系统词典中的多个候选词语的第一顺序音素作比较。

现在返回图3，当第一音素与系统词典中的一个或多个候选词语的第一音素匹配时（306的“是”分支），则处理300认定接收到的语音数据集合是完整的，并且执行单个语音识别算法（步骤308）以基于该认定来执行分析。在特定实施例中，单个语音识别算法包括隐式马尔可夫模型（HMM）。这里，HMM可以被执行以确定已经说处的内容（即，接收到的语音数据集合）与来自HMM的结果相对应的可能性。通常，接收到的语音数据集合包括音素串（并且每个音素包括一个或多个码字），并且使用HMM来分析音素串以确定该音素串是用户清晰表达的语句的准确表示的概率。

一旦已经执行了单个语音识别算法（步骤308），就将产生的计算的概率与预定的概率阈值作比较（步骤310）。当计算的概率高于预定概率阈值时（310的“是”分支），处理300返回解（步骤312）。这里，解是与计算的概率相关联的音素串，并且针对该解在步骤308中执行语音识别算法。当计算的概率不高于预定概率阈值时（310的“否”分支），处理300认定不完整的语音数据集合，并且基于预定义数目的省略的音素来执行多个语音识别算法（步骤314）。

然而，当第一音素与系统词典中的至少一个候选词语的第一音素不匹配时（306的“否”分支），处理300认定接收到的语音数据集合是不完整的，并且基于预定义数目的省略的音素来执行多个语音识别算法。在图5中呈现了包括更多细节的步骤314的实施例。图5是图示用于执行用于剪短语音识别的多个处理的处理500的实施例的流程图。如所示的，处理500执行n个处理，包括：认定接收到的语音数据集合包括一个剪短的音素的第一处理（步骤502）、认定两个剪短的音素的第二处理（步骤518）、以及认定n个剪短音素的高达第n个处理的指定数目的处理（步骤526）。所执行的处理的总数是工程决定并且是预定义的。如图所示的，每个所执行的处理执行相同的步骤，这在本文中将被描述为他们与第一处理（步骤502）相关。

认定一个剪短音素，处理502将第一解释的音素与存储在系统词典中的每个词语的第二音素作比较（步骤504）。如果不存在匹配（506的“否”分支），则认定一个剪短音素的处理502结束（或失败），并且将不基于一个剪短音素的条件来计算概率。如果在系统词典中存在具有与来自接收到的语音数据集合的第一解释的音素匹配的第二语音的一个或多个词语（506的“是”分支），则处理502识别匹配词语（步骤510）。这里，存在数目X个匹配词语，并且X可以大于或等于1。

在从系统词典中识别X个匹配词语（步骤510）之后，处理502用X个值填充数据库，每个值对应于匹配词语中的一个的第一音素（步骤512）。在图6中图示了包括更多细节的步骤504、506、510和512中所涉及的概念的实施例。如图6所示，由语音数据识别系统600接收和解释的话语610包括多个或“一串”音素620。此外，在图6中所示的示例中，语音数据识别系统600正在认定已经从该话语610的开始被剪短（例如，没有接收到）的一个额外音素的存在。如果该剪短或省略的音素已经由语音数据识别系统600接收到，则该剪短或省略的音素将存在于音素串620的第一音素之前，从而使第一接收到的音素（在该示例中为/L/）呈现为话语610的实际第二音素。语音数据识别系统600将/L/音素与系统词典630中的每个词语的第二音素作比较，以寻找匹配。这里，语音数据识别系统600可以识别在第二音素位置中具有音素/L/的任何数目的匹配词语，至多并且可能包括系统词典630中的最大数目的词语。如示例性系统辞典630中所示，至少词语2、词语3和词语5在第二音素位置包括音素/L/。因此，词语2、词语3和词语5是匹配词语。语音数据识别系统600识别每个匹配词语（在该示例中，为词语2、词语3和词语5）的可能剪短的第一音素，并且用匹配词语的第一音素中的每一个填充可能前缀的数据库640。

返回到图5，处理502正在认定第一音素被剪短，并且处理502基于第一解释的音素确定存储在系统词典中的语音识别可能性，第一解释的音素被认定为候选词语的第二顺序音素。存储在词典中的每个候选词语的第一音素可以是省略的或剪短的音素，并且处理502用这些可能的剪短音素填充数据库。在图7中图示了包括更多细节的可能前缀的数据库的实施例。由来自图6的参考物640的前缀填充图7。对于位于参考物630中的匹配音素中的每一个，匹配之前的音素被保存到数据库640，并且使用该信息来创建图7的可能前缀的数据库。如图7所示，可能前缀的数据库700可以包括至多n个可能前缀组710，其中每个组710与特定数目的省略或剪短的音素相关联。在所示出的示例中，第一组720认定从话语剪短了一个音素，第二组730认定从话语剪短了两个音素，并且第三组740认定从话语剪短了n个音素。可以通过在第二组730和第三组740之间使用省略号来包括和提及额外的组。

这里，第一组720包括已经从话语剪短的单个音素的A个可能性的最大值。第二组730包括已经从话语剪短的由两个音素构成的系列的B个可能性的最大值。第三组740包括已经从话语剪短的由n个音素构成的系列的C个可能性的最大值。出于本示例的目的，省略号可以表示已经从话语剪短的音素系列的D个可能性的最大值，其中D个可能性包括认定剪短的音素的数目大于两个剪短的音素但是小于n个剪短的音素的所有可能性。

返回图5，处理502然后使用在系统准备（在图7中图示了系统准备的示例性实施例）期间存储的预定概率关系来确定与存储在数据库中的音素相关联的码字（步骤514）。一旦处理502已经使用在系统准备期间创建的关联确定了与存储在数据库中的每一个音素相关联的码字（步骤514），那么处理502就基于所确定的码字来执行多个信号处理算法，每个信号处理算法与认定一个剪短的音素的特定码字串相关联（步骤516）。如在图7中更具体图示的，处理502执行与认定一个剪短的音素的可能性组相关联的A个处理，该处理518执行与认定两个剪短的音素的可能性组相关联的B个处理，处理526执行与认定n个剪短的音素的可能性组相关联的C个处理。此外，存在与认定多于两个但是小于n个剪短的音素的可能性的（一个或多个）组相关联的D个可能性。在该示例中，执行的信号处理算法的总数目等于A+B+C+D。

返回到图3，一旦已经基于接收到的语音数据集合不完整的认定（步骤314）执行了基于预定义数目的省略的音素的多个语音识别算法，处理300就将产生的计算的概率与预定的概率阈值作比较（步骤316）。在一些实施例中，预定的概率阈值可以是步骤310的相同的预定的概率阈值。然而，在其他实施例中，步骤310和316中的每一个可以针对预定的概率阈值利用不同的特定值。当所计算的概率高于预定概率阈值时（316的“是”分支），则处理300返回解（步骤318）。这里，解是与所计算的概率相关联的音素串，并且在步骤314中针对该音素串执行了多个语音识别算法。当所计算的概率不高于预定概率阈值时（316的“否”分支），处理300以没有发现解返回。在特定实施例中，当所计算的概率过低时（例如，当所计算的概率不高于预定概率阈值时），处理300可能“失败”。

出于可能通过消除一些其他必要的子处理来减少处理要求的目的而采用接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语的比较（步骤306）。然而，在图3的特定实施例中，处理300通过不进行接收到的语音数据集合的第一音素与存储在系统词典中的一个或多个候选词语的比较而省略步骤306。在该情况下，简单地同时执行306的“是”和“否”分支。处理300认定已经接收到不完整和完整的语音数据集合二者，并且同时执行基于零个省略的音素的单个语音识别算法（步骤308）以及基于预定数目的省略的音素的多个语音识别算法。

图8是图示用于分析接收到的语音数据的处理800的实施例的流程图。应当理解，图8中描述的处理800表示以上在图2中的讨论中描述的步骤202的包括附加细节的一个实施例。首先，处理800利用信号处理技术来处理接收到的话音数据以获得重叠的特征向量集合（步骤802）。适用的信号处理技术可以包括但不限于，模拟到数字转换、快速傅立叶变换（FFT）、线性预测编码（LPC）、滤波器组和/或类似物。所生成的特征向量可以包括FFT或LPC系数以表示以各种时间间隔接收到的话音数据的频率和/或能量带。基于计算机系统的计算能力和语音数据识别处理的期望准确度，时间间隔可以短或长。处理800针对接收到的话音数据的每个时间间隔生成特征向量。基于时间间隔的长度和每个特征向量的时间长度，在连续特征向量之间可能存在重叠。

接下来，处理800识别与重叠的特征向量的集合中的每一个重叠的特征向量相关联的量化向量（步骤804）。在识别与重叠的特征向量的集合中的每一个重叠的特征向量相关联的量化向量（步骤804）之后，处理800识别与每个量化向量关联的码字（步骤806）。这里，在量化处理期间，处理800将连续信号变换成离散信号（例如，码字）。

图9是图示用于准备用于语音识别应用的语音识别系统的处理900的实施例的流程图。处理900在用户使用语音识别系统之前完成。首先，该处理接收多个语音数据样本，其中多个语音数据样本中的每一个清晰表达特定音素（步骤902）。在示例性实施例中，处理900接收来自各种不同源的语音样本，从而向处理900提供稍微不同的指定音素的清晰表达。

接下来，处理900基于接收到的多个语音数据样本来识别并且存储多个码字（步骤904）。以上关于图8描述了该处理，并且这里将不再多余地描述。

在识别和存储多个码字（步骤904）之后，处理900创建并且存储多个概率关系，概率关系中的每一个使多个码字中的相应一个与特定音素相关（步骤906）。根据接收到的多个语音样本，处理900确定特定码字在特定音素中出现的可能性。这些概率关系被计算并且然后被存储以供用于语音识别。通常，这些概率关系被存储在由用作语音命令的一部分的词语列表来填充的列表中，并且每个词语与其一个或多个组分音素相关联。

本文可以在功能和/或逻辑块组件方面并且参考可以由各种计算组件或设备执行的操作、处理任务和功能的符号表示来描述技术和技艺。这样的操作、任务和功能有时被提及为是计算机执行的、计算机化的、软件实现或计算机实现的。在实践中，一个或多个处理器设备可以通过操纵表示系统存储器中的存储器位置处的数据位的电信号以及其他信号处理来执行所描述的操作、任务和功能。数据位被保持在的存储器位置是具有与数据位相对应的特定电、磁、光学或有机属性的物理位置。应当理解，附图中所示的各种块组件可以通过配置为执行指定功能的任何数目的硬件、软件和/或固件组件来实现。例如，系统或组件的实施例可以采用各种集成电路组件，例如，存储器元件、数字信号处理元件、逻辑元件、查找表等，这些集成电路组件可以在一个或多个微处理器或其他控制设备的控制下执行各种功能。

当以软件或固件实现时，本文描述的系统的各种元件本质上是执行各种任务的代码段或指令。程序或代码段可以被存储在处理器可读介质中或者由体现在载波中的计算机数据信号通过传输介质或通信路径被传送。“处理器可读介质”或“机器可读介质”可以包括可以存储或传递信息的任何介质。处理器可读介质的示例包括电子电路、半导体存储器器件、ROM、闪速存储器、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路等。计算机数据信号可以包括可以通过传输介质传播的任何信号，传输介质诸如是电子网络信道、光纤、空气、电磁路径或RF链路。代码段可以经由计算机网络被下载，计算机网络诸如是因特网、内部网、LAN等。

在本说明书中描述的一些功能单元已经被称为“模块”，以便更具体地强调其实现独立性。例如，本文中称为模块的功能可以被完整地或部分地实现为硬件电路，包括定制VLSI电路或门阵列、诸如逻辑芯片、晶体管之类的大量生产的半导体或其他分立组件。模块还可以在可编程硬件器件中实现，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件等。

模块还可以以软件实现以供各种类型的处理器执行。所识别的可执行代码的模块可以例如包括计算机指令的一个或多个物理或逻辑模块，其可以例如被组织为对象、过程或功能。尽管如此，所识别的模块的可执行文件不必在物理上位于一起，而是可以包括存储在不同位置中的不同指令，该指令在逻辑上被接合在一起时包括该模块并且实现针对该模块的所陈述的目的。

实际上，可执行代码的模块可以是单个指令或者许多指令，并且甚至可以在几个不同的代码段上、在不同程序之间并且跨几个存储器器件分布。类似地，操作数据可以以任何合适的形式被体现并且在任何合适类型的数据结构内被组织。操作数据可以被收集为单个数据集合，或者可以在包括在不同存储设备上的不同位置上分布，并且可能至少部分地仅作为系统或网络上的电子信号而存在。

尽管在前述具体描述中呈现了至少一个示例性实施例，但是应当理解，存在大量变化。还应当理解，本文描述的一个或多个示例性实施例不意在以任何方式限制要求保护的主题的范围、应用或配置。相反，前述具体描述将向本领域技术人员提供用于实现所描述的一个或多个实施例的方便的路线图。应当理解，可以在不脱离权利要求所限定的范围的情况下，在元件的功能和布置方面进行各种改变，该范围包括在提交本专利申请时已知的等同物和可预见的等同物。

Claims

1.一种用于接收和分析与话音识别技术兼容的数据的方法，所述方法包括：

接收包括至少清晰表达的语句的子集的语音数据；

基于接收到的语音数据来执行多个处理以生成多个概率，所述多个处理中的每一个与相应候选清晰表达的语句相关联，并且所生成的多个概率中的每一个包括关联的候选清晰表达的语句包括所述清晰表达的语句的可能性；以及

分析所生成的多个概率来确定识别结果，其中，所述识别结果包括所述清晰表达的语句。

2.根据权利要求1所述的方法，进一步包括：

处理所接收到的话音数据以获得重叠的特征向量的集合；

识别多个量化向量，其中所述多个量化向量中的每一个与所述重叠的特征向量的集合中的每一个重叠的特征向量相关联；以及

识别多个码字，其中，所述多个码字中的每一个与所识别的量化向量关联。

3.根据权利要求2所述的方法，进一步包括：

基于所识别的多个码字来执行查找以识别候选词语；以及

向用户呈现所述候选词语，并且请求用户输入以确定所述语音数据是否对应于所述候选词语。

4.根据权利要求3所述的方法，其中，所述执行步骤进一步包括：

将所述多个码字中的第一码字与第二多个码字中的第一码字作比较；

其中，所述第二多个码字与所述候选词语相关联。

5.根据权利要求1所述的方法，其中，所述候选清晰表达的语句包括至少一个候选词语，并且所述至少一个候选词语中的每一个包括多个码字；并且

其中，所述多个处理中的每一个包括用于语音识别应用的信号处理算法。

6.根据权利要求1所述的方法，其中，所述多个处理中的每一个包括隐式马尔可夫模型（HMM）。

7.根据权利要求1所述的方法，其中，所述执行步骤进一步包括：

执行第一处理以确定所述接收到的语音数据包括所述清晰表达的语句的第一概率；以及

执行第二处理以确定所述清晰表达的语句包括所述接收到的语音数据和省略的码字的第二概率；

其中，所述多个处理包括所述第一处理和所述第二处理；并且

其中，所述多个概率包括所述第一概率和所述第二概率。

8.根据权利要求2所述的方法，进一步包括：

识别所识别的多个码字中的第一码字，其中，所述第一码字包括在时间上最早说出的码字。

9.根据权利要求8所述的方法，其中，所述执行步骤进一步包括：

执行第一处理以确定所识别的第一码字包括预定义的候选词语的第一码字的第一概率，其中，所述预定义的候选词语包括码字序列；以及

执行第二处理以确定所识别的第一码字包括预定义的候选词语的第二码字的第二概率；

其中，所述多个概率包括所述第一概率和所述第二概率。

10.根据权利要求8所述的方法，进一步包括：

执行第n个处理以确定所识别的第一码字包括预定义的候选词语的第（n+1）个码字的第一概率，其中，所述预定义的候选词语包括码字序列；以及

执行第（n+1）个处理以确定所识别的第一码字包括预定义的候选词语的第（n+2）个码字的第二概率；

其中，所述多个处理包括所述第n个处理和所述第（n+2）个处理；并且

其中，所述多个概率包括所述第一概率和所述第二概率。

11.一种用于接收与语音识别技术兼容的数据的系统，所述系统包括：

用户输入模块，配置为接收音频数据集合；

数据分析模块，配置为：

基于接收到的语音数据来计算一个或多个概率，所计算的多个概率中的每一个指示所述音频数据集合包括候选词语的统计可能性；以及

基于所计算的多个概率来确定语音识别结果。

12.根据权利要求11所述的系统，其中，所述数据分析模块进一步被配置为：

分析所计算的多个概率以识别具有高于阈值的统计可能性的一个或多个候选词语；以及

基于所识别的一个或多个候选词语来返回所述语音识别结果。

13.根据权利要求11所述的系统，其中，所述数据分析模块进一步被配置为识别接收到的音频数据的第一部分；

其中，所述系统进一步包括参数模块，所述参数模块被配置为将接收到的音频数据的第一部分与多个候选词语作比较以找出匹配，其中，所述多个候选词语中的每一个包括多个部分；并且

其中，当找出匹配时，所述数据分析模块进一步被配置为：

确定所述匹配候选词语包括所述音频数据集合的概率，其中，所述一个或多个概率包括所述概率；并且

基于所确定的概率来返回所述语音识别结果。

14.根据权利要求13所述的系统，其中，当没有找出匹配时，所述数据分析模块进一步被配置为：

确定多个概率，所述多个概率中的每一个与候选词语相关联，并且所述多个概率中的每一个指示所接收到的音频数据集合包括相应的关联候选词语的统计可能性；

其中，所计算的一个或多个概率包括所述多个概率。

15.根据权利要求14所述的系统，其中，当没有找出匹配时，所述数据分析模块进一步被配置为：

确定所识别的第一部分包括预定义的候选词语的第（n+1）个部分的第一概率，其中，所述预定义的候选词语包括由各部分构成的序列；并且

确定所识别的第一部分包括预定义的候选词语的第（n+2）个部分的第二概率；

其中，所述一个或多个概率包括所述第一概率和所述第二概率。