CN103797535B

CN103797535B - 减少语音辨识系统中的漏报

Info

Publication number: CN103797535B
Application number: CN201280040735.6A
Authority: CN
Inventors: 乔纳森·肖; 彼得·韦尔默郎; 斯蒂芬·萨顿; 罗伯特·萨瓦
Original assignee: Sensory Inc
Current assignee: Sensory Inc
Priority date: 2011-08-24
Filing date: 2012-08-17
Publication date: 2016-06-08
Anticipated expiration: 2032-08-17
Also published as: CN103797535A; WO2013028518A1; DE112012003479T5; US8781825B2; JP6030135B2; JP2014524599A; US20130054242A1

Abstract

本发明的实施例改进执行语音辨识的方法。在一个实施例中，本发明包括一种方法，其包含：接收所说话语；在语音辨识器中处理所述所说话语以产生辨识结果；确定所述所说话语的分量声音的一个或一个以上参数的一致性，其中从由持续时间、能量及音调组成的群组选择所述参数，且其中所述所说话语的每一分量声音具有所述参数的对应值；及基于所述参数中的至少一者的所述一致性确认所述辨识结果。

Description

减少语音辨识系统中的漏报

相关申请案交叉参考

本申请案请求在2011年8月24日的标题为“减少语音辨识系统中的漏报(ReducingFalsePositivesinSpeechRecognitionSystems)”的第13/217，134号美国专利申请案的优先权权益，所述申请案的揭示内容据此以引用方式并入本文中。

背景技术

本发明涉及语音辨识，且更特定来说涉及使用持续时间及能量改进语音辨识的系统及方法。

随着手持式装置的爆炸式可用性及装置大小的缩小，语音辨识正成为用以支持与电子系统的无缝用户交互作用的愈来愈有价值的技术。然而，构建准确的辨识系统具有极端挑战性。高度准确的辨识系统可为计算密集的且不适合于小型手持式电子装置。

一些语音辨识器的一个问题在辨识器产生错误接受时发生。在此情形中，辨识器可产生指示已辨识特定单词或片语的输出，然而事实上实际未说所述单词或片语。此现象有时在经配置以接收声音串流且拣出(“辨认”)所述串流中的特定声音的单词辨认辨识器中存在。

本发明通过使用持续时间及能量执行语音辨识的系统及方法来解决这些及其它问题。

发明内容

附图说明

图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。

图2图解说明根据本发明的一个实施例用于实施语音辨识的系统。

具体实施方式

本文中描述用于使用持续时间及能量来执行语音辨识的技术。出于解释的目的，在以下说明中，列举了大量实例及具体细节以便提供对本发明的透彻理解。然而，所属领域的技术人员将显而易见，由权利要求书所界定的本发明可单独或结合下文所描述的其它特征包括这些实例中的一些或全部特征，且可进一步包括本文中所描述的特征及概念的明显修改及等效形式。

图1图解说明根据本发明的一个实施例用于执行语音辨识的方法。本发明的实施例监视接收于辨识器中的用户话语的特定参数以改善语音辨识结果。特定来说，本发明的实施例通过识别辨识结果中的不一致性(其为真实语音的不现实结果)来减少错误接受。举例来说，辨识器可正在听单词“hot(热)”，且“h”可用10ms，“o”的左边部分可用10ms，“o”的右边部分可用400ms，且“t”可用100ms。真实语音以比此更一致的速率发生。类似地，“h”及“o”的左侧可非常大声，而话语的剩余部分非常小声。此不一致性也是真实语音的非常不现实的形式。最后，所辨识语音可以高音调(通常与女人相关)开始，且下降到低音调(通常与男人相关)。类似地，此不一致性是不现实的。现有辨识器将不识别此些不现实的结果，因为先前辨识器单独地针对每一分段应用持续时间建模且不强制跨越较宽广文本的一致性。举例来说，用于持续时间模型的统计数据通常与说话者无关且对于特定说话者不是非常精确。如果系统可将关于持续时间、能量或音调的一致性的额外信息包括到辨识器，那么辨识器错误接受的频率将低得多。

图1图解说明根据一个实施例的过程。在101处，接收所说话语。在102处，在辨识器中处理所说话语以执行语音辨识。在一些实施例中，举例来说，辨识器可为硬件的用于执行语音辨识的专用单元，例如经优化用于语音辨识的微处理器、微控制器或专用集成电路(ASIC)。在其它实施例中，辨识器可以包括可在处理器上执行的指令的软件实施。举例来说，辨识器可实施为软件且在(举例来说)通用微处理器或微控制器上执行。在103处，确定持续时间、能量或音调的一致性。举例来说，可在分量基础上分析所说话语。举例来说，可基于子语素、音素、音节或甚至单词来分析所说话语。如果使用子语素，那么可分析所说话语的分段以确定每一分段对应哪个子语素。作为另一实例，如果说话者说单词“hot”，那么系统可确定“hot”的声音分段为“h”-“o”-“t”的音素。系统可确定跨越声音分量的持续时间、能量或音调的一致性。在104处，基于一致性确认辨识结果。举例来说，如果辨识器产生指示经辨识的特定单词或片语的辨识结果，那么可基于所说话语的持续时间、能量或音调参数中的一者或一者以上的一致性来确认辨识结果。特定来说，如果确定(举例来说)持续时间不一致，那么辨识结果无效且可被拒绝。

图2图解说明根据一个实施例的系统。系统200包括包括内部存储器203的处理器201。内部存储器203可包括(举例来说)用于局部数据存储及检索的寄存器、高速缓存器或静态随机存取存储器(SRAM)。举例来说，处理器201可经由总线205进一步存储及检索来自外部存储器204的数据。举例来说，外部存储器204可为动态随机存取存储器。处理器可进一步存储及检索来自外围存储器209的数据，举例来说，所述外围存储器可为硬盘驱动器或固态存储器。举例来说，系统200可包括用于与其它资源通信的网络接口210。接口210可为(举例来说)无线接口，例如蓝牙接口、蜂窝式接口、基于IEEE802的接口，或(举例来说)有线接口，例如以太网、USB或光学接口。在一些实施例中，在辨识过程中使用的数据可存储于外部且经由接口210存取。

在此实例中，处理器201包括辨识器202，所述辨识器实施为用于编程处理器以执行本文中所描述的确定一致性及确认辨识结果的处理技术的软件。辨识器202可包括可执行指令，所述可执行指令致使处理器对输入语音执行辨识操作、确定持续时间、能量及音调的一致性及确认辨识结果。在此实例中，一致性分析220可由辨识器202的一个或一个以上组件执行。在其它实施例中，举例来说，一致性分析220可为来自辨识器202的单独软件。

所说话语经由音频接口206接收于系统中。音频接口206可包括麦克风或其它形式的音频/电子转换器以将声音信号转换成电子信号。音频接口206可包括用于将模拟音频信号转换成数字信号的模/数转换器。举例来说，所说话语的数字表示可耦合到处理器201或跨越总线207存储于存储器209中且由处理器201存取。辨识器202处理所说话语的数字表示以产生辨识结果。辨识结果可包括中间辨识结果或最终辨识结果。最终辨识结果表示辨识器所断定的单词或片语由所说话语体现。最终及中间结果的类型可基于所使用的辨识算法而变化。中间结果可为在辨识过程期间产生的声音分量(例如，音素)的概率且可存储于内部存储器203或DRAM204中(举例来说)。如下文更详细地描述，举例来说，确定一致性及确认辨识结果可在中间辨识结果或最终辨识结果或两者上发生。

在一些实施例中，可确定一个参数的一致性。在其它实施例中，可确定多个参数的一致性。举例来说，在一个实施例中，可确定所说话语的分量声音的持续时间的一致性。在此情形中，可相对于在所说话语中辨识的子语素的预期值确定(举例来说)跨越所说话语的子语素的持续时间的一致性。在另一实施例中，可确定所说话语的分量声音的能量(或替代地，音调)的一致性。在能量的情形中，可确定(举例来说)跨越所说话语的子语素的能量的一致性。

在另一实施例中，确定多个参数的一致性，且确认辨识结果是基于每一所确定参数的单独一致性。举例来说，可确定持续时间及能量的一致性，且确认可基于两个一致性。

在一个实施例中，辨识结果为得分且一致性各自具有得分。在此情形中，举例来说，确认辨识结果可包括将辨识结果得分与一致性得分组合以产生组合得分且将组合得分与阈值进行比较。

在另一实施例中，可如下确认一致性。将特定参数(即，持续时间、能量、音调)的特定一致性与阈值进行比较。如果参数的一致性与阈值交叉，那么拒绝辨识结果，且如果参数的一致性不与阈值交叉，那么接受辨识结果。举例来说，如果参数的一致性与阈值交叉，那么参数是不充分一致的，且如果参数的一致性不与阈值交叉，那么参数是充分一致的。在一些实施例中，一致性可计算为数值且与另一数值进行比较。可使用各种技术来确定一致性。使用一些技术，高得分可对应于不一致的参数。因此，如果得分高于阈值，那么拒绝辨识结果。举例来说，其它技术可具有对应于一致的参数的高得分，且因此如果得分低于阈值，那么拒绝辨识结果。

确定一致性的实例性实施方案

在一个实例性实施方案中，确定持续时间的一致性包括确定说话者速率。一致性得分可基于说话者速率、所说话语的分量声音的实际持续时间以及话语中的每一分量声音的一个或一个以上统计参数。作为特定实例，说话者速率可基于所说话语的总持续时间除以话语中的每一不同声音分量的持续时间的预期值的总和。举例来说，如果用户说单词“TO”，那么分量声音(在此其为音素)可为“T”及“O”的音素声音。话语的对应于“T”声音的部分的持续时间可为100ms且话语的对应于“O”声音的部分的持续时间可为200ms。因此，所说话语的总持续时间为300ms。在一个实施例中，预期值可为平均数。在训练期间，可确定“T”声音的持续时间范围是从100到200ms，具有150ms的平均持续时间Tave。类似地，可确定“O”声音的持续时间范围是从200到300ms，具有250ms的平均持续时间Oave。因此，在此实例中，说话者速率SR可计算如下：

SR＝总持续时间/总和(预期持续时间)

SR＝(100ms+200ms)/(150ms+250ms)＝3/4

在当前实例中，可使用说话者速率来确定一致性得分。举例来说，可通过将说话者速率乘以话语的每一不同声音分量的持续时间的预期值来确定经修改预期值。在此实例中，可如下基于说话者速率来确定经修改预期值：

T’ave＝Tave*SR且O’ave＝Oave*SR，

T’ave＝(150ms)(3/4)＝112.5，

O’ave＝(250ms)(3/4)＝187.5，

其中T’ave是Tave的经修改预期值且O’ave是Oave的经修改预期值。

确定一致性(例如，一致性得分)可包括确定增量值。在一个实施例中，增量值是每一经修改预期值与对应于每一特定经修改预期值的声音分量的持续时间之间的差。举例来说，可如下针对每一分量计算增量值：

(1)T_delta＝T’ave-Ta，

(2)O_de1ta＝O’ave-Oa，

其中Ta是话语的“T”分量的实际持续时间且Oa是话语的“O”分量的实际持续时间。在一些实施例中，增量值可为可在每一经修改预期值上操作的第一函数与可在对应于每一特定经修改预期值的声音分量的持续时间上操作的第二函数之间的差。举例来说，可使用的另一增量值如下：

(3)T_delta＝1n(T’ave)-1n(Ta)，

(4)O_delta＝1n(O’ave)-1n(Oa)，

其中第一及第二函数两者均为自然对数。

作为又一实例，可使用的另一增量值如下：

(5)T_delta＝1n(T’ave*exp(1/2(std_dev^2)))-1n(Ta)，

(6)O_delta＝1n(O’ave*exp(1/2(std_dev^2)))-1n(Oa)，

其中std_dev^2是分量声音的持续时间的对数的标准偏差，分量声音在此实例中为音素“T”及“O”，且“exp”是指数函数ex。因此，在此实例中，第二函数包括对应于每一特定经修改预期值的声音分量的持续时间的标准偏差的指数。

在一些实例性实施方案中，一致性可表示为得分，且其中确定一致性进一步包含将话语中的N个声音分量的增量值的平方相加且除以N，其中N为整数。使用以上(1)及(2)的一个实例如下：

(7)S＝(1/N)*[T_delta]²+(1/N)*[O_delta]²，其中N＝2。

应用方程式(1)、(2)及(7)，获得S＝156.25的一致性得分。在一个实施例中，可将所述一致性得分与阈值进行比较，且如果所述得分与所述阈值交叉，那么拒绝辨识结果。在此情形中，“T”及“O”的实际值两者均为快的(例如，Ta＝100ms，其中Tave＝150ms为快速说的“T”声音，且Oa＝200ms，其中Oave＝250ms是快速说的“O”声音)。在此情形中，“T”及“O”两者均为快的，其为一致的。因此，一致性得分低于某一预设阈值且确认辨识结果。

现在呈现关于快“T”及慢“O”的另一实例以展示一致性得分如何改变。在此实例中，将以下值用于所说话语的实际持续时间：Ta＝100ms且Oa＝300ms。在此情形中，说话者速率为：

SR＝(100ms+300ms)/(150ms+250ms)＝4/4＝1。

经修改预期值为：

T’ave＝(150ms)(1)＝150，且

O’ave＝(250ms)(1)＝250。

增量值为：

T_delta＝T’ave-Ta＝150-100＝50，且

O_de1ta＝O’ave-Oa＝250-300＝50。

一致性得分为：

S＝(1/N)*[T_de1ta]²+(1/N)*[O_de1ta]²＝(50²+50²)/2＝2500。

如果阈值设定于156.25＜Th＜2500之间，其中Th为阈值，那么系统将拒绝所说话语Ta＝100ms及Oa＝300ms的辨识结果。

现在呈现关于慢“T”及慢“O”的另一实例以说明另一情形。在此实例中，将以下值用于所说话语的实际持续时间：Ta＝200ms且Oa＝300ms，其中Ta及Oa两者在持续时间上均比来自训练语料的统计平均数长(举例来说)。在此情形中，说话者速率为：

SR＝(200ms+300ms)/(150ms+250ms)＝5/4。

经修改预期值为：

T’ave＝(150ms)(5/4)＝187.5，且

O’ave＝(250ms)(5/4)＝312.5。

增量值为：

T_de1ta＝T’ave-Ta＝187.5-200＝12.5，且

O_de1ta＝O’ave-Oa＝312.5-300＝12.5。

一致性得分为：

S＝(1/N)*[T_delta]²+(1/N)*[O_delta]²＝(12.5²+12.5²)/2＝156.25，

其为快-快情形的相同结果。因此，一致慢的说话者的辨识结果将产生低于阈值Th的一致性得分，且将确认结果。

现在呈现关于慢“T”及快“O”的另一实例以说明另一情形。在此实例中，将以下值用于所说话语的实际持续时间：Ta＝200ms且Oa＝200ms，其中Ta在持续时间上比统计平均数长且Oa在持续时间上比统计平均数短。在此情形中，说话者速率为：

SR＝(200ms+200ms)/(150ms+250ms)＝4/4＝1。

经修改预期值为：

T’ave＝(150ms)(1)＝150，且

O’ave＝(250ms)(1)＝250。

增量值为：

T_delta＝T’ave-Ta＝150-200＝50，且

O_delta＝O’ave-Oa＝250-200＝50。

一致性得分为：

S＝(1/N)*[T_de1ta]²+(1/N)*[O_de1ta]²＝(50²+50²)/2＝2500。

其为快-慢情形的相同结果。因此，辨识结果不一致输入将产生高于阈值Th的一致性得分，且将拒绝结果。

更一股来说，可使用N个声音分量的持续时间通过除以N来产生一致性得分S，如以上(7)中所展示。以下公式展示遵循上文所呈现的实例性实施方案的根据各种实施例的用于确定一致性得分的一股技术。第一公式为(7)的一股情形：

S = \frac{1}{N} Σ_{i = 1}^{N} {[(d_{i}) - (SR μ_{i})]}^{2},

其中d_i是第i分量(例如，音素)的实际持续时间，SR是说话者速率，μ_i是根据训练语料确定的第i分量的平均持续时间(举例来说)。

作为另一实例，将所说话语中的每一分量的实际持续时间及平均持续时间转换为使用增量值(3)及(4)或(5)及(6)的对数域，且基于说话者速率将平均音素持续时间规范化。一致性得分S使用均方差。在以下实例性实施方案中，得分零是完美的，且如果得分高于某一预设阈值，那么拒绝辨识结果。多个分量的一股形式为：

S = \frac{1}{N} Σ_{i = 1}^{N} {[\ln (d_{i}) - \ln (SR μ_{i})]}^{2} .

一些分量(例如，音素)比其它分量具有更大变化。在一个实施例中，可通过加权每一音素的得分(举例来说，通过标准偏差)来计及分量声音中的变化。在以下实例中，得分可除以持续时间的标准偏差的平方。因此，可使用多个分量的一股化形式根据类似于(3)及(4)的增量值如下计算得分S：

S = \frac{1}{N} Σ_{i = 1}^{N} \frac{{[\ln (d_{i}) - \ln (SR μ_{i})]}^{2}}{σ_{i}^{2}},

其中d_i是第i分量(例如，音素)的实际持续时间，SR是说话者速率，μ_i是根据训练语料确定的第i分量的平均持续时间(举例来说)，且σ_i ²是根据训练语料确定的第i分量的标准偏差。

虽然，给定音素的持续时间的对数的平均数为1n(μ_i)，但所述音素的平均持续时间不确切是μ_i。在一个实施例中，可包括特定音素的帧的平均数目作为在μ_i上操作的函数的部分。因此，可使用多个分量的一股化形式根据类似于(5)及(6)的增量值如下计算得分S：

S = \frac{1}{N} Σ_{i = 1}^{N} \frac{{[\ln (d_{i}) - \ln ({SRμ}_{i} e^{\frac{σ_{i}^{2}}{2}})]}^{2}}{σ_{i}^{2}} .

在一些应用中，持续时间的分布可为对数正态的。因此，可找到(例如，从训练语料)每一音素持续时间的概率。可使用这些概率的几何平均数来获得每一音素的平均概率，其可使用以下公式来计算：

S = \sqrt[N]{Π_{i = 1}^{N} \frac{1}{d_{i} σ_{i} \sqrt{2 π}} e^{- \frac{{[\ln (d_{i}) - \ln (SR μ_{i})]}^{2}}{2 σ_{i}^{2}}}}

在此情形中，由相同函数在实际输入及经修改说话者速率两者上操作，由指数函数(“e(x)”)在自然对数(“1n(x)”)及每一分量的增量值上操作，相乘在一起，且对结果求N次方根。此为几何平均数的一个实例。

以上实例打算作为可确定一致性以确认持续时间的辨识结果的许多方式的说明。除其它外，可基于参数(例如，统计参数)的其它预定一致性特性、特定辨识过程、特定应用及所要结果来使用用于确定一致性持续时间、能量及音调的其它技术。以上实例并非穷尽性的且不限制权利要求书的范围。

确认辨识结果

如上文所图解说明，可确定一致性得分、将所述一致性得分与阈值进行比较，且如果所述得分低于所述阈值(或高于所述阈值，此取决于如何计算一致性得分)那么确认所述一致性得分。然而，替代在辨识结果高于或低于某一阈值的情况下确认辨识结果，可将一致性得分与辨识得分组合。在一个实例性实施方案中，缩放一致性得分且将其从辨识结果的得分减去，且有效辨识结果仅在组合辨识得分高于0的情况下发生(举例来说)，其中小一致性得分对应于较一致的参数。如果新的组合得分低于零，那么可拒绝辨识结果。在其它实施例中，可使用其它阈值及一致性得分与辨识得分之间的其它组合关系。在另外其它实施例中，可将多个不同参数的多个一致性得分与辨识得分组合且用以确认辨识得分。

在一些实施例中，可确认最终辨识结果，且在其它实施例中，可确认中间辨识结果。在第一情形中，辨识器可经配置以辨识多个单词或片语。所述单词、片语或所述辨识器经配置以辨识的其它话语通常可互换地称为辨识集合或者语法或词汇。所述辨识器可处理所说话语且输出最终辨识结果。结果的后处理可包括如上文所描述基于一致性来确认结果。

在另一实施例中，替代一直等待直到辨识过程的结束为止，辨识算法可检查中间状态下的一致性。如果一直到特定状态的中间辨识结果与说话者速率不一致，那么可拒绝所述中间结果。较早拒绝无效中间结果可由于至少两个原因是有利的。首先，其减小计算负荷，因为无效中间结果的额外处理被跳过。第二，在一些应用中其可为更准确的。情况可能是最高得分的最终结果与说话者速率不一致，但存在具有几乎同样好的得分的中间结果，但与说话者速率一致。在此情形中，仅不一致的最终结果便使其结束，且接着基于一致性被拒绝。在此情形中，什么也没返回，结果是错误拒绝。如果系统在所述过程中较早消除最终结果，那么较一致的中间结果现在可为最终结果，基于一致性确认所述较一致的中间结果。确定一致性及确认中间结果的一个挑战是可能不存在对话语中早期说话者速率的良好估计，因为什么也没听到。此使得难以知道中间结果是否较差，及何时将其拒绝是安全的。在一个实施例中，修改一致说话者速率的概念。替代寻找说话者可说话的特定速率，确定任何数目个音素的联合分布。举例来说，可存在基于所有先前音素的第n个音素的持续时间分布，且可基于所述分布来给每一音素的持续时间打分。

实例性辨识过程

在一些实施例中，如本文中所描述的确定一致性及确认辨识结果可用于片语/单词辨认辨识过程中。一个实例性单词或片语辨认过程描述于在2010年07月06日提出申请的标题为“用于不用手的话音控制及搜索的系统及方法(SystemsandMethodsforHandsFreeVoiceContro1andSearch)”的第12/831,051号美国专利申请案中，所述申请案的全部揭示内容据此以引用方式并入本文中。如上文所描述，可使用持续时间、能量或音调来后处理最终辨识结果，其可为对应于已在语音串流中辨认的特定单词或片语的辨识的输出，或可使用此些参数来处理中间结果。

在其它实施例中，可使用如本文中所描述的确定一致性及确认辨识结果来改善对基于辨识器的特定辨识集合可用的辨识结果的选择。举例来说，辨识器可返回N个最好结果。如果辨识器具有由命令A、B、C、D、E及F组成的命令集合，且如果话语接收于辨识器中，那么最好的3个结果可为D、A及E。可针对D、A及E计算持续时间、能量或音调得分，将其缩放，且将其与D、A及E的辨识得分相加(举例来说)。基于持续时间(举例来说)三个当中具有最高经修改结果的任何一个将被返回作为辨识器的回答。因此，除使用持续时间、能量或音调来过滤掉片语辨认辨识器中的错误接受外，持续时间、能量或音调还可用来给结果重新打分以断定哪一个是最好的。应理解，上文所描述的辨识过程仅为实例且不限制确定持续时间、能量及/或音调的一致性对其它辨识过程的应用。

以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是仅有的实施例，且经呈现以图解说明由所附权利要求书界定的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书，其它布置、实施例、实施方案及等效内容对于所属领域的技术人员将是显而易见的且可在不背离由权利要求书界定的本发明的精神及范围的情况下采用。本文已采用的术语及表达用于描述各种实施例及实例。这些术语及表达不应被解释为排除所展示及描述的特征或其部分的等效形式，应认识到所附权利要求书的范围内可存在各种修改。

Claims

1.一种用于语音辨识的方法，其包含：

接收所说话语；

对所述所说话语执行语音辨识处理且产生辨识结果；

确定所述辨识结果的分量声音的持续时间的一致性，所述确定包含：

通过将所述所说话语的总持续时间除以所述辨识结果的所述分量声音的预期持续时间的总和来计算说话者速率；

针对每一分量声音：

通过将所述分量声音的预期持续时间乘以所述说话者速率来计算经修改预期持续时间；及

计算对应于所述所说话语中的所述分量声音的持续时间与所述分量声音的经修改预期持续时间之间的差的增量值；及

通过求所述增量值的平方的总和且将所述总和除以分量声音的总数目来计算持续时间一致性得分；及

基于所述持续时间一致性得分来确认所述辨识结果。

2.根据权利要求1所述的方法，其进一步包含：

确定所述分量声音的能量的一致性；及

产生能量一致性得分，

其中所述辨识结果的所述确认是进一步基于所述能量一致性得分。

3.根据权利要求2所述的方法，其进一步包含：

确定所述分量声音的音调的一致性；及

产生音调一致性得分，

其中所述辨识结果的所述确认是进一步基于所述音调一致性得分。

4.根据权利要求1所述的方法，其中所述辨识结果与辨识得分相关联，且其中确认所述辨识结果包含将所述辨识得分与所述持续时间一致性得分组合以产生组合得分且将所述组合得分与阈值进行比较。

5.根据权利要求1所述的方法，其中每一分量声音的所述预期持续时间是从一组说话者无关训练话语产生的平均持续时间值。

6.根据权利要求1所述的方法，其中确认所述辨识结果包含：

将所述持续时间一致性得分与阈值进行比较；

如果所述持续时间一致性得分与所述阈值交叉，那么拒绝所述辨识结果；及

如果所述持续时间一致性得分不与所述阈值交叉，那么接受所述辨识结果。

7.根据权利要求6所述的方法，其中如果所述持续时间一致性得分与所述阈值交叉，那么所述分量声音的所述持续时间是不充分一致的，且其中如果所述持续时间一致性得分不与所述阈值交叉，那么所述分量声音的所述持续时间是充分一致的。

8.根据权利要求1所述的方法，其中所述分量声音为音素、子语素、音节及字中的一者。

9.一种用于语音辨识的系统，其包含：

音频接口，其经配置以接收所说话语；

辨识器，其经配置以：

对所述所说话语执行语音辨识处理且产生辨识结果；

针对每一分量声音：

基于所述持续时间一致性得分来确认所述辨识结果。

10.根据权利要求9所述的系统，其中所述辨识器进一步经配置以：

确定所述分量声音的能量的一致性；及

产生能量一致性得分，

11.根据权利要求9所述的系统，其中所述辨识器进一步经配置以：

确定所述分量声音的音调的一致性；及

产生音调一致性得分，

12.根据权利要求9所述的系统，其中每一分量声音的所述预期持续时间是从一组说话者无关训练话语产生的平均持续时间值。

13.根据权利要求9所述的系统，其中确认所述辨识结果包含：

将所述持续时间一致性得分与阈值进行比较；