CN105283914B

CN105283914B - 用于识别语音的系统和方法

Info

Publication number: CN105283914B
Application number: CN201480033420.8A
Authority: CN
Inventors: B·哈尔沙姆; J·R·赫尔歇
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-06-14
Filing date: 2014-05-19
Publication date: 2018-12-28
Anticipated expiration: 2034-05-19
Also published as: JP2016522903A; DE112014002819B4; JP6203288B2; US20140372120A1; US9159317B2; CN105283914A; WO2014199803A1; DE112014002819T5

Abstract

一种系统和方法识别包括词的序列的语音。利用声学模型和语言模型生成语音的一组解释，并且针对每一个解释，确定在表达所述词的序列时表示解释的正确性的分数，以生成一组分数。接下来，基于每一个解释与响应于接收到词序列约束而确定的约束的一致性来更新所述一组分数。

Description

用于识别语音的系统和方法

技术领域

本发明总体上涉及自动语音识别，并且更具体地，涉及在给予用户低认知负荷的同时提供语音识别。

背景技术

通常已知的是，由驾驶员执行的任何非驾驶相关任务都可能使注意力不集中于驾驶。因此，近期关注通过立法手段和通过驾驶员教育两者来减少驾驶时移动电话的使用。对于驾驶员在车辆中使用信息、通信以及娱乐功能来说，还存在日益增长的需求。

研究表明，与常规视觉或手动接口相比，基于语音的接口可以不太分散注意力。用于有限功能的基于命令的语音接口在车辆中正变得普遍。然而，因为识别大词汇量连续语音易于出错，所以针对像SMS这种功能使用语音的文本输入是困难的。由此，需要纠正或以其它方式改变已经利用语音输入的文本，同时减少正在驾驶的用户方面的分心。

用于纠正不受限制语音的一些方法利用编辑应用，即，具有计算机显示器和常规键盘的字处理机。例如，U.S.5,960,447中描述的方法通过以与关联语音来标记所识别文本中的词(word)并且允许字处理软件的用户收听用于编辑文本转录的语音，来纠正错误识别的语音。

U.S.5,970,460中描述的另一种方法通过在编辑应用程序中关联“语音事件数据库”和文本转录中的位置并且加宽上下文，来改进编辑操作。这种方法需要主要关注纠正任务，包括常规键盘、鼠标器以及菜单选择，并且具体来说，利用为关注视觉显示所需的视觉资源。然而，键盘、触摸屏以及大视觉显示器的使用未最小化从驾驶分心。

其它方法通过利用随后语音编辑由第一语音所产生的转录，来最小化交互作用的复杂性。例如，U.S.6,064,959中描述的方法利用随后说话来纠正语音识别的结果。类似的是，U.S.7,444,286中描述的方法选择语音识别中的要重新识别的部分。然而，该语音的随后解释可以产生错误，从而导致增加纠错工作，并且还导致驾驶员分心。

U.S.2006/293889中描述的另一方法使用纠正由用户给出的单个词，来调整针对与该单个词相邻的词的另选建议。然而，如果用户的语音中的多个词被不正确地解释，则该用户必须多次纠正该语音解释。而且，与更一般类型的交互作用相对比，这种方法的纠正限于替换所选择词，其可以导致用户的进一步分心。因此，需要将引导语音的解释所需的交互作用和用户注意力减到最小。

发明内容

本发明的一些实施方式基于以下认知，即，在对包括一系列词的大词汇量连续语音的语音识别中出现的错误通常与其它错误相关联。因此，对识别结果的纠正可以用于预测其它错误可能出现在哪里并且用于纠正附加错误，而不是只纠正初始错误并等待附加的用户输入。这些其它错误可在相邻的词位置出现，或者可能在无需对相邻的词进行任何改变的情况下在较远的位置出现，因此纠正应当用于更新识别结果。

例如，在导航关注点任务中的识别结果可能包括两个另选词序列“Museum ofFine Arts”和“Emporium of Fine Carts”。在这种情况下，如果原始解释是“Museum ofFine Arts”，并且用户将“Arts”改变成“Carts”，则很可能的是，词“Museum”应当改变成“Emporium”，即使其间存在解释未发生改变的几个词。

另外，本发明的一些实施方式基于以下总体认知，即，对大词汇量连续语音的语音识别的解释的纠正不需要被限制成将一个可能的词改变成另一个，而是还可以包括更一般种类的纠正约束。于是可将该纠正约束用于重新解释用户说出的言语。

与仅使用和单个词相对应的声学信号的解释相比，这种约束可以改进正确解释一组词的概率。

例如，假设识别结果包括可选择对象“Wreck a nice beach”和“Recognizespeech”，可以使用主题是“污染”的约束来更新第一识别的概率。

因此，一些实施方式基于特定的认知，即，可以通过对所提供的(例如由用户说出语音)的词序列使用约束来改进整个语音的重新解释。例如，词序列约束可以包括语音中的词的数量和次序、语音中的在特定时间说出的特定词、语音中缺少该特定词、该语音中的两个特定词的连接或分离。

例如，代替请求用户纠正语音的解释中的特定词或多个特定词，可以将来自用户的输入用于确定词序列约束，所述词序列约束可被用于更新该语音的整个解释。该实现允许减少用户纠正该语音的工作，因为词序列约束可以导致纠正语音的整个解释，而纠正词仅可以导致纠正词。

由此，本发明的一些实施方式使用由用户提供的词序列约束，以更新该用户的语音的解释。例如，整个语音的最佳假设可以在词序列约束的情况下确定。实际上，这种方法可以将确定语音序列的正确解释所需的许多交互减到最少。

各种实施方式在接收语音之前、同时或之后确定词序列约束。例如，在一些实施方式中，词序列约束包括该语音的元数据，诸如语音中的词的数量或语音中存不存在特定词。这种词序列约束可以按任何时间收集。

在另一实施方式中，该词序列约束更特定于语音的上下文。例如，词序列约束可以包括有关语音的初始解释的信息，并且这种信息被用于重新评估整个语音的解释。该实施方式的一个变型例通过利用用户接口以允许纠正语音识别假设内的特定词来最小化用户的认知负荷。纠正被反馈到系统中，作为被用于提高语音的假设正确的概率的约束，由此，减少所需纠正动作的数量。

因此，一个实施方式公开了一种用于识别包括词序列的语音的方法。该方法包括：利用声学模型和语言模型来生成所述语音的一组解释；针对每个解释，确定在表示所述词序列时代表解释的正确性的分数，以生成一组分数；确定用于识别经受词序列约束的所述语音的约束；以及基于每个解释与所述约束的一致性来更新所述一组分数。所述方法的步骤通过处理器来执行。

另一实施方式公开了一种用于识别用户的语音的方法，该方法包括以下步骤：识别所述语音，以生成一组解释，该组解释与表示所述语音时代表各个解释的正确性的对应的一组分数相关联；以及根据至少一个约束迭代地更新该组分数，使得针对每一个迭代，对于每一个解释，如果该解释与所述约束一致，则增加该解释的分数，并且如果该解释与所述约束不一致，则减少该解释的分数。所述方法的步骤通过处理器来执行。

又一实施方式公开了一种用于识别语音的系统。该系统包括：处理器，该处理器实现语音识别模块和纠错模块，其中，所述语音识别模块利用声学模型和语言模型来生成所述语音输入的一组解释，并且针对每一个解释，确定在表示所述语音时代表解释的正确性的分数；并且其中，所述纠错模块确定用于识别所述语音的约束，并且基于每一个解释与所述约束的一致性来更新所述解释的分数。

附图说明

[图1A]

图1A是根据本发明一个实施方式的用于语音识别的系统的组件的示意图；

[图1B]

图1B是包括根据本发明一些实施方式的系统的车辆的仪表盘的局部正视图；

[图2A]

图2A是例示根据本发明一个实施方式的语音识别模块的功能的框图；

[图2B]

图2B是图2A的方法的步骤的示例；

[图3A]

图3A是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤的流程图；

[图3B]

图3B是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤的流程图；

[图3C]

图3C是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤的流程图；

[图3D]

图3D是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤的流程图；

[图4]

图4是根据本发明一个实施方式的具有强调的词的词序列的示意图；

[图5]

图5是根据本发明一个实施方式的具有两个强调的词的词序列的示意图；

[图6]

图6是根据本发明一个实施方式的词序列和分类的一组词候选的示意图；

[图7A]

图7A是本发明的示例性实施方式的示意图；

[图7B]

图7B是本发明的示例性实施方式的示意图；以及

[图7C]

图7C是本发明的示例性实施方式的示意图。

具体实施方式

图1A示出了根据本发明一些实施方式的能够实现用于识别语音同时使发出语音的用户的认知负荷减到最小的方法的系统1的示例。

系统1包括控制整个系统的操作的中央处理单元(CPU)100。系统1与存储器101交互，存储器101包括与该系统的操作系统(OS)1010相关的软件、可由CPU 100执行以向该系统的用户提供特定功能的应用程序1011(诸如听写和纠错)以及与语音识别相关的软件1012。系统1还包括用于接收语音的音频接口(I/F)102，语音可以通过麦克风102记录或者从外部输入部104接收，如从外部系统获取的语音。

系统1还可以包括一个或多个控制器，诸如用于控制显示器106的操作的显示控制器105，显示器106例如可以是液晶显示器(LCD)或其它类型的显示器。显示器106用作系统1的光学用户接口，并且例如允许向系统1的用户呈现词序列。系统1还可以连接至用于控制音频输出系统112(例如，一个或更多个扬声器)的操作的音频输出控制器111。系统1还可以连接至一个或更多个输入接口，诸如用于接收来自操纵杆108的输入的操纵杆控制器107和用于接收来自小键盘110的输入的小键盘控制器109。容易理解的是，操纵杆和/或小键盘的使用仅仅是示例性性质的。同样，轨迹球，或箭头键可以被用于实现所需功能。另外，显示器106可以是用作用于接收来自用户的输入的接口的触摸屏显示器。而且，由于执行语音识别的能力，系统1可以完全省去任何非语音相关的接口。音频I/F 102、操纵杆控制器107、小键盘控制器109以及显示控制器105由CPU根据OS 1010和/或CPU 100当前执行的应用程序1011来控制。

如图1B所示，系统1可以被嵌入车辆199的仪表盘150中。可以在方向盘130上设置用于控制系统1的操作的各种控制部131、133。另选或另外地，控制部125可以放置在控制模块120上。系统1被设置成改进用户语音的解释，以减少用户交互的次数，使得用户可以专心于操作车辆。

图2A示意性地示出了根据本发明一些实施方式的具有改进的纠错能力的语音识别系统200的功能。语音识别单元200包括语音识别模块210，语音识别模块210可以通过系统1的CPU 100执行存储在存储器101中的语音识别软件1012来实现。

语音识别模块210接收作为词的序列的口头表示的语音230(例如，完整句子)。在不同实施方式中，语音包括音频信号、语音特征或基于帧的声学分数中的一个或组合。词的序列典型地包括多个词，例如，三个或更多个词。

语音识别模块被配置成执行语音230的语音识别，以确定一组解释，在最佳情况下，该组解释与该语音表示的词的序列相似。该组中的每一个解释都包括词的序列。语音识别模块可以使用声学模型201和语言模型202。

声学模型201例如可以存储在系统1的存储器101中，而且在一个实施方式中，考虑到词序列假设或表示词的语音学特性的单元的其它序列，描述了声学特征序列的有条件的概率。声学模型可以包括音素或其它声音单元。在一些实施方式中，声学模型可以包括音素序列模型，子语音状态序列的模型以及考虑到每个子语音状态的声学特征的概率的高斯混和模型。在其它实施方式中，声学模型可以包括从声学特征至语音状态序列概率的变换(例如，使用神经网络)。

语言模型202也可以存储在系统1的存储器110中，并且可以包括关于包含将在语言中出现的至少一个词的词序列的概率的统计。语言模型202例如可以是与要在语言中使用的单个词的可能性相关的一元(uni-gram)语言模型，或者表达语言中彼此跟随的两个词的可能性的二元(bi-gram)语言模型。而且，可以使用考虑更大数量的后续词的语言模型，例如，三元(tri-gram)语言模型等。

在一些实施方式中，语音识别模块210通过将语言分段成被假定与单个的词相关的多个段来执行语音识别，并接着通过例如识别输入的语音序列分段中的音素并且通过将音素与语言模型202的音素至文本映射进行比较来识别单个词。

语音识别模块210通常针对每一个输入语言序列区段来识别一组可能的解释，其中，每一个解释都包括词的序列。解释还已知为识别结果。每一个解释都与识别置信度值相关联，例如，在表示词序列时代表解释的正确性的分数。该分数表达识别结果正确的语音识别的置信度。针对每个输入语音段，语音识别模块可以以最大识别置信度值来确定识别结果(例如，词)，从而产生被视为表示输入语音序列的词的序列。

因此，对语音的语音识别还通过考虑语言模型201来精炼。接着，除了识别置信度值以外，在利用语言模型和识别词汇生成语音的一组解释过程中，将语言中出现一个或更多个词的组的概率考虑在内。例如，在二元语言模型的情况下，由于双字语言模型，即使可能的识别结果相对于声学空间具有高的置信度，例如与“three”相对比的“free”，但语音识别模块210也仍然可以利用例如预期的词序列“at three o'clock”中的“at”和“o'clock”的上下文，来判定“three”正确。

图2B示出了语音240的一组解释的示例。在一些实施方式中，该组解释被确定或表示为语音的n-最佳列表250或语音的词点阵(lattice)260。另外，各种实施方式针对组251中的每一个解释确定分数(例如，分数255)，代表经受该词序列约束的解释的正确性。所述分数可以通过许多方式来确定。

例如，该组解释的另选表示是已知为点阵260的图表，其中，节点(例如，节点265和267)表示以语音的特定区域标示的每一个假设词，并且随特定上下文出现。在该表示中，在该n-最佳列表中的许多假设中在同一位置的出现词和词的序列可以被缩减成共用该点阵中的公共子路径。除了词以外，点阵的弧线可以包括声学和语言模型分数，使得词的序列的总体分数可以从沿着穿过该点阵的路径的分数导出。例如，弧线261、262及263可以表示由跟随词“I”的词“don’t”、“want”及“went”的相应概率所限定的分数。

在一些实施方式中，该语音识别系统被公式化为概率模型，并且分数基于解释的概率，或所观察声学特征序列的词序列的概率。解释可以包括词的序列，而且还可以标识与所假设词相对应的说话的大概时间区。在一些实施方式中，考虑到声学数据，分数S(W|X)基于词的序列的概率。例如：

S(W|X)∝p_θ(W|X)

其中，∝指示比例(即，S(W|X)＝p_θ(W|X)_c，其中c是正常数)，θ是该模型的参数，p_θ指示利用参数θ的概率测度，是解释中的假设的词的序列w₁，w₂，...，w_N，而w_i是在位置i假设的词(对于具有N个词的假设而言)。声学特征被表示为其中，x_i是所说的话的声学特征的第j个矢量(对于具有M个声学特征矢量的说的话而言)。p_θ(W|X)已知为假定X的W的后验概率。在另一实施方式中，该分数可以被限定为该量的对数：

S(W|X)＝logp_θ(W|X)+k，

其中，k是任意常数)。

在一个实施方式中，分数被分成不同的子分数：

其中，是来自具有参数θ_LM的词语言模型的分数，而是来自具有参数θ_AM的声学模型的分数。此后，除非必要，为简化起见，省略参数θ。

另一实施方式将词序列与针对各个假设词的所说的话的假设时间区的序列相关联，使得是为词w_i假设的位置。在该实施方式中，分数可以基于具有对准项(alignment term)p(R|W)的扩展模型，使得p(W)p(X|W)＝max_Rp(W)p(R|W)p(X|W，R)。在该实施方式中，通过在该组所有可能的对准上最大化分数来获取：

而且后续的对应于与和假设的词w_i相关联的区域的特征的声学分数为

语言模型分数可以按许多方式来计算，包括利用离散概率模型、神经网络、有区别训练的条件随机场等。例如，一个实施方式将概率模型公式化为

概率以较早出现在序列中的词(已知为上下文)为条件。通常，一般的模型太复杂，并且使用已知为n元(n-gram)模型的较简单模型，其中，上下文被限制为前述n-1项：

在一些实施方式中，将各种其它参数化和估计过程与n元模型一起使用，以改进它们从训练数据至测试数据归纳的能力。

在语音识别模型中的推断可以被标准为假设W上的搜索，以寻找最佳评分假设，

另外，通常，确定具有最大分数的n-最佳假设。对每一种可能的W的评估可能是需要大量在计算的，并且一些实施方式利用与搜索过程(例如，定向搜索(beam search))的启发式约简(heuristic reduction)相结合的递归动态编程算法(例如，Viterbi算法)来确定n-最佳假设。还存在许多另选搜索算法和试探法(heuristics)，并且被各种实施方式所采用。

在一些实施方式中，针对假设的搜索的输出可以是n-最佳列表250(包括词的序列的n个解释)连同解释的分数255(例如，声学模型的分数和语言模型的分数的一个或组合。一些实施方式提供词与声学信号的时间性区段的最佳评分对准作为输出。

在一些实施方式中，关于假设的搜索的输出可以是点阵260。与利用n-最佳列表相比，在点阵中确定分数通常更有效。然而，出于清楚的目的，一些实施方式利用n-最佳表示来描述。

尽管语言模型和声学模型对搜索予以约束，但生成的识别仍可以具有歧义和错误。例如，具有最高分数的解释251仍可以不准确。然而，请求用户纠正该特定解释251忽视了可能包括正确解释的其它解释。而且，请求纠正特定解释可以需要与用户的多次交互，并且可以使用户从其它任务分心。

本发明的一些实施方式基于这样的总体认知，即，对包括词的序列的大词汇量连续语音的识别结果的纠正应基于针对整个语音的解释的约束。和仅修改单个词的纠正相反，这种约束可以改进正确解释整个语音的概率。

因此，语音识别单元200还包括纠错模块220，纠错模块220通过考虑语言模型202和词序列约束270来重新解释识别结果的。具体来说，在一些实施方式中，纠错模块220基于每个解释与约束270的一致性来更新该解释的分数。在更新之后，解释215(例如，具有最高分数)可以被确定并输出为所识别的语音。

一些实施方式基于这样的认知，即，用于解释整个语音的约束可以通过例如由说出该语音的用户所提供的语音的词序列约束270来补充。例如，词序列约束可以包括语义中的词的数量和次序、语音中在特定时间说出的特定词、语音中缺少该特定词、语音中的两个特定词的连接或分离。词序列约束还可以指定语音输入的主题，例如，语音的主题是污染。

这种认知允许将用户纠正语音的工作减到最小，因为词序列约束可以导致对语音的整个解释的纠正，而对词的纠正可导致仅纠正词。值得注意的是，约束270可以用于更新整组解释的分数。

由此，在一些实施方式中，与将约束用于随后对语音的一部分的纠正相比，词序列约束与语音的解释同时使用。整个语音的分数最佳的解释可以根据词序列约束来确定。具有最高分数的解释可以被确定为识别的语音。实际上，这种方法可以使确定语音序列的正确解释所需的多个交互减到最少。

图3A示出了根据本发明一个实施方式的用于识别用户的语音的方法的流程图。方法300采用上述一些原理和认知并且可以利用处理器301来实现。该方法接收305表示词的序列的语音，并且利用声学模型和语言模型生成310该语音的一组解释。该组解释包括一个或更多个解释，其中，每一个解释都是可能已说出的可能的词序列。各种实施方式接收或生成解释作为解释的n-最佳列表、词点阵或可能的词序列的组的其它表示。

针对每一个解释，该方法确定315该解释的正确性分数以生成一组分数。例如，分数可以基于根据声学模型和语言模型所给出的概率和/或下述正确性函数来确定。在一些实施方式中，该方法确定320具有最大分数的解释，并且向用户传送325解释的子集。在一个实施方式中，仅将具有最大分数的解释传送给用户。在另选实施方式中，传送多个解释。

各种实施方式使用用户接口组件，以在需要时允许用户提供针对该组解释的约束。该方法基于通过用户接口组件给出的来自用户的输入来判断330是否期望利用词序列约束的纠正。用户可以利用系统1的任何接口或其组合来提供约束。例如，用户可以使用小键盘110、操纵杆108、显示器106的触摸屏、语音接口103及其组合。

当希望纠正时，该方法接收(335)针对词序列的约束。各种实施方式通过诸如选择列表、按钮等的用户接口组件接收或确定基于用户接口动作的词序列约束。在该系统的一些实施方式中，词序列约束被表示为各种事件的出现的概率。

在一些实施方式中，词序列约束包括语音的元数据，诸如语音中的词的数量或语音中不存在特定词。与有关词序列的上下文的信息相比，语音的元数据是有关词序列的信息。这种词序列约束可以在任何时间收集。

该方法根据每一个解释与约束的一致程度来更新(340)语音的该组解释的分数。在更新分数之后，确定320最高分数，并且该方法迭代地继续，直到用户不再希望进行纠正为止。该组解释可以从该方法输出(例如，存储到存储器中)以供以后使用。

图3B示出了用于更新经受约束的解释的分数的方法的流程图。词序列约束从用户接收350。在一些实施方式中，修改该词序列约束，以确定360适于解释的约束。例如，一些实施方式基于从用户接收到的词序列约束来确定约束。

例如，在一些实施方式中，响应于传送解释的子集，从用户接收词序列约束。实施方式基于词序列约束来确定361约束的类型，并且基于该类型确定360约束。例如，约束的类型可以是以下中的一种或其组合：语言类型：有关语言概率的约束；声学类型：给定了假设的词的情况下声学特征的概率分布的约束；以及上下文类型：有关解释内的词序列的约束。

图3C示出了根据一些实施方式的确定约束的示例，其中，所确定约束的类型基于要更新的分数。那些实施方式更新365语言和/或声学模型的一个或组合。一些实施方式基于从用户接收到的词序列约束来确定约束的类型。例如，在一些实施方式中，词序列约束包括语音的元数据，诸如语音中的词的数量、语音的主题、在语音的特定时段内说出的词的数量。那些约束通常是语言或声学类型约束。

在另一实施方式中，词序列约束更加特定于语音的上下文。例如，词序列约束可以包括有关语音中特定词的存在与否的信息。那些约束通常是上下文类型约束。

例如，如果词序列约束是序列中的词的数量，则在一个实施方式中，对分数的更新是通过重新计算语言模型分数来进行的，例如，利用p(W|length(W)＝6)。在该实施方式的一个变型例中，声学模型分数和与每一个词相对应的估计区R保持不变。

在一个实施方式中，约束的类型是语言类型，并且对分数的更新是通过利用修改的语言模型重新计算语言模型分数来进行的。例如，代替原始语言模型利用来对点阵进行重新评分。这里，θ_LM是原始语言模型参数，而θ′_LM是通过以序列中存在六个词的约束为条件而获取的参数。由此，分数可以通过评估而更新

其中，S′(W|X)是修改的分数。

一个实施方式按类似方式施加了主题为“污染”的约束。该实施方式使用具有适于该主题“污染”的词序列的参数θ′_LM的受约束的语言模型由此，该实施方式可以利用受约束的语言模型来更新上述分数函数S′(W|X)。

在给定了每一个解释的更新的分数的情况下，重新评分相当于针对n-最佳列表的每一个条目，利用修改的分数函数来评估分数。另选地，基于点阵或n-最佳列表，可能词序列的图表可以利用修改的分数函数，利用诸如前后向算法、Viterbi解码或堆栈解码的各种算法来有效地搜索。在评估分数的处理中，生成修改的n-最佳列表或点阵。

如果约束仅针对词序列，则声学模型分数(如上述示例中的)和与每个词相对应的估计区R可以保持不变。然而，在其它实施方式中，约束的类型是声学类型并且声学分数p(X|W)根据约束而改变。例如，在计算词与声学特征之间的对准的情况下，重新评分还可以取决于对准。一个实施方式限定模型并且基于针对R的约束来更新分数：

其中，表示加强希望的约束的允许的对准的子集。例如，一个这样的约束可以是在特定时间区内仅存在一个词。

图3D示出了用于确定用于更新分数的绝对或相对约束的方法的流程图。在一些实施方式中，如果约束是绝对的，则不匹配该约束的词序列的解释以最小可能分数进行重新评分。相反，如果约束是相对的(例如，概率性的)，则不匹配该约束的解释以比匹配该约束的解释小的权重来重新评分，但不匹配的解释仍可以具有比与相对约束一致的解释的分数高的最终分数。

例如，在一些实施方式中，相对约束具有表示不同约束满足程度的连续值。这种约束可以利用表示约束的倍增因子来公式化。在一个实施方式中，约束包括约束因子f(X，W，R)369，其输出是指示针对声学序列、词序列以及对准中的一个或更多个的约束满足程度的数字。利用该约束因子，一个实施方式公式化一般的重新评分函数。

根据约束因子，可以实现许多不同种类的约束，包括利用绝对约束和相对约束的情况。例如，在一些实施方式中，约束因子可以利用指标函数363和权重参数367来确定，指标函数363将用户指定的词序列约束与适于更新解释的分数的约束相映射，并且权重参数367指示相对约束的程度(直至使该相对约束变绝对)。

例如，如果约束因子

f(X，W，R)＝f(W)＝αI_{length(W)＝6}+β，

其中，符号f(W)指示该约束因子不取决于X和R，则在这种情况下，α和β是表示约束满足程度的非负权重参数，而且例如，

是针对序列中存在六个词的约束的指标函数。如果权重参数α相对于β较大，则约束满足程度较强，否则约束满足程度较弱。绝对约束可以通过将β设置成零以使函数f(W)在不希望的所有情况下具有零值来实现，。

在另一实施方式中，针对对准的约束可以利用来实现，其中，是针对R处于约束组中的条件的指标函数。

在具有在具有参数θ′_LM的受约束的语言模型中具体实施的约束的情况下，约束因子为

其中，p(W)是在初始识别中使用的语言模型。这对分数而言具有和如以新模型代替旧模型p(W)相同的效果。

注意，在重新评分之后，f的绝对标度不影响不同的词假设的相对评分，使得与另一约束因子成比例的任何其它约束因子f′(X，W，R)∝f(X，W，R），对得到的n-最佳列表或点阵生成相同的效果。

另外或另选的是，针对解释的多个约束可以基于从用户接收到的词序列约束来确定。例如，如果用户指示词序列中的词正确，则一些实施方式确定该词左侧或右侧的词也正确(根据语言模型)。在那些实施方式中，生成针对相邻词的附加约束。

例如，在一个实施方式中，评分函数测试特定词的存在。例如，语音的方向可以基于语言模型来确定，并且评分函数利用针对在传送给用户的解释中的特定词之前和之后(根据该语音的方向)的词的存在的测试来更新。在这个实施方式中，评分函数不仅测试特定词，而且根据语音的方向测试与所述特定词相邻的其它词。

在确定针对解释的约束之后，基于特定解释与约束的一致性来更新370一些解释的分数。在一些实施方式中，更新每一个解释，使得对于每一个解释，分数可以增加或减少。这意味着在更新370之后，每一个解释的分数可以增加或减少。实施方式的一些变型例允许一些解释的分数保持不变。

在更新分数后，确定380具有最大分数的解释，并且形成390对用户的输出，接着传送给用户。一些实施方式利用可视装置传送解释，诸如在显示器上示出的词和字符。一些实施方式利用音频反馈传送解释，诸如利用文本至语音(text-to-speech)或录制音频波形从扬声器生成声音。各种实施方式可传送具有最佳分数的一个或多个解释。

图4、图5及图6示出了用于基于传送给语音的用户的解释来选择词序列约束的接口的示例。解释可以是该语音的初始解释，或者是在更新分数之后选择的随后解释。

词序列4是包括五个词的句子，其中，第三个词(Word3)配有虚线框40。在另一实施方式中，Word3被确定为词序列的最有效约束。

而且，在图4的示例中，虚线框40不仅表示强调，而且表示选择器(selector)，所述选择器可被用户移动以选择被错误识别并因此需要纠正的词。这种移动例如可以借助于操纵杆或通过箭头键逐个词地执行，并且接着可以通过按压专用按钮或键(其例如可以集成到操纵杆或触摸屏中或者通过操纵杆或触摸屏实现)来执行选择。

图5示出了另选接口，其中，用户可以选择一个或多个词，例如，Word3和Word5。在选择词或词序列之后，用户可以执行下列动作之一：将所选择的词或序列标记为正确；将所选择词或序列中的一个或更多个标记为不正确；跳过所选择的词或序列；请求针对所选择的词或序列的另外选择；或者可能改变某些其它约束，如文本的主题或风格。

在一个实施方式中，在选择词或词序列之后，与所选择的词相关联的时间或时间窗可以被用于检索可能在该时间或时间窗已说出一组词，并且将这些中的一些或全部显示给用户，优选地按分数从高到低的次序排序。

图6例证了针对词序列6中的第三个词(Word3)的向下滚动列表60。滚动列表60包括基于与word3相对应的时间窗选择的四个词候选。选择器61自动放置在向下滚动列表60中的第一条目上，选择器61可以垂直移动到从向下滚动列表60选择的条目。

示例

图7A示出了根据本发明一个实施方式的用于解释经受词序列约束的语音710的示例性方法的示意图。在这个示例中，词序列约束包括针对词的数量(即，语音具有六个词)的约束714。值得注意的是，约束714用于更新整组解释711的分数712，以生成解释的具有更新的分数716的更新的组715。如可以从图7A的示例看出，整组解释的分数716被更新。

针对该示例性实施方式，一般的重新评分函数

可以如上所述地使用，具有向具有六个词的序列赋予较高权重的特定约束因子f(X，W，R)，诸如：

f(X，W，R)＝f(W)＝αI_{length(W)＝6}+β，

和

还可以使用其它约束因子和/或指标函数。

图7B示出了根据本发明一个实施方式的用于解释经受词序列约束的语音720的示例性方法的示意图。在这个示例中，词序列约束包括针对该语音的主题(即，该语音有关污染)的约束724。约束724用于更新整组解释721的分数722，以生成解释的具有更新的分数716的更新的组725。

该示例性实施方式使用具有适于主题为“污染”的词序列的参数θ′_LM的受约束的语言模型由此，该实施方式可以利用受约束的语言模型来更新上述分数函数S′(W|X)。

图7C示出了根据本发明一个实施方式的用于解释经受词序列约束的语音730的示例性方法的示意图。在这个示例中，词序列约束包括针对语音中的特定词“Carts”的存在的约束734。约束734被用于更新整组解释731的分数732，以生成解释的具有更新的分数736的更新的组735。

针对该示例性实施方式，一般重新评分函数

可以如上所述加以使用，具有向包括词“Carts”的序列赋予较高权重的特定函数f(X，W，R)，诸如：

f(X，W，R)＝f(W)＝αI_carts∈W+β，

和

还可以使用其它约束因子和/或指标函数。

上述实施方式可以按许多方式中的任一种来实现。例如，这些实施方式可以利用硬件、软件或其组合来实现。当按软件来实现时，软件代码可以在任何合适处理器或处理器集合上执行，而不管设置在单一计算机中还是在多个计算机当中分布。这种处理器可以被实现为集成电路，在集成电路组件中具有一个或更多个处理器。然而，处理器可以利用采用任何合适格式的电路来实现。

而且，应当清楚，计算机可以按许多形式中的任一种来具体实施，如机架式计算机、台式计算机、膝上型计算机、微计算机或平板计算机。而且，计算机可以具有一个或更多个输入和输入系统。这些系统尤其可以被用于呈现用户界面。这种计算机可以通过用任何合适形式的一个或更多个网络来互连，包括作为局域网或广域网，如企业网或因特网。这种网络可以基于任何合适技术，并且可以根据任何合适协议来操作，并且可以包括无线网络、有线网络或光纤网络。

而且，在此概述的各种方法或处理可以被编码为可以在采用多种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，这种软件可以利用许多合适编程语言和/或编程或脚本工具中的任一种来编写，而且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。

术语“程序”或“软件”在此按一般意义来使用，以指可以被采用以编程计算机或其它处理器来实现如上讨论的本发明的各个方面的任何类型的计算机代码或计算机可执行指令集。

计算机可执行指令可以采用通过一个或更多个计算机或其它系统执行的许多形式，如程序模块。一般来说，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件以及数据结构。通常，程序模块的功能可以如在各种实施方式中所希望的组合或分布。

而且，本发明的实施方式可以被具体实施为已经提供了示例的方法。作为该方法的一部分执行的动作可以按任何合适方式来安排。因此，即使在例示性实施方式中被示出为顺序动作，也可以构造按与所例示相比不同的次序来执行动作的实施方式，可以包括同时执行一些动作。

在权利要求书中使用诸如“第一”、“第二”的普通术语来修改权利要求要素本身并不暗示一个权利要求部件相对于另一个要素的任何优先级、优先或次序，或者执行方法的动作的时间次序。而是仅仅被用作用于区分具有特定名称的一个权利要求要素与具有相同名称(供顺序项使用)的另一要素的标记，以区分这些权利要求要素。

Claims

1.一种用于识别语音的方法，所述语音包括词的序列，该方法包括：

利用声学模型和语言模型来生成所述语音的一组解释；

针对每一个解释，确定在表达所述词的序列时表示解释的正确性的分数，以生成一组分数；

确定用于识别经受词序列约束的所述语音的约束；

确定指示与所述词序列约束的一致性的程度的约束因子；

基于所述约束因子来确定受约束的评分函数以更新所述一组分数；

利用所述评分函数来更新所述一组分数；以及

根据更新的一组分数，从所述一组解释中选择最佳解释作为识别的语音，其中，所述方法的步骤由处理器执行。

2.根据权利要求1所述的方法，其中，所述词序列约束包括所述词的序列中的词的数量、特定的词或特定的词的序列的存在或不存在、说出所述特定的词的时间、所述词的序列中的至少两个特定的词的顺序、所述词的序列中的两个特定的词的连接或分离、所述语音输入的主题中的一个或组合。

3.根据权利要求1所述的方法，其中，确定所述约束的步骤包括：

向用户传送所述一组解释的子集；

接收响应于所述传送的所述词序列约束；

基于所述词序列约束来确定所述约束的类型；以及

基于所述类型来确定所述约束。

4.根据权利要求3所述的方法，其中，所述类型是语言类型，并且确定所述约束的步骤包括：

基于所述词序列约束来更新所述语言模型。

5.根据权利要求4所述的方法，其中，所述词序列约束是所述语音的主题。

6.根据权利要求3所述的方法，其中，所述类型是声学类型，并且确定所述约束的步骤包括：

基于所述词序列约束来更新所述声学模型。

7.根据权利要求6所述的方法，其中，所述声学模型包括所述语音中的词与所述声学模型中的声学特征之间的对准。

8.根据权利要求7所述的方法，所述约束包括在特定时间区内仅存在一个词。

9.根据权利要求3所述的方法，其中，所述类型是上下文类型，并且确定所述约束的步骤包括：

确定测试每一个解释中存在或不存在特定的词的评分函数。

10.根据权利要求9所述的方法，其中，所述评分函数测试所述特定的词的存在，所述方法还包括：

基于所述语言模型来确定所述语音的方向；以及

根据所述语音的方向，利用针对所述特定的词之前和之后的词的存在的测试来更新所述评分函数。

11.根据权利要求1所述的方法，其中，所述评分函数S′(W|X)为

其中，∝指示比例，是所述解释中的N个词的序列w₁，w₂，...，w_N，而w_i是在位置i假设的词，指示所述声学模型的声学特征，其中，x_j是所述语音输入的所述声学特征的第j个矢量，而T是声学特征矢量的数量，函数p(.|..)是概率，是一组可能的对准，是所述语音的针对每一个假设的词的假设时间区的集合，使得r_i是针对词w_i假设的位置，并且f(X,W,R)是针对声音序列、词序列以及对准中的一个或更多个输出指示与所述约束的一致性的程度的数值的约束因子。

12.根据权利要求11所述的方法，所述方法还包括：

利用所述词序列约束来确定指标函数；以及

确定所述约束因子作为具有确定约束满足程度的权重参数的所述指标函数的线性函数。

13.根据权利要求1所述的方法，其中，所述约束包括所述词的序列的元数据。

14.根据权利要求1所述的方法，其中，所述根据更新的一组分数，从所述一组解释中选择最佳解释作为识别的语音，包括：

确定具有最大分数的所述解释作为识别出的语音，其中，所述最大分数是所述更新的一组分数中的最大分数。

15.一种用于识别用户的语音的方法，该方法包括：

识别所述语音，以生成与对应的一组分数相关联的一组解释，所述一组分数在表达所述语音时表示每一个解释的正确性；

迭代地更新经受至少一个约束的所述一组分数，使得针对每一个迭代，对于每一个解释，如果该解释与所述约束一致，则增加该解释的分数，并且如果该解释与所述约束不一致，则减少该解释的分数；

根据更新的一组分数，从所述一组解释中选择解释作为识别的语音，其中，所述方法的步骤由处理器来执行，

其中，所述更新的步骤包括：

向用户传送所述一组解释的子集；

接收响应于所述传送的词序列约束；

基于所述词序列约束来确定所述约束的类型，其中，所述类型是上下文类型；

确定测试每一个解释中存在或不存在特定的词的评分函数；

基于语言模型来确定所述语音的方向；以及

根据所述语音的方向，利用针对所述特定的词之前和之后的词的存在的测试来更新所述评分函数；以及

基于所述类型来确定所述约束。

16.一种用于识别语音的系统，该系统包括：

处理器，该处理器实现语音识别模块和纠错模块，其中，

所述语音识别模块利用声学模型和语言模型来生成所述语音输入的一组解释，针对每一个解释确定在表达所述语音时表示解释的正确性的分数，并且根据各个解释的分数从所述一组解释中选择最佳解释作为识别的语音；并且其中，

所述纠错模块确定用于识别所述语音的约束，并且基于每一个解释与所述约束的一致性来更新所述解释的分数，其中，通过以下操作来确定所述约束：

向用户传送所述一组解释的子集；

接收响应于所述传送的词序列约束；

确定测试每一个解释中存在或不存在特定的词的评分函数；

基于语言模型来确定所述语音的方向；以及

基于所述类型来确定所述约束。

17.根据权利要求16所述的系统，所述系统还包括：

音频接口，该音频接口用于接收表示词的序列的所述语音；

控制器，该控制器用于向所述用户传送所述一组解释的至少子集，并且用于从所述用户接收词序列约束，其中，所述处理器基于所述词序列约束来确定所述约束。

18.根据权利要求16所述的系统，其中，用于识别所述语音的所述系统被嵌入车辆的仪表盘中。