CN1126052C

CN1126052C - 采用多个文法网络的语音识别的方法

Info

Publication number: CN1126052C
Application number: CN 98120847
Authority: CN
Inventors: 迈克尔·盖勒; 让－克劳德·琼奎
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-09-29
Filing date: 1998-09-29
Publication date: 2003-10-29
Anticipated expiration: 2018-09-29
Also published as: CN1249480A

Abstract

用多个文法网络分节输入语音，其中包含具有设计成表示噪音或外加语音的填充物模型的网络。识别处理得出多个候选字表，各表包含生成的N最佳候选字。然后将表分开与有效姓名的词典对准以生成两张有效姓名表。最后的识别遍将这两张姓名表组合进动态文法中，并可用这一动态文法采用Viterbi识别找出最佳候选姓名。根据本识别系统的电话呼叫路由选择应用，无论用户在拼读之前是否说出姓名，都能选择对应于用户所拼读的姓名的最佳候选姓名。

Description

采用多个文法网络的语音识别的方法

本发明一般涉及计算机实现的语音识别。更具体地，本发明涉及采用多个文法网络处理语音数据的方法及装置。采用多个网络得出语音数据的不同分节，以便从无用的语音中抽取有用的语音。

虽然本发明有许多用处，这里所描述的为适用于电话呼叫路由选择应用的类型的拼读姓名识别系统。在示出的实施例中，利用第一与第二文法网络来独立检测N最佳与M最佳字母序列。一种文法网络是配置在用户将响应系统提示立即开始拼读的假设之上的。第二种文法网络是配置在拼读的姓名字母序列是以系统不能识别的外来噪音或发音开始的假设之上的。将N最佳与M最佳字母序列分开提交给相对于有效姓名的词典的动态编程匹配，以抽取对应于各N最佳与M最佳字母序列的N最佳与M最佳姓名假设。然后通过从这些姓名假设集合中选择最佳候选姓名而作出识别决定。

当前的语音识别技术包含声音数据中的模式识别及这些模式与系统所识别的预定词典项集合的关联。语音识别问题是极具挑战性的，因为存在着如此之多的不同差异。通常，语音识别器以数字格式将进入的声音数据作用在数学识别进程上，后者根据预定的模型将数字数据转换成参数。

传统上，模型是早先已用充分大的训练集合训练过的，从而极大地降低了单个说话者的差异。基于模型的识别进程将进入的数据分节成诸如音素等基础分量，然后通过与训练模型比较加上标记。在一种形式的识别器中，一旦在单个音素上加上了标记，便将该音素数据与系统词典中预存储的字比较。这一比较是通过对准进程执行的，由于不准确的音素识别以及在给定的序列中插入与删除音素而对准进程会提供不精确的匹配。这一系统是在概率基础上工作的。传统上，语音识别器将从上分节、加标记与对准进程中得出的候选字中选择最可能的字。

由于它们的最基本的本质，当前的语音识别器从预定的词典中选择候选字，从而它们只识别预定的字的集合，这产生问题，特别是在根据语音识别结果作出进一步决定的系统中。在词典中找不到的外来噪音或字的发音通常被错误地解释成在词典中能找到的字。基于这种错误识别的后续决定能导致有故障的系统性能。

为了说明这一问题，考虑一种拼读姓名的电话呼叫路由应用。用合成的话音提示来指示用户拼读应将呼叫的路由确定到他的人的姓名。如果用户遵照这些指令，语音识别器识别所发出的各字母然后便能通过将字母序列与词典对准而查找拼读出的姓名。然后系统利用在词典中找到的路由信息将呼叫的路由确定到适当的分机上。然而，如果用户首先发出外加的信息，诸如在拼读之前读出该人的姓名，识别进程高度有可能失败。这是因为识别系统期望只接收一序列发音的字母而将试图作为一个或多个字母来“识别”讲出的姓名。传统的系统简单地未装设正确地分节进入的声音数据，因为系统建立在其上面的基础模型假设数据为对系统有用或有意义的全部等价单元(说出的字母)这一先验事实。

本发明解决上述问题的方法是通过采用与综合多个文法网络来生成多组识别候选字，某些基于假设存在外加语音的模型而某些则基于不存在外加语音的模型的语音识别系统。利用两种模型的结果来作出最终识别决定，依赖各自的匹配概率值来选择最可能的候选字。

按照本发明的一个方面，使用不同的第一与第二文法网络分开处理语音数据得出语音数据的不同分节。以这一方法，系统从无用的语音中抽取有用的语音。对于各文法网络，生成多个识别候选字。转佳实施例用第一文法网络生成N最佳候选字并用第二文法网络生成M最佳候选字，其中N与M为大于1的整数并可相等。第一与第二多个识别候选字(N最佳、M最佳)是根据至少一组关于有用的语音的先验制约变换的。变换可包括，诸如，将候选字与系统所识别的拼读姓名的词典匹配。然后根据经过变换的识别候选字作出识别决定。

根据本发明的另一个方面，提供了一种处理用于字识别的语音数据的方法，包括根据第一文法模型用识别器处理所述语音数据以抽取第一多个识别候选字；根据与所述第一文件模型不同的第二文法模型用识别器处理所述语音数据以抽取第二多个识别候选字；将所述第一多个识别候选字与预定的字的词典对准以生成第一候选字表；将所述第二多个识别候选字与预定的字的所述词典对准以生成第二候选字表；从所述第一与第二候选字表建立动态文法模型；以及根据所述动态文法模型用识别器处理所述语音数据以抽取识别的字。

根据本发明的另一个方面，提供了一种处理用于拼读的姓名识别的语音数据的方法，包括：根据第一文法模型用识别器处理所述语音数据以抽取第一多个候选字母；根据第二文法模型用识别器处理所述语音数据以抽取第二多个候选字母；将所述第一多个候选字母与预定姓名的词典对准以生成第一候选姓名表；将所述第二多个识别候选字母与所述预定字词典对准以生成第二候选姓名表；从所述第一与第二候选姓名表建立动态文法模型；以及根据所述动态文法模型用识别器处理所述语音数据以抽取识别出的姓名。

根据本发明的另一个方面，提供了一种处理用于识别的语音数据的方法，包括：根据第一文法网络用识别器处理所述语音数据以按照第一语音输入标准分节与抽取第一多个识别候选字；根据第二文法网络用识别器处理所述语音数据以按照第二语音输入标准分节与抽取第二多个识别候选字；根据所述语音数据上的至少一组先验制约将所述第一与第二多个识别候选字变换成一种动态文法模型；根据所述动态文法模型作出识别决定。

根据本发明的另一个方面，提供了一种处理用于识别的语音数据的方法，包括：用得出所述语音数据的不同分节的不同的第一与第二文法网络分开处理所述语音数据以从无用的语音中抽取有用的语音；用所述第一文法网络生成第一多个识别候选字及用所述第二文法网络生成第二多个识别候选字；根据关于有用的语音的至少一组先验制约变换所述第一与第二多个识别候选字，以生成一种动态文法模型；以及根据所述动态文法模型作出识别决定。

如下面将更全面地说明的，本发明将语音数据分裂成各不相同地处理的两条或更多路径。一条路径是采用根据只提供有用的发音(如字母)的假设的第一文法网络处理的。另一条路径是用假定在有用语音之前存在外加的无用语音的不同文法网络处理的。从而不同的文法网络得出不同的数据分节。

各路径所生成的识别候选字可根据各候选字与各自的模型的匹配程度分别评分。不是为了选择带最高分的单一候选字而要求两条路径在这一阶段上进行竞争，而是将两组识别候选字保持分开。在这一阶段，识别候选字表示N最佳及M最佳字母序列假设。为了选择哪一种假设为最佳候选字，分开将两组与系统所识别的所有姓名的词典匹配。

词典实际上是关于对系统有用的语音的先验制约。从而一些字母序列假设可被评定为较少可能性，因为这些字母序列并不很好地与存储在词典中的字母序列匹配。当前的较佳实施例利用N最佳与M最佳字母序列从词典中选择N最佳与M最佳姓名。从而将来自两条路径的贡献都包含进作出决定过程中。最后，可组合N最佳与M最佳姓名组以构成应用输入发音的缩小的词典候选字集合。

这一缩小了大小的词典可用来建立从N最佳与M最佳姓名候选字构成的动态文法。这一动态文法取决于输入发音是否包含外加语音而倾向于对一组或另一组候选字有利。如果存在外加话音，设计成识别与排斥外加话音的文法网络将倾向于产生更好的识别结果，而在从N最佳与M最佳姓名候选字中构成的动态文法中将这些结果反映为更好的候选字。反之，如果不存在外加话音，另一文法网络将产生更好的识别结果，在动态文法中将其更好地反映为较好的候选字。

一旦构成了动态文法，便可用根据动态文法来抽取单个最可能的候选姓名作为识别出的姓名的识别器来处理输入语音数据。然后用识别出的姓名来访问适当的数据库以适当地选择电话呼叫的路由。

为了更完整地理解本发明、其目的与优点，可参见以下说明书及附图。

图1为采用本发明的呼叫路由选择装置的示范性系统的方框图；

图2为本发明的呼叫路由选择装置的示范性实施例的方框图；

图3为建立在拼读的姓名字母序列以有效字母开始的假设上的文法网络G1的状态图；

图4为建立在拼读的姓名字母序列以系统不能识别的外来噪音或发音开始的假设上的文法网络G2的状态图；

图5为本发明的当前较佳识别系统的详细方框图；

图6为示出不同类型的识别错误的图；

图7为示出优化PLP-RASTA滤波器系数来降低替代、删除与插入错误的曲线；

图8为示出改进的网络结构N最佳技术的图；

图9为进一步描述如何在识别的回溯阶段中执行假设生成的图；

图10用于说明本发明的系统在识别姓名WILSON时进行的工作。

下面在提示用户通过口头拼读姓名到系统中来提供呼叫路由选择信息的呼叫路由选择装置的上下文中来示出与描述本发明的原理。因此，为了帮助理解本语音识别系统，首先提供在其中采用本语音识别系统的呼叫路由选择装置的简要描述。然而应记住，本发明的语音识别系统不限于呼叫路由选择装置。而是本识别系统可在必须从无用的外来噪音或话音中抽取有用的话音的广范围的不同应用中找到用处。

系统概述及基本操作

采用连续语音识别的呼叫路由选择装置示出在适合于插接与播放连接到现有专用小交换机(PBX)开关上或用于在制造时加进PBX设备中的示范性实施例中。参见图1，PBX开关210用诸如电话线214等传统装置连接在电话网基本结构212上。在所示的实施例中为了方便起见示出了三条线路。这不是为了限制本发明，由于本发明能应用在具有更多或更少电话线的系统中。

PBX开关具有传统的设计，能将来自网络212的进入呼叫的路由确定到诸如手机216等任何选择的电话装置上。如连接手机216那样将本发明的拼读姓名识别呼叫路由器218连接在PBX开关210上的附加分机或端口上。如下面要更全面地讨论的，当前的较佳实施例通过携带话音通信量的多条线路220并通过携带使呼叫路由器能与现有的PBX系统整体地工作的控制逻辑信号的附加线路222连接在PBX开关上。

图2更详细地示出呼叫路由器218。同时示出PBX开关210及线路220与222。可用各种不同方式根据PBX系统的结构构成呼叫路由器218。在所示的实施例中，呼叫路由器具有分别连接在三条线路220上的三条独立音频通道。当然所需的通道数目将取决于电话系统的结构。这里示出了三条通道来说明系统如何为三条进入电话线214的各条上的三个主叫者同时提供拼读姓名识别。为了支持更多的主叫者，可以包含更多的音频通道或者可包含多路复用电路使通道能够共用。

各音频通道具有数字信号处理器(DSP)224及相关的模数/数模转换电路226。数字信号处理器耦合在包含存储有所有参照或姓名的数据存储器230的主处理器228上。数据存储器230可以是诸如随机存取存储器等任何适用的数字存储介质。数据存储器230存储系统所能识别的所有姓名的连续语音识别词典连同相关的电话交换机号码。如下面将更全面地说明的，本较佳实施例采用为与说话者无关的连续拼读姓名识别优化的特殊语音识别器。

同时耦合在主处理器228(或作为主处理器的一部分加入的)有呼叫转换逻辑232。这一转换逻辑连接在信号线222上并遵照PBX开关规定的通信协议与PBX开关系统通信。

在进行语音识别器的详细说明之前，呼叫路由器218的操作的简要说明可能是有帮助的。参见图1与2，当进入呼叫通过电话线214之一到达PBX开关时，它可以由人类接线员处理而不受本发明的呼叫路由器的干预。然而，如果人类接线员不能处理该呼叫(例如，呼叫在没有人类接线员的正常上班时间以后进入)，便将PBX开关编程为将呼叫转送给呼叫路由器218。开关根据在线路222上发送的转换指令，通过简单地将该呼叫分配给呼叫路由器的音频通道之一(线路220之一)来做到这一点。如果想要，可将PBX开关编程为在第一条线路忙时跳到路由器218内的不同音频通道上的不同信号线上。完成了这一操作之后，进入呼叫现在与DSP处理器224中选定的一个进行通信。处理器向进入主叫人提供所需要的话音提示(请求主叫人拼读所希望的人的姓名，并且它还处理主叫人的拼读的姓名应答。下面描述DSP处理器224使用的语音识别算法的细节。

作为识别进程的一部分，DSP处理器224从主机下载共享的语音识别资源的拷贝，即反映所有参照姓名及它们的相关电话分机号的数据。采用实时识别的N最佳策略的DSP实现的语音识别器从数据存储器230中选择最可能的候选字。利用DSP处理提供语音合成信号或播放再生所选择的人姓名的预录制的音频信号而将这一候选姓名说回给主叫人。然后要求主叫人应答“是”或“否”，表示候选名字是否正确。如果是，主处理器228便用呼叫转换逻辑232指令PBX开关将呼叫从线路220之一传送到选中的一个手机216。出现了这一转换之后，呼叫路由器的音频通道便又一次空闲来处理新进入的呼叫。

较佳语音识别处理的细节

当前较佳的语音识别系统可看作是多遍过程，只有在前面的(对准)遍并不产生单个识别的姓名作为输出时才使用最后一遍。第一与最后的遍采用隐藏的Markov模型识别，而对准遍采用与词典的动态编程对准。如下面要全面讨论的，第一遍(隐藏的Markov模型识别)本身分成多条并行子路径。图5中示出了第一、第二与第三遍。注意第一遍分叉通过分开的隐藏Markov模型识别框26a与26b。

所示的实施例是设计成识别包含通过主叫人的电话手机10作为输入提供给识别系统的一序列字母的连续拼读的姓名的。为了示出有用与无用输入的例子，示出了两个手机10。进入一个手机，主叫人通过提供字母序列：H-A-N-S-O-N正确地使用本系统。进入另一手机，主叫人通过说出姓名然后跟随字母序列：“Hanson”H-A-N-S-O-N，不正确地使用本系统。如下面要描述的，系统是设计成接纳正确使用与不正确使用两者的，得出更强有力的识别系统。

总的示出在12上的识别系统包含总的示出在13上的姓名检索系统。如将要讨论的，姓名检索系统具有构成表示在姓名词典中找到的项的选择的子集的动态文法的能力。动态文法用在在第二遍中不能完成识别而处理进行到第三遍的事件中。

可将输入字母序列馈送给适当的语音分析模块14。这一模块执行设计成降低替代、删除与插入错误数目的前端优化。在连续地拼读的姓名中的替代错误是用不正确的字母替代正确的字母。图6在16与18处示出在拼读姓名JOHNSON的识别中产生的替代错误的示例。删除错误是从连续拼读的姓名中省略一个或多个字母。这示出在图6中20处。插入错误是在连续地拼读的姓名中包含进去原来未发出声音的额外字母。插入错误的例子示出在图6中22与24处。

语音分析模块14是设计成在数字化的语音数据上操作的。从而如果采用的是模拟语音输入系统，应首先将模拟信号数字化。这可以用包含在语音分析模块14中的适当模数电路来完成。

当前较佳语音分析模块利用8阶PLP-RASTA过程来补偿通信信道的影响。有关PLP-RASTA补偿的更多信息，见H.Hermansky、N.Morgan、A.Bayya及P.Kohn，EUROSPEECH′91，1367-1370页，1991。当前较佳实施例采用10毫秒帧位移与20毫秒分析窗。将RASTA滤波器系数优化成减少替代、删除与插入错误的数目。将最佳滤波器系数平衡选择为0.90的值。

在确定优化的RASTA滤波器系数中，将能量、能量的一阶导数与静态对数倒频谱系数C1至C8(在7帧上计算的)的一阶导数交替代与静态对数倒频谱系数组合以构成语音参量表示(共18个系数)。图7示出减少替代、删除与插入错误的数目的优化RASTA滤波器系数。在这一图中，PLP-RASTA代表能量、能量的一阶导数、静态对数倒频谱系数与静态对数倒频谱系数的一阶导数的组合。

虽然PLP-RASTA优化是当前较佳的，但也可使用其它形式的优化。例如，也可替代地采用mel(音调单位)频率对数倒频谱系数(MFCC)分析。采用14阶MFCC分析能获得适当的结果。对于MFCC分析，用16毫秒的帧移位与32毫秒的分析窗计算11个静态对数倒频谱系数(包含C0)。

利用不同的特征集可得到不同的识别精度。这些特征集可包含分开的与组合的静态特征及动态特征。为了说明本发明中使用的参数化的坚固性，使用了纯净的及经过滤波的数据。为了在当前较佳实施例中得出测试集的滤波数据，使用了失真滤波器并滤波测试数据来人为地建立训练集与测试集之间的失配。这一方面，见H.Murveit、J.Butzberger与M.Weintraub的Darpa“Workshop Speech and NaturalLanguage”(“研究室语音与自然语言”)280-284页，1992年2月。

返回到图5，将语音分析模块14的输出分裂成两路，一路与隐藏的Markov模型识别框26a关联及一路与隐藏的Markov模型识别框26b关联。识别框26a用示意性地描绘在28a处的预定义字母文法G1工作。识别26b用示意性地描绘在28b处的不同字母文法G2工作。这些不同的字母文法是分别作为图3与4中所示的文法网络构成的。这些文法为包含与各可能字母关联的节点及哪些节点到节点的转移是可能的图。这两种文法都包含静默节点后面跟着字母环路，其中任何字母都可以跟随任何字母。图3的文法G1从静默(sil)节点50开始，转移到单个开始字母A、B、C…。图4中所描绘的文法G2从填充物节点52开始以表示拼读前说出的外加话音或噪音。填充物节点转移到静默节点52然后到与G1一样的单个字母节点。在当前较佳实施例中，识别框26a与26b是采用Viterbi解码的帧同步的、一阶、连续密度隐藏的Markov模识别器。

当前较佳实施例采用产生N最佳或M最佳假设(不是单个假设)的经过修改的Viterbi解码器。通常Viterbi解码器是设计成根据HMM模型与测试发音之间的匹配的概率只提供最佳假设的。修改这一标准viterbi解码器供在本发明中使用，从而它根据HMM模型与测试发音之间的匹配的最高概率提供N最佳或M最佳假设。识别框26a与26b各生成它们自己的N最佳或M最佳假设。如果想要，这两个识别框不一定生成相同数目的假设，然而在较佳实施例中采用了相同的数目(例如，N＝M＝10)。从而在图5中，识别框26a产生N最佳假设而识别框26b产生M最佳假设。如上所述，符号N与M可以是大于1的任何整数。为整数N与M选择的精确值可取决于处理器速度及存储器大小。下面将更全面地讨论生成N最佳(或M最佳)候选字母的技术。可以理解，两种情况中生成N最佳(或M最佳)假设的技术是基本上相同的。

在26a与26b上使用的隐藏Markov模型设置有束搜索能力，这一能力设计成限制搜索空间，因此识别器将更快地处理进入的语音、隐藏Markov模型识别器产生表示输入语音与参照语音之间匹配的似然性的分数。没有束搜索机制，识别器在搜索过程中必须为各帧上所有可能路径评分。有了束搜索，识别器只须考虑其分数偏离最佳分数不大于束宽度的量的那些路径即可。不是搜索整个搜索空间而实现束搜索，从而删除了较少可能性的搜索路径，使得只返回最佳假设。

然后将从识别器26a与26b得出的N最佳(或M最佳)假设分别传递给动态编程(DP)对准模块38a与38b。动态编程对准模块能访问对照它比较N最佳(或M最佳)假设的相关姓名词典39。利用动态编程来计入插入、替代与删除错误。

在一些情况中，动态编程对准的结果将产生不带其它候选字的单个姓名。决策策略模块40检测到它并在从DP对准中只得出一个候选姓名时便提供这一识别出的姓名作为输出。在大多数情况中，并不得出单一候选姓名，在这一情况中，决策策略模块便将N最佳与M最佳假设传递给模块42供建立动态文法。

模块42利用DP对准模块提供的N最佳与M最佳候选姓名建立文法。然后调用高度制约的识别器44用动态文法42评价N最佳与M最佳候选姓名。识别器44也可以是隐藏的Markov模型识别器。即使高度制约的，由于动态文法是小的并由于不需要重新计算参数表示(在14中计算的)，数据通过这一识别器并不费时。如果希望，可在识别器26a与26b或识别器44的输出上应用神经网络鉴别器。

图10中的清单示出本发明的系统在识别拼读的姓名WILSON中如何工作。在该清单中指名为[第一遍]的段示出两种文法所生成的所有假设。其中没有一个是姓名WILSON。

在标记为[DP对准]的段中，列出了最高候选姓名：包含在这一清单中的有姓名WILSON(10个中的候选姓名1)。

在标记为[代价高的制约遍]中，只将输入发音与DP对准中选择的候选姓名比较。在这一情况中，识别器正确地检测出姓名WILSON。

N最佳处理技术

N最佳或M最佳候选姓名是用N最佳选择算法选择的。关于这一技术的细节，见R.Schwartz与Steve Austin的“N最佳搜索的高效、高性能算法”，语音识别DARPA讨论会，6-11页，1990。在语音识别中，将进入的语音数据分成时帧并在逐帧基础上分析。对于任何给定的发音，可以有若干种假设。当前较佳的N最佳(或M最佳)算法只根据前一个字母而不根据前一个字母再以前的字母来选择字母的最佳起始时间。随着说出与分析各字母，隐藏的Markov模型识别器为各模型生成概率分数。因为本系统的目的为最终选择最可能的字母序列，本系统存储表示字母的可能拼读组合的多条路径。

为了使系统作为实时识别器工作得更好，实现了两个不同级别的数据删除。两个级别上的删除技术都包含将给定假设的概率对概率阈值进行比较。如果给定路径的概率在阈值以下，便将其丢弃。更具体地，删除发生在局部级与全程级上。局部级删除包含丢弃表示在字母级上低概率匹配的路径；而全程删除则包含丢弃表示从发音开始到找到的最后一个字母的低概率匹配的路径。从而，在拼读姓名结束时，执行递归回溯来抽取N最佳(或M最佳)姓名假设。在执行回溯操作时，局部与全程删除已减少了分析所需的存储器空间的大小。

除了局部与全程删除，当前较佳系统也可采用自适应阈值，从而随着系统的运行自动调节删除阈值。

在可能混淆的字的情况中，识别器使用状态结束帮助集焦在字的鉴别部分上及减少估计的参数的数目。结合的字母为(m、n)、(i、r)、(p、t)与(b、d)。在当前较佳实施例中，除外字母W的所有字母都是用6状态HMM模型表示的。字母W是用12状态HMM模型表示的而静默模型则用一种状态表示。取决于字母如何可以混淆，字母模型具有不同数目的高斯密度。“E集”字母：b，c，d，e，g，p，t，v与z以及字母m，n，s与f全部用6种高斯密度建模，而其余字母则用三种高斯密度建模。

图8示出用于执行N最佳(或M最佳)假设分析的另一当前较佳技术。这里称作格子N最佳技术，该过程在各帧上计算各文法节点的似然性并保存进入该节点的最佳响应。然后连同该假设成立的帧数存储概率。从而该技术保持N最佳(或M最佳)假设并将最佳的一种传播通过节点，所有其它的假设则由最大似然路径归类。

viterbi前向算法计算各状态的概率。这是在输入缓冲器中的所有数据上逐帧进行的，将这些概率存储在状态数据结构中。当前较佳格子N最佳技术为产生N最佳(或M最佳)候选姓名的修改的Viterbi算法，但在下一个模型中只传播最大似然性。从而在各帧上，该例程计算各文法节点的似然性，然后保存进入该节点的最佳响应。

参见图8，其中描绘了网络节点n。三种假设W₁、W₂与W₃进入节点n。在这些假设中只将最大似然性(最高概率)向前带。从而节点n根据来自节点n的最大似然性生成下一个字假设W_j、W_k与W_l。Viterbi前向算法存储概率、持续时间(当前假设成立的帧数)及指向生成该特定网络节点的各假设的指针。在分析状态数据结构中的概率数据时，回溯算法利用这一信息。

可参照图9理解回溯算法。当前较佳回溯算法将所有N最佳结束节点按优先次序排列到优先级队列中，作为垂直列28示出在图9中。如果例如在第一遍中在最后一帧中传播了十种假设(N＝10)，则在优先级队列28中将有10个结束节点(n₁，n₂，…n₁₀)。以递降次序排序结束节点，使得队列中的第一个结束节点表示带有最好概率分的节点。

在图9中为了示例目的假定节点n₁为最高分节点。通过回溯一步定位生成该给定节点n₁的假设(W₁、W₂或W₃)而扩充该节点。依次标识这一假设使回溯例程能标识生成所标识的假设的节点。在图9中，如果假设W₂负责生成节点n₁，则通过回溯标识节点n_b。然后在优先级队列28中某些位置上用节点n_b替代节点n₁。替代后，优先级队列保持按降序排序。如果新替代的节点n_b正好具有最高分，则它将占据以前由节点n₁占据的位置。当然，优先级队列中的其它节点之一也可能具有比新代入的节点n_b高的分数。在这一情况中，在下一个回溯操作中将使用最高分节点而不是新代入的节点n_b。

以上述方式进行回溯直到在回溯中遇到起始节点(对应于语音的第一帧的节点)为止。到达起始节点时便找到了一种假设。随着回溯的进行，回溯算法保存遇到的各个符号。可将这些符号作为串保存，在相反的次序上向后读时生成最可能的候选姓名。

图9示出了存在N最佳假设(N＝10)时的一般情况。

从上文中可以理解，本发明的呼叫路由选择装置很好地适用于插接兼容连接到实际上任何办公室电话网或PBX系统上。路由选择装置采用完善的与说话人无关的连续语音识别技术，该技术允许进入主叫人拼读受话人的姓名，而系统自动地确定所要求的受话人的正确电话分机；并使现有的电话网或PBX系统将进入主叫人连接到受话人的分机上。本发明消除了通过麻烦的按键命令与电话网通信的要求，使系统很好地适合于视力不良者。本语音识别技术是高度灵活的：进入主叫人可用他们自己的自然说话速率拼读，而在主叫人停止讲话后系统自动提示用户确认选择的姓名。如果进入主叫人短暂停止然后继续拼读，系统将自动恢复语音识别。即使在噪杂的电话信道上，多遍语音识别过程也能很好地执行。过程在遍之间传播N最佳假设，并将更费计算力的过程推迟到最后一遍，此时可能的姓名的候选表已大为缩小了。作为N最佳多遍识别进程的效果，本发明能用低成本DSP电路实现。

虽然已以其当前较佳形式描述了本发明，应理解可以不脱离所附权利要求书的精神作出一定的修改。从而，例如可以设想不同的配置来与不同类型的当今的与将来的电话系统连接，既包含模拟系统又包含数字系统。

Claims

1.一种处理用于字识别的语音数据的方法，包括

根据第一文法模型用识别器处理所述语音数据以抽取第一多个识别候选字；

根据与所述第一文件模型不同的第二文法模型用识别器处理所述语音数据以抽取第二多个识别候选字；

将所述第一多个识别候选字与预定的字的词典对准以生成第一候选字表；

将所述第二多个识别候选字与预定的字的所述词典对准以生成第二候选字表；

从所述第一与第二候选字表建立动态文法模型；以及

根据所述动态文法模型用识别器处理所述语音数据以抽取识别的字。

2.权利要求1的方法，其中所述第一与第二文法模型为包含多个互连的字母模型的网络模型。

3.权利要求2的方法，其中所述字母模型是用隐藏的Markov模型表示的。

4.权利要求2的方法，其中所述第二文法模型至少包含一个填充物模型来表示未由所述字母模型定义的发音。

5.权利要求1的方法，其中所述第一与第二文法模型为包含多个互连的字母模型的网络模型，及所述第二文法模型至少包含一个表示未由所述字母模型定义的发音的填充物模型及一个表示所述语音数据中的暂停的静默模型。

6.权利要求1的方法，其中所述第二文法模型定义字母标出文法。

7.权利要求1的方法，其中所述第一与第二文法模型包括多个不同节点及其中所述第一与第二多个识别候选字是用按照所述语音数据如何紧密匹配所述节点评分所述节点的识别进程抽取的；以及

其中所述第一与第二多个识别候选字是通过选择评分为具有与所述语音数据最紧密的匹配的那些节点而抽取的。

8.权利要求1的方法，其中所述第二文法模型至少包括一个表示噪音的节点。

9.权利要求1的方法，还包括用所述识别出的字来选择电话呼叫的路由。

10.一种处理用于拼读的姓名识别的语音数据的方法，包括：

根据第一文法模型用识别器处理所述语音数据以抽取第一多个候选字母；

根据第二文法模型用识别器处理所述语音数据以抽取第二多个候选字母；

将所述第一多个候选字母与预定姓名的词典对准以生成第一候选姓名表；

将所述第二多个识别候选字母与所述预定字词典对准以生成第二候选姓名表；

从所述第一与第二候选姓名表建立动态文法模型；以及

根据所述动态文法模型用识别器处理所述语音数据以抽取识别出的姓名。

11.权利要求10的方法，其中所述第一与第二文法模型是不同的。

12.权利要求10的方法，其中所述第一与第二文法模型为包含多个互连字母模型的网络模型。

13.权利要求12的方法，其中所述字母模型为用隐藏Markov模型表示的。

14.权利要求10的方法，其中所述第一与第二文法模型为包含多个互连字母模型的网络模型，而所述第二文法模型至少包含一个填充物模型来表示未由所述字母模型定义的发音。

15.权利要求10的方法，其中所述第一与第二文法模型为包含多个互连字母模型的网络模型，及所述第二文法模型至少包含一个表示未由所述字母模型定义的发音的填充物模型及一个表示所述语音数据中的暂停的静默模型。

16.权利要求10的方法，其中所述第二文法模型定义字母标出文法。

17.权利要求10的方法，其中所述第一与第二文法模型包含多个不同节点，及其中所述第一与第二多个识别候选字是由按照所述语音数据如何紧密匹配所述节点评分所述节点的识别进程抽取的；以及

18.权利要求17的方法，其中所述第二文法模型包括至少一个节点用于表示噪音。

19.权利要求10的方法，还包括用所述识别出的字来选择电话呼叫的路由。

20.一种处理用于识别的语音数据的方法，包括：

根据第一文法网络用识别器处理所述语音数据以按照第一语音输入标准分节与抽取第一多个识别候选字；

根据第二文法网络用识别器处理所述语音数据以按照第二语音输入标准分节与抽取第二多个识别候选字；

根据所述语音数据上的至少一组先验制约将所述第一与第二多个识别候选字变换成一种动态文法模型；

根据所述动态文法模型作出识别决定。

21.一种处理用于识别的语音数据的方法，包括：

用得出所述语音数据的不同分节的不同的第一与第二文法网络分开处理所述语音数据以从无用的语音中抽取有用的语音；

用所述第一文法网络生成第一多个识别候选字及用所述第二文法网络生成第二多个识别候选字；

根据关于有用的语音的至少一组先验制约变换所述第一与第二多个识别候选字，以生成一种动态文法模型；以及

根据所述动态文法模型作出识别决定。