CN1058097C

CN1058097C - 连续语音识别

Info

Publication number: CN1058097C
Application number: CN94191651A
Authority: CN
Inventors: 塞缪尔·加文·史密斯; 西蒙·帕特里克·亚历山大·林兰
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1993-03-31
Filing date: 1994-03-31
Publication date: 2000-11-01
Anticipated expiration: 2014-03-31
Also published as: NO953894D0; KR100312920B1; US5819222A; CA2157496C; JPH08508583A; NO953894L; CN1120371A; EP0695453A1; NZ263230A; EP0695453B1; FI954573A0; DE69421077D1; SG50489A1; KR960702144A; AU6383694A; WO1994023425A1; FI954573A; DE69421077T2; CA2157496A1; AU672895B2

Abstract

一种用于识别连续语音的语音识别系统，具有多个词汇节点(3511)，至少其中之一具有一个关联的标记。在使用中，在介于识别路径的起点与终点之间的判定节点(3512)上检验部分识别路径，各判定节点具有一组关联的有效累积标记。只有在一个令牌的累积标记是与该判定节点相关联的有效累积标记组中的标记之一时，该判定节点所接收的令牌才被传播。

Description

连续语音识别

本发明涉及连续语音识别并且具体地涉及用于将文法约束应用在连续语音识别上的方法与装置。本发明在任务约束的连续单词识别领域内特别受到关注，其中的任务可以是诸如识别一组帐号或产品码中之一。

在语音识别处理中通常将数字形式的语音数据输入到所谓的前端处理器中，该处理器从输入语音数据流中导出称作前端特征集或矢量的一组更紧致、感觉上有意义的数据组。例如，通常通过麦克风输入语音，抽样、数字化、切分成长度为10-20ms的帧(诸如在8kHz上抽样)，以及为各帧计算一组系数。在语音识别中，通常假定发言者说出一组单词或短语之一。称作样板或模型的单词或短语的一种存储的表示包括该字的一个对比特征矩阵，在发言者无关识别的情况中是事先从多名发言者提取的。将输入的特征矢量与模型匹配，从中产生两者之间的相似性的一个测度。

语音识别(无论人类或机器)是容易产生错误及可能得出单词的误识别的。如果不正确地识别了一个单词或短语，语音识别器可提供另一次识别尝试，它可以是正确的也可以是不正确的。

已经提出过各种处理语音来选择输入语音与存储的语音样板或模型之间的最佳备选匹配的方法。在孤立单词识别系统中，备选匹配的产生是相当简单明了的：各单词是在表示要识别的单词的一个转移网络中的一条独立“路径”，这些独立的单词路径只在网络中的终点上连接。按照它们对存储的样板之类的相似性将离开网络的所有路径排序可以给出最佳及备选的匹配。

然而，在大多数连续识别系统及某些基于连续识别技术的孤立单词识别系统中，并不总是可能在该网络的终点上重新组合所有的路径的，因此，从网络的出口点上所能得到的信息中即不可能直接得出最佳的也不可能得出备选的匹配。在S.J.Young，N.H.Russell与J.H.S.Thornton)的“令牌传递：连续语音识别系统的一种简单概念模型”(剑桥大学工程系，1989)中讨论了产生最佳匹配问题的一种解法，其中涉及到通过设计成表示期望的输入语音的一个转移网络传递称作令牌的信息包。通用术语“网络”包括有向非循环图(DAG)与树。一个DAG是没有环的一个网络，而一棵树则是路径的唯一交汇点在概念上直接出现在网络的终点上的一个网络。一个令牌包含有关通过的部分路径以及表示输入语音与直到此时为止处理过的网络部分之间的相似程度的累计得分的信息。

如young等人所描述的，在每次将一帧语音输入到一个转移网络时，便将存在于一个节点的输入端上的任何令牌传递进该节点并将当前语音帧在与这些节点相关的单词模型内进行匹配。在各节点的输出端上，发出带有更新后的部分路径信息及得分的一个令牌(该令牌已“行进”通过与该节点相关联的模型)。如果提交给一个节点的有一个以上的令牌，只有最佳得分的令牌通过网络向前传播。当已经(由诸如暂停检测器等外部设备)发信号通知语音结束时，将在最终节点上出现一个第一令牌。从该令牌中能够通过利用包含在令牌内的部分路径信息沿路径回溯而提取通过网络的整个路径，以提供对输入语音的最佳匹配。

有可能构造一个枚举所有的单词序列的一个网络，多半是以树的形式。虽然这是相对简单明了地构成的，但随着识别任务大小的增长而变得成问题了。例如，表示250,000个7位序列的一个树网络可能有一百万个节点。如果每一个节点占用50个字节的存储器，该网络将占用50兆字节。虽然这一网络的计算需要量能够通过在任一时刻上只维持它的一小部分活跃而加以抑制，但存储网络的拓扑所需的存储量保持不变。另一种选择是在需要时动态地建立网络，但这本身将强加可观的计算负担。

本发明目的在于提供一种新的用于将文法约束应用在连续语音识别上的方法与装置。

按照本发明提供了一种语音识别器，包括：

用于构成所期望的输入语音的模型的一个网络，该网络具有多个用于处理输入语音的词汇节点，各词汇节点至少与一个单词表示模型相关联，该模型的操作为生成一个指示输入语音与认为识别了的语音之间的相似程度的第一参数；

用于比较来自不同单词表示模型的第一参数的比较装置，并且根据这一比较用于确定要通过网络传播的参数；以及

用于在网络的一个输出端上确定具有最高相似程度的参数及认为识别了的输入语音的装置；

其特征在于提供了用于将一个标记分配给至少一个词汇节点的装置；

在于提供了用于将各第一参数与一个表示通过该网络的一条路径的累积标记的一个第二参数相关联的装置；

以及在于提供了确认装置，用于确认与一个第一参数相关联的第二参数包含在第二参数的一个有效集合中，只在相关的第二参数为有效的第二参数集合中的一个时，第一参数才通过网络传播。

这一系统以一个非常小的网络取代一个完全的树网络。如果考虑上面相对于先有技术所描述的同一实例，用于该网络的存储量需求可能少于2兆字节，这是可观的节省。

原则上这一技术可应用于能够利用树型文法实现的任何识别。然而，第二参数的规模以及它能被检验的速度很可能形成实践中的限制因素。

这里的名词“单词”表示一个基本识别单位，它可以是一个单词，但同样可以是一个双音、音素、音素变体等。字表示模型可以是隐Markov模型(HMM)、样板或者其它任何适用的单词表示模型。模型内的处理与本发明无关。识别是将一个未知的发音与一个预定义的转移网络的匹配过程，该网络是设计成与一位用户可能要说的一致的。

只传播具有有效的相关第二参数的那些第一参数不能保证最佳的识别精度，这正是未修剪的树网络的情况。本发明应用若干瓶颈来限制任何时刻活跃的路径数目，使它与一个修剪得非常厉害的树网络相当，并且在有充分的可利用的处理能力的情况中，网络的存储量需求的降低是以精度为代价得到的(从92％下降到89％％)。另一方面，当可利用的处理能力有限时，则按照本发明的一个系统可提供降低了的存储器需求及提高了的精度。

识别结果的精度可以通过将网络扩展成处理多条其它的路径而得到改善。这最好是由网络中具有一个以上相同的关联的单词模型的词汇节点中至少一个做到的，如我们在1994年3月31日提交的名为“语音处理”(从欧洲专利申请号93302538.9与93304993.4提出优先权要求)的共同未决国际申请中所描述的，通过这一引用结合在此。这允许识别系统同时处理多条路径，因此允许从各帧输入语音中得出一个以上的识别结果。具有一个有效累积标记的最高得分路径可由一个节点上的第一模型处理，次高得分的由第二模型，以此类推直到用完并行的模型或进入的路径为止。

累积标记可用来标识完整的路径，而得到额外的操作效率，这是由于无须往返移动令牌来确定路径本体。在这一情况中，累积标记必须大到足以唯一地标识所有路径。

为了使按照本发明的系统能高效地操作，路径标记的信号处理最好是在一次单一的操作中进行的，借此提高处理速度。

本发明的其它方面与较佳实施例如这里所公开与要求的，其优点在此后将是显而易见的。

下面参照附图只以示例的方式进一步描述本发明，附图中：

图1示意性地示出按照本发明的识别系统在远程通信环境中的应用；

图2为示意性地展示按照本发明的一个实施例的识别处理器的功能元件的方框图；

图3为示意性地表示构成图2的一部分的分选器的部件的方框图；

图4为示意性地展示构成图2的实施例的一部分的序列句法分析器的结构的方框图；

图5示意性地示出构成图5的一部分的存储器内的一个字段的内含；

图6为可应用于图4的序列句法分析器的处理器的一个识别网络的一个实施例的示意图；

图7为可应用于图4的序列句法分析器的处理器的一个识别网络的第二实施例的示意图；

图8为展示按照本发明的语音识别系统与一个先有系统比较的相对性能曲线。

参见图1，包含语音识别的一个远程通信系统通常包括：一个麦克风1，通常构成电话手机的一个部分；一个远程通信网络(通常为一个公共远程通信交换网(PSTN)2；一个识别处理器3，连接成接收来自网络2的一个话音信号；以及一个应用装置4，连接在识别处理器3上并配置成从其中接收一个话音识别信号，该信号指示识别了一个特定的单词或短语与否，以及根据它来采取行动。例如，该应用装置4可以是一个用于进行银行事务的远程操作的银行业务终端。

在许多情况中，应用装置4将对发言者生成一个声音应答，并通过网络2传输到通常构成用户手机的一个部分的扬声器5。

操作中，一位发言者向麦克风1讲话，而一个模拟语音信号则从麦克风1传输进网络2到达识别处理器3，在那里对语音信号进行分析，及生成一个指示是否识别了一个特定的单词或短语的信号并将其传输到应用装置4，然后在识别了该语音的情况中后者采取适当的行动。

通常，识别处理器3需要获得有关与之对比来验证语音信号的语音数据，而这一数据采集可由识别处理器在第二操作模式中执行，在该模式中，识别处理器3不连接地应用装置4上，但是从麦克风1接收一个语音信号来构成该单词或短语的识别数据。然而，其它获得语音识别数据的方法也是可能的。

通常，识别处理器3并不知道来自麦克风1的信号去往与通过网络2所取的路由；可以使用各式各样类型与质量的接收机手机中的任何一种。同样，在网络2内部，可以采用各式各样传输路径中的任何一种，包括无线电链路、模拟与数字路径等。相应地，到达识别处理器3的语音信号Y对应于在麦克风1上接收的语音信号S，其中卷绕有麦克风1，对网络2的链路、通过网络2的信道、以及到识别处理器3的链路的传递特性，可将它们集中并由一个单一的传递特征H来指定。

参见图2，识别处理器3包括一个输入端31用于接收数字形式的语音(来自一个数字网络或来自一个模数转换器)；一个帧处理器32，用于将接连的数字样本划分成连接的邻接样本的帧；一个特征提取器33，用于从一帧样本中生成一个对应的特征矢量；一个分选器34，接收接连的特征矢量并以多个模型状态在各个矢量上操作，以生成识别结果；一个结束指示器36，用于通过检测语音的结束或者经过一段称作“暂停”的沉默之后确定语音结束；一个定序器35，配置成接收来自分选器34的分选结果及确定与分选器的输出序列对其表示最大相似性的预定的发音；以及一个输出端口38，在其上提供指示识别的语音发音的一个识别信号。帧生成器32

帧生成器32配置成以诸如每秒8,000个样本的速率接收语音样本，并以每16ms一帧的帧速率构成包含256个邻接样本的帧。最好，各帧是采用诸如Hamming窗口开成窗口的(即帧边沿附近的样本是乘以一个预定的加权常数的)以减少由帧边沿生成的虚假人工产物。在一个较佳实施例中，帧是重叠的(诸如重叠50％)以便改善窗口的效果。特征提取器33

特征提取器33接收来自帧生成器32的帧并在各种情况中生成一组特征矢量。特征中可包括诸如逆谱系数(例如，chollet与Gagnoulet“关于采用对比系统的语音识别及数据库的评价”(1982 IEEE学报2026页)中所描述的LPC逆谱系统或唛耳频率逆谱系数)，或者这些系数的差分值，其中对于每一个系数包括该系数与前面的矢量中的对应系数值之间的差，如在soong与Rosenberg的“关于在发言者识别采用瞬时与过渡频谱信息”，1988年IEEE声学学报，语音与信号处理卷36，第6,871页，中所描述的。同样，也可采用若干种特征数的混合。

最后，特征提取器33输出一个帧号，每一个后续的帧的号增加1。

帧生成器32与特征提取器33在这一实施例中是由一个单一的适当地编程的数字信号处理器(DSP)设备(诸如摩托罗拉DSP56000或德克萨斯仪器公司TMS C 320)或类似的设备提供。分选器34

参见图3，在本实施例中，分选器34包括一个分选处理器341及下一个状态存储器342。

状态存储器342包括状态字段3421，3422…，用于多种语音状态中的每一种。例如，识别处理器要识别的各音素变体包括三种状态，从而在状态存储器342中为各音素变体提供了三个状态字段。

分选处理器34配置成轮流读取存储器342内的各状态字段，并使用当前输入特征系数组为各状态字段计算输入特征集或矢量与对应的状态相对应概率。

相应地分选处理器的输出为多个状态概率P，一种概率对应状态存储器342中的每一种状态，指明输入特征矢量与各种状态相对应的似然性。

分选处理器341可以是一个适当地编程的数字信号处理(DSP)设备，尤其可能是与特征提取器33相同的数字信号处理设备。定序器35

参见图4，本实施例中的定序器35包括一个状态序列存储器352、一个句法分析处理器351及一个定序器输出缓冲器354。

还设置了一个状态概率存储器353，用于为各经过处理的帧存储分选处理器341输出的状态概率，状态序列存储器352包括多个状态序列字段3521，3522， …，各对应于由一个音素体构成的要识别的单词或短语序列。

状态序列存储器352中的各状态序列包括如图5中所示的若干状态P1，P2，…PN(其中N为3的倍数)，以及对每种状态的两种概率：一个重复概率(Pi1)及到下一种状态的一个过渡概率(Pi2)。序列中的状态为三种各与一个单一的音素体相关的状态的多个组。因此，观测到的与一系列帧相关联的状态序列可包括各种状态序列模型3521等中的各状态Pi的若干次重复，例如：帧号1 2 3 4 5 6 7 8 9 … Z Z+1状态P1 P1 P1 P2 P2 P2 P2 P2 P2 ... Pn Pn

句法分析处理器351配置成在各帧上读取分选处理器341输出的状态概率，及前面存储在状态概率存储器353中的状态概率，并计算时间上到为止的最可能的状态路径，以及将其与存储在状态序列存储器352中的各状态序列进行比较。

计算采用以上引用的Cox论文中所讨论的著名的隐Markov模型法(HMM)。句法分析处理器351执行的HMM处理方便地利用著名的Viterbi算法。句法分析处理器351可以是诸如Interi-486(商标)微处理器或Motorola(商标)68000微处理器之类的微处理器，也可以是一个DSP设备(例如，与用作前面任何一个处理器相同的DSP设备)。

相应地对于各状态序列(对应于要识别的一个单词、短语或其它语音序列)，句法分析处理器351在各输入语音帧上输出一个概率得分。例如状态序到可包括电话簿中的姓名。当检测到发音结束时，从句法分析处理器351向输出端口38输出一个表示最可能的状态序列的标签信号a来指示已识别出的对应姓名、单词或短语。

句法分析处理器351包括一个专门配置用来识别诸如数字串等特定短语或单词的网络。

图6表示配置成识别三位数字串的句法分析处理器351的网络的一个实施例。灰色节点3510为网络中的空节点；白色节点为活跃的节点，它们可分成带有用环3515表示的用于匹配进入的语音的相关单词表示模型的词汇节点3511、表示随机噪声的噪声节点3517以及判定节点3512。一个判定节点3512在这里定义为网络中具有来自前面的词汇节点的一条以上的进入路径的节点。

分配给各词汇节点3511一个标记，例如分配给表示数字1的节点3511’一个标记“1”，分配给表示数字2的节点3511”一个标记“2”，等等。各判定节点3512具有一个相关的有效标记组。当令牌通过模型时，将与各令牌相关的累积标记修正成反映通过网络延伸的路径。一个标记累积函数可采取许多形式，但受到这样的约束，即对于被认为在识别的输出方面不同的径路，它必须提供唯一的累积标记。下面给出一个示例性标记累积函数：

Sout＝Sin×M+m

So＝0其中：

Sout＝通过节点后的累积标记

Sin＝输入该节点的累积标记

So＝来自起始节点的初始累积标记

M＝不同的词汇模型的数目(例如对于数字0-9为10)

m＝当前词汇节点的标记

按照这一标记累积函数，对于多达九个单词的一个序列，出现在配置成识别多达九个单词的一个网络的输出节点上的一个累积标记的范围因而可以从000000000至999999999。从而累积标记最多需要32位。

确认标记的附加成本是非常低的。对于七位数字的序列而言，使用大约100,000个标记的表上的二分搜索只增加2％的整体处理需求量。

在句法分析开始时，将一个单一的空令牌传递给一个网络入口节点3513。由于这是一个空节点，令牌便进入下一个节点，噪声节点3517。输入帧在这一节点的噪声模型(未示出)中进行匹配并在输出端上生成一个更新的令牌。然后将这一令牌传递到下一个活跃节点，即各有一个用环3515指示的相关单词模型的第一组词汇节点3516a。第一组词汇节点3516a的各词汇节点3511在其相关的单词模型3515中处理该帧语音并生成一个更新的令牌。在各时间帧的结束处，将更新的令牌提交给第一判定节点3512’。该网络的判定节点是与一组有效标记相关联的，并且只在提交具有这些标记之一的一个标记时，才由这样一“约束”节点传播一条路径。

例如，假设图6的网络限制在只识别下述四个数目：111、112、121、211。为了做到这一点，检验进入诸如第一判定节点3512’这样的一个约束节点的令牌的标记。如果一个令牌的标记为1或2，便将这一最高得分令牌传播到下一个节点上。否则，丢弃该令牌并且路径不再延伸。下一个约束节点便是第二组词汇节点3516b后面的判定节点3512”。这一空节点受到约束只传播具有标记11、12或21的标记的令牌。第三组词汇节点3516c之后的判定节点3512”受到约束只传播具有标记111、112、121或211的令牌。这种配置显著地减少了必要的处理，并且能够节省装置的存储器容量。在实践中，对于高达9位数字的序列，32位标记已证明是合适的。对于12个字符的字母数字串，64位的标记表现为合适的。

应当明白，令牌的标记经过空节点3510或噪声节点3517处理之后并不更新，因为并没有分配标记给这些节点。

令牌沿通过其余活跃节点的路径传播，而在一个输出节点3514上生成一个表示通过网络所取的路径的得分与累积标记的令牌，诸如121。这一令牌受到不断的更新直到一个结束指示器36确定了语音的结束。此时，检验输出节点3514上的令牌的部分路径信息或累积的标记来确定识别结果。图7示出按照本发明的第二实施例的一个语音识别器的网络。在一个第一判定节点3512’之后并包括它在内的所有活跃的节点3511、3517与3512中的每一个都能处理一个以上的令牌(即第二与第三组词汇节点3516b、3616c中的各个词汇节点3511都与一个以上的相同单词表示模型3515相关联，且各噪声节点都与一个以上相同的噪声模型相关联)。判定节点3512以参照图6描述的相同的方式受到约束。词汇节点3511的第一组3516a所生成的四个令牌提交给第一判定节点3512’，这一节点的有效标记组为1与2。具有有效标记的所有令牌向前传播到第二组词汇节点3516b上。从而来自数字1的词汇节点3511’及数字2的词汇节点3511”的令牌传播到第二组词汇节点3516b上。第二组词汇节点3516b的各词汇节点3511与两个由环3515表示的相同的单词表示模型相关联；从而表示数字1的节点3511与两个表示数字1的相同单词模型3515相关联，节点3511”则与表示数字2的两个模型3515相关联，以此类推。从第一判定节点3512’传播两个令牌因此能被第二组3516b的各词汇节点3511所处理。从而可将8(4×2)个令牌提交给第二判定节点3512”，它具有12、11与21的一个有效标记表。对来自第二组3516b的令牌的累积标记加以检验并将具有有效标记的令牌传播到第三组词汇节点3516c上供处理。

第三组3516c词汇节点的各词汇节点3511与三个相同的单词表示模型3515相关联。因此最多可将十二(4×3)个令牌提交给第三判定节点3512，它具有111、112、121及211的一个有效标记表。从而，具有这些有效标记的四个令牌可出现在网络的输出节点3514上，因此可以标识该装置的四条有效路径，并从而认为确定识别了四种可能的语音。比较各令牌的得分，而最高得分的令牌表示最似然的输入语音。

在本发明的一个较佳实施例中，将具有有效标记的令牌进行排序以保留n条得最高分的路径，如我们的共同未决欧洲申请93303538.9中所描述的。维护一张以得分排序的表，其中也可加上标记是唯一的这一约束，从而只为每一个有效的标记保留一个令牌。如果出现了带有相同标记的一个第二令牌，则保留两者中较好的一个。例如，假设在处理中提交给了输出节点3514下列三个令牌：

分数标记

A 10 112

B 9 112

C 7 121路径A，最高得分路径，便是最佳匹配。然而，虽然路径B具有次最高分，但由于其标记，并因而其认为已识别的语音，与路径A相同，而拒绝将其作为备选的分析。因此，路径C则作为次最佳分析而保留。

应能理解，图2与3中所示的网络是极为简单的，允许识别三位数字的串，可识别的数字为1、2、3、4。一个工作语音识别器很可能具有更大的识别能力与/或要识别的序列可能更长。在这些情况中，与各相关词汇节点相关联的相同的单词表示模型的数目不能用有效累积标记的表来确定，但是选定为一个固定的数目。

已用各来自独立的发言者的479个7位数字序列构成的数据测试过按照本发明的一个语音识别系统。这些序列是从英国各区的一千位以上的发言者收集的，他们用送话器送入并被要求在其它项目中以“自然的”方式读取一个序数。这些序数具有各种长度并且是随机生成的。选择了由7位数字序列构成的一个子集供这一实验使用。听取这些数据后确信对于大多数发言者而言，数字之间具有高度的连接发音并显示25％的发音包括单词“double(双)”。除了数字“1”至“9”，提供了三种零的说法，即“zero”、“nought”与“oh”。

作为测试基于标记的技术的一种对比基准，建立了一个300,000个节点以上的树形网络来施加所需要的文法约束。在一种未修剪的形式中，这一网络给出最佳的顶上的n个精确度数字。但是可将一个树形网络修剪到一定程度而不明显地影响识别结果的精确性，如可以从图8的线90的右边看到的。一棵树是通过考虑一条预期的路径的有效概率而修剪的。如果预期的路径的概率是低的，便剪掉这一路径。例如，如果一个网络配置成识别单词“CAT”与“DOG”，并且到此为止的识别过程已确定了输入的语音具有与表“ca”的网络部分比表示“do”的部分更高的相似程度，则可将关于单词DOG的终点的剩余部分的树修剪掉。如可以从图8中看出的，修剪量将会在某一点上严重地影响识别结果的精确性。

为了与按照本发明的一个系统进行比较，通过在图8中所示的精度对计算的曲线的拐点的顶部选择一个操作点92而选定一个固定的修剪阈值，使得不明显地降低精确度。

这一网络的存储量需求是可观的。如果只将网络的拓扑常驻在内，即使一个最小的实施也将占用8Mb左右(平均大约一个节点3512字节)，还除用于模型本身或用于运行它们所需的暂存空间之外。

对类似于图7中所示的但带有七组词汇节点3511的一个7层网络进行了测试，每一层允许单词“one”至“nine”、“zero”、“nought”、“oh”及“double”中的任何一个，各层之间带有随机的噪声。用于处理备选的路径的层数是变化的。

有效标记是从允许的序数表产生的，生成了152279个标识用于完整的与部分的序列。利用一个32位字来存储各标记得出标记表占用0.6Mb。

在网络中处理标记时，在进入单词表示模型时(而不是在判定点3512上)添加与检验标记，由于这样可以避免处理否则将在下一个判定点上已被丢弃的路径。

图8示出用于不同数目的备选路径处理层的识别精度对计算负荷的曲线图。采用带有选定的修剪阈值92的树形网络作为计算负荷的基准，所以其它的测试都与该水平相关。按照本发明的系统上得出的结果都是采用设定在与基准系统同一水平上的修剪的网络获得的。

从结果中清楚地看出标记检验技术的亚最佳性质便是确定从这一技术中可得到的最大精度的限制因素。无限制地增加备选令牌处理的层数并不一定能越过本技术与采用全树形网络的精度之间的间隔。基本问题在于：在一个树形网络中永远不会相遇的部分路径实际上在本发明的网络中是汇合的并且必须互相竞争才能生成。结果是在树形网络中可能完成的部分路径在它们得到完成的机会之前便在本发明的网络中被消灭了。

在具有充分的可利用的处理能力的情况中，可以牺牲精度(从92％下降至89％)来达到减少存储量需求。反之，当可利用的处理能力有限时，则按照本发明的系统既可减少存储量需求又可提高精度。

在上述实施例中，已描述了适用于耦合到远程通信交换机上的语音识别装置。然而在另一实施例中，本发明可以实现为连接在电话网上的一个传统用户站(移动或固定)的简单装置；在这一情况中，可设置模数转换装置来数字化进入的模拟电话信号。

在所有情况中，图解要识别的语音的各网络需要加以分析来确定哪些节点要分配标记。此外，网络是配置成与用户可能要说的话相一致的。

语音结束检测及与本发明有关的语音识别的其它各方面更全面地提出在本申请人1994年3月25日提交的名为“语音识别”的国际专利申请(从欧洲专利申请93302541.3提出优先权要求)，该申请以这一引用结合在此。

Claims

1、一种用于识别连续语音的令牌传递语音识别系统，该识别系统具有多个词汇节点，至少一个词汇节点具有一个相关联的标记，其中，在使用中，在介于识别路径的起点与终点之间的判定节点上检验部分识别路径，各判定节点具有一组相关联的有效累积标记，一个判定节点所接收的一个令牌只有在该令牌的累积标记为与该判定节点相关联的有效累积标记组中的累积标记之一时才得以传播。

2、按照权利要求1的一种语音识别系统，其特征在于：还包括比较装置，用于比较各令牌的得分与标记，以确定对输入语音信号具有最佳匹配及次最佳备选匹配的通过网络的路径。

3、按照权利要求2的一种语音识别系统，其特征在于：令牌的得分是在网络的各判定节点上进行比较的，只有具有有效标记的n个最高得分令牌才传播到下面的节点，其中n大于1。

4、按照前面任何一项权利要求的一种语音识别系统，其特征在于：网络中至少一个词汇节点是与一个以上的相同的单词表示模型相关联的。

5、按照权利要求4的一种语音识别系统，其特征在于：最佳得分路径是由一个词汇节点的第一单词表示模型处理的，次最佳则由第二模型处理，并以此类推，直到用完并行模型或进入的路径为止。

6、按照权利要求5的一种语音识别系统，其特征在于：比较标记来确定与输入语音信号具有最佳匹配的路径及具有次最佳备选匹配的路径。

7、一种语音识别系统，包括：

一个用于构成期望的输入语音的模型的网络，该网络具有多个用于处理输入语音的词汇节点(3511)，各词汇节点与至少一个单词表示模型相关联，该模型可进行操作来生成一个指示输入语音与认为识别了的语音之间的相似程度的第一参数；

比较装置，用于比较来自不同单词表示模型的第一参数，并且根据这一比较确定要通过网络传播的参数；以及

其特征在于：设置了用于将一个标记分配给至少一个词汇节点(3511)的装置；

在于设置了用于将一个表示通过网络的一条路径的累积标记的第二参数与各第一参数相关联的装置；

以及在于设置了确认装置，用于确认与一个第一参数关联的第二参数包含在第二参数的一个有效组中，只有当相关的第二参数是一组有效的第二参数中之一时，这些第一参数才通过网络传播。

8、按照权利要求7的一种语音识别系统，其特征在于：该第二参数确认装置可从在输入语音经过一个词汇节点的单词表示模型处理之后进行操作来确认第二参数。

9、按照权利要求7或8的一种语音识别系统，其特征在于：该认为识别了的语音是从在指示最高的相似程度的输出端上可得到的第一参数相关联的第二参数确定的。

10、按照权利要求7或8的一种语音识别系统，其特征在于：至少一个词汇节点(3511)是与一个以上相同的单词表示模型相关联的。

11、按照权利要求10的一种语音识别系统，其特征在于：该比较装置最多传播n个具有最高相似程度的第一参数，n为一个大于1的整数。

12、按照权利要求7或8所提出的一种语音识别系统，其特征在于：适用于识别连续数字串。

13、按照权利要求7或8所提出的一种语音识别系统，其特征在于：可操作地与一个远程通信网络相连。

14、一种识别连续输入语音的方法，包括：

生成一个用于构成期望的输入语音的模型的网络，该网络具有多个词汇节点，各词汇节点至少与一个单词表示模型相关联，该模型能生成一个指示输入语音与认为已识别了的语音之间的相似程度的一个第一参数；

比较来自不同的单词表示模型的第一参数，并且根据这一比较确定哪些参数要通过网络传播；以及

在网络的一个输出端上确定具有最高相似程度的参数及认为识别了的输入语音；

其特征在于：分配一个标记给至少一个词汇节点；

以及在于将表示通过网络的一条路径的累积标记的第二参数与第一参数相关联，只在相关联的第二参数是一组有效的第二参数中之一时，第一参数才通过网络传播。

15、按照权利要求14的一种方法，其特征在于：该第二参数在经过与各词汇节点相关联的一个单词表示模型处理之后受到确认有效。

16、按照权利要求14或15的一种方法，其特征在于：最多n个具有最高相似程度的第一参数从网络的一个公共点传播，n为一个大于1的整数。

17、按照权利要求14或15的一种方法，其特征在于：与输出端上得到的具有最高相似程度的一个第一参数相关联的第二参数表示认为识别了的输入语音。

18、按照权利要求14或15的一种方法，其特征在于：在输出端上得到一个以上的第一参数时，则比较输出端上得到的第一参数及相关联的第二参数，并保留具有最高相似程度与不同的相关联的第二参数的那些第一参数。