CN1205599C

CN1205599C - 在语音识别中利用静音的系统

Info

Publication number: CN1205599C
Application number: CNB998030759A
Authority: CN
Inventors: 江丽
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 1998-02-20
Filing date: 1999-02-09
Publication date: 2005-06-08
Anticipated expiration: 2019-02-09
Also published as: JP4414088B2; KR100651957B1; JP2002504719A; CA2315832A1; CN1307715A; KR20010034367A; EP1055226B1; US6374219B1; CA2315832C; EP1055226A1; WO1999042991A1

Abstract

一种用于根据表示语音的输入数据流识别语音的系统(60)提供由输入数据流所表示的可能词作为前缀树(88)，其中包括连接于节点的多个音素分支。多个音素分支由对应于在该前缀树的输入端上的静音的至少一个输入静音分支(92)以及对应于在该前缀树(60)的输出端上的静音的至少一个输出静音分支(94，96，98)所夹括。该前缀树(60)被遍历，以获得可能由输入数据流所表示的词。提供于该前缀树中的静音可以根据上下文而变化。

Description

在语音识别中利用静音的系统

发明背景

本发明涉及计算机语音识别。更加具体来说，本发明涉及通过进行包含静音夹括词典的前缀树搜索而执行的计算机语音识别。

当前最成功的语音识别系统采用称为隐藏的马尔可夫模型(HMM)的概率模型。隐藏的马尔可夫模型包括多个状态，其中从每个状态到另一个状态的转变的每次转变定义一个转移概率，包括到相同状态的转变。一个观察与每个唯一状态概率相关。状态之间的转变概率(即一个观察从一个状态转变到下一个状态的概率)不都是相同的。因此，采用象维特此算法这样的搜索技术来确定对所有概率来说为最大值的最可能状态序列，给出状态之间的转移概率和观察概率。

状态转变次序可以按照已知的方式表示为通过格子图的一条路径，该格子图表示在一系列观察时刻上的HMM的所有状态。因此，给定一个观察次序，通过该格子图的最可能路径(即，由HMM所表示的最可能状态序列)可以利用维特比算法来确定。

在当前语音识别系统中，语音可以被看作为由隐藏的马尔可夫处理所产生的。因此，HMM被用于模拟所观察的声谱序列，其中特定的声谱与HMM中的一个状态概率相关。换句话说，对于给定的所观察声谱序列，在相关的HMM中有最可能的状态序列。

从而，该相应的HMM与所观察序列相关。该技术可以被扩展，使得如果在HMM中的状态的每个分离序列与象音素这样的子词单元相关联，则可以找到最可能的子词单元的序列。另外，利用子词单元合并形成词的模型，然后利用词合并形成句子的模型，可以实现完整的语音识别。

当实际处理声音信号时，该信号一般在称为帧的相继时间间隔中采样。帧一般包括多个样本并且可以相重叠或相邻。每个帧与该语音信号的唯一部分相关。由每个帧所表示的该语音信号的部分被分析，以提供相应的声音矢量。在语音识别过程中，对最可能与该声音矢量的序列相关的状态序列执行搜索。

为了找到对应于声音矢量的序列的最可能状态序列，要采用维特比算法。维特比算法执行一种计算，它按照时间同步的方式从第一帧开始并在每次前进一帧。对在所考虑的状态序列(即，HMM)中的每个状态计算一个概率分值。因此，当维特比算法一帧接一帧的分析声音信号时，相继对每个可能状态序列计算累积概率分值。在话音结束时，具有由维特比算法所计算的最高概率分值的状态序列(HMM或HMM序列)对整段话音提供最可能状态序列。然后，该最可能状态序列被转换为相应的子词单元、词或词序列。

维特比算法把指数计算减少为一阶，即与在模型中的状态和转变数以及话音的长度成比例。但是，对于大量词汇，状态和转变的次数变大，并且对于所有可能状态序列更新在每个帧中的每一个状态的概率分值所需的计算时间要比一帧的持继时间长许多倍，一帧的持继时间一般约为10毫秒。

因此，一种称为修剪或者波束搜索的技术被开发以大大减小确定最可能状态序列所需的计算。这种技术消除了对非常不可能的状态序列计算概率分值的需要。这一般通过在每一帧把对于所考虑的每个剩余状态序列(或潜在序列)的概率分值与该帧相关的最大分值相比较而完成。如果对于特定潜在序列的状态的概率分值足够低(当在该时间点与对于其它潜在序列的所计算最大概率分值相比较时)，则修剪算法假设这种低分值状态序列不大可能是完整的最可能状态序列的一部分。该比较一般是通过使用最小阈值完成的。具有落在最小阈值之下的分值的潜在状态序列被从搜索处理中除去。该阈值可以设置在任何所需级别上，主要根据所需的存储空间和计算上的节约以及由于存储空间和计算上的节约所造成所需错误率的增加而设置的。

另一种用于进一步减小用于语音识别的计算量的常规技术包括前缀树的使用。前缀树表示作为树形结构的语音识别系统的词典，其中所有可能被该系统所遇到的所有词被表现在该树形结构中。

在这种前缀树中，每个子词单元(例如，音素)一般由一个与特定语音模型(例如HMM)相关的分支所表示。该音素分支在节点上连接到后续的音素分支。在共用相同的第一音素的词典中的所有词共用相同的第一分支。具有相同的第一和第二音素的所有词共用相同的第一和第二分支。通过对比，具有共同第一音素但是具有不同第二音素的词在前缀树中共用相同的第一分支，但是具有在该前缀树中的第一节点处分叉的第二分支，如此等等。该树形结构按照这样一种方式进行，使得所有可能由系统所遇到的词由该树的末节点(即，在该树上的叶节点)所表示。

显然，通过采用前缀树结构，最初分支的数目将远小于在该系统的词典或词汇中的词的一般数目。实际上，最初分支的数目不超过音素的总数(大约40-50个)，而与所搜索的词汇或词典的大小无关。但是，如果使用音位变体，则根据所用的音位变体，分支的最初数目可能较大。

这种结构具有多个重要优点。例如，即使词汇非常大，通过估计每个可能第一音素的概率，在该树中给定小数目的最初分支，则有可能考虑在该词典中所有词的开端。另外，采用修剪方法，多个较低概率的音素分支可以在该搜索的前期中消除。因此，尽管该树的第二级具有比第一级多得多的分支，实际被考虑的分支数(即，假设数目)也比可能分支的数目减少。

采用上述技术的语音识别系统一般可以分为两种。第一种是能够识别连续语音的连续语音识别(CSR)系统。第二种系统是离散语音识别(ISR)系统，它一般仅仅用于识别分立语音(或者离散语音)，但是由于其搜索空间一般较小，因此它一般比连续语音识别系统更加准确和有效。并且，分立语音识别系统被认为是连续语音识别的一种特殊情况，因为连续语音识别系统通常也可以接受分立语音。只是在尝试识别分立语音时效果不太好。

静音信息在这两种系统中具有作用。到目前为止，两种语音识别系统把静音当作在词典中的一个特殊词。静音词参与通常的搜索处理，使得当它被识别时可以插入在词之间。

但是，已知在语音识别系统中考虑词的过渡是计算量大和开销高的过程。因此，在分立语音识别系统中，静音被作为一个分离的词，必需考虑从静音词过渡到在该词典中的所有其它词，以及从在该词典中的所有词(或者在搜索结束时所有剩余的词)过渡到静音词。

另外，在连续语音识别系统中，即使该系统识别出说话人以间断或分立的方式说话，CSR系统仍然假设在词之间没有静音。这导致不适当地把一个词分段为两个或更多的词的倾向。当然，这导致比所希望结果更高的错误率。另外，由于它仍然覆盖属于连续语音但是不属于分立语音的部分搜索空间。

除了采用静音作为该词典中的独立词之外，静音的常规模型还导致在现有语音识别系统中的问题和错误。一般认为静音是独立于上下文的，因此静音被在常规语音识别系统中模拟为与上下文无关。换句话说，静音被模拟为相同，而与在它之前或之后的词或子词单元无关。这不但降低了语音识别系统的精度，而且使得它比根据本发明的模拟效率更低。

发明概要

一种语音识别系统根据表示语音的输入数据流识别语音。由输入数据流表示的可能词提供作为一个前缀树，其包括在节点连接的多个音素分支。多个音素分支被对应于在该前缀树的输入端上的一个静音的至少一个输入静音分支以及对应于在该前缀树的输出端上的一个静音的至少一个输出静音分支所夹括。

在一个优选实施例中，多个静音分支被提供于该前缀树中。多个静音分支表示上下文相关的静音。

在本发明的另一个优选实施例中，该语音识别系统包括连续语音识别系统词典和分立语音识别系统词典。该系统根据由该系统用户所采用的语音的类型在使用CSR词典和ISR词典之间切换。

附图简述

图1为用于实现根据本发明的语音识别系统的典型环境的方框图。

图2为图1中所示的系统的一部分的更加具体的方框图。

图3为示出现有前缀树的示意图。

图4为示出根据本发明的前缀树的一个实施例的示意图。

图5为示出根据本发明的前缀树的另一个实施例的示意图。

图6为示出图5中所示的前缀树的示意图，其中采用根据本发明另一个方面的修剪技术。

图7为根据本发明另一个方面的语音识别系统的另一个实施例的方框图。

优选实施例的具体描述

图1和相关讨论用于对可以实现本发明的适当计算环境提供简要和一般的描述。尽管不是必要的，但是本发明将至少部分的用例如程序模块这样的由个人计算机所执行的计算机可执行指令的一般环境进行描述。通常，程序模块包括例程、对象、组件、数据结构等等，其执行特定任务或实现特定抽象的数据类型。但是，本领域内的专业人员将认识到本发明可以用于其它计算机系统结构，包括手持设备、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、微计算机、主计算机，等等。本发明还可以用于分布计算环境，其中任务是由通过通信网络链接的远程处理设备所执行的。在分布计算环境中，程序模块可以位于本地和远程存储设备中。

参照图1，用于实现本发明的典型系统包括常规个人计算机20形式的通用计算设备，其中包括处理单元21、系统存储器22、以及连接包括系统存储器到处理单元21在内的各种系统组件的系统总线23。系统总线23可以是几种总线结构中的任何一种，包括存储器总线或者存储器控制器、外围总线、以及采用多种总线结构中的一种的局部总线。系统存储器包括只读存储器(ROM)24和随机存取存储器(RAM)25。基本输入/输出系统26(BIOS)，其中包含例如在启动过程中有助于在个人计算机20中的元件之间传输信息的基本例程，存储在ROM24中。个人计算机20还包括用于从硬盘(未示出)读写的硬盘驱动器27、用于从活动磁盘29读写的磁盘驱动器28、以及用于从象CDROM或者其它光学介质这样的活动光盘31读写的光盘驱动器30。硬盘驱动器27、磁盘驱动器28以及光盘驱动器30分别通过硬盘驱动接口32、磁盘驱动接口33以及光盘驱动接口34连接到系统总线23。驱动器和相关的计算机可读介质提供计算机可读指令、数据结构、程序模块和其它用于个人计算机20的数据的非易失性存储。尽管在此所述的典型环境采用硬盘、活动磁盘29以及活动光盘31，但是本领域内的专业人员应当知道在该典型操作环境中还可以采用能够存储由计算机访问的数据的其它类型的计算机可读介质，例如盒式磁带、快速存储卡、数字视频光盘、贝努里盒式磁盘、随机存取存储器(RAM)、只读存储器(ROM)，等等。

多个程序模块可以存储在硬盘、磁盘29、光盘31、ROM24或者RAM25上，包括操作系统35、一个或多个应用程序36、其它程序模块37、以及程序数据38。用户可以通过键盘40、指示设备42和话筒62这样的输入设备来把命令和信息输入到个人计算机20中。其它输入设备(未示出)可以包括游戏杆、游戏盘、卫星接收天线、扫描仪，等等。这些和其它输入设备通常通过连接到系统总线23的串行接口46连接到处理单元21，但是它可以通过声卡、并行口、游戏端口或通用串行总线(USB)这样的其它接口连接。监视器47还通过视频适配器48这样的接口连接到系统总线23。除了监视器47之外，个人计算机一般可以包括其它外围输出设备，例如扩音器45和打印机(未示出)。

个人计算机20可以在网络环境中工作，使用逻辑连接到一个或多个远程计算机，例如远程计算机49。远程计算机49可以是另一台个人计算机、服务器、路由器、网络PC、对等设备或者其它网络节点，并且一般包括上述与个人计算机20相关的多个或所有元件，尽管在图1中仅仅示出存储设备50。图1中所示的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这种网络环境在办公室、企业内部互联网和国际互联网中是常见的。

当用于LAN网络环境中时，个人计算机20通过网络接口或适配器53连接到局域网51。当用于WAN网络环境中时，个人计算机20一般包括调制解调器54或者其它用于通过国际互联网这样的广域网52建立通信的装置。内置或外置的调制解调器54通过串行接口46连接到系统总线23。在网络环境中，所示与个人计算机20有关的程序模块或者其部分可以存储在远程存储设备中。应该知道所示的网络连接是示例性的，可以使用其它在计算机之间建立通信的装置。

图2示出根据本发明一个方面的语音识别系统60的方框图。语音识别系统60包括话筒62、模/数(A/D)转换器64、训练模块65、特征提取模块66、静音检测模块68、词典存储模块70、语音单元存储模块72、树搜索引擎74、以及输出设备76。另外，语言模型存储模块75还可以被提供并且由搜索引擎74所访问。应该指出，整个系统60或系统60的部分可以在图1中所示的环境中实现。例如，话筒62最好通过适当的接口以及通过A/D转换器64作为输入设备提供给个人计算机20。训练模块65、特征提取模块66和静音检测模块68在计算机20中可以是硬件模块，或者是存储在图1中所示任何信息存储设备中并由CPU21或其它适当的处理器所访问的软件模块。另外，词典存储模块70和语音单元存储模块72还存储在图1中所示的任何适当存储设备中。另外，树搜索引擎74最好在CPU21(其包括一个或多个处理器)中实现，或者可以由个人计算机20所采用的专用语音识别处理器所执行。另外，在一个优选实施例中，输出设备76可以实现为监视器47、或者打印机、或者任何适当的输出设备。

在任何情况下，在语音识别过程中，语音由用户向话筒62提供的可听语音信号的形式输入到系统60中。话筒62把可听语音信号转换为提供给A/D转换器64的模拟电信号。A/D转换器64把该模拟语音信号转换为一系列数字信号，提供给特征提取模块64。在一个优选实施例中，特征提取模块66使对数字信号执行频谱分析并且对频谱的每个频带计算幅度值的常规阵列处理器。在一个优选实施例中，该信号被A/D转换器64以大约16kHz的采样率提供到特征提取模块66，用众所周知的可在市场上购得的A/D转换器来实现A/D转换器64。

特征提取模块66把来自A/D转换器64的数字信号分割为帧，其中包括多个数字样本。每个帧大约有10毫秒的持续时间。然后，该帧由特征提取模块66解码为反映多个频带的频谱特征的特征矢量。在离散和半连续隐藏的马尔可夫模型的情况下，特征提取模块66还利用矢量量化技术和从训练数据推算的代码本把该特征矢量编码为一个或多个代码字。因此，特征提取模块在其输出端为每段话音提供特征矢量(或者代码字)。该特征提取模块66最好以大约每10毫秒1个代码字的速度提供特征矢量(或者代码字)。

然后，最好利用被分析的特定帧的特征矢量(或者代码字)根据隐藏的马尔可夫模型计算输出概率分布。这些概率分布以后用于执行维特比算法或者类似的技术中。

当特征提取模块66处理来自A/D转换器64的数字样本时，静音检测模块68也处理该样本。静音检测模块68可以在用于实现特征提取模块66的相同或不同处理器上实现。静音提取模块68按照众所周知的方式工作。简而言之，静音检测模块68处理由A/D转换器64所提供的数字样本，以便于检测静音，从而确定由用户所发出的词之间的边界。然后，静音检测模块68把边界检测信号提供给树搜索引擎74，表示词边界的检测。

在从特征提取模块66接收代码字以及由静音检测模块68所提供的边界检测信号之后，树搜索引擎74访问存储在语音单元模型存储器72中的信息。存储器计算存储语音单元模型，例如隐藏的马尔可夫模型，其表示要被系统60所检测的语音单元。在一个优选实施例中，存储在存储器72中的语音模型包括表示音素的HMM。根据存储在存储器72中的HMM，树搜索引擎74确定由从特征提取模块66接收的代码字所表示的最可能音素，从而表示由系统的用户所接收的发音。应该指出，适应的音素可以用任何方法来选择，包括检查和对每个音素的HMM的每个状态计算的特定的句音素。并且，音素HMM树搜索可以被执行，以查找适当的音素。

树搜索引擎74还可以访问存储在存储器70中的词典。如树搜索引擎74根据它访问存储器72中的语音单元模型所接收的信息被用于搜索词典70，以确定在由静音检测模块68所指示的词边界之间的由特征提取模块66所接收的代码字。并且，搜索引擎74最好访问在模块技术中的语言模型，例如从“北美商业新闻文集”所得出的60000个词的三字组合语言模型，并且在名为“CSR-III的文本语言模型”，宾夕法尼亚大学，1994，中有更加具体的描述。该语言模型用于识别由输入数据所表示的最可能词或词序列。因此，所确定的词或词序列最可能代表由用户所接收的话音。然后，该词或词序列被树搜索引擎74输出到输出设备76。

在一个优选实施例中，词典70包含在语音识别系统60的词汇中的所有词的信息。该词最好以前缀树的形式提供给树搜索引擎74，该前缀树可以从根节点遍历到叶节点(或者到内部词节点)以到达最可能表示用户的话音的词。

图3示出根据现有语音识别系统所用的前缀树。为了清楚起见，图3中仅仅示出前缀树的一部分。在第一词边界遇到根节点(或者输入节点)78。多个分支80从根节点88通向该前缀树的剩余部分。多个分支中的每一个与一个音素相关。在图3中，离开根节点78的分支仅仅表示由字母AC、AE和T所代表的音素。该树延伸通过另一个节点和分支，并且在一个输出节点79中止。

根据一种搜索技术，当树77被从输入节点78遍历到输出节点79时，一个分值被分配给连接到一个音素分支的每个节点，然后由该语音识别系统所考虑。该分值表示被检验的特定音素是由从特征提取模块66所接收的代码字表明的实际音素的可能性。

例如，如果单词ORANGE被用户输入到系统60中，则特征提取模块66可能把该词ORANGE分割为表示如下音素的代码字：AO，R，IX，N，JH。当树搜索引擎遍历树77时，它最好对在树77中考虑的每个音素分支计算一个分值，其中该分值表示由代码字所编码的特定音素对应于所考虑的分支的音素的可能性。因此，树搜索引擎74对节点82计算一个分值，其表示所考虑的第一代码字非常可能被对应于所考虑的分支的AO音素所代表。树搜索引擎74最好还对在树77中的其它节点84和86中的每一个计算一个分值，其中该分值表示所分析的代码字由音素AE和T所代表的可能性。在理想情况下，分配给节点84和86的分值比分配给节点82的分值更低。

当搜索引擎74遍历树77时，它最好根据所分析的当前代码字(输出概率分布)由对应于随后考虑的树77中的分支的音素的可能性，把一个分值分配给在树77中的每个节点，并且根据分配给节点的分值进一步向上遍历由音素分支连接到当前节点的树。并且所有这些都是按照已知方式进行的。

另外，可以使用修剪技术，修剪时通过在每个节点把分配给该节点的分值与在任何对应于所考虑的帧的其它节点上的最大分值相比较而实现的。如果在特定节点上的分值与在树77中的其它相应节点的最大分值相比足够低，则假设通向所考虑节点(具有较低分值的节点)的分支将不太可能是完整的最可能音素系列的一部分(即，在该序列中的音素不大可能是由系统所识别的最终词的一部分)。因此，该分支被从树77中放弃(或修剪)，并且在进一步的处理中不再予以考虑。

在分立语音识别系统中，在树77被遍历之后，一个静音必须在词边界加强。因此，输出节点79通向静音分支，该分支返回到输入节点78(如果树77是一个可重入树)，使得识别可以再次从当前词边界之后的下一个词开始。但是，由于多种原因这可能导致不能得到最佳性能。

首先，在树77上的所有叶节点必须通向输出节点79，使得静音可以在词边界加强。但是，在语言模型被用于确定词边界的情况下，需要在遍历树77之后保持N最佳假设。如果在树77中的所有叶节点必须通向单个输出节点79，这对用于遍历树77的维特比算法来保持N最佳假设来说是困难和低效的。另外，在现有前缀树中的静音被模拟为相同而与其上下文无关。本发明的发明人认识到静音可以根据上下文而有明显的变化。与上下文无关地模拟静音会在识别中导致错误。并且，众所周知在语音识别系统中词间过渡的考虑是复杂和费时的。但是，当采用根据现有技术树77时，对于由系统所识别的每个词，必须从静音过渡到所识别的词并且在回到静音。这可能导致增加错误率，并且导致系统的低效率。

图4示出根据本发明的前缀树88的一个优选实施例。树88示出根据本发明一个方面用于识别语音的词典是一个由静音所夹括的词典。换句话说，为了遍历树88，对该树在根节点90进入。在图4中所示的实施例中，根节点90连接到表示静音的一个静音分支92，该分支接着连接到音素分支以及该前缀树的剩余部分。在该树上的每个叶节点(表示一个词)连接到一个静音分支，例如分支94、96和98，每个分支与一个静音相关。通过采用前缀树88，本发明提供一种由静音所夹括的词典，其中在该词典内的每个词由静音所夹括。

在图4中所示的实施例中，仅仅有一个静音连接在树88的输入端。顶级静音分支92在节点100连接到多个静音分支，其形成图3中的树77的第一级。在本优选实施例中，在树88末端的静音是上下文相关的静音。换句话说，在系统60中训练语音模型的期间(在下文中更加具体地描述)，提供给系统60以训练语音模型的语音包括多个上下文相关的静音，其被模拟并存储在存储器72中。当词边界由静音检测模块68所检测时，树搜索引擎74利用在存储器72中的静音模型和前缀树88来定位适当的静音。

通过采用提供由静音所夹括的词典的前缀树88，可以获得多个优点。首先，静音夹括的词典消除了考虑词间过渡的需要。换句话说，在图3中所示的现有系统中，需要由系统所提供从一个词过渡到一个静音并且返回到一个词。但是通过在词典中嵌入静音作为词的一部分，则不需要词间过渡。而是，仅仅需要从一个实际发音的词过渡到另一个词。另外，利用图4中所示的实施例，在由树88所表示的词典中的每个词共用输入静音92。因此，对于在词中嵌入开始的静音来说只需要非常少的额外工作。并且，由于树88所表示的每个词以一个独立静音为结束，因此，维特比算法可以更加有效并且在遍历树88之后保持N最佳假设。这导致在使用语言模型(或者其它适应的模型)来确定最可能的词序列的系统中更加有效地利用维特比算法。

如图4中所示，当该系统用于连续语音识别系统中时，本发明获得的另一个重要优点。典型的语音识别系统结构被设置为处理连词上下文。但是，当连续语音识别系统用于分立语音时，这可能导致较高错误率。例如，当说话人以分立或离散的方式对连续语音识别系统说话时，连续语音识别系统的连词上下文适应特征可能趋向于不正确地把一个词分段为两个或更多的词。但是，当该系统检测到用户以分立或离散的方式说话时，根据本发明一个方面(并且参照图7进一步描述)的系统把其本身重构，以采用静音夹括的词典。通过加强在词边界的静音，本发明确保不考虑连词上下文现象，因此，采用本发明的连续识别系统可以更加有效和更准确地处理离散语音。

图5示出根据本发明另一个方面的前缀树102的另一个实施例。前缀树102类似于图4中所示的前缀树88，并且相似的项目用相似的数字来标记。但是，与在树102的输入端仅仅具有单个静音分支92不同，多个静音分支，例如104、106和108，也包括在树102的输入端。该静音分支104、106和108对应于上下文相关的静音。因此，与在树(例如图4中所示的树88)的输出端仅仅具有上下文相关的静音不同，树102还具有在树输入端的上下文相关的静音。在树输入端的静音分支连接到音素分支，其连接到该树的剩余部分。与树88相同，树102在表示该词典中每个词结束的静音的叶节点终止。

因此，由树102所表示的静音夹括的词典用上下文相关的静音夹括在该词典中条目。这导致几个重要优点。上下文相关的静音分支104、106和108把树88的单一顶级静音分支分为多个上下文相关的静音。这有助于修剪操作，并且使得整个系统更加有效。例如，树搜索引擎74可以在开始把分值分配给连接到静音分支104、106和108的节点，而不是在开始时把分值分配给连接到该树中的第一音素分支的节点。这使得树102上的一些部分被修剪或者在搜索处理中更早地消除，这更快地减少了搜索空间。

图6示出被修剪去多个静音分支(以及连接到该分支的其它分支)的树102(在图5中示出)。然后考虑每个静音分支，表示在树102的输入端的上下文相关的静音，一个分值被分配给连接到这些静音分支的每个节点。然后，在一个优选实施例中，用于每个节点的每个分值与分配给该树的该级别上的任何节点的最大分值相比较。可以设置预定的阈值，或者可以采用自适应的阈值，用于比较。如果被比较的该节点分值比最大分值小该阈值的量，则所有连接到该节点的后续分支被从该树上修剪，从而大大的减少了用于任何给定搜索的搜索空间。图6示出分配给用于静音分支108的节点的分值足够低，因此该树的剩余分支被修剪。当然，在该树的第一级不需要做出判断。并且，任何特定的阈值可以用于该搜索策略中。该阈值越低，则在该搜索过程中保持的假设越多，因此该识别系统更加准确。但是，该阈值最好由经验确定，以实现减少计算量并且明显减少与修剪技术相关的错误率。

为了训练图2中所示的系统，由用户向系统60说出训练字。该训练字包括一组训练数据，其由A/D转换器转换为数字样本，然后由特征提取模块66转换为代码字。代码字(或者输出概率分布)被提供到训练模块65。训练模块65还从用户通过键盘40这样的用户输入设备接收每个训练字的音标。训练模块65还可以在与语音识别系统的识别部分相同或不同的处理器上实现。由训练模块65对在该训练数据所表示所需词汇中的每个词的每个音素产生一个或多个HMM。因此，HMM代表与该词汇中的音素相关的模型输出分布。然后，根据所需词汇形成前缀树，使得构成音素，以提供与所需词汇中每一个词相关的叶节点。还应当指出，训练字(或者数据集)可以一次从话筒接收一个词，如上文所述，或者通过软盘这样的包含以前产生的数据集的常规计算机输入设备来全部输入。

根据本发明一个方面，训练模块65还对上下文相关的静音训练隐藏的马尔可夫模型。所需的上下文相关的静音由训练数据所表示。模拟的静音还可以如上文所述表示在前缀树中。

图7为根据本发明的语音识别系统120的第二实施例的方框图。系统120类似于系统60，并且类似的项目由相应的数字所标记。但是，系统120被设置为接收和识别连续语音以及分立语音。因此，系统120包括连续语音识别词典和语言模型存储器124和连续语音(CS)/分立语音(IS)指示器126。

在一个优选实施例中，连续语音识别和语言模型存储器124包括一个CSR词典，其可以用任何适当方式表示，例如用前缀树格式表示。因此，在正常流利语音过程中，系统120在执行语音识别任务时访问由存储器124所提供的信息。但是，在用户以分立或离散的方式说话时，系统120切换到访问在存储器70中由静音夹括的词典所提供的信息。由于存储器70所提供的静音夹括词典比连续语音词典导致对离散语音更加有效和准确的识别，因此，系统120可以更加容易和有效地识别在流利或连续语音中的分立语音。

为了在两个词典之间切换，搜索引擎74从CS/IS指示器126接收表示说话人是否用连续或离散语音说话的CS/IS信号。CS/IS指示器126可以用任何适当的方式来实现。例如，在一个所示实施例中，CS/IS指示器126简单的体现为静音检测模块68。当静音检测模块68检测到大的静音或停顿(该特定量最好由经验确定)，搜索引擎74被设计为把该现象解释为说话人以分立或离散语音模式来说话。在该情况中，引擎74切换到访问来自存储器70的词典，而不是访问来自存储器124的词典。

根据本发明一个方面，CS/IS指示器126被提供在用户界面中，用户通过该界面与操作系统120交互作用。在一个所示实施例中，用户界面简单地向用户提供选择连续或分立语音的选项。在用户利用任何适应的用户输入设备作出选择之后，用户界面向引擎74提供适当的CS/IS信号。在另一个所示实施例中，用户界面指示用户根据识别标准用连续或分立语音模式说话。例如，如果识别系统120在当前词序列中产生更多的错误或修正，则搜索引擎74指示CS/IS指示器126在用户界面中表明用户以分立方式说话。然后，引擎74切换到由存储器70所提供的词典，以获得更加准确的语音识别，直到当前词序列被正确识别为止。然后，引擎74控制CS/IS指示器126在用户界面中表明用户再次用连续语音模式继续说话。引擎74重新访问来自存储器124中的词典和信息，并且继续语音识别处理。当然，该系统还可以采用任何适当的机制(例如适当的试探)来确定用户何时在连续和分立语音之间切换。

因此，可以看出本发明的各种特点比现有系统具有明显的优点。例如，本发明的静音夹括词典消除了系统考虑词间过渡的需要，因此静音被嵌入做为该词典中每个词的一部分。并且，由于一个结束静音嵌入在每个词中，因此在该树被遍历之后，系统可以更加有效地保持N最佳假设。另外，通过按照上下文相关的方式来模拟静音，使得语音识别处理变得更加准确，并且修剪可以更早的在识别任务中完成，因此减少搜索空间并且增加效率。另外，通过自适应地在连续语音词典与分立语音词典之间切换，本系统减少了常规连续语音识别系统的连词上下文适应特征在识别过程中遇到分立语音时将产生错误的可能性。这还增加了系统的精度和效率。

尽管本发明已经参照优选实施例进行描述，但是本领域内的专业人士将认识到可以在形式和细节上做出改变而不脱离本发明的精神和范围。

Claims

1.一种根据表示语音的输入数据流识别语音的方法，该方法包括：

提供由该输入数据流所表示并由音素所形成的可能词，作为一个包括在节点连接的音素分支的前缀树，每个音素分支对应于一个音素，该多个音素分支被至少一个对应于在该前缀树的输入端的静音的输入静音分支以及至少一个对应于在该前缀树的输出端上的一个静音的输出静音分支所夹括在一起；以及

遍历该前缀树以获得可能由该输入数据流所表示的词。

2.根据权利要求1所述的方法，其特征在于，遍历该前缀树包括：

通过把一个分值分配给从该前缀树的输入端到该前缀树的输出端的多个相继节点而遍历该前缀树，该分值表示该输入数据表示对应于导向节点的分支的音素的可能性，该分值被分配到该节点上；以及

在该前缀树的输出端选择对应于该静音节点的具有被分配到达一阈值的N个词，作为由该输入数据流所表示的相似词。

3.根据权利要求1所述的方法，其特征在于，提供可能词包括：

在该前缀树的输入端，对该前缀树提供多个静音分支，每个静音分支在节点连接到至少一个音素分支。

4.根据权利要求3所述的方法，其特征在于，对该前缀树提供多个静音分支，其中包括：

对多个静音分支提供前缀树，其中，由多个静音分支所表示的静音根据上下文变化。

5.根据权利要求3所述的方法，其特征在于，提供可能词包括：

在该前缀树的输入端，对该前缀树提供多个静音分支，根据静音分支所连接的音素，由每个静音分支所表示的静音与由其他静音分支所表示的音不同。

6.根据权利要求3所述的方法，其特征在于，遍历该前缀树包括：

把一个分值分配给连接于静音分支和音素分支之间的节点，表示该输入数据代表对应于通向被分配分值的节点的静音分支的静音的可能性。

7.根据权利要求6所述的方法，其特征在于，遍历前缀树包括：

根据分配给连接于静音分支和音素分支之间的节点的分值，从前缀树上修剪分支。

8.根据权利要求7所述的方法，其特征在于，该修剪包括：

对于所分配分值达到修剪阈值的节点，停止对从该节点引出的前缀树进一步的分支遍历。

9.一种基于表示的语音的输入数据流的语音识别方法，该方法包括：

提供包括由输入数据流所表示由上下文相关的静音夹括的可能词形成的条目的词典；以及

根据输入数据流搜索词典，以确定可能由输入数据流所表示的词。

10.一种从表示语音的输入数据识别语音的方法，该方法包括：

提供表示语音单元的语音单元模型；

提供上下文相关的静音的静音模型；以及

根据输入数据以及根据语音单元模型和静音模型选择可能由输入数据所表示的语音单元和上下文相关的静音。

11.根据权利要求10所述的方法，其特征在于，提供语音单元模型和提供静音模型包括：

提供语音单元模型和静音模型作为前缀树，其中包括多个连接于节点的音素分支，每个音素分支对应一个音素，多个音素分支由对应于在该前缀树的输入端的一个音素以及对应于在该前缀树的输出端上的一个静音的至少一个输出静音分支所夹括。

12.根据权利要求11所述的方法，其特征在于，选择语音单元和上下文相关的静音包括：

遍历该前缀树以获得可能由该输入数据流所表示的一个词。

13.一种识别语音的方法，其中包括：

接收表示该语音的输入数据；

接收关于该语音是否分立或连续的指示；

如果该语音是连续的，则通过利用包含连续语音数据的连续语音词典确定由该输入数据所表示的最可能的语音单元；以及

如果该语音是分立的，则通过利用包含分立语音数据的分立语音词典确定由该输入数据所表示的最可能的语音单元；

其中利用分立语音词典确定由该输入数据所表示的最可能的语音单元包括：

提供分立语音词典，其中包括由输入数据所表示并由上下文相关的静音所夹括的可能词所形成的条目；以及

根据输入数据搜索该分立语音词典，以确定可能由该输入数据所表示的一个词。