CN1206620C

CN1206620C - 输入语音的转换和显示

Info

Publication number: CN1206620C
Application number: CN02806380.5A
Authority: CN
Inventors: 萨拉·H·白森; 迪米特瑞·卡纳维斯基; 贝诺伊特·E·梅森
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2001-03-16
Filing date: 2002-01-28
Publication date: 2005-06-15
Anticipated expiration: 2022-01-28
Also published as: JP2004526197A; EP1368808A1; CN1509467A; ATE293274T1; US6785650B2; US20020133340A1; JP3935844B2; DE60203705D1; DE60203705T2; EP1368808B1; WO2002075723A1

Abstract

本发明提供向用户呈现转换的混合显示的能力。最好以分级形式组织混合显示。单词、音节和音素可置于同一显示画面上，根据满足最小置信度的语音部分，可选择恰当的符号转换。如果单词满足最小置信度，那么显示单词，否则显示构成该单词的音节。另外，如果音节不满足预定置信度，那么显示构成该音节的音素。

Description

输入语音的转换和显示

发明领域

本发明涉及自动语音识别，更具体地说，涉及输入语音的转换和显示。

背景技术

基于自动语音识别(ASR，Automatic Speech Recognition)的单词转换是众所周知的帮助提高听力受损人士的交流能力的方法。这种方法的问题在于，如果误识别率相当高，那么对于仍在学习语言的听力受损孩子来说，转换效率不高，因为错误解码的单词容易使这些孩子迷惑。解决这种问题的一种途径是显示语音输出，而不是单词。但是，这种方法并不是最佳的，因为和阅读语音输出相比，阅读正确识别的单词更容易，效率更高。

使用ASR教听力受损人士阅读也是一种众所周知的方法。在这种方法中，向用户显示参考文本，当他或她朗读参考文本时，ASR对用户语音解码，并把解码输出和参考文本进行比较。说明ASR用于这种用途的一篇参考文献是“Reading Tutor Using an AutomaticSpeech”，Technical Disclosure Bulletin，Volume 36，Number 8，08-93，pp.287-290。这种方法的问题在于，语音识别中的任何错误都会使用户认为他或她读错某一单词，而该错误实际上是程序的故障。

与ASR相关的另一问题出现在嘈杂环境中，例如在类似于电话之类的困难信道情况下，或者当语音不流利时，发生这种问题。在这些情况下，可能发生相当大量的错误。虽然有时根据上下文，用户可识别错误，但是，由此引起的迷惑和增大的解释困难会抵销基于单词的显示的好处。当用户是正处于学习语言过程的孩子时，情况更是如此。这种情况下，实际上不应允许任何错误。

虽然对正在学习正确说话的孩子来说，该问题特别成问题，不过，高的ASR出错率也是一个普遍问题。当一个人向ASR系统口述时，系统会根据概率做出转换决定，该决定可能是以低概率为基础。如果用户未立即发觉不正确的转换，那么即使当上下文已知时，也难以确定正确的转换。

从而，需要一种当使用ASR提高听力受损人士的交流能力或者阅读技能，或者既提高交流能力又提高阅读技能时，或者当把ASR用于其它语音识别目的时，限制或解决较高误识别率问题的方法。

发明内容

本发明提供一种输入语音的转换和显示方法，所述方法包括下述步骤：把一段语音转换成单词；确定该单词的置信度；其特征在于所述方法还包括下述步骤：如果单词的置信度满足置信度阈值，那么显示该单词；如果单词的置信度不满足置信度阈值，那么显示和该单词对应的至少一个音节。

本发明提供一种输入语音的转换和显示系统，包括：把一段语音转换成单词的装置；确定单词的置信度的装置；其特征在于所述系统还包括：如果所述单词的置信度满足置信度阈值，那么显示所述单词的装置；如果所述单词的置信度不满足置信度阈值，那么显示和所述单词对应的至少一个音节的装置。

一般来说，本发明的优选实施例提供向用户呈现转换的混合显示的能力。最好以分级形式组织混合显示。最好，单词、音节和音素可置于相同的显示器上，并且可根据满足最小置信度的语音部分，选择恰当的符号转换。如果单词满足最小置信度，那么显示这些单词，否则显示构成该单词的音节。另外，如果音节不满足预定的置信度，则可显示构成该音节的音素。在本发明的一个实施例中，转换也可描述成分级转换，因为得到计及混合的单词/音节/音素数据的单一置信度。

附图说明

参考下述详细说明和附图，能够更全面地理解本发明的优选实施例，以及本发明的其它特征和优点。

图1是根据本发明一个实施例的举例的分级转换和显示系统的方框图；

图2是根据本发明一个实施例的自动语音识别(ASR)模块的方框图；

图3是根据本发明一个实施例的单词/音节/音素分离器的方框图；

图4是根据本发明一个实施例的显示控制器的方框图；

图5、6和7是根据本发明的实施例的举例显示画面；

图8是根据本发明一个实施例的单词/音节处理方法的流程图；

图9表示了根据本发明一个实施例的方法的流程图，以及在该方法中产生的各种N最佳列表内容；

图10是适于执行本发明的实施例的举例的系统的方框图。

具体实施方式

本发明的优选实施例通过提供语音的分级显示和转换，解决或减轻现有技术的问题，语音的分级显示和转换将确定语音的最可能部分，并显示该部分语音。在一个实施例中，各部分语音具有最小置信度或者接受阈值。从而，存在单词、音节和音素接受阈值。如果某一单词满足其接受阈值，那么显示该单词。如果某一单词不满足其接受阈值，那么检查各个音节，了解音节是否满足音节接受阈值。如果是，那么显示该音节或多个音节。如果音节不满足音节接受阈值，那么显示构成该音节的一个或多个音素。

例如，假定识别的单词为“embodiment”，但是识别的单词具有不满足单词的接受阈值的较低置信度。假定音节为“em”、“bod”、“i”和“ment”，这些音节的置信度将分别与各音节的接受阈值进行比较。如果“bod”和“i”的置信度较高，那么将显示这些音节。音节“em”和“ment”将被分离成音素，并被显示成分离后的音素。于是，最终的显示类似于“em‘bod’‘i’m(e)nt”。

本发明的优选实施例的优点在于其语音正被识别的个人能够断定某一部分语音存在较高的错误概率，因为该部分语音被音节或音素替换，而不是被单词替换。另外，由于即使单词不正确时，一些音节或音素仍有可能是正确的，因此用户应能够更好地确定对应于这些音节或音素的正确单词。

目前的多数自动语音识别(ASR)系统用于把语音转换成文本。因此，这些系统会确定单词的概率和置信度。一些ASR系统会把语音转换成音节。对于这些系统来说，概率和置信度是基于音节，而不是基于单词。虽然这些概率和置信度可与本发明的实施例一起使用，不过它们也可确定混合语音转换的置信度。这种确定可用于计算某一单词、其构成音节、或者音节的构成音素是否是一段语音的最可靠转换。

现在参见图1，图1表示根据本发明一个实施例的举例的分级转换和显示系统100的方框图。系统100包括ASR模块130、分离器模块140、显示控制器模块150和显示器160。个人(未示出)对麦克风120说出音频110，ASR模块130处理所得到的电信号波形。ASR模块130把语音转换成ASR输出135。ASR输出135可包括多串单词和音节，以及各串单词和音节的开始和终止时间及假说分数(hypothesis score)。参考图2更详细说明ASR模块130。

分离器模块140接收ASR输出135，并把该输出分离成单词和音节，以及音素(可选)。参见图3更详细地说明分离器模块140。从而，分离器输出145可包括单词和音节，单词和音节置信度，以及单词和音节开始和终止时间。可选地，音素、音素置信度以及音素开始和终止时间也可被添加到分离器输出145中。

显示控制器模块150接收分离器输出145，并在显示器160上以分级方式显示该输出。可选地，显示控制器模块150还可控制系统100的各种可编程方面。参考图4更详细地说明显示控制器模块150本身及其可编程性。参考图5-7更详细说明不同的分级显示方案。

系统100通常按照下述方式操作。个人说话并产生音频110，音频110在麦克风120中被转换成电信号。这些电信号由ASR模块130转换成数据流(ASR输出135的一部分)，所述数据流包含单词和音节。分离器模块140把接收的数据流分离成单词和音节，可选地分离成音素。分离器模块140还确定音节或音素的置信度或概率，以及应如何分级转换语音的各个部分。显示控制器150使用该信息确定哪部分语音最可能是正确的，并修改显示器160，以表示语音的分级显示。分级显示可包含单词、音节和音素的混合显示。

现在参见图2，图2表示了根据本发明一个实施例的ASR模块130的方框图。ASR模块130包含信号处理模块210、词汇表220、通用语言模型230、主题语言模型240、声音原型模块250、快速匹配解码器260、详细匹配解码器270和解码数据280。

音频数据由信号处理模块2 10处理。本领域已知，信号处理模块210可采取这样的步骤：对音频信号采样，把信号分成交迭帧，从而系统的剩余部分离散地处理各帧。各帧可被提供给特征提取器，特征提取器可每隔一定时间，例如每隔大约10毫秒，从信号提取频谱特征。频谱特征通常呈特征矢量的形式，随后快速匹配解码器260和详细匹配解码器270处理特征矢量。信号处理模块210实现众所周知的功能。

词汇表220也是众所周知的模块。在本发明的一个实施例中，词汇表220包括单词和音节。例如，词汇表220可包含二万个最常见的英文单词和覆盖单词各个部分的所有可能类别的英文发音的五千个音节。这种方法允许显示初始词汇表中没有的单词。但是，一般不显示单词本身，而是显示构成单词的音节。另外在本实施例中，通用语言模型230(也是众所周知的装置)可向单词/音节串赋予语言模型分数(score)。在2000年6月6日颁发的Kavensky等的美国专利6073091，“Apparatus and method for forming a filtered inflectedlanguage for automatic speech recognition”中描述了这种语言模型，以及单词/音节混合词汇表。

在本发明的另一实施例中，词汇表220只包含单词，在后续的解码阶段(例如由分离器模块140)产生音节。通用语言模型230随后分向单词串赋予语言模型分数。使用哪个实施例取决于如何附加置信度得分(score)。如果只对单词定义置信度量度，那么最好使用只具有单词的词汇表220，如果单词得分(score)较低，那么把单词变换成音节。如果需要译解词汇表220中没有的口语单词，那么词汇表220中的单词/音节的混合会是有用的。在后一种方法中，使用能够应用于单词和音节的更复杂的置信度量度是有益的。这里参考图9说明这种更复杂的置信度量度。

主题语言模型240是可选的。该模型包含局限于某些主题的统计数据和词汇表。该语言模型可以例如在教室中用于关于特定学科，例如历史、数学或生物的讲课。声音原型模块250用于计算口述发言的声学分数(acoustic score)。声音原型模块250的实现有数种。声音原型模块250可由从训练声音数据受训得到的隐藏马尔可夫模型构成。如同题为“Syllable and Morheme-Based Automatic Indexingand Searching Method and Apparatus for Textual Archive Systems”的美国专利申请，序列号09/663812(申请日2000年9月15日)中所述那样，也可关于音节产生隐藏马尔可夫模型。

快速匹配解码器260产生一系列和口述发音匹配的候选单词或单词/音节。描述恰当快速匹配解码器260的一篇参考文献是Gopalakrishnan等的“Fast Match Techniques”，AutomaticSpeech Recognition，pp.413-428，1996，Kluwer Academic(出版者)。快速匹配解码器260产生单词或单词/音节，或者更准确地说，产生音节输出273。即使对于快速匹配解码来说，音节解码也可以是足够准确的。解码数据280随后被发送给分离器模块140，如图1中所示。可选地，来自快速匹配解码器的输出273可直接发送给显示控制器模块150(图1中所示)。在存在两种转换显示(一种是错误可能较多的快速确定的转换显示，另一种是通过错误倾向较低的过程转换得到的转换显示)的情况下，这是有益的。这不但允许即时反馈，而且当时间许可时，可提供更好的转换。

详细匹配解码器270产生输出277，和快速匹配解码器260产生的输出273相比，输出277应具有提高的解码准确性。输出277可包括一串单词或单词和音节。论述详细匹配的一篇参考文献是Jelineck的“Statistical Methods for Speech Recognition”，1998，the MITPress。解码数据280随后能够被发送给分离器模块140(参见图1或3)。

现在参见图3，图3表示了根据本发明一个实施例的单词/音节/音素分离器模块140的方框图。分离器模块140包括置信度分数机构310、一致性(consensus)计算320、学生历史比较330和分级数据340。借助从显示控制器150到如图3中所示这些模块的连接，显示控制器150可以可选地控制这些模块的各个方面。

包含单词或单词和音节的快速匹配数据273，以及也包含单词或单词和音节的详细匹配数据277被输入模块310、320和330。应注意所有这三个模块310-330不必同时在系统中使用。图3只是表示可以在语音处理系统中使用的模块。下面对此进行更详细的说明。参考图9更详细说明置信度分数计算模块310，不过通常该模块试图确定每单位时间的置信度。这允许确定音素的置信度。

还可进行一致性计算(consensus computation)320。在Mangu等的“Finding Consensus in Speech Recognition：Word ErrorMinimization and Other Applications of Confusion Networks”，Computer Speech and Language 14，2000，pp.373-400中更详细地说明了一致性计算。本质上，一致性计算试图找出包含最少错误的一系列单词，这和整体输出最可能的单词序列，即整体上最可能正确的单词序列的传统识别器不同。这是通过对每个单词位置进行独立判断，在识别器假说的N最佳列表中查找最可能(或者仅仅在N最佳列表中最经常出现)在该特定位置的单词来实现的。一般来说，或者使用置信度分数计算310，或者使用一致性计算320。当有益于指定应用时，也可同时使用这两种计算，例如在置信度计算之前，插入一致性计算。学生历史比较330可与模块310或320结合，或者可以是分离器模块140中的唯一模块。对单词已被学习，例如当学生使用阅读包(reading package)时的那些情况来说，学生历史比较330是有益的。

每个模块310-330均产生分级数据输出340，分级数据输出340例如包括单词、音节或音素，以及各自的分数(score)、置信度或概率。分级数据340可被显示控制器150用于确定应显示什么。

选择哪个模块或者哪组模块取决于应用的类型，以及受显示控制器150控制的其它因素。例如，如果系统被用作阅读辅导，那么可使用学生历史比较330。这种情况下，学生历史比较330包含学生已学习了哪些单词的信息。根据该信息，显示单词或音节。例如，如果单词已被学习，那么显示这些单词，否则显示音节。当学生应该已了解一些单词时，历史比较还可用于教授唇读(lip reading)。

当结合阅读辅导使用时，学生历史比较330如下工作。学生朗读课文。课文来自显示器，于是，使用本发明的ASR系统能够确定学生阅读的内容。ASR系统对学生所说的内容解码，并把各个声学发音的单词和音节保存在缓冲器中。ASR系统把音素串(即系统如何对学生发出的语音解码)和保存在其数据库中的该单词的正确音素串进行比较。如果在学生如何发出该单词的音和该单词应如何发音之间存在失配，系统可(在该单词上方)显示一串正确的音素，并着重显示不正确发音的音素。

例如，学生阅读单词CAT，并把该单词读成“kap”。系统从其数据库了解到单词CAT应具有音素串“kat”。它可显示“kat”，强调应读成“t”，而不是“p”。在显示器上，系统可在单词CAT上方显示音素串“kaT”。

系统可如下考虑到学生历史。系统可确定学生已学会正确阅读一些单词。例如，在被纠正之后，在数个测试期内，学生已开始把CAT读成“kat”。系统可使用该信息来增强其解码。ASR可能产生解码错误，这意味着当学生说出某一单词时，该学生没有读错。例如，学生阅读单词“CAT”，并将其正确发音为“kat”，但是ASR系统出错，判定该学生说成“kap”。如前所述，系统可知道该学生已学会正确读出单词CAT。系统还可测量被解码的发音“kap”的置信度分数，发现该置信度分数较低。随后，系统可确定正是ASR系统出错，而不是学生读错，于是不会向学生显示纠正内容“kaT”。

从而，通过利用关于学生产生阅读错误的可能性有多大的历史，可提高置信度分数。于是，使用学生历史比较330的ASR系统能够比较学生发音(以解码的语音发音的形式)和该单词的正确语音发音，匹配口语的解码语音发音和正确的语音发音，并识别失配的音素。系统随后可显示正确的语音发音，同时强调失配的音素。另外，如果口述学生语音发音的置信度分数低于某一阈值，存在该学生已学会读出该单词的历史证据，那么系统不会显示纠正后的语音发音。

现在参见图4，根据本发明一个实施例表示了显示控制器150的方框图。显示控制器150包括控制表405，一个或多个控制模块450，分级数据340和显示布局模块460。控制表405允许用户规定控制器用的标准。这种标准包括应用410、延迟420、可接受的准确度430、以及启用或禁用模块的附加标准441-445。附加标准如下所述，它们分别禁用或启用其对应模块：标准441对应于快速匹配解码器260；标准442对应于详细匹配解码器270；标准443对应于置信度分数计算310；标准444对应于一致性计算320；标准445对应于学生历史比较330。在本例中，针对唇读411、交流412和阅读辅导413配置控制表405。

延迟420指出读出单词和应在显示器160上显示该单词的时刻之间的可接受的延迟量。通常，延迟约为半秒或更少。可接受的准确度指出在系统转向音节或音素之前，关于单词的转换必须有多准确。如前所述，在显示音节(或音素)之前，首先确定单词是否具有不满足预定接受阈值的较低置信度是有益的。

当进行唇读411应用时，系统具有为t₁的延迟421，为41％的可接受准确度431，快速匹配解码器260和一致性计算320模块将被启用(分别由标准441和444指示)。当进行交流412应用时，系统具有为t₂的延迟422，为50％的可接受准确度432，快速匹配解码器260、详细匹配解码器270和置信度分数计算310模块将被启用(分别由标准441、442和443指示)。当进行阅读辅导413应用时，系统具有为t₃的延迟423，为60％的可接受准确度433，详细匹配解码器270、置信度分数计算310和学生历史比较330模块将被启用(分别由标准442、443和445指示)。

通常，快速匹配解码器260和其它解码组件，比如详细匹配解码器270，总是在工作。快速匹配解码器270不应被完全取消，但是，可以这样的方式改变快速匹配解码器270，从而显示较短的候选单词列表。总的可接受延迟应小于总的解码时间(包括快速匹配延迟)。但是，快速匹配和其它解码组件可被调整成更快速运行(例如，通过使快速匹配单词列表更短)。从而，标准441和442控制是否显示分别来自快速匹配解码器260或详细匹配解码器270的输出。

控制表405中的数据由控制模块450使用，控制模块450配置下列模块：ASR 130、快速匹配解码器260、详细匹配解码器270、置信度分数计算310、一致性计算320、学生历史比较330和显示布局模块460。控制模块450还可执行其它必需的配置。显示布局模块460可被控制模块450配置成显示滚动文本、滑动文本，或者它们的组合。下面参考图5-7讨论可能的显示画面。

现在参见图5，图中表示了一种可能的显示画面500。在显示画面500中，存在两个部分。在部分510中，显示了更准确的转换。该转换通常包含高准确度的单词，当准确度较低时，包含音节。在部分520中，显示一个较低准确度的转换。该转换也可包括单词，不过本例中，部分520只包括音节。在需要快速解码的唇读期间，可使用这样的显示画面500。在图5的例子中，音节1和2构成单词1，而音节3-5构成单词2。按照这种方式，转换从左向右滚动。

图6表示了另一种可能的显示画面。在该显示画面中，转换从右向左滚动，直到一行被填满，随后从下向上滚动。这和在电影中显示片头字幕的方式类似。这里，存在单词、音节和音素的混合。音素610是低概率音素，借助某些显示技术，例如把低概率音素置于括号中，指示其是低概率音素。实现此的其它方式是用不同的字体(粗体、下划线)突出或者显示高概率项目，不太突出地显示(例如用斜体或者灰色)显示低概率项目。在图6中，低概率音素显示为斜体。

图7表示另一种显示可能性。在该显示画面中，在各个恰当位置中列举可能的音素。通常，可对这些可能音素排序，最高置信度音素位于上部，较低置信度音素位于底部。应注意对单词、音节和音素都可进行这种显示。例如，如果单词具有不满足接受阈值的较低置信度，并且在和该单词相同的时间范围内，选择了两个满足音节接受阈值的音节，那么可如图7中所示显示该单词和两个音节。当用户能在单词或音节之间进行选择时，这允许用户就正确的转换做出判断。

通过权衡显示较高级表达的益处和在该较高级显示不正确项目的潜在代价，选择在各级(单词、音节或音素)用于确定是原样显示还是分解为较低级元素的置信度阈值。

现在参见图8，图中根据本发明的一个实施例，表示了单词/音节处理方法800。每当如果对应于符号的单词不满足某一准确度阈值，需要显示更准确的音节时，执行方法800。应注意单词可被转换成不对应于在相同时段转换的音节。换句话说，被认为是某一时段最可能音节的音节实际上可能不对应于被认为是该时段最可能单词的单词。

方法800开始于步骤805，在步骤805，确定应用是否是唇读应用。如前所述，可通过显示控制器150配置应用设置。如果应用是唇读应用(步骤805＝是)，那么确定显示来自详细匹配列表的解码数据之间的延迟是否小于预定阈值(步骤825)。如果延迟不小于预定延迟阈值(步骤825＝否)，那么将从快速匹配解码器向显示器显示音节。如同参考图4说明的那样，延迟阈值可由用户配置。如果延迟小于预定的延迟阈值(步骤825＝是)，那么确定置信度分数(score)是否大于预定的置信度(步骤835)。如果是(步骤835＝是)，则向显示器显示该单词(步骤840)。如果置信度分数小于预定的置信度(步骤835＝否)，那么该单词被转换成音节(步骤845)，并向显示器显示该音节(步骤850)。

如果应用不是唇读应用(步骤805＝否)，那么随后确定应用是否是阅读辅导(步骤810)。如果应用是阅读辅导，则执行如显示控制器150的控制表405所示的指令(参见图4)(步骤815)。该系列步骤非常类似于关于唇读说明的那些步骤，例如步骤825-850。对于阅读辅导应用来说，可不使用快速匹配解码器，这意味着不使用步骤825。但是，根据语音的单词或音节部分的置信度，选择供显示的单词或音节。如果应用不是阅读辅导(步骤810＝否)，那么检查该系统是否被用于显示控制器150的控制表405定义的另一应用(参见图4)。对于特定应用，将设置和执行其它标准(由控制表405确定)。

应注意方法800可被修改，以便如果音节解码未达到预定的准确度水平，包括音素的显示。

现在参见图9，根据本发明的一个实施例，表示了方法900的方框图，以及在方法900内产生的各种N最佳列表内容。方法900用于确定作为时间的函数的置信度，所述置信度随后可用于确定哪部分语音(单词或音节，以及音素(可选))是最可能的转换。当ASR的输出是单词和音节(可能还有音素)的混合输出时，采用方法900。在图9中，偶数标记对应于一个N最佳列表的内容，奇数标记对应于对N最佳列表执行的方法步骤。应注意除了这里所示的信息之外，N最佳列表可包含另外的信息。

在N最佳列表910中，该列表包含单词和音节，所述单词和音节的开始和终止时间以及假说分数。这是执行ASR 130之后应产生的N最佳列表。应注意在该时刻，系统也可只包含单词。在步骤915，单词和音节被转换成对应的一系列音素。初始假说中每个表征(token)的第一音素继承该表征的开始时间。初始假说中每个表征的最后一个音素继承该表征的终止时间。此时，临时N最佳列表920包含音素、一些开始和终止时间、以及假说分数。在步骤925中，通过对现有时间进行插值，填充顶部假说音素的缺失的开始和终止时间，从而对源于初始假说中同一表征的所有音素赋予相同的持续时间。如下填充剩余N-1个假说的音素的缺失的开始和终止时间。通过使这N-1个音素序列中的每个音素序列和顶部的音素序列之间的编辑(或者Levehnstein)距离(edit distance)最小，使这N-1个音素序列中的每个音素序列和顶部的音素序列对准。相对于顶部假说，序列中的每个音素被识别为匹配、插入或替代。对于匹配的音素来说，把开始和终止时间从顶部假说复制到所考虑的假说。对于插入或替代音素序列来说，将开始和终止时间设定成在已确定的时间之间均匀间隔。

在步骤925之后，临时的N最佳列表将包含音素、开始和终止时间以及假说分数(这是N最佳列表930)。在步骤935中，用比例因素乘以每个假说的假说分数，并获得一个指数。这些是语音分析中的标准步骤。也可使用其它非线性单调递增函数。随后通过用转换后的分数之和去除各个转换后的分数，使转换后的分数归一化。这些数字被称为假说的概率。此时，N最佳列表包含音素、开始/终止时间和每个完成假说的概率(如N最佳列表940所示)。就概率来说，如果是10佳列表，那么存在和为1的10个概率。

在步骤945中，计算帧置信度。对于各个时间帧t，通过计算在时间t猜测的音素和顶部假说中在时间t猜测的音素相符的所有假说(包括顶部假说)的概率之和，计算帧置信度。此时，N最佳列表包含作为时间的函数的置信度(如N最佳列表950所示)。应注意N最佳列表可包含前面提及的所有项目，例如音素、开始和终止时间以及概率。

在步骤955中，把两个N最佳列表910和950组合成音节和单词(以及音素(可选))置信度，得到N最佳列表960。本质上，在一部分语音上求每个帧置信度的平均数，以便确定该部分语音的置信度。例如，如果一个音素持续三帧，则赋予该音素的置信度将是这三帧的置信度的平均数。类似地，如果一个单词持续10帧，那么赋予该单词的置信度将是这10帧中每帧的置信度的平均数。利用所持续帧数的置信度的平均数是确定一部分语音的置信度的一种方式。不过，也可使用其它方法。例如，可使用该部分语音的持续时间内，帧置信度的几何平均值，或者最小帧置信度或最大帧置信度。

在步骤900中，如果需要，置信度分数可被赋予所有N个假说的所有音素。通过计算在时间t猜测的音素和编号为I的假说中在时间t猜测的音素匹配的所有假说(包括编号为i的假说)的概率之和，计算编号为i的假说的帧置信度。随后，如同关于顶部假说所述那样，通过组合帧置信度分数，计算编号为i的假说的所有音素的置信度。

通过确定并使用作为时间的函数的置信度量度，方法900允许通过一种方法，确定音素、音节和单词的置信度。应注意的是可把方法900的结果和其它结果相结合，从而提供另一等级的置信度测量。例如，可把ASR 130使用的语言模型分数或声音模型分数与置信度900相结合。

现在参见图10，表示了适于实现本发明的实施例的举例的系统。系统1000包括计算机系统1010和光盘(CD)1050。计算机系统1010包括处理器1020、存储器1030和显示器1040。

本领域已知，可以一件产品的形式销售这里论述的方法和设备，所述产品本身包括嵌入其中的具有计算机可读代码装置的计算机可读介质。结合诸如计算机系统1010之类的计算机系统，计算机可读程序代码装置能够执行实现这里论述的方法或产生这里论述的设备的所有或一些步骤。计算机可读介质可以是可记录介质(例如软盘、硬盘驱动器、压缩光盘或者存储卡)或者可以是传输介质(例如包括光纤的网络，万维网，电缆，或者利用时分多址访问、码分多址访问的无线信道，或者其它射频信道)。可使用已知的或开发的，可保存适于供计算机系统使用的信息的任意介质。计算机可读代码装置是任何允许计算机读取指令和数据，例如磁介质上的磁性变化，或者压缩光盘，例如压缩光盘1050的表面上的高度变化的机构。

存储器1030配置处理器1020，实现这里公开的方法、步骤和功能。存储器1030可以是分布式存储器或者本地存储器，处理器1020可以是分布式处理器或者单一处理器。存储器1030可实现为电、磁或光存储器，或者这些或其它类型的存储装置的任意组合。此外，应足够宽广地解释术语“存储器”，以便包含能够相对于处理器1010可访问的可编址空间中的某一地址进行读写的任意信息。借助这种定义，网络上的信息仍然在存储器1030范围之内，因为处理器1020可从网络取回该信息。应注意构成处理器1030的每个分布式处理器通常包含它自己的可编址存储空间。还应注意的是，所有计算机系统1010中的一些可合并到专用或通用集成电路中。

显示器1040是任何适合于产生图5-7中所示那些类型的分级信息的显示器。通常，显示器1040是计算机监视器或者其它类似的视频显示装置。

上面已说明了以分级方式显示语音的各个部分的方法和系统。在语音识别过程中，根据本发明优选实施例的系统可确定最可能的语音部分，并显示恰当的单词、音节或音素。另外还描述了作为使得能够容易地确定语音的任意部分(单词、音节、音素或者语音的任意其它片断)的置信度的时间量度确定置信度的独特方法。

当然，这里表示和描述的实施例和变化只是对本发明原理的举例说明，在不脱离本发明的范围和精神的情况下，本领域的技术人员能够实现各种修改。例如，分离器模块140可包括另外或者不同的模块，以便把单词和音节分开(以及把音节和音素分开，如果需要的话)。

这里还公开了一种包括下述步骤的方法：提供包含单词和音节的已识别句子部分；把已识别的句子部分的若干假说分数转换成音素级假说分数；利用转换后的假说分数，确定已识别句子部分的作为时间的函数的置信度；利用作为时间的函数的置信度确定所识别句子部分中，各部分语音的置信度。

另外，上面公开的方法还包括下述步骤：利用作为时间的函数的置信度，确定所识别句子部分中的一系列音素，该系列中的每个音素被选为最可能的音素；确定单词的正确语音发音；确定所述系列中和该单词对应的音素是否和该单词的正确语音发音相符；如果一个或多个音素不正确，显示该单词的正确语音发音，并突出不正确的音素。

另外，上面公开的方法中，把所识别句子部分的若干假说分数转换成音素级的步骤还包括下述步骤：确定所识别句子部分的若干假说；把若干假说转换成一系列音素；根据每个假说分数确定概率；确定每个音素的开始和终止时间，从而可把概率赋予各个音素，从而假说分数被转换成音素级；其中确定作为时间的函数的置信度的步骤包括下述步骤：使许多假说、相关概率和音素与若干帧中的每帧相关联；对于每帧，通过计算在时间t猜测的音素和顶部假说中在时间t猜测的音素相符的所有假说的概率之和，计算帧置信度。

此外，上面公开的方法中，利用作为时间的函数的置信度确定所识别句子部分中各部分语音的置信度的步骤还包括下述步骤：对于有关的各部分语音，选择持续一个时段的一部分语音；确定在该时段内的平均置信度；把该时段内的平均置信度视为该部分语音的置信度。

这里还公开了一种输入语音的分级转换和显示方法，所述方法包括下述步骤：关于某段语音，确定语音的若干部分中哪一部分满足关于该部分语音的预定标准；显示满足其预定标准的该部分语音。

另外，上面公开的方法中，关于某段语音，确定语音的若干部分中哪一部分满足该部分语音的预定标准的步骤还包括下述步骤：确定该段语音的作为时间的函数的置信度；通过确定该单词持续的时段的平均置信度，确定该单词的置信度；确定该单词的置信度是否满足预定的单词置信度；显示满足该部分语音的预定标准的那部分语音的步骤包括下述步骤：如果单词的置信度满足预定的单词置信度，那么显示该单词；如果单词的置信度不满足预定的单词置信度，那么显示对应于该单词的至少一个音节。

此外，上面公开的方法中，关于某段语音，确定语音的若干部分中哪一部分满足该部分语音的预定标准的步骤还包括下述步骤：通过确定每个音节的平均置信度，确定和单词对应的至少一个音节中各个音节的置信度，其中每个音节持续的时段等于或小于该单词持续的时段；确定每个音节的置信度是否满足预定的音节置信度；显示满足该部分语音的预定标准的那部分语音的步骤还包括下述步骤：对于每个音节，如果音节的置信度满足预定的音节置信度，显示该音节；对于每个音节，如果音节的置信度不满足预定的音节置信度，那么显示和该音节对应的至少一个音素。

Claims

1、一种输入语音的转换和显示方法，所述方法包括下述步骤：

把一段语音转换成单词；

确定该单词的置信度；

其特征在于所述方法还包括下述步骤：

如果单词的置信度满足置信度阈值，那么显示该单词；

如果单词的置信度不满足置信度阈值，那么显示和该单词对应的至少一个音节。

2、按照权利要求1所述的方法，其中显示至少一个音节的步骤包括下述步骤：

确定所述至少一个音节的置信度；和

如果所述至少一个音节的置信度不满足置信度阈值，那么显示和所述至少一个音节对应的至少一个音素。

3、一种输入语音的转换和显示系统，包括：

把一段语音转换成单词的装置；

确定单词的置信度的装置；

其特征在于所述系统还包括：

如果所述单词的置信度满足置信度阈值，那么显示所述单词的装置；

如果所述单词的置信度不满足置信度阈值，那么显示和所述单词对应的至少一个音节的装置。

4、按照权利要求3所述的系统，其中显示至少一个音节的装置包括：

确定所述至少一个音节的置信度的装置；和

如果所述至少一个音节的置信度不满足置信度阈值，那么显示和所述至少一个音节对应的至少一个音素的装置。