CN1279461A

CN1279461A - 改善语音识别准确性的方法和装置

Info

Publication number: CN1279461A
Application number: CN00118387A
Authority: CN
Inventors: 克里·A·奥特格; 汉斯·阿格; 阿瑟·凯勒; 罗纳德·E·万布思科克; 王·惠芳(音译); 詹姆斯·R·刘易斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-06-30
Filing date: 2000-06-14
Publication date: 2001-01-10
Anticipated expiration: 2020-06-14
Also published as: CN1145141C; JP2001034293A; JP3627006B2; US6675142B2; US6370503B1; US20020013709A1

Abstract

一个转换系统包括计算机、监视器和一个送话器。通过送话器,该系统的使用者提供输入语音,由该系统接收和转换。系统监视转换过程中转换后语音的准确性。该系统还确定转换后语音的准确性是否足够,如果不够则自动启动一语音识别改善工具和提醒使用者已启动了该工具。这一工具还可由使用者人工启动。识别问题类型由使用者或由系统自动辨识,而系统提供可能的解决步骤以使使用者能调节系统参数和修改使用者行为以缓解该识别问题。

Description

改善语音识别准确性的方法和装置

本发明的领域是连续语音识别的方法和装置。更具体地说，本发明涉及向使用者提供语音识别准确性控制的方法。

当前存在的语音识别系统使一使用者能连续地将语音口授给送话器，然后由计算机将语音变换成文本，并把文本显示在计算机的监视器上。在一个设计成对词间无间歇语音进行解码的连续语音识别系统中，有理由预期将会发生解码错误并将由使用者去改正。往往是在一个特定的口授时段里连续地重复发生某一特定类型的错误。例如，系统可能重复地错认一个特定词，例如“and(和)”。

先有技术的语音识别系统接收并基于各种系统参数和数据库来转换所收到的语音，例如音频电平、主题库、以及依赖于说话者的训练数据库等。在某些系统中，在系统上受过训练的使用者可能能确定正在发生哪一类识别准确性问题，并调节或改变各种参数或数据库以改善该使用者语音的识别准确性。然而许多使用者可能没有这种爱好或耐心去学习如何辨识识别准确性问题或在遇到这些问题时如何调节系统参数以便改进。此外，一些使用者宁愿不去监视语音识别期间产生的文本，固而可能不知道识别中正在发生问题。这两类使用者可能会变得受到了挫折因而决定不使用该系统。

所需要的是这样一种转换口授的语音的方法和装置，它使使用者能容易地改变系统参数或使用者行为以改善系统的识别准确性。还需要一种转换口授的语音的方法和装置，它能识别何时在发生语音识别问题，并能协助使用者识别问题的具体类型。

本发明包括一种转换语音的装置和方法，它接收输入语音，并把输入语音转换成转换后的语音，它包括文本格式的词的顺序列表。在转换过程中，该方法和装置监视转换后语音的准确性并确定转换后语音的准确性是否足够。如果准确性不够，则本方法和装置自动启动一个语音识别改善工具。使用这一语音识别改善工具，该方法和装置改善转换过程的准确性。

本方法由一转换装置实现，该装置包括至少一个计算机、一个监视器和一个送话器。本方法能由一个机器执行，它执行机器可读存储器上存储的多个计算机程序代码段。

本发明的一般目的是向转换系统使用者提供容易地改变系统参数和／或使用者行为的能力和信息，以改善该系统的识别能力。本发明的另一目的是自动地向使用者提供这种能力。

图1显示根据本发明最佳实施例的语音识别系统的简化框图；

图2显示根据本发明最佳实施例允许使用者能改善语音识别系统语音识别准确性的方法流程图；

图3显示用于提供使用者和语音识别改善工具之间初始交互作用的显示屏示例；

图4显示一个表的示例，它对多个可能的问题类型列出为缓解或消除那个问题所采取的一些可能的解决步骤；

图5是协助使用者执行“记录词(Record Word)”解决步骤的显示屏示例；

图6是协助使用者执行“问题词(Problem Word)”解决步骤的显示屏示例；

图7是协助使用者执行“造成另一发音(Creating an AlternatePronunciation)”解决步骤的显示屏示例；

图8是协助使用者执行“检验你的个人语音文件(Checking YourPersonal Speech File)”解决步骤的显示屏示例；

图9是协助使用者执行“加到词汇表中(Add to Vocabulary)”解决步骤的显示屏示例；

图10是协助使用者执行”启动主题(Activate Topic)”解决步骤的显示屏示例；

图11是教育使用者适当调节系统参数和适当进行口授的小教程的显示屏示例；以及

图12是协助使用者测试系统的识别能力的显示屏示例。

图1显示根据本发明最佳实施例的语音识别系统的简化框图。语音识别系统100包括计算机102，如个人计算机或工作站，它有显示监视器104、鼠标106或其他指向装置，以及键盘108。系统100还包括用于向计算机102口授的送话器110以及用于向使用者提供声音反馈的扬声器112。计算机102特别装备了从送话器110获取声音信息所需要的接口。这种装备可存在于计算机母板上或子卡上，例如SOUNDBLASTER(TMCreative Labs)，或通过其他手段。

监视器104、鼠标106、键盘108和扬声器112构成用户接口，语音识别系统100的使用者能借助它启动、控制和监视转换过程。根据一个实施例，计算机102经由监视器104提供各种屏幕显示，以帮助使用者在一特定语音识别期间调节影响识别准确性的各种参数。

将结合图2至图12详细描述转换系统100的操作。在操作过程中，由使用者经由送话器110提供语音输入，而由计算机102实现的解码器引擎(未画出)连续接收输入语音和建立文本输出，这文本输出显示在监视器104上。为了转换语音，解码器引擎从存储在计算机存储器(未画出)内的信息中调出数据，例如系统词汇、声音模型、以及基于语言的模型等。然后解码器引警完成各种操作，例如使声音输入与声音模型拟合，以建立输入语音的文本翻译。

基于语言的模型提供关于一般词序的数据，从而引擎可以确定可能是哪些候选短语。这对于在包含语音上相似的词(例如“to”、“two”和“too”，或“there”、“their”和“they′re”)的词和短语之间进行选择是重要的。一旦由解码器引擎考虑了各种因素，则可由该引擎得到作为文本数据的文体。在解码了一些使用者语音输入后，或者由解码器引警，或者由某一应用，可通过用户接口(例如监视器104或扬声器112)把那个文本显示给使用者。

在这一点，使用者可以检测语音识别过程中出现的问题，或者，如在一个最佳实施例中那样，系统可以检测该问题并通知使用者。使用图形用户界面(GUI)，使用者能被引导完成调节各种系统参数或修改使用者行为，以改善语音识别准确性。

图2是根据本发明最佳实施例允许使用者改善语音识别系统语音识别准确性的方法流程图。希望该方法由语音识别系统，如系统100(图1)来实现。

当使用者启动语音识别程序时，该方法在步骤202开始。当使用者促使计算机下载(如果必要的话)、初始化和启动一个应用软件时，通常会由此发生该语音识别程序的初始化。于是该程序便自动地，或者作为使用者各种输入的结果，开始在步骤204接收和转换输入的语音，并把转换后的语音显示在使用者的计算机监视器上。该转换过程产生文本格式的顺序词列表。

在一个最佳实施例中，该程序在步骤205监视语音识别的准确性。可以这样来完成对转换后语音准确性的监视，例如，通过保持跟踪落在一识别阈值之下的转换后词的个数或百分比，或者由使用者改正的那些词的个数或百分比。在一个最佳实施例中，其准确性被连续地监视(例如在逐个词的基础上进行)。在其他一些实施例中可通过周期性或非周期性地检验转换后语音的准确性来监视其准确性。

当转换后语音的准确性变为不可接受时，系统自动启动一识别改善工具，它允许使用者容易地调节系统参数以改善识别准确性，如下文中所述。因为自动启动识别准确性改善工具可能会变得令人烦恼，所以在一个最佳实施例中可由使用者取消有连续监视或自动启动特性。也是在一个优选实施例中，使用者能在任何时候人工启动该识别改善工具。

步骤206-210显示启动识别改善工具之前的一些决策步骤。这些步骤可作为程序流的组成部分来实现，或者例如可由中断驱动。在任何情况下，计算机继续接收和转换语音(步骤204)，直至决策步骤206-210之一使程序进入步骤212或214为止。

在步骤206，确定是否使用者已请求启动识别改善工具。在一个最佳实施例中，使用者能在语音识别期间的任何时候作此请求。通常当使用者根据所显示的文本注意到该系统不能准确地转换使用者的语音时，该使用者便会作此请求。如果使用者已经请求启动识别改善工具，则程序进入步骤214，这将在下文中描述。如果使用者尚未请求启动该工具，则程序进入步骤208。

在步骤208，确定自动工具启动特性是否被取消。在一个最佳实施例中，在初始时这一特性是被允许的，在其后能由使用者手动地取消或允许。使用者可以能访问一系列菜单选项，其中之一是允许或取消这一特性。另一种情况是，每次该工具被启动时(步骤214，见下述)，使用者便被提示去指出是否他或她想要在语音识别过程的其后阶段取消自动启动特性，或直至使用者重新允许该启动特性为止。如果该特性被取消，则程序如图2中所示那样迭代，而系统继续接收和转换语音。

如果该特性未被取消，则在步骤210中确定该语音识别的准确性是否足够。这一决定通常受到该语音识别系统是一个口授系统还是一个命令和控制系统的影响。在一个命令和控制系统中，输入语音与一个相对较小的词汇库中的条目进行比较。除非系统有高置信度确信所说的词与词汇库内的命令词之一匹配，否则系统不会采取行动。如果识别水平低于例如一个特定阈值，则系统会确定该词是认不出的。如果有预定义百分比的词落在阈值之下或者如果预定义个数的连续出现的词是认不出的，则系统将确定识别准确性不够。

另一方面，在一个口授系统中，每个所说的词与一个大得多的库进行比较，系统输出与所说的词相关性最近的库中词。虽然识别阈值方法也能用于口授系统，但其他一些方法可能更适于确定识别准确性。例如，如果使用者能编辑由系统产生的文本，则系统能确定由使用者改正的词所占百分比。如果被改正词的个数或百分比高于预先定义的个数或预先定义的百分比，则系统将确定其识另别准确性不够。

不管哪种语音识别系统，都可使用其他方式确定识别准确性是否足够，例如信号-噪声测量以及其他方法，基于这里的描述，其他方法对于本领域技术人员而言也是显然的。

中果语音识别的准确性足够高，则程序如图2所示那样迭代，系统继续接收和转换语音。如果语音识别系统的准确性不够，则在步骤212向使用者发出告警，说明该系统将要启动识别改善工具。这一告警可由例如可听或可视报警给出。

与用户告警连在一起的自动工具启动特性提供的好处在于没有密切监视所显示文本的使用者将会知道停止口授以与识别改善工具进行交互作用。这一特性给使用者以更大的自由，使在语音识别期间专注于其他业务。

根据步骤206和210中做出的决定，在步骤214启动语音识别改善工具。该工具的启动涉及下载(如果必要的话)、初始化和启动构成该工具的软件模块。在一个最佳实施例中，在监视器屏幕上显示一个窗口，指出程序已启动一个语音识别改善工具。由这一点开始，使用者与该工具交互作用，以图改善转换后语音的准确性。

图3显示用于提供使用者和语音识别改善工具之间初始交互作用的显示屏示例。在一个最佳实施例中，在图3和图5-15中例举的每个显示屏示例都显示在计算机监视器上，例如监视器104(图1)。显示屏300希望包括一个“欢迎”消息之类，以告知使用者该工具已被启动。在一个最佳实施例中，屏300还包括其他元素，例如由元素302-310例举的那些，下文中将对每一个都更详细地描述。在另一些实施例中，可以在屏300上包括附加的或不同的元素，或者元素302-310中的任何元素或全部元素可包括在其他屏幕显示中。

元素302-306允许使用者能前进通过该工具提供的各种屏面或取消或退出该工具。例“回退(back)”键302使该工具显示刚在当前显示屏之前显示的那个屏面。而另一方面“下一个(Next)”键304则使该工具显示将由该工具下一次显示的屏面。如果下一个要显示的屏面依赖于使用者必须在当前屏面中提供的输入，而使用者尚未提供那个输入(例如得尚未在元素310中识别出一个问题类型)，则该工具会向使用者显示一个错误消息，指出在该工具能进入下一屏面之前必须由使用者提供输入。此外，使用者能借助点击“取消(Cancel)”键306或使用其他退出过程(例如按键盘上的“Escape”键，或从下拉菜单中选择“Exit”)在任何时候退出该工具。

如前面提到的，屏面300能提供一个可选择的元素，例如元素308，它允许使用者能取消该工具的自动启动特性。初始时，元素308被设置成一旦系统识别出问题便自动启动该工具。通过消去选择(de-selecting)元素308，使用者将取消这一特性。结果，对于这语音识别过程的其余部分，将需要使用者手工启动该工具，除非使用者重新启动自动启动特性。

再回来参考图2，在步骤216中，辨识识别问题类型。问题类型可由使用者指出，或如下述，由该工具自动识别为最可能的问题类型。如果使用者手工启动该工具(例如在步骤206)，则在一个最佳实施例中该工具会向使用者显示若干个可能的识别问题类型。这示于图3，其中该工具在文本元素310中显示若干个可能的识别问题类型。通过使用鼠标或其他选择选项的通用方式(例如向上／向下箭头)，使用者提供输入，指明在可能的识别问题类型中使用者认为哪个是所遇到的问题类型。通常，使用者会选择与使用者在观察转换后文本时注意到的识别问题类型相对应的问题类型。

在一个最佳实施例中，如果该工具是被自动启动的(例如在步骤210中)，则如果可能的话，该工具自动识别出最可能的识别问题类型作为系统遇到的问题(即，使系统确定其识别准确性不够的问题)。在这种情况中，该工具不是显示元素310，而是会显示一个消息，指出该工具已识别出一个问题，而且该工具将协助使用者调节系统参数以缓解或消除该问题。另一种情况是，元素310可被显示，其中已识别出的问题被点亮显示。如果系统不可能识别出最可能的问题类型，或者在另一实施例中那样，该工具会提供若干个可能的识别问题类型，如元素310所示。

再回来参考图2，一旦由系统或由使用者识别出了问题类型，则工具在步骤218向使用者提供可能的解决步骤。在一个最佳实施例中，使用者能通过点击“下一个(Next)”键使该工具提供可能的解决步骤。通过点击“下一个”，该工具显示一个新的屏面，它指出所选定问题的可能解决步骤。

图4显示一个表的示例，它对多个可能问题类型列出为缓解或消除那个问题所能采取的一些可能的解决步骤。图4中的表将不显示给使用者，而是用来说明该工具如何识别出下一个要显示的屏面。

在列402，列举出若干可能的识别问题类型。这些问题类型对应于图3的元素310中列出的问题类型。在列404中，列出了为缓解或消除相应的问题类型所能采取的若干可能的解决步骤。在其他各种实施例中，可由该工具处置更多些、或少些、或不同的问题类型和／或解决步骤。列402和404中列出的问题类型和解决步骤只是作为示例，而不是要限制本发明的范围。

除了如列404所示向使用者提供各种解决步骤外，还如下文所述，该工具还能向使用者提供各种“小教程”，它们教育使用者例如如何设置系统参数或如何正确地口授。若干这些小教程也列于列404供举例说明之用。

为说明该工具的操作，参考图3和图4两图。假定使用者已从图3的元素310中选择了这样的识别问题，即系统“不能识别一单个词”。这一问题类型对应于图4的问题406。一旦点击“下一个”键304，该工具便向使用者提供一个新的屏面，它指出图4的步骤列表408中所列的可能解决步骤之一。例如，该工具会提供一个屏面，它对应于解决步骤“核实是否是正确的使用者”。在使用者通过与那个屏面的交互作用从而执行了那个解决步骤之后，该工具会显示下一个屏面，它对应于解决步骤“打入问题词”。这一序列将继续到所有解决步骤(以及小教程，如果有的话)都已呈现给使用者为止，或者直到使用者分别使用“Back(回退)”或“Cancel(取消)”键302、306指出他或她想要返回到一先前步骤或退出该工具为止。在另一实施例中，能以列表形式向使用者提供关于那个具体问题的所有解决步骤(和小教程，如果有的话)，而使用者可以选择用户想让该工具执行哪个步骤。

图5-11显示的显示屏面示例用于向使用者提供对各种识别问题的可能解决方案，还用于向使用者提供小教程。图5-11所示一组解决方案不包括对所有可能问题所能提供的所有可能的屏面，而是用于以例说明通常遇到的问题的某些解决方案。

图5是协助使用者执行”记录词(Record Word)”解决步骤的显示屏示例。例如，如果该使用者或系统识别出(在图2的步骤216)该识别问题是系统不认识一个单个词，则该工具便会显示屏面500。在这种场合，使用者被提示在元素502中打入这个误认词的拼写。然后，使用者将按下“Record(记录)”键504，然后向送话器说出这个词。于是该工具把该词及发音送入与那个使用者相关联的适当的词汇或主题中，并把其发音添加到先前存储的那个词的发音上。

该工具还会完成附加的功能。例如，该工具会完成音频质量测量，以确认它收到的是清晰的无噪声信号。如果必要的话，该工具会提示使用者重新记录该词或采取其他行动。

根据该工具对所记录词的分析，该工具会建议使用者去实现一个或多个其他解决步骤。例如，该工具会确定音频记录电平未适地调节(例如它们太低或太高)，而且该工具会指导使用者调节音频电平。

另一种情况是如果该使用者尚未这样做的话，该工具会建议使用者应完全登录该系统。一个登录的说话者是先前已经训练过该语音识别引擎的说话者。在训练过程中，该系统建立一个依赖于说话者的模型，它对此特定说话者是唯一的。然后，在语音识别期间，这个依赖于说话者的模型能用于更好地认识登录的说话者的语音。未登录的说话者是先前未训练过该语音识别引擎的说话者。结果，对于未登录的说话者便不存在依赖于说话者的模型。作为替代以使用一个不依赖于说话者的模型去转换一个未登录的说话者的语音。与使用依赖于说话者的模型相比，使用不依赖于说话者的模型会使系统有更多的误识别问题。

图6是协助使用者执行“问题词(Problem Word)”解决步骤的显示屏示例。例如，如果该使用者或系统识别出(在图2的步骤216)该识别问题是系统从来不认识一个特定词，则该工具便会显示屏面600。与“记录词”屏面500(图5)类似，除非先前已在另一屏面上打入了这个词，使用者被提示在元素602中打入这个误认词的拼写。然后使用者可以通过点击“播放发音(Play Pronunciation)”键604让该工具播放系统认出的该词的发音，然后该工具将确认该词在系统词汇表中或任何工作的主题库中。如果该词在系统中，则该工具从适当的词汇表或主题库中提取该词，完成文本到语音转换，并通过扬声器向使用者播放该词。如果对该词存在不只一个发音，该工具能播放所有可得到的发音。如果该词不在系统中，则使用者将被提示记录该词。

如果使用者不满意这些发音，使用者可通过点击“改变发音(ChangePronunciation)”键606来改变发音。然后使用者将向送话器说该词。然后该工具将把此发音存入与那个使用者关联的适当词汇表或主题中，把此发音加到任何先前存储的该词发音上。与“记录词”过程一样，该工具也能完成附加的功能。

图7是协助使用者执行“造成另一发音(Creating an AlternatePronunciation)”解决步骤的显示屏示例。例如，如果使用者不能用“问题词”解决步骤来改善对一特定词的辩认时，该工具便会显示屏面700。“造成另一发音”步骤允许使用者能对当前存在于一词汇表或主题中的一个词指定一个新的发音。例如，如果使用者有困难发音一个特定词，或如果使用者宁愿使用一个词的缩写形式，则这一特性是有用的。例如一使用者可能每次说“fridge”时想让系统输出“refrigerator(冰箱)”。该用户会把“refrigerator”打入“旧发音(Old Pronunciation)”元素702中，并把“fridge”打入“新发音(New Pronunciation)”元素704中。然后每次使用者说“fridge”时该系统将输出“refrigerator(冰箱)”。

图8是协助使用者执行“检验你的个人语音文件(Checking YourPersonal Speech File)”解决步骤的显示屏示例。例如，如果使用者或系统识别出(在图2的步骤216)该识别问题是系统普遍识别能力差，则该工具显示屏面800。在这种情况中，有可能是系统在使用错误的依赖说话者的模型。于是，屏面800将在元素802中显示该系统当前使用的语音文件。在元素804中，如果对于元素802中识别出的使用者，基于不同的环境(例如办公室和汽车)，系统有多个依赖于使用者的模型，则该工具能在元素804中显示该系统认为该使用者处在哪种环境中。此外，如果对于元素802中识别出的使用者，基于不同的语音(例如英语和法语)，系统有多个依赖于说话者的模型，该工具能在元素806中显示系统认为使用者正在说哪种语言。然后使用者能通过选择不同的使用者、环境和／或语言来修改元素802-806中任何一个。在一个最佳实施例中，使用者能点击与元素802-806中任何一个关联的下拉元素808，于是能显示出可以得到的不同迭代方案的清单。

图9是协助使用者执行“加到词汇表中(Add to Vocabulary)”解决步骤的显示屏示例。例如，在使用者已经用“问题词”解决步骤打入一个新词之后，该工具将显示屏面900。如前所述，该工具能确认所打入的词是在与“问题词”解决步骤相关联的系统词汇表或任何工作主题库中。当该工具认识到一个所记录的词不在系统词汇表(或一些系统词汇表)中时，屏面900将显示该词902(例如，“F00”)并提示使用者指出是否想要把该词加到词汇表中。如果使用者点击“加词(Add Word)”键904，则该词被加到词汇表中。如果使用者在系统上存有多个词汇表，该工具将给使用者一个选择以把该词加到其他词汇表中，而且如果使用者希望的话，可以启动那些词汇表中的任何一个或全部，以平衡当前的语音识别过程(session)，除非其后由系统或使用者再使其不处于工作状态。

图10是协助使用者执行“启动主题(Activate Topic)”解决步骤的显示屏示例。与屏面900(图9)类似，例如，在使用者已利用“问题词”解决步骤打入一个新词之后，该工具将显示屏面1000。当该工具认识到一个所记录的词不在系统词汇表(或一些系统词汇表)或任何工作的主题库中，但欲在使用者的未工作主题库之一当中，于是屏面1000显示该词1002(例如“F00”，并提示使用者指出想要把该词加到词汇表中还是启动在其中发现该词的那个主题。如果使用者点击“加词(Add Word)”键1004，则该词被加到词汇表中。如果该使用者在系统上存有多个词汇表，该工具将给使用者一个选择以把该词加到其他词汇表中，而且如果使用者希望的话，可以启动那些词汇表中的任何一个或全部，以平衡当前的语音识别过程。如果使用者点击“启动主题(Activate Topic)”键1006，则在其中发现该词的那个未工作主题被启动，以平衡当前语音识别过程，除非其后由系统或使用者再使处于不工作状态。

图11是教育使用者适当调节系统参数和适当进行口授的小教程的显示屏示例。例如，如果能得到一个或多个小教程，它们能帮助使用者解决在图2的步骤216中辨识出的一个特定问题的话，该工具将显示屏面1100。每个小教程能指导使用者设置系统参数和／或调节使用者行为以缓解该识别问题。例如，如果该识别问题是当使用者说话时什么事也没发生，则该工具会给使用者一个选择去播放关于如何使用送话器的一个小教程。在一个最佳实施例中，在元素1102中为使用者播放一段视频教程，而使用者能根据他或她的选择来暂停或重放该教程。在另一实施例中，该教程可以是写成的一组指令，设计成教育使用者或引导使用者通过一个特定的程序(例如如何调节系统参数)。若干可能的小教程列于图4中的列404作为示例。在其他实施例中可由该工具提供更多些、或少些、或不同的教程。此外，使用者可以通过下拉菜单、帮助过程或其他方式访问任何可得到的教程。

图5-11中显示的屏面没有指出能用于协助使用者解决识别问题的所有可能的屏面。能提供更多些、少些或不同的屏面。

再回来参考图2，在步骤218中已向使用者提供了可能的解决步骤，而且该工具已收到使用者的输入，当输入适当时，该工具已调整了系统参数，此后，如果在步骤219中必要的话，则在步骤220中确定该使用者是否想测试该系统。例如，使用者可能想测试系统，以确定新的使用者行为、使用者对系统参数(例如音频设置)的改变或者使用者加到系统中的词是否已解决了系统遇到的识别问题。如果使用者指出他或她想测试系统，则该工具在步骤222中实现测试。在一个最佳实施例中，这种测试的实现是通过该工具提供一个显示屏面，使用者能与其交互作用。

图12是协助使用者测试系统的识别能力的显示屏示例。当使用者在步骤220(图2)中指出他或她想要该工具实现识别测试时，将显示屏面1200。屏面1200提示使用者口授一词或句子。如果使用者点击“测试(Test)”键1202，并开始说话，则系统接收该测试输入语音，转换该语音，并把文本显示在元素1204中。如果使用者对转换结果不满意，则使用者可以继续与工具进行交互作用以解决任何留下的问题。例如，使用者可以返回到屏面300(图3)，并再次开始识别改善过程。另一种情况是能把使用者引向解决该识别问题的另一个可能来源(例如，一个万维网页面或免费电话号码)。如果使用者满足该转换结果，则使用者可点击“取消(Cancel)”键306以退出该工具。

图3和图5-12显示的屏面布局和内容只是为了作为示例，这些布局和内容不想限制本发明的范围。在各种不同的实施例中，可以提供额外的或不同的屏面或元素，或者任何一个或全部元素可以包括在其他屏面中。此外，还可提供屏面以协助使用者缓解或消除其他识别问题。

再回来参考图2，如果使用者未要求测试，或在测试已完成之后，可在步骤224中确定是否使用者已指出他或她想要退出该工具。这一确定可基于一个使用者提示，询问使用者是否他或她想要退出。例如，可在该工具已经为一特定问题提供了全部可能的解决步骤之后提供这一提示。或者在使用者已在任何一个工具屏面上点击了“取消(Cancel)”键306的任何时候作出该决定。如果使用者尚未指出他或她想退出该工具，则该方法返回到该工具内的先前步骤，例如步骤216。如果使用者已指出他或她确实想要退出该工具，则该工具被关闭，该方法返回到接收和转换使用者语音的步骤204。使用者能在任何时候指出该使用者想要退出当前的语音识别过程(session)，尽管在图2中没有显示出这一可选项。

这样，已描述了一种转换语音的方法和装置，它克服了特定问题，并与先有技术的方法和机制相比实现了某些优点。提供了转换口授语音的方法和装置，它使使用者能容易地改变系统参数和使用者行为，以改善系统的识别准确性。还提供了一种转换口授语音的方法和装置，它能辨识何时发生语音识别问题并协助使用者辨识问题的具体类型。在一个最佳实施例中该方法能被自动启动并能通知使用者这一启动。这使使用者不必在转换过程中密切监视转换后的文本。该方法还通过小教程提供对使用者的教育，从而使用者能修改他或她的行为或调节系统参数以实现更准确地转换语音。

前文中对具体实施例的描述将如此充分地揭示本发明的一般性质，以致其他人能在不背离一般概念的情况下利用当前的知识容易地修改和／或使实施例适应于各种应用。所以，这些适应和修改应该和想要被包括在所说明的实施例的等价物的意义和范围内。具体地说，尽管已利用各种识别问题、解决步骤和屏面描述了一个最佳实施例，但本领域技术人员将会理解，基于这里的描述，使用或多、或少、或不同的问题、步骤和屏面也能实现本发明的方法。再有，本领域技术人员将会理解，这里呈现的流程图是想用于解释本发明，而且可以设计出不同的技术来实现程序流而不一定使其屈从于流程。例如，这里所讨论的每个任务可以被中断，以允许程序流去完成后台任务或其他任务。此外，各任务的具体顺序可以被改变，用于实现这些任务的具体技术可以因系统而异。应该理解，语音识别系统的具体实现可以包括各种处理成分、数据集和数据路径，这些没有在这里显示或描述。

应该理解，这里所用的措辞和术语是为了描述而不是为了限制。因此，本发明拟包含落入所附权利要求的实质和广阔范围内的所有这些替代物、修改、等效物和变体。

Claims

1．由转换系统实现的转换语音方法，该方法包含以下步骤：

a)接收输入语音；

b)把输入语音转换成转换后的语音，它包括文本格式的词的顺序列表；

c)监视转换后语音的准确性；

d)确定转换后语音的准确性是否足够；

e)一旦确定转换后语音的准确性不够，便自动启动一个语音识别改善工具；以及

f)使用语音识别改善工具改善转换步骤的准确性。

2．如权利要求1中申明的方法，这里的监视步骤包含跟踪落在一识别阈值以下的若干词的步骤。

3．如权利要求2中申明的方法，这里的确定步骤包含这样的步骤，即如果落在识别阈值以下的词个数高于一预先定义数，则确定其准确性不够。

4．如权利要求2中申明的方法，这里的确定步骤包含这样的步骤，即如果落在识别阈值以下的词个数高于一预先定义的百分比，则确定其准确性不够。

5．如权利要求1中申明的方法，这里的监视步骤包含跟踪多个由转换系统的使用者改正的词。

6．如权利要求5中申明的方法，这里的确定步骤包含这样的步骤，即如果由使用者改正的词数高于一预先定义数，则确定其准确性不够。

7．如权利要求5中申明的方法，这里的确定步骤包含这样的步骤，即如果由使用者改正的词数高于一预先定义的百分比，则确定其准确性不够。

8．如权利要求1中申明的方法，这理改善转换准确性的步骤包含以下步骤：

f1)辨识识别问题类型以及

f2)向语音识别改善工具的使用者提供可能的解决步骤以解决该识别问题类型。

9．如权利要求8中申明的方法，这里辨识识别问题类型的步骤包含以下步骤，

f1a)向使用者显示若干可能的识别问题类型；以及

f1b)从使用者接收输入，该输入指出使用者把哪种可能的识别问题类型辨识为识别问题类型。

10．如权利要求8中申明的方法，这里辨识识别问题类型的步骤包含由语音识别改善工具自动地把最可能的识别问题类型辨识为识别问题类型的步骤。

11．如权利要求8中申明的方法，进一步包含以下步骤：

f3)从使用者接收输入，该输入使语音识别改善工具能调节参数以改善转换步骤的准确性。

12．如权利要求8中申明的方法，进一步包含以下步骤：

f3)向使用者提供小教程以帮助使用者解决识别问题类型。

13．如权利要求1中申明的方法，进一步包含以下步骤：

g)当语音识别改善工具被自动启动时，向语音识别改善工具的使用者发出告警。

14．如权利要求1中申明的方法，进一步包含以下步骤：

g)确定使用者是否想要转换系统测试转换步骤的准确性；以及

h)如果使用者想要转换系统测试准确性，则从使用者接收和转换测试输入语音。

15．如权利要求1中申明的方法，进一步包含以下步骤：

g)确定自动启动语音识别改善工具的步骤是否被取消；以及

h)如果自动启动语音识别改善工具的步骤被取消，则不进行自动启动步骤。

16．把输入语音转换成文本格式的转换装置，该装置包含：

一个计算机，它接收输入语音，把输入语音转换成转换后的语音，监视转换后语音的准确性，确定转换后语音的准确性是否足够，当准确性不够时自动启动一语音识别改善工具，以及使用语音识别改善工具改善转换步骤的准确性；

一个显示监视器，它与计算机相连，显示转换后的语音；以及

一个送话器，它与计算机相连，接收输入的语音。

17．一种机器可读存储器，在其上已存储了一个计算机程序，该计算机程序有多个代码段，可由计算机执行以使机器完成以下步骤：

a)把输入语音转换成转换后的语音，它包括文本格式的词的顺序列表；

b)监视转换后语音的准确性；

c)确定转换后语音的准确性是否足够；

d)一旦确定转换后语音的准确性不够，便自动启动一个语音识别改善工具；以及

e)使用语音识别改善工具改善转换步骤的准确性。