CN1356628A

CN1356628A - 具有有限或无显示器的设备的语音识别校正

Info

Publication number: CN1356628A
Application number: CN01121723A
Authority: CN
Inventors: B·E·巴拉德; J·R·刘易斯; K·A·奥特加; R·E·范布斯柯克; 王慧芳
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2000-07-05
Filing date: 2001-07-04
Publication date: 2002-07-03
Anticipated expiration: 2021-07-04
Also published as: CN1150452C; US7200555B1; EP1170726A1

Abstract

一种校正语音识别文本的装置与方法。本方法包括下述步骤:接收音频语音输入并将其语音到文本转换成语音识别文本;在语音识别文本中检测存储于文本缓冲器中的语音识别文本上执行校正操作的第一语音校正命令;如果在语音识别文本中未检测到语音校正命令,便能将该语音识别文本加到文本缓冲器中;如果在语音识别文本中检测到语音命令,可在存储在文本缓冲器中的语音识别文本上执行该检测到的校正语音命令。

Description

具有有限或无显示器的设备的语音识别校正

发明领域

本发明涉及语音识别计算机应用程序，更具体地涉及在诸如通过电话口述消息等只有语音占主导地位的环境中校正文本串的装置与方法。

背景技术

最佳地，当作者为预期的接收人准备电子消息时，该作者享受使用标准QWERTY键盘与视觉监视器固有的全部方便性。具体地，键盘方便电子消息的高效输入而视觉监视器提供视觉反馈使电子消息的作者能在传输以前保证电子消息被正确地记录。然而，作者时常不能高效地使用键盘或监视器。例如，在车载计算机的情况中，在驾驶车辆时可能占用作者的手与眼，从而不能利用标准QWERTY键盘。

类似地，在使用“可穿戴的计算机”时有可能不能利用QWERTY键盘。可穿戴的计算机包括电池供电的带在发言人身上的计算机系统，例如带在发言人的腰带、背包、内衣等上面。可穿戴的计算机是为汽车及主要是无须用手的计算机操作设计的，可穿戴的计算机通常包含头戴的显示器并拥有接收与处理语音输入的装置。然而，可穿戴的计算机通常不包含完全可操作的QWERTY键盘。

最后，在蜂窝式电话、寻呼机、个人数字助理或其它便携式计算设备的使用中不能利用传统的字母数字型键盘。特别是，作者可能想要用便携式计算设备编写电子消息，即使它不包含QWERTY键盘。这种场合的实例包含为预期的接收人制作寻呼机消息或听写供在诸如发货标签或企业对企业购物定单等标准化表格上使用的信息。

然而，现代语音识别应用程序能利用计算机将麦克风接收的声音信号转换成可工作的数据集而无须QWERTY键盘的帮助。随后，可将这一数据集用在广泛的各式各样的其它计算机程序中，其中包含文件制备、数据输入、命令与控制、消息收发联系、以及其它程序应用。从而，语音识别是非常适合于在没有键盘输入与监视器反馈的优越性的设备中使用的技术。

然而，由于多数说话人的各式各样的发音、个人重音及各种语音特征，即使在传统的计算中有效的语音识别仍能是困难问题。环境噪声也经常使语音识别过程复杂化，由于计算机可能试图将背景噪声识别和解释成语音。这样，语音识别系统经常会误识别语音输入，迫使说话人进行误识别语音的校正。

通常，在诸如桌面PC等传统计算机中，能在视觉显示器与键盘两者的协助下进行误识别的语音的校正。然而，在只有有限的或没有显示器的设备中的误识别语音的校正即使不是不能工作也是复杂的。结果，存在着对在具有有限的或没有显示器的设备中操作的语音识别应用程序的校正方法的需求。这一系统在用来在只有有限的或没有显示通道的设备上听写电子邮件、电话及其它消息的语音识别系统具有特殊的用途。

发明概述

提供一种为具有有限的或没有显示通道的设备提供了语音识别校正的方法与装置。该方法最好用其上面存储有计算机程序的机器可读的存储器机构实现，该方法包括下述步骤。首先接收音频语音输入并将其语音到文本转换成语音识别文本。第二，在语音识别文本上检测用于在存储在文本缓冲器中的语音识别文本上执行校正操作的第一语音校正命令。第三，如果在该语音识别文本中未检测到语音校正命令，便可将语音识别文本加到文本缓冲器中。第四，如果在语音识别文本中检测到语音命令，便可在存储在文本缓冲器中的语音识别文本上执行该检测到的校正语音命令。

此外，接收步骤可进一步包括可听地确认语音识别文本的语音到文本转换。语音识别文本的可听地确认语音到文本转换的步骤可包括可听地播放记录的语音识别文本以便能确定所记录的语音识别文本是否在转换步骤中已被错误识别。第一语音校正命令可指示希望终止语音校正方法。响应语音识别文本中检测到这一类型的第一语音校正命令，能确定存储在文本缓冲器中的语音识别文本是否已拼读出。如果存储在文本缓冲器中的语音识别文本已拼读出，便能将语音识别文本加到语音可识别的字的语音识别词汇表中。此后可终止语音校正方法。

第一语音校正命令可进一步指示希望校正文本缓冲器中误识别的文本。响应在语音识别文本中检测到这类型的第一语音校正命令，可听地播放语音校正候选表，其中该表中的各语音校正候选为对音频语音输入的统计上可供选择的识别文本。随后，可接收表中的语音校正候选中选择的一种；并能用选择的语音校正候选替换文本缓冲器中的误识别的文本。

代替接收选择，可接收第二语音校正命令表示最好替换文本及希望在文本缓冲器中用较佳替换文本替换误识别的文本。响应接收这一第二语音校正命令，能用较佳替换文本替换文本缓冲器中的误识别文本。此外，第二语音校正命令能指示希望用拼读出的替换文本替换文本缓冲器中的误识别的文本。响应这一第二语音校正命令的接收，能接受可听地拼读出的替换文本，可听地拼读出的替换文本包括一系列口说的字母数字字符。这一口说的字母数字字符系列进行语音到文本转换并将各语音到文本转换后的字母数字字符存储在临时缓冲器中。可将语音到文本转换后的字母数字字符组合进拼读出的替换文本中，并用拼读出的替换文本替换文本缓冲器中的误识别的文本。在较佳实施例中，在接受可听地拼读出的替换文本之前，可以可听地播放用于提供拼读出的替换文本的预存储的指令组。

特别是，能在可听地拼读出的替换文本中检测到第三语音校正命令。该第三语音校正命令能指示希望删除存储在临时缓冲器中的特定字母数字字符，响应检测到这一第三语音校正命令，能从临时缓冲器中删除该特定字母数字字符。此外，第三语音校正命令能指示希望最好替换字母数字字符及用临时缓冲器中的该较佳替换字母数字字符替换特定的字母数字字符。响应检测到这一第三语音校正命令，可用临时缓冲器中的较佳字母数字字符替换该特定字母数字字符。

从下面的描述中，本发明的上述及其它目的、优点与特色将是显而易见的。说明书中参照了构成其一部分的附图，其中用示例方式示出了本发明的较佳实施例。然而，这一实施例并不一定代表本发明的整个范围，从而为了正确地说明本发明的范围，还必须参照这里的权利要求。

附图说明

图1示出可用来实践本发明的方法的计算机装置；

图2为示出供在图1的计算机装置中使用的典型的高级计算机体系结构的框图；

图3为展示按照本发明听写文本本体的方法的流程图；

图4为展示用于实现图3的STOP(停止)命令的方法的流程图；

图5为展示用于实现图3的CORRECT(校正)命令的方法的流程图；以及

图6为展示用于实现图5的SPELL(拼读)命令的方法的流程图。

发明详述

本发明为校正在具有有限的或没有显示器的计算机设备中操作的语音识别应用程序中的误识别的语音的装置与方法。为了补偿计算机设备的有限键盘输入与显示器输出能力，本发明的方法能提供音频反馈给说话人以便说话人辨别误识别错误。此外，本发明的方法能提供用于校正误识别的语音命令与控制功能。这种功能包含“删除”与“替换”语音命令。再者，这种功能包含用于将误识别的字的精确拼法提供给语音识别应用程序的“拼读字”功能。

图1示出可用来实践本发明的方法的具有有限或没有显示器的计算机设备10。可将计算机设备10嵌入运输工具中，例如可将计算机设备包含在运输工具导航系统中。另外，计算机设备10可作为便携式计算设备或可穿戴的计算机的一部分。最后，可将计算机设备10包含在电话系统中。仍然，本发明不限于按照计算机设备10的形式或使用。而是，本发明的精神与范围包含具有有限的或没有显示器的所有计算机设备及其使用导致有限的或没有显示器的计算机设备。

计算机设备10最好包含中央处理单元(CPU)12、诸如随机存取存储器(RAM)等内部存储器设备14、及诸如内存储器或硬盘驱动器等固定的存储介质16。固定的存储介质16中存储操作系统18及能用来实践本发明的方法的语音识别应用程序20。计算机音频电路(CAC)28也是想要的并能将其包含在计算机设备10中以便向计算机设备10提供音频处理能力。这样，便能设置诸如麦克风等音频输入装置6及诸如扬声器8等音频输出装置两者来接收供在计算机音频电路28中处理的音频输入信号及提供经计算机音频电路28处理过的音频输出信号。特别是，当计算机设备10作为电话系统的一部分时，可将音频输入装置6与音频输出装置8包含在说话人用来与电话系统通信的电话听筒中。

可选地，计算机设备10可附加包含为了与计算机设备10交互作用目的而可操作地连接在其上的键盘(未示出)与诸如VDT(未示出)等至少一个扬声器接口显示单元。然而，本发明不限于这一方面，且按照本创造性装置，为了适当地操作计算机10既不需要键盘也不需要VDT。事实上，本发明的方法旨在向具有有限的或没有显示器与键盘的设备提供语音校正能力。从而，在较佳实施例中，计算机设备10并不包含键盘或VDT。

图2示出图1的计算机设备10的较佳体系结构。如图1与2两者中所示，可将操作系统18存储在固定存储器16中。操作系统18最好是诸如QNX Neutrino或Wind River系统的Vxwork等嵌入式操作系统。然而，操作系统18不限于这些，本发明也能用于任何其它类型的计算机操作系统，例如可从Washington，Redmond的微软公司购得的Windows CE或Windows NT。

此外，可将语音识别应用程序20存储在固定存储器16中。最好，语音识别应用程序20包括语音识别引擎22、语音合成引擎24及按照本创造性装置的语音校正应用程序26。虽然图2中示出了语音识别应用程序20的分开的应用程序，本发明并不意在限于这样做，而这些各种应用程序能同样作为更复杂的单个应用程序实现，在计算机设备10的引导期间，可将操作系统18加载进内部存储器设备14中并加以执行。随后，操作系统18能将本发明的语音识别应用程序20加载进内部存储器设备14中。加载时，语音识别应用程序20能在内部存储器设备14中执行。具体地，语音识别应用程序20可包含用于执行语音识别、语音合成与本发明的校正方法的多个代码段，各代码段能包含CPU12可执行的指令。执行时，为了执行本发明的方法，CPU12能加载与执行包含在语音识别应用程序中的指令。

操作中，在可操作地连接到计算机设备10中的计算机音频电路28上的麦克风6中接收模拟音频输入信号。计算机音频电路28可将模拟音频输入信号转换成数字音频数据并跨越通信总线(未示出)将其传递给计算机设备10。随后，操作系统18可获得数字音频数据并能用传统方式将其提供给语音识别引擎22以便在其上执行通常由本技术中众所周知的语音识别引擎执行的语音识别功能。在说话人提供听写的语音给计算机设备10的语音听写对话期间，计算机音频电路28能将代表听写语音的模拟音频信号转换成数字音频数据。在较佳实施例中，通过在诸如每10-20毫秒的固定采样率上采样模拟音频信号，能将模拟音频信号变换成数字音频数据。最终将数字音频数据传递给语音识别引擎22。语音识别引擎22能用本技术中众所周知的语音到文本转换技术对说话人的语音进行语音到文本转换。具体地，如同传统的语音识别系统，为了识别数字音频数据中所表示的说出的字与短语，语音识别引擎22能处理数字音频数据。

如在典型的语音识别系统中，语音识别引擎22有时能误识别语音。这便是，虽然说话人已听写了一个字，语音识别引擎22有可能将该字转换成不代表听写的字的文本。例如，虽然说话人已听写了字“milk”，语音识别引擎22可能将听写的字“milk”转换成文本“mill”。然而，没有足够的视觉反馈，说话人不能知道语音识别引擎22误识别了听写的字。

为了补偿由计算机设备10的有限显示器导致的对说话人缺少视觉反馈，本发明能用话音合成引擎24提供音频反馈，具体地，在语音识别引擎22中执行文本到语音转换后，采用本技术中众所周知的文本到语音(TTS)技术的语音合成引擎24能向说话人播放得出的文本。说话人能识别已被误识别的听写文本。

当以语音合成引擎24向说话人提供音频反馈的方式说明了误识别时，说话人便能用按照本创造性装置的语音校正应用程序26校正误识别的文本。这里所公开的语音校正应用程序26能由程序员参照图3-6中所示的流程图用所选择的操作系统18的可购得的开发工具作为计算机程序实现，这些流程图整体表示语音校正应用程序26的创造性实施例。在较佳实例中，说话人能在具有有限的或没有显示器的计算机设备中听写语音并能随后检查从听写语音转换成的文本及校正其中所包含的误识别。在较佳实施例中，具有有限的或没有显示器的计算机设备为电话系统，说话人能在其中通过电话手机与计算机设备交互对话。

具体参见图3，本方法最好从通过可通信地将说话人(speaker)连接到计算机设备10的传统方式开始。具体地，连接可通过推动手持式设备上的按钮或通过其中具有感应(telepathy)卡的磁速率服务器用话音激活电话系统来启动。具体地，磁速率服务器为本技术中众所周知的设备并能用来可通信地连接多条电话线，各电话线具有各自的说话。一旦连接，说话人便能通过磁速率服务器提供音频输入给计算机设备10并能通过磁速率服务器接收来自计算机设备10的音频输出。

这里要描述的方法能在语音识别引擎22中接收的单一或多个听觉语音事件上操作，各语音事件包括多个字母数字字符、字、短语、句子、或其组合中任何一种。利用传统技术，可将语音识别引擎22编程为在步骤30上检测听觉语音事件，最好如上面讨论的通过在预定义的固定采样率上采样音频输入设备6。通过将方法编程为在事先确定的无声音信号时段之后(即在其中无语音事件发生的时间延迟之后，诸如延长的静寂量)，或者通过推动同一按钮或不同按钮，或者用熟悉本技术的人员已知的任何其它替代方法，暂时停止收听语音事件来自动终止采样窗。

在步骤30上检测到听觉语音事件之后，语音识别引擎22可处理该语音事件，以便将语音事件转换成语音识别文本。随后，在步骤32上，可将语音识别的文本记录在计算机设备10的内部存储器设备14中的临时存储缓冲器中。在步骤34中，为了向说话人播放临时存储缓冲器中所包含的语音识别的文本，语音合成引擎24能处理语音识别的文本。语音合成引擎24可使用系统生成的话音将语音识别的文本播放给说话人，这最好通过音频输出设备8传递，在电话系统的情况中，它是可操作地连接在说话人的音频输入设备6上的。从而步骤34允许说话人确定步骤32中记录的语音事件是否被正确地识别。

在步骤34中，和本方法中其它任何地方一样，语音合成系统24最好能通过将主题字可听地拼读给说话人而区别诸如“to”、“too”与“two”等同音异义字。再者，能用诸如将语音合成系统24编程为在播放期间用字“Alpha”表示字母A或为了任何必要的澄清而详述“Apple中的A”等传统播放技术来改进由单个字母组成的播放的说话人的理解。

如果语音事件不是正确地识别的，控制从步骤36传递到步骤38，在这一情况中可从记录它的临时存储缓冲器中删除误识别的文本。反之，如果语音事件是正确识别的，控制从步骤36传递到步骤40，在其中可由语音校正应用程序26检查语音识别的文本以确定语音识别的文本中是否包含语音校正命令，这最好用较佳的关键字指示，如下面要详述的。

在步骤40-46中，语音校正应用程序26能在语音识别的文本中检测较佳关键字。各较佳关键字可以是用于指示说话人想要校正存储在缓冲器中的语音识别的文本的语音校正命令。在较佳实施例中，有四个较佳关键字，不按特定次序列出为：删除、替换、停止与校正。为了本说明书的目的，将在整个描述中使用这四个关键字。然而，应理解，可用旨在容易地与语音事件本身的实际内容区别的(最好包括听写语音事件的说话人不大可能说出的字或短语)其它字或短语的诸如涂掉它(SCRATCH THAT)等类似地实现其它较佳关键字或短语。

说话人不能听写个别的多个关键字而不引导计算机设备10去执行与之关联的规定的命令。然而，本描述并不限于这一方面，因为也能设想其它收听技术，例如，听写“SCRATCH(涂掉)”，随后允许采样窗口到时，随后再听写“THAT”，或替代地使用诸如“COMPUTER SCRATCHTHAT”等注意字，以便发信号给计算机设备10去执行所指示的语音校正命令而不将后面的语音事件存储在计算机设备10的内部存储器14的文本缓冲器中，如下面将参照步骤48讨论的。

当正在为较佳关键字的存在而筛选语音事件的语音识别文本时，即在步骤40中检验字DELETE(删除)，在步骤42中REPLACE(替换)，在步骤44中STOP(停止)，及在步骤46中CORRECT(校正)在正确地识别的语音事件之后存在着语音输入与播放的五种可能情况。具体地，可在步骤48中将语音事件加到文本缓冲器中，或作为替代，对存储在文本缓冲器中的前面记录的语音事件执行由适当的较佳关键字触发的四种指出的命令之一。下面更详细地描述各该五种情况。

情况1：将语音事件加到文本缓冲器中

当在采样窗口期间输入设备表明用于语音输入的开放时段之后，便能听写包括消息的语音事件。例如，假定要听写与记录的初始语音事件包括消息“Stop on your way home to buy milk”。在提示时，说话人或者陈述整个消息或者在多个消息段中听写它。为了讨论的目的假定是后一情况，初始听写可以是“Stop on your way home，”在这一情况中在步骤30中检测到这第一消息段，在步骤32中记录，然后在步骤34中播放给说话人借判定系统是否正确的识别它。假定正确识别，控制绕过图3的步骤40-46，因为没有用陈述较佳关键字来请求潜在的语音校正命令。然后在步骤48上，将第一消息段加到内部存储器设备14或其它存储器设备的文本缓冲器中，并且语音校正应用程序26返回到步骤30去继续收听后面的语音事件。

当提示后面的语音输入时，说话人可按照前面的假设听写第二消息段，即“to buy milk”。由于本发明的方法是重复的，在步骤30上检测到第二消息段，在步骤32中记录，然后在步骤34中播放给说话人，如前面参照第一消息段讨论的。然而，在步骤34中最好只陈述最近的语音事件，即“to buy milk”，假定在步骤36上适当地软件识别第二语音事件，由于没有用陈述较佳关键字的方式请求潜在的命令而软件再度前进通过图3的步骤40-46。然后在步骤48上，将这一第二消息段加在文本缓冲器中第一消息段后面，现在这两段构成合成的所要求的文字消息，“Stop on your way home to buy milk”。

熟悉本技术的人员会理解说话人可在上述一或多个语音事件中提供听写的消息。如上面所建议的，当利用多个语音事件来制作消息时，单个的语音段是在步骤48上很好地在文本缓冲器中顺序地合并的，以便完成整个供记录的消息。一旦成功地听写了整个消息，便能用STOP命令来退出本方法的听写阶段，最终启动电子消息的要求的传输。下面将参照情况4更全面地说明STOP命令。

情况2：DELETE(删除)命令

返回到前面的实例，假定说话人将第一消息段误述成与所要求的陈述“Stop on your way home”。相反的“Stop on your to wotk”.在这情况中，在步骤34中语音合成系统24执行语音识别的文本的播放后，即使语音识别引擎22实际上是正确地识别语音事件的，说话人能听出误听写。因此，假定说话人想用DELETE命令消除误听写。更具体地，假定说话人在步骤36中正确地语音识别语音事件之后陈述“DELETE”来指导消除对临时存储缓冲器的最后增加。此外，说话人在误听写的短语“Stop on your way home”后面可立即陈述“DELETE”。无论如何，在步骤34中，总是将语音事件播放给说话人，不管它是单独的DELETE命令还是DELETE命令连同误听写的消息。假定这时在步骤36中正确语音识别，在步骤40中检测到DELETE命令而方法转移到步骤38，在这一情况中，从起初将其放置与存储在其中的文本缓冲器中删除该语音事件。此后，方法转移回步骤30，在其中方法能恢复收听下一语音事件。

情况3：REPLACE(替换)命令

继续情况2的实例，假设说话人正确地陈述第一消息段正确地指出“Stop on your way home”它是在步骤48中成功地加入文本缓冲器中的。假设在步骤30中下一次语音事件检测之后，将第二消息段误听写成与要求的陈述“To buy milk”不同的“To buy juice”。在步骤34之后，说话人听到误听写，即使语音事件是在下一步骤，即步骤36中实际上是正确识别的。然而，与情况2中讨论的多步方法(即，首先用DELETE命令消除误听写的文本，然后在其位置上输入正确的消息)不同，由于语音校正应用程序26转移回步骤30，说话人希望在单一步骤中删除误听写的语音事件并用正确的消息段替换它。

更具体地，检测到误听写之后，在步骤30上检测到后面的陈述“Replace to buy milk”。再一次在步骤32中记录这一语音事件并在步骤34中将其播放给说话人以便确认按照步骤36正确地识别了命令。假设正确识别后面的陈述，然后语音校正应用程序26由于说话输入的第一个字在步骤42中检测到REPLACE命令，而导致转移到新的指令组。这里用紧跟命令关键字REPLACE的替换消息段替换文本缓冲器中的最后输入，即误听写“to buy juice”。从而，在单一步骤中导致用校正后的短语“To buy milk”替换误听写的短语“To buy juice”。在步骤34中，语音合成引擎24再一次播放替换文本供说话人验证其正确性。假设在步骤36中正确识别替换文本，在步骤48中使文本缓冲器包含由聚合的消息“Stop on your way home to buy milk”组成的校正后的消息。

情况4：STOP命令

在步骤48中成功地将要求的消息加入文本缓冲器之前或之后，便能用STOP命令在步骤44上很好地退出语音校正应用程序26。用说话人验证各预期的语音段与对应的播放匹配以反复方式完成所要求的消息正确地存储在文本缓冲器中的判定。一旦作出了这一判定，诸如在情况3中的实例的结尾，说话人可陈述STOP命令，如前所述，在步骤34上将其播放给说话人。再一次假定在步骤36上正确识别这一命令，语音校正应用程序26在步骤44上检测到STOP命令，这时控制传递到图4的步骤50中所示的进程“A”。

现在参见图4，步骤50很好地用来判定在未完成的听写中是否已加上新字。这里“新”字包括在未完成的听写中的字但在语音识别引擎22很好地维护的词汇字数据库中未找到的字。如果要在词汇中包含新字，可用“拼读出”过程将它们加入，该过程是下面要参照情况5讨论的进程的一部分。

一旦通过拼读出进程将新字加到未完成的听写中，最好通过置位与新字关联的标志来完成新字的检测。或者，为了定义新字，未完成的听写中的字可对词汇数据库交叉检验，因为在词汇中未找到的听写中的任何字都是新的。也可实现新字识别的其它传统技术，如语音识别领域中的人员所理解的。

如果已按照步骤50拼读出新字，最好在步骤52中将它们加到软件词汇中供在将来的听写对话中使用。反之，如果在步骤50中未检测到新字，或者在步骤52中将新字加到软件词汇中之后，本发明的方法结束，如在图4中所示，借此表示听写对话的成功完成。此后，可实现传统的技术来处理成功地听写的电子消息。

情况5：CORRECT(校正)命令

返回到图3及前面假设的听写对话，假设正确地听写与识别了第一消息段从而已将短语“Stop on your way home”成功地在步骤48中加到文本缓冲器中。假设在听写后面的消息段期间，说话人误发音了最后的字“milk”丢失了“k”音，其后果是软件在步骤34中的播放陈述“Tobuy mill”而不是要求的陈述“To buy milk”。不用DELETE或REPLACE命令，说话人选择使用CORRECT(校正)命令。

更具体地，作为需要校正的第一语音事件后面的后续语音事件的一部分，假定说话人陈述了命令“CORRECT mill”。这时在步骤34中，为了确认正确的语音识别，将说话人的命令播放给说话人，并假定在步骤36上正确的语音识别，说话人能发布CORRECT语音校正命令。随后，语音校正应用程序26在步骤46中检测到CORRECT命令。此后，控制传递到图5中步骤54的进程“B”。

现在参见图5，在步骤54中，语音校正应用程序26能将“校正候选”表可听见地播放给说话人，即在发音或拼音上接近语音识别引擎22传统地确定的为校正选择的各自的字母、字或短语的字母、字或短语的表。在本假设的实例中，为校正选择了字“mill”。从而，校正候选表中可包括在发音或拼音上接近“mill”的字。再者候选表上的每一个元素可包含一标识符(诸如号码)以便说话人选择要求的校正。例如，在这一假设的情况中，候选表可包括“1.milk；2.meal；3.mark”。

校正候选表能以对熟悉本技术的人员熟知的任何方式传统地生成。例如，当说话人听写主题消息“To buy milk”时，正在主题消息上执行传统语音识别的语音识别引擎22建立及考虑陈述中各字的可能候选的表。随后，为了提供各字的精确的语音到文本转换，语音识别引擎22为各字选择统计上最可能的候选。可从中选择字“mill”的候选校正表也是步骤60中要利用的候选表，如下面要详述的。

当语音合成引擎24在步骤54中可听地播放“mill”的校正候选表时，与语音校正应用程序26协作的语音识别引擎22能用本技术中众所周知的技术同时检测诸如说话人从校正候选表中选择的校正候选等语音事件。例如，“闯入(barge-in)”技术允许语音识别软件同时说话与收听，而说话人能口头地或通过推动按钮“闯入”。

在步骤56中接收说话人的闯入或其它输入，而控制传递到步骤58-62，这时说话人可列举三个语音校正命令之一，最好是在这里不按特定次序列出的SELECT、SPELL、或REPLACE。下面分别讨论这三个语音校正命令中各个所完成的处理。

情况5A：SELECT(选择)命令

返回到情况5的假设的听写对话，回忆第一消息段是正确地听写与识别的，因此将短语“Stop on your way home”在步骤48中正确地加到文本缓冲器中。同时回忆在听写第二语音段期间，说话人误发音了字“milk”，导致将消息段“to buy mill”加入到临时存储缓冲器中。然后，进一步回忆说话人在下一语音事件中陈述“CORRECT mill”，这时语音合成引擎24在步骤54中可听见地播放“mill”的校正候选表。

在CORRECT命令上下文内，SELECT命令能是在步骤56上接收的关键字输入。如果是这样，当候选表已包含要求的校正时，SELECT命令是最有利的。例如，如果“mill”的候选表是：1.milk；2.meal；3.mark等，说话人会听到要求的校正为步骤54的播放中的第一选择。因此，说话人陈述“SELECT ONE(选择1)”，这将被语音识别引擎22识别并随后被语音校正应用程序26处理。

因此语音识别引擎22从说话人的语音输入生成文本，能在步骤58上识别SELECT命令。得出的到步骤64的转移导致从候选表的可听见的播放选择号码1，即所要求的字“milk”。如果选择声音混淆地类似于从候选表中的其它可能选择，语音校正应用程序26可有选择地导致语音合成引擎24拼读出选择的校正，但这不是本假说中的情况而在图中未给出。

在步骤70中，语音校正应用程序26导致语音合成引擎24可听地要求说话人确认在步骤64中播放的选择是否正确或满意。如果说话人回答“no(不)”，则语音校正应用程序26返回到步骤54以便重新播放“mill”的候选表，向说话人提供另一次校正机会。

反之，如果对步骤70的查询说话人回答“yes(是)”，则说话人选择的“milk”替换供校正的主题字，即“mill”。此外，如果选择是正确的，控制从步骤70传递回图3的步骤30，因为现在已将要求的听写成功地加入文本缓冲器。从此时起，可如前面讨论的用STOP(停止)命令使说话人退出语音校正应用程序26。此外，说话人可按照本发明的方法学听写附加文本与命令。

情况5B：REPLACE(替换)命令

当主题字或短语不包含想要的校正但说话人知道或相信词汇中包含想要的校正时最好使用REPLACE命令。对于来自情况5A的实例，这意味着“mill”的候选表不包含字“milk”。然而，假设说话人知道或相信字“milk”是在词汇之中，说话人可陈述“REPLACE milk”，而这便是在步骤56上接收的输入。

从而，在步骤62中，软件会检测到已被语音识别引擎22如前面所讨论的传统地转换成文本的REPLACE语音校正命令。结果转移到步骤68，假定在语音识别词汇中真的找到了字“milk”，语音合成引擎24便可听地播放想要的字“milk”。如果未找到，语音校正应用程序26最好能传递默认的音频消息。

在步骤74中，语音校正应用程序26可令语音合成引擎24要求说话人确认步骤68中播放的替换是否正确。如果说话人回答说“Yes(是)”。则用说话人的替换字“milk”与要校正的主题字，即“mill”，交换。此外，控制从步骤74传递回图3的步骤30，因为要求的听写现在已在文本缓冲器中。这时，说话人可退出语音校正应用程序26，如前面用STOP命令讨论的。此外，说话人可听写另外的文本与命令，如前面所讨论的。

然而，如果在步骤74中说话人回答说“否”，语音校正应用程序26最好返回到步骤54，在这一情况中重新播放“mill”的候选表，虽然使用SELECT或REPLACE命令不大可能产生想要的校正，前者由于想要的选择不在候选表中，而后者由于先前不能在词汇内找到想要的替换字。这样，在这一情况中SPELL(拼读)命令是合乎逻辑的选择，下面将详述。

情况5C：SPELL(拼读)命令

当说话人知道或发现想要的校正既不在主题候选表中也不在词汇中，则可采用SPELL命令。为了讨论的目的，假设需要拼读出想要的校正“milk”因为它不包含在校正候选表上。从而，当说话人随后陈述“SPELL”时，语音识别引擎22接收该输入并在步骤56中将其传递给语音校正应用程序26。说话人无须为了标识“mill”供校正而明确地陈述“SPELL mill”，因为已在图3的步骤46中通过陈述“CORRECT mill”选择了字“mill”供校正。此外，明确陈述“SPELL milk”没有什么作用，因为“milk”不在词汇中；如果它在，则说话人会最好使用SELECT或REPLACE命令而不是SPELL命令。

语音识别引擎22用传统方法从说话人的音频输入中生成文本，并相应地在步骤60中识别SPELL命令。此后，控制从步骤60转移到图6中的进程“C”，更具体地到步骤78，以此启动拼读校正进程。

在步骤78中语音校正方法24与语音合成引擎22结合能播放SPELL命令，虽然它也可复述供校正的主题字母、字或短语。这里，在步骤46中标识了字“mill”供校正。从而，在本假设中，语音校正应用程序26可简单地导致陈述“SPELL”或“SPELL mill”。同时在步骤78中，语音校正应用程序26可陈述供说话人在听写拼读校正中遵守的指令。

例如，这些指令可指导说话人：1)等待软件提示；2)陈述要求的字符序列；或3)保持预定的沉默时段以便指示软件当前的拼读对话已完成。这些指令也能提供可将软件编程为识别字间间隔的例程，借此允许拼读用间隔分开的顺序的字。熟悉本技术的人员会理解在步骤78中也能实现其它传统的指令。

在预定的软件提示之后，首先由语音识别引擎22及随后由语音校正应用程序26在步骤80中接收说话人的音频语音输入。最好，语音输入能包括下述四种可能性之一：一系列字符、DELETE、REPLACE或FINISH命令。下面讨论这些情况的每一种。

情况5C-1：字符陈述

关于在步骤80中接收输入，语音识别引擎22最好在可定义的收听时段内接收说话人的说话输入。在较佳实施例中，各收听时段在语音校正应用程序26启动的提示说话人说话的消息之后开始，而指定的沉默时段则能终止收听时段。然而熟悉本技术的人员可实现定义收听时段的其它方案。

从而，在软件提示或其它表明供语音输入的开放时段之后并在步骤80中接收这种语音输入时，说话人拼读预期的校正，即在本实例中的字“milk”。在预定的沉默时段结束时，上述收听时段结束。从而，如果不调用命令，可绕过步骤82-86以便到达步骤88，借此将输入“milk”加到文本缓冲器中来替换前面误听写的字“mill”。然后在步骤100中，语音合成引擎24生成的语音合成声音能复述增加的输入“milk”以便说话人能确认作出了适当的校正。再参见步骤80，说话人能替代地用FINISH(结束)命令退出语音校正应用程序26的拼读校正阶段。下面参照情况5C-4全面说明FINISH命令。

情况5C-2：DELETE(删除)命令

参见情况5C-1中的假设，假定步骤100中的播放揭示说话人误拼读了校正或语音识别引擎22误识别了说话人的拼读校正。如果这样，说话人能在下一次通过步骤80时简单地陈述“DELETE”来调用DELETE命令。然后在步骤82中，语音校正应用程序26能检测到DELETE命令并能在步骤90中诱发DELETE命令的播放，确认语音识别引擎22适当地识别了说话人的语音校正命令。在后面的步骤96中，删除最后加到文本缓冲器中的错误的字符组，此时能使语音校正应用程序26返回步骤80以便使语音识别引擎22能与语音校正应用程序26协作接收另外的音频语音输入并从而进一步提供另一次机会供说话人成功地输入字“milk”。

情况5C-3：REPLACE(替换)命令

REPLACE命令能用来在单一步骤中从文本缓冲器中删除误拼读的文本，用正确拼读的文本串替换该文本，这是与上面讨论的多步方法不同的。再参见情况5C-1的假设，假定步骤78中的音频播放揭示说话人误拼读了校正，或语音识别引擎22误识别了说话人的拼读校正。这时调用REPLACE语音校正命令，说话人能在下一次通过步骤80时陈述“REPLACE milk”。然而在这一情况中，陈述字母“m-i-l-k”来定义替换拼读。最好陈述能包含在各单个字母的发音之间出现的短暂停顿，以便语音识别引擎22能识别各单个字母。

然后在步骤84中，与语音识别引擎22协作，语音校正应用程序26能检测到REPLACE语音校正命令，并最好能在步骤92中连同REPLACE语音校正命令与其相关的替换字符一起播放该REPLACE语音校正命令，借此为说话人确认适当的语音识别。然后在步骤98中，用替换字符替换最后加入文本缓冲器中的错误字符组。随后，语音校正应用程序26能返回到步骤80使说话人能用下面讨论的FINISH语音校正命令有选择地从语音校正应用程序26中的拼读校正进程中退出。

情况：5C-4：FINISH(结束)命令

一旦校正了选择的文字错误，如说话人从上面讨论的任何方式验证的，可在以后通过步骤80时陈述FINISH语音校正命令以便说话人能通过步骤86与94退出拼读校正进程。步骤94之后，控制跳转回主语音输入序列的步骤30，允许增加新文本，或终止消息生成进程，如上面对STOP命令讨论的。

本发明的精神不限于上面描述的任何实施例。因此，不脱离本发明的范围，其他修正对熟悉本技术的人员是显而易见的。从而，必须理解，本发明与附图的详细描述只是为了示例，而非用于限制。

Claims

1.一种用于校正语音识别应用程序中误识别的文本的语音校正方法，包括下述步骤：

接收音频语音输入并将所述接收的音频语音输入语音到文本转换成语音识别文本；

在所述语音识别文本中检测用于在存储于文本缓冲器中的语音识别文本上执行校正操作的第一语音校正命令；

如果在所述语音识别文本中未检测到第一语音校正命令，便将所述语音识别文本加到所述文本缓冲器中；以及

如果在所述语音识别文本中检测到第一语音校正命令，便在存储于所述文本缓冲器中的语音识别文本上执行所述检测到的语音校正命令。

2.按照权利要求1的方法，其中所述接收步骤进一步包括下述步骤：

可听地确认所述语音识别文本的所述语音到文本转换。

3.按照权利要求2的方法，其中可听地确认所述语音识别文本的所述语音到文本转换的所述步骤包括下述步骤：

可听地播放所述语音识别文本，从而能确定在所述语音到文本转换步骤中是否已误识别所述记录的语音识别文本。

4.按照权利要求1的方法，还包括下述步骤：

响应在所述语音识别文本中检测到所述第一语音校正命令，所述第一语音校正命令指示希望终止所述语音校正方法，确定存储在所述文本缓冲器中的所述语音识别文本是否已拼读出；

将确定为已拼读出的所述语音识别文本增加到语音可识别的字的语音识别词汇中；以及

终止所述语音校正方法。

5.按照权利要求1的方法，还包括下述步骤：

响应在所述语音识别文本中检测到所述第一语音校正命令，所述第一语音校正命令指示希望校正所述文本缓冲器中的误识别文本，可听地播放语音校正候选表，其中所述表中的各语音校正候选是对所述音频语音输入的统计上可选择的识别文本；

接收所述表中所述语音校正候选之一的选择；以及

用所述选择的语音校正候选替换所述文本缓冲器中的所述误识别的文本。

6.按照权利要求1的方法，还包括下述步骤：

接收第二语音校正命令，所述第二语音校正命令既指示较佳替换文本又指示选择用所述较佳替换文本在所述文本缓冲器中替换所述误识别文本；以及

响应接收所述第二语音校正命令，用所述较佳替换文本替换所述文本缓冲器中误识别的文本。

7.按照权利要求1的方法，还包括下述步骤：

接收第二语音校正命令，所述第二语音校正命令指示希望用拼读出的替换文本替换所述文本缓冲器中的所述误识别的文本；

响应接收所述第二语音校正命令，接受可听地拼读出的替换文本，所述可听地拼读出的替换文本包含一系列说出的字母数字字符；

语音到文本转换所述说出的字母数字字符系列，将各语音到文本转换的字母数字字符存储在临时缓冲器中，并将所述语音到文本转换的字母数字字符组合成拼读出的替换文本；以及

用所述拼读出的替换文本替换所述文本缓冲器中的所述误识别文本。

8.按照权利要求7的方法，还包括下述步骤：

在所述可听地拼读出的替换文本中检测第三语音校正命令，所述第三语音校正命令指示希望删除存储在所述临时缓冲器中的特定字母数字字符；以及

响应检测到所述第三语音校正命令，从所述临时缓冲器中删除所述特定字母数字字符。

9.按照权利要求7的方法，还包括下述步骤：

在所述可听地拼读出的替换文本中检测第三语音校正命令，所述第三语音校正命令既指示较佳的替换字母数字字符又指示希望用所述临时缓冲器中的所述较佳替换字母数字字符替换特定的字母数字字符；以及

响应检测到所述第三语音校正命令，用所述临时缓冲器中的所述较佳字母数字字符替换所述特定字母数字字符。

10.按照权利要求7的方法，其中所述接受步骤进一步包括下述步骤：

在接受可听地拼读出替换文本之前，播放用于提供所述拼读出的替换文本的一组事先存储的指令。

11.一种机器可读的存储器，其中存储有具有多个代码段的计算机程序用于执行校正语音识别应用程序中的误识别文本的语音校正方法，所述代码段可由机器执行而导致机器执行下述步骤：

如果在所述语音识别文本中未检测到第一语音校正命令，便将所述语音识别文本增加到所述文本缓冲器中；以及

12.按照权利要求11的机器可读的存储器，其中所述接收步骤进一步包括下述步骤：

可听地确认所述语音识别文本的所述语音到文本转换。

13.按照权利要求12的机器可读的存储器，其中所述可听地确认所述语音识别文本的所述语音到文本转换的步骤包括下述步骤：

可听地播放所述语音识别文本以便能判定在所述语音到文本转换步骤中是否识别了所述记录的语音识别文本。

14.按照权利要求11的机器可读的存储器，还包括下述步骤：

响应在所述语音识别文本中检测到所述第一语音校正命令，所述第一语音校正命令指示希望终止所述语音校正方法，确定是否已拼读出存储在所述文本缓冲器中的所述语音识别文本；

将确定为已拼读出的所述语音识别文本加到可识别语音的字的语音识别词汇中；以及

终止所述语音校正方法。

15.按照权利要求11的机器可读的存储器，还包括下述步骤：

响应在所述语音识别文本中检测到所述第一语音校正命令，所述第一语音校正命令指示选择校正所述文本缓冲器中的误识别的文本，可听地播放语音校正候选表，其中所述表中的各语音校正候选是对所述音频语音输入的统计上可选择的识别文本；

接收所述表中的所述语音校正候选之一的选择；以及

16.按照权利要求11的机器可读的存储器，还包括下述步骤：

接收第二语音校正命令，所述第二语音校正命令既指示较佳替换文本又指示选择用所述较佳替换文本在所述文本缓冲器中替换所述误识别的文本；以及

响应接收所述第二语音校正命令，用所述较佳替换文本替换所述文本缓冲器中的所述误识别的文本。

17.按照权利要求11的机器可读的存储器，还包括下述步骤：

响应在所述语音识别文本中检测到所述第一语音校正命令，所述第一语音校正命令指示选择校正所述文本缓冲器中的误识别的文本，可听地播放语音校正表，其中所述表中的各语音校正候选是对所述音频语音输入的统计上可选择的识别文本；

接收第二语音校正命令，所述第二语音校正命令指示选择用拼读出的替换文本替换所述文本缓冲器中的所述误识别的文本；

响应接收所述第二语音校正命令，接受可听地拼读出的替换文本，所述可听地拼读出的替换文本包括一系列说出的字母数字字符；

用所述拼读出的替换文本替换所述文本缓冲器中的所述误识别的文本。

18.按照权利要求17的机器可读的存储器，还包括下述步骤：

在所述可听见的拼读出的替换文本中检测第三语音校正命令，所述第三语音校正命令指示希望删除存储在所述临时缓冲器中的特定字母数字字符；以及

19.按照权利要求17的机器可读的存储器，还包括下述步骤：

20.按照权利要求17的机器可读的存储器，其中所述接受步骤进一步包括下述步骤：

在接受可听地拼读出的字母数字文本之前，播放用于提供所述拼读出的替换文本的事先存储的指令组。