CN1128435C

CN1128435C - 用于无读本的和无显示装置的语音识别注册方法

Info

Publication number: CN1128435C
Application number: CN99127096A
Authority: CN
Inventors: 詹姆斯·R·刘易斯; 王慧芳; 罗恩·V·巴斯科克; 凯利·A·奥特加
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-02-10
Filing date: 1999-12-29
Publication date: 2003-11-19
Anticipated expiration: 2019-12-29
Also published as: JP2000259170A; CN1263333A; DE60044991D1; EP1028410B1; US6560574B2; US20020091519A1; US6324507B1; KR20000057795A; ATE482447T1; TW503388B; EP1028410A1; KR100312060B1

Abstract

在一个不需要读的语音识别系统中为一使用者注册的方法包含以下步骤：产生一个具有可听输出和音频输入的音频用户接口；可听地播放一个文本短语；可听地提示使用者说出所播放的文本短语；对于多个其他文本短语，重复可听地提示使用者不说、可听地播放文本短语和可听地提示使用者说的各步骤；以及根据可听地提示的和其后说出的文本短语来处理该使用者的注册。还能产生一个图形用户接口，用于：显示与短语和可听提示相对应的文本；显示多个由使用者启动的图符；以及借助色彩、形状和动画的至少一种在不同时候有选择地区分这多个图符中的不同图符。

Description

用于无读本的和无显示装置的语音识别注册方法

技术领域

一般而言，本发明涉及语音识别系统，具体地说，涉及用于无读本的和无显示装置的语音识别注册。

背景技术

语音识别程序的使用者需要注册，即提供一个由识别系统处理的样本，以便最准确地利用语音识别系统。当使用者能流利地大声朗读时，收集这种样本是容易的。当由于任何原因使得使用者不能流利地朗读时，或者当语音系统不提供显示装置时，到目前为止收集这种样本是不实际的。语音识别系统可被用于与电话和集中式口授系统相连，其中不需要显示监视器作为设备的组成部分。

近年来已对语音识别软件进行了显著的改进。语音识别软件，也称语音识别引擎，由使用者语音的声音信号构成文本，或者用于口授目的，或者用于发出命令和控制目的。当前的系统有时允许使用者使用与说话者无关的模型对系统说话，以使使用者尽可能快地开始用该软件进行工作。然而，当使用者注册该系统时，识别的准确性最好。

在正常的注册过程中，系统向使用者展示一个文本，并在使用者读此文本时记录该用户的语音。如果使用者能流利地读，则这一方法会进行得很好。当使用者对于该使用者正在注册的语言不能流利地读时，这一方法便行不通。

有许多原因使使用者可能不那么流利地读。下列是一些举例：该使用者可能是刚开始学读的儿童；该使用者可能是这样的儿童或成年人，他有一种或多种学习缺陷使其难于读不熟悉的材料；该使用者可能是说话流利但对于流利地读有困难；该使用者可能是注册一个系统，而该系统是设计成教使用者第二语言的系统；以及该使用者可能是注册一个没有显示的装置，结果无东西可读。

长期以来人们感到需要提供一种语音识别注册装置，用于无读本的和用于无显示装置的语音系统。

发明内容

为了支持作为无读本的使用者和不能访问显示装置的使用者，一个注册系统除了有用于流利读出者的系统所具有的特性外还必须具备某些特性。根据所发明的结构安排，最重要的附加特性是在期望使用者读出文本之前先向使用者读出该文本。这可以利用文本到语音(TTS)系统，使其调谐到保证声音输出能可信地产生该文本的正确发音词，或者利用记录的音频。如果给出适当的系统资源，则记录的音频在当前是最佳的，因为其声音更自然，但在有限资源系统中，例如在客户——服务器系统中的手持装置，则TTS可以是更好的选择。

于是，通过音频通道向使用者提供注册用文本，并可调节到标准的使用者接口以提供一个易于理解的事件(event)序列，这样便满足了现有技术中人们长期感到的需求。

根据本发明的结构安排，在无需读出的语音识别系统中注册使用者的一种方法，包含的步骤是：产生具有可听输出和音频输入的音频用户接口；根据注册脚本可听地播放注册文本短语；可听地提示使用者说出所述播放的注册文本短语，而不在可视用户接口中显示所述注册文本短语；对于所述注册脚本中的多个其他注册文本短语，重复所述可听地播放所述注册文本短语和可听地提示使用者说的所述步骤，而不在可视用户接口中显示所述注册文本短语；根据所述可视地提示和其后说出的注册文本短语来处理该使用者的注册；以及如果说出的注册文本短语未被接收，则重复可视地播放所述注册文本短语和可听地提示使用者说出这最新播放的注册文本短语这些步骤。

该方法还能进一步包含只有当所说短语被接收时才可听地播放这多个注册文本短语中下一个短语的步骤。

该方法还能进一步包含在可听地播放步骤之前可听地提示使用者在文本语句被播放时不要说话的步骤。

该方法还能进一步包含在注册过程中产生可听的使用者进展情况通告的步骤。

该方法还能进一步包含以第一种声音可听地提示用户和以第二种声音播放所述注册文本短语的步骤。

该方法能包含由所记录音频可听地播放至少一些注册文本短语，以文本到语音引擎可听地播放至少一些注册文本短语，或者二者兼有的步骤。类似地，使用者能由所记录音频提示，以文本到语音引擎提示，或者二者兼有。

该方法还能进一步包含这样的步骤：在产生音频用户接口步骤的同时产生图形用户接口；以及显示与注册文本短语及可听提示相对应的文本。

该方法还能进一步包含这样的步骤：显示多个由使用者启动的图符；以及借助色彩、形状和动画的至少一种，在不同时候有选择地区分这多个图符中的不同图符。

根据本发明的结构安排，在一个不需要读的语音识别系统中为了使用者注册而以一套存储在固定介质中的指令进行编程的计算机设备包含：用于产生具有可听输出和音频输入的音频用户接口的装置；用于可听地播放注册文本短语的装置；以及用于听地提示使用者说出所播放注册文本短语的装置。

该设备还能进一步包含在注册过程中产生可听的使用者进展情况通告的装置。

可听地播放注册文本短语的装置能包含回放预先记录的音频的装置，文本到语音引擎，或者二者兼有。

该设备还能进一步包含：与音频用户接口同时产生图形用户接口的装置，以及显示和注册文本短语及可听提示对应的文本的装置

该设备还能进一步包含：显示多个由使用者启动的图符的装置；以及借助色彩、形状和动画的至少一种，在不同时候有选择地区分这多个图符中的不同图符的装置。

附图说明

图1A、1B和1C一起给出一个流程图，用于解释语音应用中的无读本的注册以及该语音应用中无显示装置下的任何用户的注册。

图2-8显示根据本发明的结构安排，由一图形用户接口(GUI)产生的无读本的注册对话显示屏的依次变化。

图9是一方框图，说明一个计算机设备，它以实现图1所示方法的例程指令编程，产生图2-8中所示GUI屏面显示以及与无显示的电话系统联结操作。

具体实施方式

在任何注册过程中的预先要求步骤是为使用者准备一个注册脚本(script)。一般而言，注册脚本应包括声音(sound)和声音组合的完全彻底的取样。各种方案，如在词被读出时相继“点亮”(high lighting)这些词，可指导使用者从一显示上通读注册脚本。对于无读本的和不能访问显示装置的使用者，则必须考虑其他因素。必须借助对语音识别引擎初始训练有用的各种声音选择或组合成用于脚本的文本。脚本中的每个句子必须被分成其组成短语。每个文本短语应对应于一个在语音上完整的单元，从而使每个短语易于被使用者记忆。每个短语不应包含多于一或二个单元，以避免超出使用者短时记忆极限。这些单元应是语言组成部分，如介词短语。

在图1A、1B和1C中以3部分显示了用于无读本的和用于无显示装置的注册处理过程 10。图1A和1B的流程图划分只是为了方便，因为整个流程图会不适于显示在一页图上。图1C中所示例程是可选的，与本发明的结构安排没有直接关系。过程 10中的步骤代表了用于指导一无读本的或不能访问显示的使用者通过注册过程的理想系统。为了本描述的目的，应该假定，每当指令、文本和命令被提供给使用者时，这些指令、文本和命令至少要可听地播放给使用者。可听的指令、文本和命令可通过回放记录的音频来产生，或可由文本到语音(TTS)引擎产生，或利用二者。

如图1A所示，注册过程 10以步骤12开始。根据步骤14，初始化一个语音用户接口(VUI)。如果能得到显示装置，则图形用户接口(GUI)的产生也被初始化。由流程图代表的方法可以在没有GUI的情况下实现，但为了本描述的目的，将假定能得到显示装置。于是，如结合图3-9更充分解释的那样，指令、文本和命令也作为文本出现在一个图形用户接口的窗口中。

根据步骤16，播放关于如何完成注册过程的一般性指令。这一般性指令也能被显示，最好是以与音频输出相协调的方式进行。

首先，考虑只使用VUI的情况。在这种情况下，所有的使用者，不只是无读本的，都需要音频协助来完成注册。根据步骤18，用户能被指示，或被提醒(如果先前在步骤16中已指示过的话)在播放每个短语时保持安静。然后在每个短语被播放之后说出每个短语。这一指令以声音1播放。

根据步骤20，确定最后一块文本是否已被播放。如果不是，该方法在路径21上分支到步骤22，并根据步骤22呈现下一个文本块。在这一点，本方法从图1A中的转跳块23移到图1B中的转跳块23。然后，根据步骤24，当前块的下一个短语成为当前短语，并根据步骤26播放当前短语。当前短语以声音2播放。在播放当前短语之后，期待使用者说出刚播放的短语。

根据决策步骤28，语音识别引擎确定是否任何词被使用者说出了。如果使用者已说出了任何词，则该方法在路径29上分支到决策步骤34。如果使用者尚未说出，该方法在路径31上分支到步骤32，根据这一步骤，使用者被指示说出刚被播放的短语。该指令以声音1播放，然后方法返回步骤28。

如果所有词都被使用者说出，则根据步骤34确定是否使用者已说出命令“Go back(回返)”。这使使用者能重新口授更先前的短语。如果已说出了“Go back(回返)”命令，该方法在路径37上分支到步骤38，根据这一步骤，当前短语成为先前短语。然后，该方法返回步骤26。如果未说出“Go back(回返)”命令，则该方法在路径35上分支到决策块40的步骤。

根据决策步骤40，确定使用者是否说出命令“Repeat(重复)”。这使使用者能重新口授当前短语。如果已说出了命令“Repeat(重复)”，该方法在路径43上分支，方法返回到步骤26。如果未说出“Repeat(重复)”命令，则方法在路径41上分支到决策步骤44。

根据决策步骤44，确定是否所说出的短语质量可被接受(OK)。如果所说出的短语被适当地解码并与所播放的短语相对应，则该短语是可接受的。如果说出了错词，如果正确的词未被充分解码，或者如果该短语未被接收到，则这个短语是不可接受的。例如，如果使用者没能说出该短语，该短语被噪声或其他干扰压住，或者音频接口输入失效，则该短语将未被接收。

如果所说出的短语是不可接受的，则该方法在路径47上分支到步骤56，根据这一步骤，使用者被指示重试，并且方法返回到步骤26。作为一种替代作法，例如，在没有受到提示或者不让该短语再次被播放的情况下使用者可以请求得到重复该短语的机会。作为一般指示线，当使用者的发音可接受使用时，该方法以正常方式通过这些短语。如果在任何时候有一个或多个词的发音不可接受，则该方法提供重复地呈现有问题的那个词或那些词。

如果说出的短语是可接受的，该方法在路径45上分支到决策步骤46，根据这一步骤，确定是否播放和重复了当前块的最后一个短语。如果不是，则方法在路径49上分支到步骤24。如果已播放和重复了当前块的最后一个短语，则方法在路径47上分支。在这一点，该方法从图1B中的转跳块53移到图1B中的转跳块53。在图1A中，转跳块53引到步骤54，根据这一步骤，能产生一个可听的注册进展通告。

在通告之后该方法返回决策步骤20。如果文本的最后一块尚未被播放，则方法在路径21上分支到步骤22，根据这一步骤，如上文解释的那样呈现出文本的下一块。如果已呈现了文本的最后一块，则方法在路径21分支到步骤58，根据这一步骤，停止呈现文本。

在停止呈现文本之后，能向使用者提供选择，即现在注册还是以后注册。图1C中显示了一个注册例程，它能由图1A和1C中有关的转跳块59访问。根据步骤62，能向使用者呈现出一种选择：现在注册还是以后注册。如果使用者选择现在注册，则方法在路径61上分支到步骤64，根据这一步骤，在所说出的短语基础上处理注册。然后，该方法在步骤68结束。如果要以后注册，则方法在步骤63上分支到步骤66，根据这一步骤，所说出的注册脚本文本块短语被存储，供以后的注册处理使用。然后，方法在步骤68结束。

该方法用不同的声音实现是有好处的，一方面对于注册脚本的文本短语的音频使用一种声音，另一方面对于指令和反馈的音频使用另一种声音。从表1中描述的示例对话可以理解不同声音的使用。表1声音音频/消息声音1：在这一注册过程中你将听到或读出77个短语，在示范之后

重复每个短语。这是从Robert Louis Stevenson 1882年写的

金银岛(Treasure Island)一书中摘取的。这是该故事的一个

特殊版本，其全部版权属IBM所有。当你重复该句时，请

说得自然些并尽可能地清晰。如果你要回返到一个句子，

请说“go back(回返)”。好了，让我们开始吧。在示范者

读出每个句子之后大声地重复这个句子。声音2：现在跟我重复，THE OLD PIRATE(老海盗)，这个故事说的

是(继续再读出大约18个短语)声音1：你的注册口述已完成25％。声音2：他的头发散落在他那肮脏的兰色外衣的双肩上。(继续再读

出大约18个短语)声音1：你的注册口述已完成50％。声音2：他一直在看着悬崖，并抬头看到我们的视线。(继续再读出

大约18个短语)声音1：你的注册口述已完成75％。声音2：啊，我知道你要什么了。他向下仍了三四个金币(继续再读

出大约18个短语)声音1：祝贺你，你已完成了注册口述群众： “祝贺”声符(earcon)声符是图符的可听对应物。

对具有图形用户接口(GUI)的方法 10的使用由图2-8中所示一系列显示屏 100来说明。这些显示屏代表现有的Via Voice Gold(金嗓子之路)注册对话的变体和扩展，以适应于支持无读本的注册和无显示装置的使用者注册所需要的附加特性。Via Voice Gold^-是可从IBM^-得到的一种语音识别应用。要在传统的图中说明为使无读本的能区分各部分注册文本和其他图符及按纽所采取的方式，那是困难的事，因为显示这种区别的最好方法是使用色彩。当能得到显示装置时，由可听的指令要求参考色彩是容易做到的。其他可应用于文本的方法包括：方框、下划线、黑体和斜体、背景加亮等。非彩色的可用替代方式对于单色显示装置及色盲的读出者和无读本的是有用的。TTS引擎能产生如下指令，例如，“当时漏图符的箭头从黄变为绿时，读绿色的词。”例如，人们可用黑体、斜体或下划线词代替绿色词。在图2-8中，不同的色彩由各个交叉斜线圆圈指示，在文本部分的情况中，各部分由虚线框包围。在每种情况中，注册文本的第一块是：“为进行注册，你需要大声读这些句子，COMMA(逗号)自然地说出并尽可能清晰，COMMA(逗号)然后等待出现下一个句子”。这个文本的短语，或者一部分，由TTS引擎播放，或由录音记录播放，或者这二者的组合，在此之后使用者重复该文本。当能得到显示装置时，GUI使得使用者至少还能看到文本，如果说不读出文本的话。

图2显示一个显示屏100，它有窗口102，其中出现文本块104。以与Via Voice Gold注册屏相似的方式，显示屏100有文本块计数器106，音频电平计图符108，“启始”按钮图符110，“可选项”按钮图符112，“重播短语”按钮图符114，“挂起”按钮图符116以及“帮助”按钮图符118。在Via Voice Gold注册屏上，按钮图符114是“播放样本”。其他按钮图符被显示成灰色，它们对于理解本发明的结构安排是不必要的。

形如时漏的指示性图符120是系统正在准备播放文本块第一短语的指示器。根据本最佳实施例，时漏有一个黄色箭头122指向当前短语的第一个词。在图2-8中的每幅图中，带有文本标签的按钮图符对于无读本的是不合适的。这些按钮图符可以是不同色彩的，从而使播放的系统指令能提示使用者，例如“现在点击绿色按钮”。

在图3中，系统开始播放当前短语的音频。箭头122仍为黄色而第一个词“To”显示成绿色并处在框130中。在这种表示中，随着每个词的播放，每个词的色彩从黑色变为绿色。这种额外的特性帮助无读本的把适当的音频与每个词关联起来，而对读出者则提供了一个聚焦点。

在图4中，当系统产生当前短语中最后一个词的音频时，注册对话的第一块的当前短语已全部变绿，并被包围在框132中。时漏120的箭头122仍为黄色。

在图5中，系统以送话器图符124和变绿的箭头122向使用者指出，现在使用者要重复由系统刚才播放的短语。可选方式是使用者可点击“重播短语(Replay Phrase)”按钮图符以再听一遍短语。如果使用者选用这一可选方式，则系统返回到图2中所示状态。

在图6中所示的另一种替代方式，当使用者重复该短语时，系统把每个词的色彩变成兰色，以指出该词正确发音。至少是，该发音对于本系统是足够正确的，足以用这一音频构建使用者的声音模型。为使这一过程工作得好，系统为接受使用者的发音所采用的判据应尽可能宽松。于是，箭头122是绿色，第一个词“To”是兰色并在框134中，而当前短语的其余部分是绿色并在框136中。

在图7中，使用者已结束重复短语，而且系统已接受了全部发音。于是，当前短语全部是兰色并在框138中。在此之后，例如大约250-500ms之后，系统将对该块的下一个短语，例如“大声地(读)这些句子，COMMA(逗号)”，重复图2至图7所示步骤。

图8说明，当使用者的发音太差以致不允许把该词用于计算使用者声音模型时，如何把该词改变成不同的色彩，例如红色。箭头122是绿色。短语中的“ To enroll you”部分是兰色并在框140中。短语的“to read”部分也是兰色并在框144中。走样的词“need”是红色并在框142中。

当只有一个偶然的词出现红色时，使用者能得到指令点击“Next(下一个)”按钮图符以继续进行，此时该按钮图符是没有变灰的。如果任何词都变为红色(这是这个词或这些词太走样而不能使用的指示)，使用者能得到指令点击红色词以重新记录这些词，或者使用“Start(开始)”按钮图符以重新记录整个短语。在使用这另一种作法时，指令文本能出现在显示屏底部按钮之间的窗口150中，并伴有音频指令，例如“Say′need′(说need′)”。除了要由系统发出红词的发音外，得到红词记录的过程与造成短语的过程是完全相同的。如果需要上下文的声音，该系统将发出该红词以及红词之前和之后的词的发音。

换句话说，系统将按时漏/黄箭头图符所指示的一组目标词去读出这些目标词。然后，该图符将变成送话器/绿箭头图符，于是使用者将重复该短语。如果在由程序说定的尝试次数(例如3次)之后，所记录的发音仍然太走样而不能使用，则系统将自动继续到下一个适当的红词或下一个短语。

本发明的结构安排提供了一种新的注册过程，这新的注册过程适于帮助无读本的、或差的读出者、或其主要流利另一种语言的读出者去完成语音识别系统中的注册。在没有显示的装置时，注册是可能的，不管是否有读出设施。虽然预计在将来会实现无指导注册技术，即利用所存储的来自真实的口述会话的音频完成附加的声音分析，但如果给出根据本发明结构安排的系统，使用者将总会从至少某些初始注册中受益，而无读本的或差读出者也将受益。

本发明结构安排的方法能由图9所示计算机设备60实现，并提供了一套存储在固定介质中的指令例程。该计算机60有处理器62。处理器62有随机存取存储器(RAM)64、硬盘驱动器66、图形适配器68以及一个或多个声卡76。RAM64以图形显示出被编程去完成图1所示过程10的各步骤并产生图2-8所示显示屏。监视器70由图形适配器68驱动。命令由键盘72和鼠标74产生。音频用户接口78包括经由连线80从声卡76接收信号的扬声器84和经由连线82向声卡76提供信号的送话器86。这送话器和扬声器可组合成头戴送受话器，如虚线框88所示。

该计算机设备还能通过接口90连到电话系统92。使用者能通过电话访问这语音识别应用并在没有显示装置的情况下注册到该应用中。

本发明的结构安排依赖于若干重要特性，包括：将注册脚本分开成容易重复的子句短语，除非该句子太短以致它实质上就是一个单个短语；以及在语音识别系统的注册对话中先使用TTS或存储的音频提供短语的正确发音，然后再由使用者产生该短语。对于具有显示的系统，附加特性包括：使用可视反馈帮助使用者看到在系统提供短语音频时哪个音频与哪个词同步进行；让使用者知道何时开始读；以及提供关于哪些词有可接受的发音、哪些词有不可接受的发音的反馈信息。

Claims

1.在无需读出的语音识别系统中注册使用者的一种方法，包含的步骤是：

产生具有可听输出和音频输入的音频用户接口；

根据注册脚本可听地播放注册文本短语；

可听地提示使用者说出所述播放的注册文本短语，而不在可视用户接口中显示所述注册文本短语；

对于所述注册脚本中的多个其他注册文本短语，重复所述可听地播放所述注册文本短语和可听地提示使用者说的所述步骤，而不在可视用户接口中显示所述注册文本短语；

根据所述可视地提示和其后说出的注册文本短语来处理该使用者的注册；以及

如果说出的注册文本短语未被接收，则重复可视地播放所述注册文本短语和可听地提示使用者说出这最新播放的注册文本短语这些步骤。

2.权利要求1的方法，进一步包含在可听地播放步骤之前可听地提示使用者在注册文本短语被播放时不要说话的步骤。

3.权利要求1的方法，进一步包含以第一种声音可听地提示用户和以第二种声音播放所述注册文本短语的步骤，其中第一种声音和第二种声音帮助用户区分注册文本短语和指示文本短语。

4.权利要求1的方法，进一步包含只有当所说短语被接收时才可听地播放这多个注册文本短语中下一个短语的步骤。

5.权利要求1的方法，进一步包含在注册过程中产生可听的使用者进展情况通告的步骤。

6.权利要求1的方法，包含由所记录音频可听地播放至少一些所述注册文本短语的步骤。

7.权利要求1的方法，包含以文本到语音引擎可听地播放至少一些所述注册文本短语的步骤。

8.权利要求1的方法，包含由所记录音频可听地提示使用者的步骤。

9.权利要求1的方法，包含以文本到语音引擎可听地提示使用者的步骤。

10.权利要求1的方法，进一步包含以下步骤：

在产生所述音频用户接口步骤的同时，产生图形用户接口；以及

显示与所述注册文本短语及所述可听提示相对应的文本。

11.权利要求1的方法，进一步包含以下步骤：

显示多个由使用者启动的图符；以及

借助

色彩，

形状和

动画当中的至少一种，在不同时候有选择地区分这多个图符中的不同图符。

12.权利要求1的方法，进一步包含以下步骤：

在产生所述音频用户接口步骤的同时，产生图形用户接口；

显示与所述注册文本短语及所述可听提示相对应的文本；

显示多个由使用者启动的图符；以及

借助

色彩，

形状和

13.在一个不需要读的语音识别系统中为了使用者注册而以一套存储在固定介质中的指令进行编程的计算机设备，所述被编程的计算机设备包含：

用于产生具有可听输出和音频输入的音频用户接口的装置；

用于可听地播放注册文本短语的装置；以及

用于可听地提示使用者说出所述播放的注册文本短语的装置。

14.权利要求13的设备，进一步包含在注册过程中产生可听的使用者进展情况通告的装置。

15.权利要求13的设备，其中所述可听地播放所述注册文本短语的装置包含回放预先记录的音频的装置。

16.权利要求13的设备，其中所述可听地播放所述注册文本短语的装置包含一个文本到语音引擎。

17.权利要求13的设备，进一步包含：

与所述音频用户接口同时产生图形用户接口的装置；以及

显示和所述注册文本短语及所述可听提示对应的文本的装置。

18.权利要求13的设备，进一步包含：

显示多个由使用者启动的图符的装置；以及

借助

色彩，

形状和

动画的至少一种，在不同时候有选择地区分所述多个图符中的不同图符的装置。

19.权利要求13的设备，进一步包含：

与所述生成音频用户接口步骤同时产生图形用户接口的装置；

显示和所述注册文本短语及所述可听提示对应的文本的装置；

显示多个由使用者启动的图符的装置；以及

借助

色彩，

形状和