CN1764896A

CN1764896A - 在具有用户接口的电子设备中提供允许语音的输入的方法和设备

Info

Publication number: CN1764896A
Application number: CNA038262770A
Authority: CN
Inventors: K·哈罗宁; H·萨尔米宁
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2003-04-07
Filing date: 2003-04-07
Publication date: 2006-04-26
Anticipated expiration: 2023-04-07
Also published as: EP1611504A1; ATE421117T1; EP1611504B1; AU2003214512A1; DE60325901D1; US20050027538A1; CN100367185C; WO2004090713A1; US7383189B2

Abstract

本发明提供一种用于多模式交互的方法、设备和系统。根据本发明的方法包括步骤：启动多模式用户交互，提供至少一个按键输入选项和至少一个语音输入选项，显示该至少一个按键输入选项，检查是否存在影响所述语音输入选项的至少一个条件，并根据所述条件提供语音输入选项以及显示所述提供的语音输入选项的指示。该方法特征在于，检查是否满足影响语音输入的至少一个条件，并根据所述条件提供所述至少一个语音输入选项，并在所述显示器上显示所述语音输入选项的指示。

Description

在具有用户接口的电子设备中提供允许语音的输入的方法和设备

本发明涉及在电子设备以及便携式终端上以及通信网络中的多模式交互浏览。更具体的，本发明涉及一个简单的多模式用户接口概念，提供作为用户手动输入的条目替换品的可能的语音数据输入以及语音浏览的紧密导引。此外，本发明涉及检查应当满足有效语音输入的初步条件。

在多模式应用中，用户可以和除了键盘之外的其他输入模态交互。

例如，通常通过滚动和点击发出的命令可在应用中允许(enable)语音，从而用户可以说出该命令，然后由自动语音识别引擎识别。随着允许技术的成熟，对将语音交互添加到视频应用中的兴趣正日益增长，因为在移动情形中，例如开车或走路时，使用键盘比较困难。

目前为止已经建议了不同的多模式浏览结构。例如文献US6101473描述了一种方法，其中用电话网络服务和互联网服务的同步操作实现语音浏览。由于网络资源的浪费，即需要两条不同的通信链路，这毫无疑问是禁止的。此外该服务要求电话服务和互联网服务之间的相互连接。另一种难以让用户满意的是，在分布式浏览器结构中所需的无线联合浏览器同步会延迟浏览器操作，从而使用户体验恶化。

文献US6188985描述了一种方法，其中无线控制单元实现到主计算机的语音浏览性能。为此目的，建议了多种多模式浏览器结构，其中将这些操作放置于网络服务器上。

专利US6374226描述了一种能动态改变语音识别语法的系统。例如，当电子邮件程序进入排版模式时，动态的启动新的语法启动。这包括一方面设备资源的改良利用，还包括设备改变自身“被动词汇”的严重缺点。由于当学习该设备的用户理解某特定表达时，会面对当该设备运行另一应用时会对自己的输入装聋作哑的情况，所以这可能导致受挫经历。

已知的系统经历了用户并不热衷于使用允许语音的特征这一事实。现有技术的另一个问题是用户并不总是知道允许语音的浏览系统的操作状态。

虽然已经开发出怎样编写多模式应用的标准，但没有怎样建立该应用接口，从而使用户能尽可能容易的得知可以使用语音输入的标准。

特别是在这样的设备和应用中，期望用户知道在不同时刻或某些特定条件下允许哪些特定语音输入。

但当用户将语音识别系统成功付诸使用时，可能该用户会继续使用。换句话说，在开始使用语音控制时存在障碍。

这一问题已经通过音频提示等得到解决，但这样很快就变得令人讨厌，会导致使用经历恶化。

此外，由于系统负载或应用行为特性，所有时刻不可能所有的语音控制选项都可用，这是使用现有技术难以传达给用户的。

上述多模式浏览结构的所有方案具有共同点，即它们不适于用在移动电子设备终端中，例如移动电话、或手持计算机等，因为移动电子设备具有较小计算能力，受限制的资源或较低的电池容量。

所以期望有一种允许语音的多模式浏览系统，并能提供较高的用户友好度。

根据本发明的第一方面，提供一种多模式交互浏览方法，包括步骤，启动多模式用户交互，包括至少一个按键输入选项和至少一个语音输入选项，显示该至少一个按键输入选项，检查是否存在至少一个影响所述语音输入选项的条件，并根据所述条件提供语音输入选项，并显示所述提供的语音输入选项的指示。

其中提供至少一个按键输入选项和有条件地提供至少一个语音输入选项的多模式用户交互的启动至少可通过开启设备或激活各自菜单或各自设定来提供。

在所述多模式浏览中，无条件提供按键输入选项，并有条件的提供所述至少一个语音输入选项。如果可能干扰语音输入的至少一个条件满足时，不提供所述至少一个语音输入选项。该条件可以是，例如环境噪声或音频输入端的太低的信噪比。该条件例如可以是太低的处理能力或电池状态。该条件例如可以是在分布式语音输入/识别系统情形中太低的语音传输性能。该条件可以是受限的设备资源。应当注意到，影响语音识别特征的条件可由上述条件的组合而造成。

在所述电子设备或移动终端设备的显示器上显示该至少一个按键输入选项，正如在通用设备和通用浏览中的情形一样。

该方法特征在于，通过检查是否满足影响该语音输入的至少一个条件，并在不满足所述条件的情形中在所述显示器上提供所述至少一个语音输入选项，并显示所述语音输入选项的指示。该检查可每隔一秒，或以更快间隔，或连续不断执行。该检查还可以事件控制方式执行，其中如果检测到指示不可能语音输入的事件时才执行检查。

如果没有满足此种条件，该方法提供至少一个语音输入选项，并在所述显示器上显示所述至少一个可用语音输入选项的指示。如果没有满足此种条件，能够显示语音输入选项存在以及能实际执行该语音输入的说明或表示或指示。第一部分说明了进行语音输入或在语音识别引擎被动词汇中的语音输入的原理，第二部分说明了语音识别引擎是激活的。

还可以显示实际满足的以及和语音输入选项干扰的被检测条件的表示。这可以体现为，例如一种指示哪种条件阻碍了语音输入以及怎样消除该条件的图标或文本。

在除了可视输入(使用键盘)还能给出语音输入的多模式应用中，用户必须知道语音输入何时可用以及允许怎样的输入。该方法建议了一种让用户确切的知道语音识别何时激活以及在任意点何种允许语音的命令被允许的透明方式。

该系统还可以使用事件机制来确定由于非预期原因，语音识别何时不可用的情形，或当应用设计者指定了某特定命令或命令集是允许语音的情形。在特定时刻允许语音的所有命令用适当的可视方法标记，例如涂颜色，从而指示用户讲话时刻以及允许的发言。

本发明建议根据各个项的语音控制可用性，用视觉关键字或视觉提示来动态指示能够语音控制的元素。例如，如果语音识别引擎暂时不可用，或在某应用中某特定点仅某些选项可用，则在屏幕上仅高亮显示这些选项。

当语音输入暂时不可用时也可以标记出来。还能仅仅标记那些不能使用语音的条目。这是一种相反的方法，根据所需标记数目，能够扩展到在直接标记允许语音的输入选项和标记不允许语音的输入选项之间某种切换。这可以直接实现：绿色：允许，黑色：不允许，相反符号为，红色：不允许语音的输入选项，以及黑色：允许语音的输入选项。

本发明建议了指示用户可以说什么以及语音允许何时开启或关闭的视觉关键字或提示。当视觉命令是语音允许时，该命令自身用例如与不允许语音的命令不同的颜色或相应的图标来标记。当关闭语音允许时，命令的颜色或各自图标可动态变回去，并如果再次开启语音允许，该颜色或图标又再次变化。该标记会立即指示用户可以说什么和何时说。该方法能够和输入预测方法结合，从而将频繁使用的输入选项排列到该列表最顶端。

用户停留在相同屏幕上时语音允许命令可能改变的原因可以是例如以下原因：

-系统错误：到语音识别器的连接意外中断，

-环境改变：设备检测到太多背景噪声，从而识别不能正常进行，

-系统当前正进行某些动作，其间由于系统或应用限制、系统资源用尽或过度使用，例如为用户取数据，不能同时监听，以及

-应用设计者的选择，在下面段落中会更详细说明。

不同的应用可以选择不同的识别语法和词汇来以不同方式允许语音，即使在一个应用中使用也可能变化。例如，如果用户在一个屏幕上进行若干不同操作(每个包括菜单的2-3个选项)，操作的顺序不重要，允许用户说出任意一个选项是合理的。在下一个屏幕上，还可能有若干操作，但此次顺序不是完全自由的。最好通过选择的可视语音允许提示明确这些操作的顺序，并以正确顺序高亮显示这些操作来引导用户的语音输入。

然而，在完全无需眼睛、语音是唯一可用方式的情形中，不能将本发明用作为用户的唯一提示。需要某些可听关键词来指示用户何时能够讲话(和/或能够讲什么)。可通过振动报警实现一种指示语音识别实际可用的方式。振动报警可包括作为开始信号的单个振动，以及作为结束信号的短促的双振动。

在一个示范实施例中，所述显示的语音输入选项的指示包括关键字。该关键字能直观显示可用的语音输入或控制选项。关键字还可以包括对不能显示的实际语音输入(例如口哨、蜂鸣或此种声音)的任意种类的提示或暗示。

在另一个示范实施例中，在所述显示器上的所述语音输入选项的所述指示的显示进一步包括显示语音识别实际是否可能。如上所述，这是语音或话音识别引擎的记录或识别状态。这可被称为“记录”或“识别”标记。

在本发明的另一个示范实施例中，所述语音输入选项的指示的显示包括显示所述语音输入选项自身。即，输入选项被描述为用于该语音输入的逐字的话。仔细选择“输入选项”的措辞，从而不将该指示或输入选项限制到任何一种特定形式。

在本发明的另一个示范实施例中，滞后提供所述显示器上所述语音输入选项的所述指示的显示。滞后作用的使用有助于在所述检测到的条件之一接近推导出和不推导出所述语音输入特征的阈值时，避免所述语音输入选项可用性指示的快速改变。可在检测中或在执行检测的程序中或在执行该指示的应用中实现滞后。

在本发明的另一个示范实施例中，和储备功能一起提供所述显示器上所述语音输入选项的所述指示的显示。正如在滞后中一样，储备功能可被用于确定和消除跨越与条件相关阈值的快速变化的条件(例如甚至是覆盖了滞后)，从而防止用户被快速变化的语音输入性能或语音输入选项迷惑。储备功能可通过用于存储最后“n”秒检查结果的存储器以及语音输入选项的去启动来实现，只要在所述储备文件中存在单个“超过阈值”条目。正如在滞后中一样，可在显示应用或检查应用中实施储备功能。在两种情形中，传送给用户的信息独立于阈值附近的微小变化和快速改变。

根据本发明的另一方面，提供一种软件工具，包括当所述程序产品在计算机、网络设备或移动终端设备上运行时用于执行前述方法的程序代码装置。

根据本发明的另一方面，提供一种可从服务器上下载的用于实现前述方法的计算机程序产品，它包括当所述程序在计算机、网络设备、或移动终端设备上运行时，用于执行前述方法所有步骤的程序代码装置。

根据本发明的另一方面，提供一种计算机程序产品，包括存储在计算机可读介质上、当所述程序产品在计算机、网络设备或移动终端设备上运行时，用于执行前述方法的程序代码装置。

根据本发明的另一方面，提供一种计算机数据信号。该计算机数据信号包含在载波中，并代表一种程序，当所述计算机程序在计算机、网络设备或移动终端设备上运行时，使计算机执行包含在前述方法中的步骤。

该计算机程序和计算机程序产品可分布在网络的不同部分和设备中。该计算机程序和计算机程序设备运行在不同的设备，例如终端设备和网络的远程语音识别引擎上。因此，该计算机程序和计算机程序设备在能力和源代码必须不同。

根据本发明的另一方面，提供一种执行仿真通信的远程终端设备。该终端设备包括中央处理单元，显示器，基于按键的输入系统，麦克风和数据存取设备。

提供中央处理单元CPU以在所述移动终端上执行和运行应用。显示器连接到所述CPU，显示从所述CPU接收的可视内容。基于按键的输入系统连接到所述CPU，提供按键输入特征，该特征能提供在所述显示器上显示的按键输入选项。麦克风连接到所述CPU，提供有条件的语音输入特征。数据存取设备连接到所述CPU，处理数据并交换CPU操作所需的数据。在最简单的例子中，数据存取设备是存储器，在更复杂的实施例中，数据存取设备可包括例如用于网络接入的调制解调器。

CPU配置用于通过所述显示器、所述基于按键的输入系统和所述麦克风执行多模式浏览。CPU配置用于连续不断的监测干扰所述语音输入的条件，并在没有满足此种条件情形中，提供所述语音输入特征，并在所述显示器上显示所述语音输入特征的语音输入选项的指示。

根据本发明的另一方面，提供能实现多模式用户交互的语音识别系统。该语音识别系统包括至少一个中央处理单元，显示器，基于按键的输入系统，麦克风和数据总线。所述显示器连接到所述中央处理单元并由所述中央处理单元(CPU)控制。所述基于按键的输入系统可操作的连接到所述中央处理单元，提供按键输入特征，该特征提供可在所述显示器上显示的按键输入选项。麦克风可操作的连接到所述至少一个CPU，提供音频-电子转换器从而使得语音输入能到达所述CPU。数据总线可操作的连接到所述至少一个CPU，处理数据并交换所述至少一个CPU操作所需的数据。

所述至少一个CPU包括第一中央处理单元和第二处理单元。所述至少一个CPU的第一处理单元配置用于通过所述显示器、所述基于按键的输入系统以及所述麦克风控制多模式交互。所述第一处理单元进一步配置用于监测影响所述语音输入的条件，并根据所述条件在所述显示器上显示所述语音输入特征的语音输入选项的指示。所述至少一个CPU的所述第二中央处理单元配置用于提供所述语音输入特征。

在本发明的另一个示范实施例中，该至少一个CPU的第一中央处理单元和第二中央处理单元包括在同一设备中。

在本发明的另一个示范实施例中，该至少一个CPU的第一中央处理单元和第二中央处理单元包括在相互连接的不同设备中。可通过音频电话连接提供该相互连接。可通过诸如GPRS(通用分组无线服务)，互联网、LAN(局域网)等来提供该相互连接。

在另一个示范实施例中，所述移动电子设备进一步包括移动电话。

在下面，通过参考附加的附图详细说明本发明，其中：

图1是根据本发明一个方面的，在多模式移动应用中给用户动态指示语音允许状态的方法的流程图；

图2是能给用户动态指示用于多模式浏览的语音允许状态的电子设备的例子，以及

图3是包括可视输入选项和实际可能的输入状态的不同指示的显示的例子，以及

图4A和4B是能给用户动态指示用于多模式浏览的语音允许状态的分布式语音识别系统的例子。

图1是根据本发明的一个方面，在多模式移动应用中给用户动态指示语音允许状态的方法的流程图。该方法从启动多模式浏览4开始。使用表达“多模式浏览”来说明以不同方式和设备交互的可能性，即该设备可产生不同模式，例如可视模式或可听模式。多模式浏览还可以包括不同的输入模式，例如光标或菜单按键或数字键盘，语音识别或眼球跟踪。在本附图中，示范性的选择具有按键和语音输入能力的系统从而直观显示本发明的特性。在多模式浏览启动同时或之后，开始监测或调查可用输入能力。可以通过直接或重复调查影响语音识别的条件来体现该监视。还可以通过非直接检查、在各个用影响语音识别的参数运行的应用实现子算法、以及输出语音输入不可能的信号或消息到语音输入应用来体现检查。此种方法被称为基于事件的方法。

可能的条件例如是实际可用的处理能力。在分布式语音输入系统中，该条件可以是诸如宽带信噪比等的连接特性。另一个条件包括影响语音识别能力的环境或背景噪声。

从这些示范条件中可以得到，能识别话音或语音输入的可能性。因此可以推导出，语音输入特征实际是否可用。应当注意到识别特定语音输入的能力可能随条件而变化。例如包含每秒可被检测到的声音信号的背景噪声不需要必须打断非常短的语音输入的输入，其中由于该噪声事件不能识别长于一秒的语音输入。

在下一步，根据所述检测到和评价的输入能力描述可视内容12。这意味着在所述电子设备或所述移动终端设备的显示器上描述输入选项。由于小型移动显示器的受限的信息内容，应当清楚，通常不可能在显示器上同时显示所有可能的输入选项。应当注意到还可以描述某语音输入的不可用性。

用户易于认识到可用和可能的语音输入并通过使用语音输入或按键输入16浏览在显示器上描述的元素。当执行多模式浏览时，可以调用和描述新的显示内容，其中和通过调查和评价多模式浏览条件(即语音输入/眼球跟踪/识别条件)动态产生的语音输入关键字或提示等一起提供该新内容。

该方法随着多模式浏览18的释放而结束。随着多模式浏览的结束，能够停止或中断多模式输入条件的监视。节省了盒子8或12到18之间的直接连接，正如通过用户输入终止多模式浏览一样。在自动切断(例如低电量切断)的情形中，设备直接从8或12跳到18。

正如可用性测试所指示的，在第一次成功尝试后，用户非常迅速和频繁的采用语音交互，用户在使用语音方面的学习曲线急剧上升。然而，在开始学习之前需要克服很高的门槛。换句话说，用户通常未能意识到语音输入可用，除非被明确告知。此外，如果不确定他们能说什么，用户通常需要花费一定时间和勇气来尝试语音命令。在试验和成功之后，当进行例行选择时，许多人甚至开始喜欢语音输入模式。在试验和错误之后，用户会简单地忽略任何语音输入能力。

其中可以在可视应用中使用语音的任务可分成两类：

1)语音允许存在可视命令(选择连接，无线按钮等)

2)允许没有可视等同物的操作(例如快捷方式＝组合若干命令的话语，允许用户绕过层级选择，或允许用户输入文本，如在口授中一样)

本发明主要集中在第一类，给用户指示什么是语音允许的，以及在应用中的不同点何时是允许的。在第二类任务中，通过选择适当的实现方式，本发明允许给用户指示语音输入何时可能，但在这些任务中能说什么超出本发明范围，除非和语音输入预测系统相结合，其中这两类任务之间的界限变得模糊。

为降低使用语音输入和多模式浏览的门槛，在电子设备或终端中配备的小型演示版本可作为一种语言实验室，其中电话在重放的对话中示范具有预先记录的话音输入和输入操作的典型的输入情形。例如：“选择实际电池状态重复说“说燃料状态”……，所请求信息被大声读出“电池电量25％”，“选择实际电池状态说“显示燃料状态”以及所请求的信息在显示器上显示“，其中两个操作可在各自输出上实现。

和基本的基于光标的语音导航系统以及诸如“右”，“左”，“上”，“下”，“点击”，“双击”，“连击”，“保持”，“删除”和“选择”这类可识别语音的词结合，语音访问甚至可以提供给不允许语音的菜单结构。语音允许的语音导航系统的指示可通过用各个操作图标环绕的嘴型图标或嘴形状的光标提供。通过浏览菜单(说“上上上上上点击”或“游戏”)选择游戏应用的例子中，可能的语音输入特征用牙齿/嘴图标或蛇图标高亮显示，以选择游戏“蛇”(说“下下点击”或“蛇”)。

图2是能动态指示用于多模式浏览的语音允许状态给用户的电子设备或终端的例子。该设备被描述为具有用户接口，这些接口正如移动电话的。该移动设备能执行多模式交互浏览，并包括具有诸如显示器82和按键84和84’、麦克风86、以及扬声器88输入和输出装置的用户接口。用户接口可被用于多模式浏览，包括音频和按键输入以及音频和显示输出。用户接口的所有元件都连接到中央处理单元CPU80，以控制用户和设备的交互。

中央处理单元还连接到数据存取装置90，数据存取装置处理数据并交换CPU80操作所需的数据或运行在所述CPU80上的应用所需的数据。CPU80配置用于通过所述显示器(82)，所述基于按键的输入系统84，84’，以及所述麦克风86，或者还通过所述扬声器88执行多模式浏览。多模式浏览的可用性或可操作性是取决于参数或确定条件的。CPU80能通过例如在设备上运行语音识别应用提供多模式浏览能力。

CPU80进一步连接到数据存取装置从而存取存储或构建在存储器中(未示出)的数据，或通过例如网络连接92存取数据以提供所述多模式浏览特征。

所述CPU80进一步配置用于监测所述条件以连续确定所述语音输入特征的可用性。根据参数种类或监测、调查的条件以每隔一秒的更短的时间间隔或连续地应用该监测。

然后根据所述确定的可用性在显示器上可视地指示语音输入特征的确定的可用性。

在多模式浏览独立于任何外部或内部限制是固定的情况下，不能以有意义的方式应用本发明，因为如果不存在影响多模式浏览的变化的参数，那么监测这些参数是无用的，因为不会出现词汇或语音输入能力上的变化。

图3是包括不同可视输入选项指示和各自实际可能输入状态的显示的例子。描述了允许多模式浏览的移动设备的显示器58。在显示器58的右侧，放置发光二极管LED60。使用LED来指示语音识别引擎或模块实际是激活的或处在接收模式中。闪烁LED60指示用户可以讲话从而执行用户输入或用户选择。

在显示器上，描述了可选菜单点的通常列表“菜单选项1-4”62。描述了和各个菜单选项62相关的图标64，68，它们指示可能的输入模式。“菜单选项1，2和4”和嘴型图标一起提供指示这些输入选项是“可语音输入的”。“菜单选项3”和手指图标提供，指示该菜单选项唯一可用输入选项是按下按键。

“菜单选项2”有下划线指示该光标通过按下“OK”按钮或通过诸如“OK”，“点击”，“双击”，“连击”或“选择”之类的语音输入，实际上是可选择的。

“菜单选项2”用粗体字母描述，指示“菜单选项2”是可通过语音输入单词“菜单选项2”来选择的。“菜单选项1”的词“选项”用粗体描述，指示可通过语音输入单词“选项”来选择“菜单选项1”。音节“men”和“菜单选项4”的数字4用粗体描述，指示可通过语音输入词“Men four”或基于该缩写的词来选择“菜单选项4”。

在显示器58底部的图标66，70也可用于指示语音识别引擎或模块实际是激活的或者在或不在接收模式中。图标66，张开的嘴指示用户可以讲话以执行用户输入或用户选择。图标70，用手指覆盖的紧闭的嘴唇指示语音输入选项实际不可用。

图标66、70、64和68相互补充或相互排斥，因为它们提供冗余信息。

除了图标之外，可使用下面的手段表示用户何时能讲话：

-可播放发音提示给用户，请求发言(“请选择/说一种类别”)

-单独或在指示用户开始讲话的提示之后播放earcon(听觉图标，例如蜂鸣声)

-可允许用户通过点击特定按钮(成为按下通话(Push-to-talk)或“PTT”按钮)启动识别来控制讲话时刻

为了指示用户能说什么，可使用下面的手段：

-在提示中说给用户命令列表(“说“下一个”，“上一个”，“返回”，“退出”或“帮助””)

-设计提示从而给用户暗示(“你想到下一个或上一个？”)

-提示给出能说什么的例子(“选择某天和一个时间，例如“星期一三点””)

在会话开始提醒用户关于语音交互时，语音提示特别有用。然而，由于人类视觉获得小型移动屏幕的内容比听取一个句子更快，提示倾向于听起来长而且乏味。虽然在良好开发的语音应用中通常允许插嘴(用户讲话而终端系统提示)，在系统停止之前用户插嘴会感到不舒服，因为这在人与人的谈话中被认为是不礼貌的。语音提示更严重的问题是，如果用户不专心，其中的信息通常会丢失而不能恢复。同样，长的命令列表也不可用，由于它们增加了用户记忆负担和枯燥性，因为几乎计算机产生的所有独白都长于7个单词或3秒钟，这通常被认为是枯燥或讨厌的。

总之，虽然在使情形更加像对话方面提示是有用的，但提示倾向于太长并仅在较短时间可用。听觉图标较短，但它们也是临时信号。用于讲话的可视提示在屏幕上一直显示，指示何时允许讲话，何时不允许，以及可以说些什么，这是一种指示语音允许给用户的更简单、更透明的方式。指示何时允许语音也是一种使用户知道插嘴特征并鼓励用户打断或“语音覆盖”可能提示的简单方式。

按下通话按钮，虽然允许用户对中断进行更多控制，但也并不是完全没有问题的。设备必须具有用于语音启动的分离的按钮，或必须独立教导用户按钮在某些环境中用作按下通话按钮。在一些移动环境中，例如在摩托车后座上，按下即使一个按钮也是困难的。

图4A是能给用户动态指示用于多模式浏览的语音允许状态的分布式语音识别系统的例子，其中所述分布式语音识别系统集成在单个设备77中。术语“分布式语音识别”被用于表示多模式浏览以及语音识别至少在所述单个设备77的不同处理单元中执行。

移动设备77包括能执行多模式交互浏览的语音识别系统，还包括具有诸如显示器82和按键84，84’、麦克风86和扬声器88之类输入和输出装置的用户接口。该用户接口可被用于包括音频和按键输入以及音频和显示器输出的多模式浏览。用户接口的所有元件都连接到中央处理单元80，控制用户和设备的交互。

语音识别系统包括至少一个中央处理单元80，显示器82，基于按键的输入系统84，84’、麦克风86，以及数据总线91。所述显示器连接到所述中央处理单元以便由所述CPU80控制。所述基于按键的输入系统84，84’可操作的连接到所述中央处理单元80，以便提供按键输入特征，该特征提供可在所述显示器82上显示的按键输入选项。

麦克风86可操作的连接到所述至少一个CPU80，以便提供音频-电子转换器从而使得语音输入能到达所述CPU80。数据总线91可操作的连接到所述至少一个CPU80，处理数据并交换所述至少一个CPU80操作所需的数据。数据总线91可操作的将所述至少一个CPU80连接到内部存储器83，以提供对存储数据的数据存取，所述存储的数据对于提供所述按键输入特征和/或所述语音输入特征是必需的。内部存储器83，例如存储可获得或不可获得语音输入特征的设备的多种不同条件以及条件组合。

所述至少一个CPU80包括第一中央处理单元81和第二处理单元81’。所述至少一个CPU80的第一处理单元81配置用于通过所述显示器82、所述基于按键的输入系统84，84’、以及所述麦克风86控制多模式交互。所述第一处理单元81进一步配置用于监测影响所述语音输入的条件，并根据所述监测到的条件进行控制和在所述显示器82上显示所述语音输入特征的语音输入选项指示。

图4B是分布在至少两个设备之间的能给用户动态指示用于多模式浏览的语音允许状态的分布式语音识别系统的例子。分布式语音识别可包括节省在小型以及例如便携式设备78内语音识别所需资源的优点。

为提供分布式系统，CPU80必须在两个设备之间分布。该至少一个CPU80的第一中央处理单元81和第二中央处理单元81’包含在相互连接的不同的设备78和79中。两个设备之间的相互连接(当然是第一中央处理单元81和第二中央处理单元81’之间)97可通过例如电话连接提供。该连接还可通过诸如GPRS(通用分组无线服务)，互联网、LAN(局域网)等来提供。

所述第一中央处理单元81单独可被配置用于监测所述条件从而连续确定所述语音输入特征的可用性。可在每隔一秒的较短时间间隔内或连续实施该监测，而不管监测或调查的参数或条件种类。

本发明的主要优点在于，它可应用到任何类型的移动电子设备，而不管它们的使用特征。总是在最佳语音控制或多模式浏览条件下使用该电子设备的用户不会认识到本发明的存在。本发明可应用于任何类型的在技术应用中使用的语音控制或语音输入。还能将本发明应用于没有资源限制的非移动系统。在非移动系统中，可使用本发明指示几乎可被100％识别的单词以及具有较低识别率、从而被认为不可用(或需要更多训练)的单词。

选择用于标记语音允许的可视关键字或提示可以是颜色方案或其他方法，例如下划线。然而下划线可能易于和超级链接混淆。颜色是不错的选择，颜色显示正变得越来越普遍。通常使用红色表示音频应用中的激活记录，从而它是指示语音允许开启的适当选择。还可以采用某些交通信号灯情形。动画图标有助于直观显示，较长操作，例如语音输入可用于诸如ant colons，活动声谱监测器说话嘴的描述的元素。

即使仅使用两种颜色，一种用于语音开启，一种用于语音关闭指示，也必须学习颜色系统。在应用早期屏幕上可以显示描述颜色用途的小型图例。

还可用其他方式而非颜色标记语音允许命令，例如在命令周围画出小的讲话框。可将可视提示和命令直接捆绑，然而，要尽可能使该允许方法对用户透明。

在同一页上动态改变视觉提示可以通过适当的事件机制来进行。当捕获到适当的“点击”或“聚焦”事件时，以和在XHTML应用中浏览器能高亮显示视觉符号的相同方式，可对要求视觉语音允许提示变化的情形规定新的事件。当多模式移动浏览器捕获到这些事件时，它会如所要求的改变对应GUI元素中的颜色或其他选定的视觉提示。

对于没有视觉等同物的语音允许任务，可使用某些交通灯方案来指示该语音识别何时激活或不激活。通过某一时刻影响整个屏幕的事件实施相对简单。一种此种测量是使显示器照明度波动，反转描述模式，或选择性的激励语音允许菜单点，或使小球从一个音节跳到另一个音节，正如从卡拉OK录像带上看到的。

可将附加特征和本发明组合，例如输入预测、训练对话、通过文本的语音输入建议或语音输出。基于图标的菜单结构用于不识字的人，可训练语音输入。采用“读取”和“写入”按键读出用户笔迹。

本申请包含借助实例对本发明的实现和实施例的描述。本领域技术人员应当理解，本发明不限于在此提出的实施例的具体细节，本发明可用其他形式实现而不背离本发明的特征。上述实施例是说明性而非限制性的。因此仅由附加的权利要求限制本发明的使用和实施。因此，权利要求所确定的本发明实施的不同选项，包括等同实现，都属于本发明的范围。

Claims

1.一种在具有用户接口的电子设备内指示用于多模式交互的语音允许输入的方法，包括：

启动所述用户接口的多模式用户交互特征，该用户接口中提供至少一个按键输入选项和至少一个语音输入选项，

在所述电子设备的显示器上显示该至少一个按键输入选项，其特征在于，

检查是否满足通常影响语音输入的至少一个条件，以及

根据所述条件提供所述至少一个语音输入选项，并在所述显示器上显示所述语音输入选项的指示。

2.根据权利要求1的方法，其中，所述语音输入选项的显示出的指示包括关键字。

3.根据权利要求1或2的方法，其中，在所述显示器上所述语音输入选项的所述指示的显示还包括显示语音识别实际是否可能。

4.根据任一前述权利要求的方法，其中，所述语音输入选项的所述指示的显示包括显示所述语音输入选项。

5.根据任一前述权利要求的方法，其中，在所述显示器上所述语音输入选项的所述指示的显示滞后提供。

6.根据任一前述权利要求的方法，其中，在所述显示器上所述语音输入选项的所述指示的显示通过储备功能来提供。

7.包括存储在计算机可读介质上的程序代码装置的软件工具，当所述软件工具在计算机或网络设备上运行时，执行权利要求1到6任意一个的方法。

8.计算机程序产品，包括存储在在计算机可读介质上的程序代码装置，当所述程序产品在计算机或网络设备上运行时，执行权利要求1到6任意一个的方法。

9.包括计算机代码的计算机程序产品，可从服务器上下载，当所述程序产品在计算机或网络设备上运行时，执行权利要求1到6任意一个的方法。

10.一种能执行多模式交互浏览的电子设备，包括：

中央处理单元CPU(80)，

连接到所述CPU(80)的显示器(82)，用于在所述显示器(82)上显示从所述CPU(80)接收的视觉内容，

基于按键的输入系统(84，84’)，可操作的连接到所述CPU(80)，提供按键输入特征，该特征提供在所述显示器上显示的按键输入选项，

麦克风(86)，可操作的连接到所述CPU(80)，提供语音输入特征，以及

数据总线(90)，可操作的连接到所述CPU(80)，用于处理数据并交换CPU(80)操作所需的数据，

其中，所述CPU(80)配置用于通过所述显示器(82)、所述基于按键的输入系统(84，84’)以及所述麦克风(86)控制多模式交互，以及

其中，所述CPU(80)配置用于监测影响所述语音输入的条件，并根据所述条件提供所述语音输入特征，并在所述显示器(82)上显示所述语音输入特征的语音输入选项的指示。

11.根据权利要求10的电子设备，进一步包括移动通信设备。

12.一种能多模式交互并具有用户接口的语音识别系统，包括：

至少一个中央处理单元CPU(80)，

连接到所述CPU(80)的显示器(82)，

麦克风(86)，可操作的连接到所述至少一个中央处理单元(80)，

数据总线(91)，可操作的连接到所述至少一个CPU(80)，用于处理数据并交换所述至少一个CPU(80)操作所需的数据，

其中，所述至少一个CPU(80)的第一中央处理单元(81)配置用于通过所述显示器(82)、所述基于按键的输入系统(84，84’)、以及所述麦克风(86)控制多模式交互，并且监测影响所述语音输入的条件，并根据所述条件进行控制并在所述显示器(82)上显示所述语音输入特征的语音输入选项的指示，以及

其中所述至少一个CPU(80)的第二中央处理单元(81’)配置用于提供所述语音输入特征。

13.根据权利要求12的系统，其中，第一中央处理单元(81)和第二中央处理单元(81’)包含在相同设备(77)中。

14.根据权利要求12的系统，其中，第一中央处理单元(81)和第二中央处理单元(81’)包含在相互连接的不同设备中(78，79)。