CN103189826A

CN103189826A - 用于协助数据收集的多模态用户通知系统

Info

Publication number: CN103189826A
Application number: CN2011800525004A
Authority: CN
Inventors: S·尼克尔
Original assignee: Vocollect Inc
Current assignee: Vocollect Inc
Priority date: 2010-09-10
Filing date: 2011-07-21
Publication date: 2013-07-03
Also published as: WO2012033572A1; BR112013005586A2; EP2614420B1; AU2011299507B2; EP2614420A1; AU2011299507A1; US20120066600A1; US9600135B2

Abstract

一种用于执行多模态软件应用52的系统，包括具有多个输入接口部件的移动计算机设备14、多模态软件应用52和与多模态软件应用52操作通信的对话引起62。多模态软件应用52配置以从多个输入接口部件接收第一数据。对话引擎62通过向输出接口部件提供提示而执行来自多模态软件应用52的工作流程描述60。这些提示中每一个包括通知，指示哪个输入接口部件是对于各个提示的有效接收器。而且，通知可以指示当前提示以及序列中的至少下一个提示。

Description

用于协助数据收集的多模态用户通知系统

技术领域

本发明涉及多模态应用，并且尤其涉及利用向用户通知有效输入方式来协调多模态数据输入，从而协助收集信息和数据。

背景技术

作为经由常规外围输入/输出设备的通信的方便的备选方案，语音识别通过允许不用手而与计算机通信而已经简化了工作场所的许多任务。工作者可以使用语音识别器而由声音输入数据，而命令或指令可以由具有文本—语音（TTS）功能的语音合成器而向工作者传送。语音识别在移动计算设备或移动计算机中具有特殊应用，其中采用常规外围输入/输出设备与计算机交互受到限制或者不便捷。

移动计算设备或使用这种移动设备语音指导的工作已经非常成熟的一个特殊工作领域是在库存管理领域。然而，其他工作领域也已经受益于该技术，诸如健康护理服务。语音协助/指导的工作系统依赖于用于执行各种不同任务的计算机化管理系统，诸如产品分配、生产、质量控制和患者护理。一种整体集成系统，包括用于追踪和管理的中央计算机系统以及使用和与中央计算机系统以命令填充者、采集者、护理提供者或其他工作者形式的人或工作者的组合。在根据从中央计算机系统发送至由工作者携带的移动计算机设备的信息的命令和控制下，工作者操作集成系统的手动方面。

由于工作者完成了他们的指定任务，经由语音提示而向他们提供指令和信息，并且随后使用语音回答该提示或提供数据。中央计算机系统基于特定指定的任务以及来自工作者的数据或输入，诸如通过语音或一些其他数据收集，而收集大量类型的信息。例如，当工作者通过从货架上挑选存货而执行命令时，中央计算机系统将要求关于产品标识和数量的信息，从而当给定物品的存货补给较低时，中央计算机系统可以正确的通知存货管理者。在另一实例中，当工作者正在调查受损的存货以进行质量控制时，中央计算机系统将要求关于受影响物品的产品标识、订购单标识以及损伤描述的信息。使用语音作为一种类型的输入机构在这些和其他情况下具有有利的应用，因为如果两手可以自由地工作，工作者可能更有效率。

虽然作为用于协助用户完成他们的工作任务的输入和输出机构，语音是有利的，但是也可以利用其它输入/输出模式以指导工作者在收集与该任务的性能相关的数据中执行特定任务。这种多模式或多模态应用已经得到发展，以协调与多模态系统相关的各种输入部件或设备以及输出部件或设备。这些所谓的多模态系统协调配备有移动计算机设备的多个输入和输出部件，例如包括扩音器、扬声器、射频标识读取器或扫描仪、条形码扫描仪、显示屏、触摸屏、打印机和键盘。由本申请受让人共同有用的美国专利公开号No.2005/0010892中描述了这种多模态应用的一个实例，所述文献的公开内容在此全文引入作为参考。这种多模态应用和系统允许以各种不同的模式或形式输入数据，诸如键盘输入、条形码或者RFID扫描语言等。该应用在多模态系统的各种模式中协调输入和输出。然而，如同任何这样的系统以协助工作者提高他们工作的表现一样，他们能够有效使用这种系统的能力极为重要。

在语音指导/协助系统中的一个特定优点是用户能够在他们可从系统接收到的语音提示之前说话。例如，在收集与特定任务相关的数据中，基于语音的数据可能向用户提供口头提示，例如提问。那么作为回应，用户将说出与该提示相关的特定言论，诸如回答提示的问题或者处理提示。这样，收集数据。在一些语音系统中，诸如可从宾夕法尼亚州匹兹堡的Vocollect有限公司获得的用于Talkman（TM）的Vocollect Voice（TM）产品，用户可能被允许以在语音提示之前以说出多种特定言论，而无需等待可听见的提示。该“提前说话”特征通常需要用户已知即将发生的提示，以便于如此进行。当利用这种提前说话特征时，可以获得多个言论作为对特定即将发生的提示的回应，并且由于回答了提示而提高了效率，以便于系统继续进行，而无需提供这些提示。

这种提前说话的优化方式尤其有助于语音知道的工作，其中工作流程相对恒定，没有显著的改变，而且用户因而可以获得与即将发生的提示相关的知识。然而，当更多采用语音以协助用户的工作，而不是特别地指导工作时，这种提前说话的特征并不是有利的。在该领域中，工作流程通常将较不具有可预测性和可重复性，因而，对于工作者而言更难以获得即将发生的提示的知识或记忆。而且，在语音协助的工作环境下，工作流程的性质基本上是利用部分时间的。这样，它们基本上由系统中的工作者利用部分时间完成，并且这些工作者不能迅速地记住这些提示命令。因而，需要解决语音协助系统中的这种缺点，允许在这种系统中实施提前说话优化或其特征，以提高工作者的效率。而且，即使在工作流程更一致和语音指导的那些系统中，在工作者调换上仍然存在问题。这种调换导致了一些工作者对于系统不熟悉的情况，并且无法预期需要输入什么数据或者需要做出什么语言意见，以回答或解决给定任务的提示。因而，还需要改进不熟练工作者的能力，以在利用语音的工作系统中实施提前说话特征，诸如语音是输入和输出模式之一的多模态系统。

虽然多模态系统、诸如利用语音的多模态系统在协助和指导用户的工作任务中课题提供较高的机动性，由于用户在使用系统中的不熟练，这种机动性还可能在工作环境中导致混乱和低效。例如，当用户可用多模态系统中的多种输入机构而用于输入数据、其他信息、或回答提示、或填充数据段时，用户可以根据他们的喜好、输入模式的可用性或者仅仅是对于可用何种模式的知识，而选择特定的输入方法。然而，随着在多模态系统中可用多种模式，由于用户未成功地提供有效的回应，可能出现低效率的情况。例如，用户可以试图从使用语音的列表中选择特定输入，并且可以尝试说出对他们有意义的特殊回应，但可能不是有效的选择。这可能导致用户对输入进行错误分类，或者完全未完成对系统所需的输入或未能提供文件。

因此，还需要提高多模态系统（诸如使用语音的多模态系统）的效率，从而用户可以提供必需的输入数据、或者解决或回答提示。

如本文中所述，本发明解决了现有技术中的缺点，本发明还提供了其他优点。

发明内容

一种用于处理信息的多模态系统，包括计算机设备，诸如与多个输入模式部件/设备或者多个输出模式部件/设备连接的移动或便携式计算机设备。输入和输出模式部件与计算机设备连接，用于向计算机设备输入数据和操作从计算机设备输出的数据。

一种计算机设备的处理系统，配置以从多个输入模式部件中的至少之一接收数据，并且将数据输出至多个输出模式部件中之一，并且配置以执行对话，其通过输入模式部件而向用户提供至少一个提示。该对话可以包括具有语音的多个不同模式。为了回答或者处理该提示，本发明通过输出模式部件而提供与对话提示相关的指示，用于向用户指示可用哪个输入模式部件以回答提示。使用诸如扬声器或显示器的合适的输出模式部件，可以语音地或者可视地提供对可用用于回答提示的输入模式部件的指示。语音指示可以包括语音或耳听信号。可视提示可以包括图标、文本和颜色中至少之一。

在另一实施例中，本发明执行了对话，其通过输出模式部件向用户提供一系列提示。随后，本发明提供了与提示相关的指示，其反映了对该系列提示的顺序。通过输出模式部件而提供提示，用于按序向用户指示当前提示和至少下一个提示，从而用户可以以顺序提供对提示的回答。可以提供显示器上所示的可视指示而作为指示。可视指示可以是位于显示器上提示附近的图标，或者可视指示可以是显示器上的提示的一部分。可视提示可以使用提示的大小、提示的位置或者提示的闪烁位置而反映提示序列的次序。可以使用形状、颜色和编号方式区分图标，以反映提示序列的顺序。

附图说明

包括在说明书中并且构成其一部分的随附附图，示出了本发明的实施例，并且与上述本发明的一般描述以及下文将给出的详细描述一同用于说明本发明的原理。

图1是根据本发明的多模态系统的示意图，其包括配置以执行多模态应用的计算机设备。

图2是使用图1的系统的工作者的视图。

图3是图1的典型多模态应用的功能或部件的透视图。

图4A-4C示出了在本发明的典型多模态系统的操作期间，图1的系统的显示屏的顺序示意图。

图5A-5D示出了在本发明的典型多模态系统的操作期间，图1的系统的显示屏的顺序示意图。

图6A-6D示出了在本发明的典型多模态系统的操作期间，图1的系统的显示屏的顺序示意图。

图7A-7D示出了在本发明的典型多模态系统的操作期间，图1的系统的显示屏的顺序示意图。

具体实施方式

图1-3示出了根据本发明实施例的适用于实施和执行多模态系统和应用的典型硬件和软件环境。正如所讨论的，这种典型多模态系统并不意味着限制性，而且可以在各种不同的多模态系统中实施本发明。尤其，图1示出了根据本发明一个实施例的多模态系统10的示意性图示。该系统10包括与另一计算机耦合的中央计算机或系统12，诸如网络16上的移动计算机设备14，所述网络例如合适的无线网络，如LAN。多个设备14可以与中央计算机12耦合。中央计算机12和移动计算机设备14均包括处理器或中央处理单元（CPU）18、20，包括与存储器22、24耦合的一个或多个微处理器，其可以表示随机存取存储器（RAM）设备，包括主要存储器以及补充存储器。此外，可以认为每个存储器22、24包括物理上位于中央计算机12和移动计算机设备14中别处的存储器，诸如一个或多个非易失性大容量存储设备26、28。这些非易失性大容量存储设备26、28可以包括闪存USB驱动、可移除磁盘驱动、硬盘驱动、直接存取存储设备或者光驱（例如CD驱动、DVD驱动等）。中央处理器12和移动计算机设备14均包括网络接口30、32，用于与网络16连接并且交换信息。应当意识到，正如本领域中已知的，中央计算机12和移动计算机设备14在各个CPU18、20以及各个部件22-32之间包括合适的模拟或数字接口。

而且，中央计算机12包括用户接口34，其包括多个输入接口部件和输入模式部件和输出接口部件或输出模式部件，它们组成了多模态系统的多个模式，用于输入或输出至系统10。同样地，移动计算机设备14还包括用户接口36，包括多个输入接口/模式部件和多个输出接口/模式部件。图2示出了用于实施本发明的一个典型工作环境。工作者38或其他用户携带了移动计算机设备14。工作者38使用多种模式而与计算机设备14相接，诸如语音输入、通过头戴式耳机48或者通过键盘40或触摸屏42而手动输入，以及通过头戴式耳机48和屏幕42输出。在图3中更清楚地示出了使用移动设备14而实施本发明的一个典型多模态系统。多个输入模式部件可以包括小键盘或键盘40、触摸控制和显示屏42、条形码和/或RFID扫描仪44，以及与移动计算机设备14连接的头戴式耳机48上的扩音器46。多个输出模式部件可以包括显示屏42以及位于头戴式耳机48上或移动计算机设备14中的扬声器。一个或多个输入模式部件可以是计算机设备的一部分或者可以是独立的部件。例如，键盘40是设备14的一部分，而头戴式耳机48是分离的部件。类似地，输出部件可以是设备的一部分，诸如显示器或显示屏42，或者是独立的部件，如头戴式耳机45。为了协调各个输入模式部件和输出模式部件的每一个，移动计算机设备14执行多模态软件应用52，其配置以从一个或多个输入部件接收输入数据，并且通过一个或多个输出部件而将数据递送至用户。

多模态软件应用52存储在移动计算机设备14的存储器24中，并且可以通过设备14的处理系统而执行，其可以包括处理器20和装载在存储器24中的操作系统54。应当意识到，类似的多模态软件应用52或其部分也可以由中央计算机12的操作系统56而操作。用于实施本发明的处理系统不局限于所公开的实施例，而系统和应用的软件在其他实施例中可以变化。多模态软件应用52可以包括应用码和工作流程描述60。例如，对应用码58进行编程，以找回和执行用于工作者38正完成的给定任务的特定工作流程描述60。因而，可以由用于不同任务的不同工作流程描述60。所选的工作流程描述60确保了向用户提供了正确的工作指令/指示，并且在正确的时间使用移动计算机设备14而收集数据，用于在完成各个工作任务期间更新中央计算机12和系统10的记录。

进一步参考图3，系统10包括与多模态软件应用52的部分可操作通信的对话引擎62。对话引擎62也可以存储在移动计算机设备14的存储器24中。对于给定任务，工作流程描述60将继续执行与工作者的对话，其可以包括输出至工作者38的一系列消息或指令或问题。对话的这些元素通常称为“提示”。工作流程描述60还将包括一系列情况或结合点，其中预期将相应于提示而接收输入。即，由用户回答或解决提示。在具有多个输入部件和多个输出部件的多模态系统10中，工作流程描述60可以指导对话引擎62提供不同的形式的输入或输出。本文所使用的提示并非限制性的，并且可以是例如通过语音或者必须由用户填充的数据段而询问的问题。因而，提示可以采取各种形式。同样地，也可以以各种方式回答或处理提示。为此目的，一些输入和输出接口部件适于一些提示，而其他输入/输出部件可能不适于某些提示。类似地，用于回答或处理提示的部件和模式可以改变。在这些情况下，工作流程描述60的每个工作流程对象可以包括对关于该工作流程对象将使用的模式或部件的指定。例如，根据本发明，询问货物数量的提示可以指定在显示屏42上显示文本“多少数量？”或者指定由扬声器50向用户提供语音提示或问题。该提示还可以包括信息，指示适于捕获或接收用于回答或处理提示的任何输入的数据的输入模式或部件。

因此，工作流程描述60将就对于任意给定提示将使用的模式或部件而指导对话引擎62。如图3中所示，对话引擎62通过管理多个输出部件和多个输入部件，而控制工作流程描述60的执行。例如，对话引擎62可以通过使得具有文本-语音（TTS）功能的语音合成器64产生由扬声器50播放的正确语音提示，而提供输出提示。作为选择地，对话引擎62可以在显示屏42上提供输出提示。以类似的方式，为了处理提示，对话引擎62经由可操作地连接至扩音器46的语音识别模块66或者经由触摸控制屏42、扫描仪44或键盘40，而接收来自用户的语音信息。应当意识到，在对话引擎62和多个输入和输出部件之间提供本领域中已知合适的软件/硬件，并且可以根据需要添加附加输入/输出模式和部件，而不脱离本发明的范围。

在一个多模态系统中，如上所述，由于多种可能的模式，通常难以提高效率。例如，由于缺乏任务的重复性或者仅是由于经验不足，工作者38可能不熟悉正进行的任务的工作流程描述60或对话。在这些情况下，可能不清楚的是，哪个输入模式部件适于处理给定的提示。根据本发明的一方面，本发明的处理系统和多模态软件应用52使用特殊的提示或输入栏而提供了通知或指示，所述提示或输入栏的输入部件或模式有效地输入数据或者输入用于该提示或栏的相应，以处理提示。通过合适的输出模式提供指示，用于指示用户可用何种输入模式/部件以处理提示。本发明利用一种模式中的指示以告知用户，特定模式能够或适于对提示的响应或对与提示相关的栏的数据的输入。例如，如果来自工作流程描述60的提示将使用扬声器50语音地提示，诸如在语音指导/协助的工作环境中，该指示可以通过语音地列出可用于响应或处理语音提示的输入部件或模式而遵循提示。作为选择地，如果来自工作流程描述60的提示，其形式是可视地显示在显示屏42上，诸如开放的数据栏，那么对话引擎62也可以在显示屏42上在提示或栏附近提供可视的提示，以指示可用的用于响应的输入部件或模式。也可以通过不同模式提供指示。因而，正如用于向用户提供提示所使用的，可以通过相同的输出模式部件或不同的输出模式部件，而提供向用户指示可用用于处理提示的何种输入模式部件的指示。

在图4A-4C中示出了本发明的实施例的一个实例。图4A-4C包括一系列显示器或显示屏42的屏幕截图，其例如可以实施在移动设备14中。屏幕42示出了采取数据栏的形式的一系列提示，用于提供受损货物的报告，诸如在库存系统中。在本文的该实例和其他实例中，由多模态软件应用52管理用于受损货物报告的数据录入。正如可从图4A中可见的，通过在产品ID栏周围设置粗高亮框而高亮显示第一提示/栏100。伴随第一提示100的是与高亮提示100相邻的一对可视图标102、104。可视图标102、104对应于用于对提示的输入或响应的模式，分别诸如条形码扫描102或者语音录入104。因而，工作者38知晓通过从头戴式耳机48的麦克风46中说出ID或者使用合适的扫描仪44扫描条形码，可以处理或填充产品ID提示/栏100。用户不需要记住或知晓用于处理提示100的所有合适的输入模式。相反地，在图4A-4C的所示实施例中，显示器42提供可视图标，指示用于处理该提示/栏的合适输入模式。一旦提供了对提示的响应，诸如通过口述的意见或扫描，用输入数据或信息视觉地填充了该栏。作为选择地，或者作为添加地，可以使用语音以指示“扫描”或“语音”是合适的输入模式，以及图标102、104。

参见图4，已经处理了产品ID100和订购单105提示，并且已经填充了该栏，而且由损坏类型提示或栏106周围的另一高亮框指示另一提示。此外，由接近受损类型提示栏106的一组可视图标108、110而伴随提示栏106。在该情况下，图标108指示条形码扫描并非合适的模式。因而，根据本发明一个方面，图标还可以提供关于特定模式的负标记，以向用户指示该模式不可用于输入数据。当然，仅使得该模式不出现在所提供的图标列表中也可用于指示不可用的模式，如图4A中所示。图标110指示对于语音模式，工作者38可以向麦克风46说出数据，而图标112指示作为另一种模式，工作者可以使用键盘40输出数据。提示和指示的该处理继续，直到处理了所有提示，并且已经完成了输入栏，或者回答提示，如图4C的最后状态所示。

在图5A-5D中示出了根据本发明一个实施例的具有每个提示的通知的另一实例。如在前一操作中，在图5A中，通过高亮显示提示/栏100，诸如产品ID栏，而提供了第一提示100。现在由显示与可视提示和图标102、104相邻的文字或文本114、116，而提供有效输入模式或部件的通知。如前所述，指示可以使用扫描仪44的文本114，可以伴随可视扫描仪图标102。同样地，如前所述，指示可以使用语音的文本116可以伴随语音可视图标104。作为选择地，可以仅使用文本114、116，而无图标102、104。

虽然如图4A-4C和5A-5D中所示，本发明的实施例示出了与特定提示或栏相关的数据录入的合适模式的图形指示，但是在本发明另一实施例中，可以由多模态系统的其他输出模式、而非使用显示屏42而可视地提供合适输入模式的这些指示。例如，可以提供语音指示以指示合适的输入模式。参考图5A作为实例，如前所述，可以向用户说出词语“SCAN”114，并且由扬声器50播放，而非图形所示。作为选择地，可以说出词汇，并且图形地示出，从而用户可以知晓合适的输入模式，而无需切实地查看屏幕42。类似地，可以语音地提供“VOICE”116语音指示，诸如通过头戴式耳机48的扬声器。除了语音之外，音调可以提供合适输入模式的非语音指示。例如，用于语音的输入模式可能具有一种音调，而扫描仪或键盘的输入模式可能具有其自身的音调。正如可以是到的，可以对每种可能的输入模式使用音调。可以认为这种语音指示“耳听信号”，而非“图标”。在任意情况下，可以通过使用文本-语音（TTS）功能的语音或者使用这种“耳听信号”而提供合适输入模式的语音提示。可以单独使用语音指示，而不具有任何可视指示。

根据本发明另一方面，可以对于每个合适的输入模式提供多个指示。例如，如图5A中所示，可以在图形文本114、116或者语音指示之外，提供图标102或104。作为选择地，如图4A中所示，可以单独使用图标102、104。进一步地，可以仅在屏幕42上显示文本114、116，而不具有任何相应的图标102、104。作为选择地，可以使用这种图形和文本指示的任何其他指示，具有或者不具有语音指示（语音或耳听信号）。因而，本发明不局限于就特定提示或数据栏的合适输入模式而建议用户的指示或指示组合的特定类型。

再参考图5B，再使用加粗或高亮显示的框而示出提示106，其中具有使用对应于图4B中在先描述的图标108、110、112的文本118、120、122而现实的有效输入模式或部件的通知。因而，工作者38立即知晓可以通过语音或麦克风46或小键盘或键盘40、而非通过扫描仪44而回答提示106。一旦已经回答或处理了来自工作流程描述60的所有提示，如图5C所示，将完成多模态应用52和工作流程对话。

在另一实施例中，可以使用适当的颜色对提示进行颜色编码。例如，如图5D中所示，可以使用具有合适颜色的框架包围每个提示或栏，其中颜色可以指示可选择的输入模式，用于处理提示或者将数据输入提供至栏。如图5D中所示，为了指示颜色，使用所示的合适输入模式示出了特殊的框架图案。例如，提示100可以具有与之相关的颜色130和132，其中颜色130指示语音是合适的输入模式，而颜色132指示了扫描或者来自扫描仪的输入是合适的输入模式。作为选择地，提示106可以是使用颜色130或颜色134进行适当的颜色编码的提示106，其指示键盘或小键盘输入以及语音是合适的模式。这样，一旦用户熟悉了特定颜色，他们可以容易地进行提示并且知晓合适的输入模式。

在本发明的另一备选实施例中，各种可视图标和文本、诸如图标102、104或文本114、116，还可以进行适当的颜色编码，用于进一步视觉指示用于该特定提示或栏的合适输入模式。

还可以在当前提示窗内而非窗周围使用颜色。因而，本发明不局限于仅将提示附近的颜色特定关联到提示，以指示合适的输入模式，并且将覆盖颜色实际是提示窗一部分以及接近提示窗的情况。

不考虑提供的可视指示提示或者语音指示，工作者38由于立刻知晓如何响应于提示序列而通过工作流程描述60的提示，而更有效地工作。即使有经验的工作者，通过学习可以处理或回答提示的新方法，可以获益于系统10，因为多模态软件应用52改变以包括更多的输入模式和部件以及更多的输出模式和部件。因而，本发明减少多模态系统中的复杂性并且减少了训练时间，因而增加了工作或效率，并且可能减小技术支持的工作量。用户在特定输入提示或栏上被通知哪个有效和合适的输入模式或机构用于处理该提示/栏。随后，用户可以选择他们提供给日常任务的最有效模式或方法。这样，用户无需就每个提示可用何种有效的输入模式或机构而特别进行培训，并且无需记住对于每个提示何种模式或机构有效。这对于未以高重复率而在工作流程中实施的任务而言，可能尤为有利，并且将允许用户快速地完成可能并不常遇见的大量任务。

根据本发明另一实施例，通过向提示命令或未来提示的用户提供视觉指示，增强了语音系统的提前说话特征，以便于利用提前说话功能。在一个实施例中，本发明向用户或工作者提供了通知，指示将处理的当前提示以及工作流程的序列中的下一个随后提示。这允许工作者38使用提前说话语音特征用于这些合适的语音提示。提前说话功能允许工作者38通过提供多个意见用于序列中的多个提示，从而在提出提示用于响应之前，提供输入。例如，代替需要两个不同的提示，诸如“性别？”以及“头发颜色？”，用户可以在听到第一个提示后直接回答“男性—棕色”。因而，已经处理了第二个提示，从而变得不再必要，并且由对话引擎62跳过。对话引擎62还将录入的输入数据分成适于提示序列的响应或栏。然而，这种提前说话功能需要工作者38必须知晓提示序列，以便于使用提前说话，从而变得更有效。这并不总是可行的，诸如对于不常遇到的那些工作任务。用户从未以足以有效的重复率执行任务。

然而，本发明的多模态系统允许即使对于不常发生的任务，对于工作流程描述60以及任务的提示可能并不熟练的工作者38知晓即将发生的提示序列，因而对提前说话进行整合，从而变得更有效。本发明通过向每个提示提供可视通知而允许这样进行，从而指示当前提示以及至少序列中的下一提示。正如下面两个例子中将说明的，可以在移动计算机设备14的显示屏42上提供通知。

图6A-6D示出了本发明另一实施例的显示屏42的一系列屏幕截图。如图6A中所示，如在先讨论的本文另一实例，显示用于受损货物报告的相同系列的提示和栏。本发明通过多模态软件应用52而在显示屏42上提供邻近工作流程对话中后三个提示的每个的可视提示124、126、128，以示出用于提供的任意输入的提示序列，诸如来自用户的语音意见。用于第一或当前提示的视觉指示124可以包括图标，其具有数字1，诸如圆形的特定形状或者特定颜色（由图6A中的线型所指示）。如果使用颜色作为对序列提示顺序的指示，可视提示124还可以包括对提示/数据栏以及用于该提示的边界的色彩编码的高亮显示。以类似的方式，用于第二或下一提示的视觉提示126可以包括图标，其具有数字2、诸如方形的特定形状或者应用于该图标或数据栏或边界的特定颜色。用于下一或第三提示的视觉提示128通过使用不同的数字、形状、图标或颜色而使其自身与先前的视觉提示124、126有所区别。因而，在图6A中，工作者38将从显示屏42中知晓接下来三个提示将按序是产品ID、订购单和受损类型。

如图6B中所示，如果工作者38分别地输入产品ID，多模态应用52再安排提示并且引导显示屏42上的提示和通知转换或改变。现在，指示订购单为第一提示，而指示受损类型和受损量为第二和第三即将发生的提示。如图6C中所示，如果工作者38再处理提示105并且其自身提供订购单录入或数据，那么多模态应用转换显示屏上的提示和提示顺序。在该状态下，显示屏42清楚地指示接下来的顺序提示为受损类型、受损量和数量类型。在提示顺序中的任何时候，提供提前说话功能。视觉指示或通知将用户引导至正确的提前说话顺序，从而能以正确的方式通过语音录入数据。在提示处理中的该点时，如图6C中所示，工作者38可以通过按序发声或说出“322而选择录入多个响应和数据，用于处理即将发生的提示。随后，如图6D所示，对话引擎62将来自意见的输入数据的三个分离片段应用至接下来三个顺序提示，而完成询问。

虽然所示的指示124、126、128示出了定位、编号、颜色和形状作为提示顺序的可能指示，但是这种视觉指示并非限制性的。例如，可以使用视觉指示的尺寸，从而视觉指示尺寸按序变得更大或更小。而且，指示可以以一定图案而在屏幕42上闪烁，其向用户提供了关于提示的顺序的信息。

虽然图6A-6D示出了视觉指示与提示（例如100、105、106）相邻，但是本发明的视觉指示也可以是提示的一部分。即，当前提示和数据栏100、105、106之间的色差可以指示提示序列。提示的部分也可以不同地闪烁，以示出提示的顺序。

各个不同的视觉图标24、126、128可以具有合适的数量、颜色、形状和其他指示的任意组合，如上所述，以便于正确地告知用户提示的序列，从而可以正确和准确地实施多模态系统的语音模式的提前说话特征，用于对话。这允许即使在工作流程不可预知或者本质上是部分时间，从而用户可能在记忆提示顺序上存在困难时，也可以利用提前说话特征。利用本发明，提供了语音模式的提前说话或过后说话的优点，而无需用户记住提示顺序。使用基于屏幕的提示、图标或者关于未来提示的其他视觉提示以及必须的提示顺序，用户在工作任务和对话中能够提前说话。

图7A-7D示出了根据本发明另一实施例的显示屏42的一系列屏幕截图。与前一操作相同，处理系统、尤其是多模态软件应用52，通过在显示屏42上输出视觉提示，而按序提供了对当前提示和即将发生的提示的指示。代替使用图标，在备选实施例中，多模态应用52将提示定位在显示屏42上的顺序为它们将被处理的顺序。从图7A开始，工作者38将知晓即将发生的提示是产品ID，随后按序为订购单和受损类型，因为这是提示如何在显示屏42的上半部从顶到底定位提示。还可以使用可以包括如前所述的颜色的加粗高亮显示框，而指示当前提示。

随着工作者38录入产品ID，或者处理或响应提示140，显示录入并且将提示移动至显示屏42的右手侧，如图7B中所示。现在订购单提示142已经移动至左手侧的顶部，以指示其作为当前提示，其后是受损类型144和受损数量146。如果使用响应而处理订购单提示142，多模态应用52进行至图7C所示的状态，其中在显示屏42的右手侧上填充订购单或栏提示142。那么，如果工作者38确定录入“322”以回答显示屏42的左手侧上的接下来三个提示，那么对话引擎62将识别多个录入，并且将其与各个序列提示144、146、148而相关，如图7D的最终状态所示。随后，如图7D所示，当回答了所有提示时，在最终屏幕上可以重新安排屏幕和提示。

虽然已经通过描述本发明的多个实施例而说明了本发明，并且虽然已经相当详细地描述了这些实施例，但是申请人的意图并不是将随附权利要求的范围限制于这样的细节。对于本领域技术人员，其他优点和修改方案将是显然的。例如，多模态软件应用52可以对每个提示具有对即将发生的提示的通知，以及多个输入界面部件的中哪个部件是对于各个提示的有效接收器的通知。因而，本发明在更宽泛的方面不局限于所示和所述的特定细节、示意性装置和方法以及示意性实例。因此，可以对这种细节进行改变，而不脱离申请人基本发明概念的精神和范围。

Claims

1.一种用于处理信息的多模态系统，包括：

计算机设备；

与计算机设备耦合的多个输入模式部件和多个输出模式部件，所述多个输入模式部件用于向计算机设备提供输入数据，并处理来自计算机设备的输出数据；

计算机设备的处理系统，配置以从所述多个输入模式部件中的至少之一接收数据，并且将数据输出至所述多个输出模式部件中至少之一，该处理系统配置以执行通过输出模式部件向用户提供至少一个提示的对话；

该处理系统提供与提示相关的指示，该指示是通过输出模式部件提供的，以用于向用户指示哪些输入模式部件能够处理提示。

2.根据权利要求1所述的系统，其中至少一个输入模式部件是计算机设备的一部分。

3.根据权利要求1所述的系统，其中至少一个输出模式部件是计算机设备的一部分。

4.根据权利要求1所述的系统，其中所述多个输出模式部件包括扬声器，而至少一个提示包括由扬声器传递的语音提示。

5.根据权利要求1所述的系统，其中所述多个输出模式部件包括扬声器，并且其中可用的输入模式部件的指示是由扬声器传递的语音指示。

6.根据权利要求1所述的系统，其中所述多个输出模式部件包括显示器，而至少一个提示包括在显示器上示出的视觉提示。

7.根据权利要求1所述的系统，其中所述多个输出模式部件包括显示器，并且其中可用的输入模式部件的指示是在显示器上示出的视觉指示。

8.根据权利要求5所述的系统，其中语音指示包括语音和耳听信号中至少之一，以用于向用户指示哪些输入模式部件能够处理提示。

9.根据权利要求7所述的系统，其中视觉指示包括图标、文本和颜色中至少之一，以用于向用户指示哪些输入模式部件能够处理提示。

10.根据权利要求1所述的系统，其中通过向用户提供至少一个提示的相同输出模式部件提供用于向用户指示哪些输入模式部件能够处理提示的指示。

11.根据权利要求1所述的系统，其中通过向用户提供至少一个提示的不同输出模式部件提供用于向用户指示哪些输入模式部件能够处理提示的指示。

12.一种使用包括与计算机设备耦合的多个输入模式部件和多个输出模式部件的计算机设备执行多模态应用的方法，该方法包括：

从多个输入模式部件中至少之一接收数据，并且将数据输出至所述多个输出模式部件中至少之一；

执行对话并使用所述多个输出模式部件中所选的一个提示用户输入数据并且根据对话处理提示；

通过输出模式部件提供与提示相关的指示，以用于向用户指示哪些输入模式部件能够接收数据以处理提示。

13.根据权利要求12所述的方法，还包括以扬声器传递的语音提示而提示用户。

14.根据权利要求12所述的方法，还包括使用扬声器传递的语音指示而提供与提示相关的指示。

15.根据权利要求12所述的方法，还包括以显示器上示出的视觉提示而提示用户。

16.根据权利要求12所述的方法，还包括使用显示器上示出的视觉指示而提供与提示相关的指示。

17.根据权利要求14所述的方法，其中语音指示包括语音和耳听信号中至少之一，以用于向用户指示哪些输入模式部件能够处理提示。

18.根据权利要求16所述的方法，其中视觉指示包括图标、文本和颜色中至少之一，以用于向用户指示哪些输入模式部件能够处理提示。

19.一种用于处理信息的多模态系统，包括：

计算机设备；

与计算机设备耦合的多个输入模式部件和多个输出模式部件，所述多个输入模式部件用于向计算机设备提供输入数据并处理来自计算机设备的输出数据；

计算机的处理系统，配置以从多个输入模式部件中的至少之一接收数据并且将数据输出至所述多个输出模式部件中之一，该处理系统配置以执行通过输出模式部件向用户提供一系列提示的对话；

处理系统提供了与提示相关的反映了一系列提示的顺序的指示，所述指示是通过输出模式部件提供的，以用于向用户指示当前提示以及按顺序至少下一个提示，以使得用户能够按顺序处理提示。

20.根据权利要求19所述的系统，其中所述多个输出模式部件包括显示器，并且指示是在显示器上示出的视觉指示。

21.根据权利要求20所述的系统，其中视觉指示是与显示器上的提示相邻的图标。

22.根据权利要求20所述的系统，其中视觉指示是显示器上提示的一部分。

23.根据权利要求22所述的系统，其中视觉指示使用下列中至少之一反映一系列提示的顺序：提示的尺寸、提示的位置以及提示的闪烁部分。

24.根据权利要求21所述的系统，其中对图标进行区分以反映一系列提示的顺序，其中图标由下列中至少之一来区分：形状、颜色和编号。

25.一种使用包括与计算机设备耦合的多个输入模式部件和多个输出模式部件的计算机设备执行多模态应用的方法，该方法包括：

执行对话并且使用所述多个输出模式部件中所选的一个提示用户输入数据并且根据对话回答一系列提示；

通过输出模式部件提供与提示相关的反映了一系列提示的顺序的指示，以用于向用户指示当前提示以及按顺序至少下一个提示，以使得用户能够按顺序处理提示。

26.根据权利要求25所述的方法，还包括对于接收的输入数据，确定输入数据是否应当与一系列提示中的单个提示或多个提示相关联。

27.根据权利要求25所述的方法，其中指示包括在显示器上示出的视觉指示。

28.根据权利要求27所述的方法，其中视觉指示是与显示器上的提示相邻的图标。

29.根据权利要求27所述的方法，其中视觉指示是显示器上的提示的一部分。

30.根据权利要求29所述的方法，其中视觉指示使用下列中至少之一反映一系列提示的顺序：提示的尺寸、提示的位置以及提示的闪烁部分。

31.根据权利要求28所述的方法，其中对图标进行区分以反映一系列提示的顺序，其中图标由下列中至少之一来区分：形状、颜色和编号。

32.根据权利要求25所述的方法，还包括：