CN102428440A - 用于多模式输入的同步和消歧的系统和方法 - Google Patents

用于多模式输入的同步和消歧的系统和方法 Download PDF

Info

Publication number
CN102428440A
CN102428440A CN2010800215249A CN201080021524A CN102428440A CN 102428440 A CN102428440 A CN 102428440A CN 2010800215249 A CN2010800215249 A CN 2010800215249A CN 201080021524 A CN201080021524 A CN 201080021524A CN 102428440 A CN102428440 A CN 102428440A
Authority
CN
China
Prior art keywords
input
user
hypothesis
gesture
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800215249A
Other languages
English (en)
Other versions
CN102428440B (zh
Inventor
翁富良
任骝
Z·冯
邹林灿
B·阎
沈中南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN102428440A publication Critical patent/CN102428440A/zh
Application granted granted Critical
Publication of CN102428440B publication Critical patent/CN102428440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了利用多模式输入接口以用于识别人机交互(HMI)系统中的用户输入的对话系统的实施例。实施例包括从多种不同的用户输入机制(多模式输入)接收用户输入并且执行特定的同步和消歧处理的部件。多模式输入部件将从不同模式获取的信息同步和整合,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这种系统有效地解决与用户输入相关的任何歧义并且校正人机交互中的错误。

Description

用于多模式输入的同步和消歧的系统和方法
技术领域
本发明的实施例总体上涉及对话系统,并且更具体地说涉及对提供到对话系统的用户输入的同步和消歧。
背景技术
对于人类来说,口语是最自然和最方便的沟通工具。语音识别技术上的进步已经允许各种不同机器和计算机系统的口语接口的增加的使用。各种系统和服务的接口通过语音命令给人们提供了便利和效率,但是只有当口语接口是可靠的才行。这一点对于眼睛忙碌和手忙碌情况下的应用来说尤为重要,例如开车或执行复杂的计算任务。使用口头命令和语音识别的人机接口一般是基于对话系统的。对话系统是被设计为在输入和输出通道上使用一致的结构和文本、语音、图形或其他沟通模式来与人交谈的计算机系统。利用语音的通话系统被称为口头对话系统,并且一般代表最自然的人机接口类型。随着对电子设备依赖的不断增大,口头对话系统被越来越多地实施在许多不同的系统中。
在许多人机交互(HMI)系统中,用户可以通过多种输入设备或多种类型的设备与系统交互,例如通过语音输入、手势控制和传统的键盘/鼠标/笔输入。这在数据输入方面为用户提供了灵活性,并且允许用户根据其自己的偏好更高效地向系统提供信息。
现有的HMI系统通常限制特定类型数据的特定输入模式,或者允许用户一次仅使用多种模式中的一种。例如,车辆导航系统可以包括触摸屏和用于口头命令的语音识别系统。然而,触摸屏通常仅限于允许用户通过接触来选择确定的菜单项,而不是通过语音命令。这样的多模式系统既不通过不同的输入模式来协同用户命令,也不利用一种模式的输入数据来通知和/或修改另一种模式的数据。因此,现有的多模式系统没有充分地提供无缝的用户接口系统,在所述用户接口系统中,来自所有可能输入模式的数据可以被用来向系统提供准确的信息。
因此,所期望的是用于人机交互系统的多模式信息用户输入接口,其能够同步和整合从不同模式获取的信息,在多模式输入信息的帮助下消除歧义和从错误中恢复。这样的系统会极大地提高用户满意度、系统性能和系统鲁棒性。
还期望的是能够同步和整合以任意顺序从不同模式获取的多模式信息的HMI用户输入系统。
附图说明
在附图中以示例而非限制的方式说明了本发明的实施例,在附图中,相同的附图标记指示相同的元件并且在附图中:
图1说明了根据实施例的实施了多模式同步和消歧系统的多模式人机系统。
图2是根据实施例的多模式用户交互系统的框图,该多模式用户交互系统接受用户的手势和语音作为输入,并且包括了多模式同步和消歧系统。
图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。
图4是根据实施例的实施多模式交互系统的口头对话管理器系统的框图。
图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。
具体实施方式
描述了包括用于人机交互(HMI)系统的多模式同步和消歧系统的对话系统的实施例。实施例包括从多种不同的用户输入机制接收用户输入的部件。该多模式同步和消歧系统同步和整合从不同模式获取的信息,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这样的系统有效地解决了与用户输入相关的任何歧义并且校正人机交互中的错误。
在下面的描述中,介绍了许多具体的细节,以提供对多模式同步和消歧系统和方法的实施例的透彻理解和使其能够实现的描述。然而,相关领域的技术人员将会认识到可以在没有这些具体细节中的一个或多个的情况下实施这些实施例,或者可以用其他部件、系统等来实施这些实施例。在其他实例中,没示出公知的结构或操作,或者没有详细地描述,以避免混淆所公开的实施例的方面。
图1说明了根据实施例的实施多模式同步和消歧系统的多模式人机系统。在系统100中,用户102与机器或系统110交互,其可能是计算系统、机器或者任何自动的电机系统。用户能通过许多不同的模式来向系统110提供输入,一般是通过一种或更多输入模块的语音或触摸控制。例如,这些输入方式包括键盘或鼠标输入106、触摸屏或触摸板输入108、以及/或者通过麦克风104的语音输入103。其他用户输入模块也是可能的,例如脚踏操纵、小键盘、操纵杆/伺服控制、游戏键盘输入、红外线或激光指示器、基于相机的手势输入、电磁传感器等等。不同的用户输入可以控制机器操作的不同方面。在某些的示例中,特定的输入模块可以控制特定的操作类型。例如,语音命令可以被配置为与系统管理任务连接,而键盘输入可以被用来执行操作任务。在一个实施例中,来自不同输入模式的用户输入用来控制机器110的至少某些重叠的功能。对于这种实施例,使用多模式输入同步模块112来同步和整合从不同输入模式104-108获取的信息,对输入进行消歧,并使用来自任何模式的输入来校正、修改或者通知来自任何其他模式的输入。
如图1所示,在许多人机交互(HMI)系统中,用户能通过诸如触摸屏、鼠标、键盘、麦克风等的多个输入设备来与系统交互。多模式输入机制为用户通过其偏爱的方法将信息更高效地输入系统提供了灵活性。例如,当使用导航系统时,用户可能想要找到某地区的一个饭店。他或者她可能更喜欢通过触摸屏界面直接在所显示的地图上指定区域,而不是通过读音或声音命令来描述它。在另一个例子中,当用户向他的通讯簿中增加联系人姓名时,直接说出姓名可能比通过键盘或电话键盘打字更高效并且更便利。
用户也可以使用多种模式来完成他们的任务。即机器或机器操作的方面可能接受两种和更多用户输入模式。在一些情况下,用户可能使用所有可能的输入模式来执行任务。多模式同步部件112允许对从不同模式获取的信息进行同步和整合。不同的输入可以用来对响应进行消歧并且为任何有问题的输入提供错误恢复。用这种方式,用户可以使用最期望的输入方法,并且不用总是被迫学习不同的输入规范,例如有独特意义的新手势或命令。
不像传统的多模式HMI系统仅允许用户一次使用多个模式中的一种,多模式同步部件允许用户同时通过多种模式来输入信息。例如,用户可以在触摸屏上画一些东西的同时对系统讲话。因此,在导航系统中,用户可以在触摸屏上显示的地图上画一个圆形的区域,同时说“在这个区域内找到一个饭店”。在这种情况下,用户通过触摸屏输入来指定“这个区域”的意思。用户的多模式输入的含义的确定将依赖于在不同模式中传递的信息、当时模式的置信度以及从不同模式接收到的信息的时间。
图2是接受用户的手势和语音作为输入的多模式用户交互系统的框图。在多模式用户交互系统200中,用户可以通过打字、触摸屏幕、说话或者其他类似的方式来输入信息。诸如触摸屏输入201等的物理手势输入被发送到手势识别模块211。手势识别模块将处理用户的输入并且将其分类为不同类型的手势,例如拖动动作,或者画点、直线、曲线、区域等等。用户的语音输入202将被发送到语音识别模块222。从对应的手势识别模块和语音识别模块识别的手势和语音将被发送到对话系统221。对话系统基于对话的上下文和输入事件的时间顺序,对从每种模式获取的信息进行同步和消歧。对话系统与应用或者设备223交互,以完成用户通过多模式输入指定的任务。然后通过语音响应203将交互的输出和已执行任务的结果传递给用户,以及/或者通过在图形用户界面(GUI)210的呈现模块212上进行显示。图2的系统200可以被用来执行上面例子中提供的输入任务,即用户基于语音输入和触摸屏输入的结合来指定要找的饭店。
多模式用户交互系统的主要功能是区分和同步可能指向同一个应用的用户输入。不同的输入模式可能指向不同的任务,即使他们被同时输入。类似地,由用户在不同时间通过不同模式提供的输入实际上可能指向同一个任务。一般来说,应用和系统仅识别通过适当模式并且在适当时间段内提供的用户输入。
图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。如图3所示,水平轴302代表沿着时间轴对系统的输入事件。说明了表示为“事件1”和“事件2”的两个示例事件。输入事件代表对于特定的应用或者任务有效的用户输入时间段。如所示出的,三个不同的输入模式被表示为模式1、2和3,并且可以代表绘图输入、口头输入、键盘输入等等。不同的输入模式具有在不同的时间段内和变化的持续时间中有效的用户输入。对于事件1,用户已经通过模式1、2和3提供了输入,但是模式2是相对来说短和较晚的输入。同样对于事件2,模式1和3看起来具有有效的输入,但是模式2可能较早或者不存在。多模式交互系统可以使用由任何模式提供的信息来确定特定输入是否有效,以及帮助辨明输入的正确含义。
当接收到的信息不足以确定含义时,系统也可以要求更多来自各种模式的输入。可以使用为不同应用和任务开发的预定规则或者统计模型来指导多模式信息的同步和整合。
上面提供的例子说明了从单一渠道(例如,语音命令)获取的信息经常包含歧义的事实。由于对用户表达的无意识的多种解释导致可能会产生这种歧义。例如,词组“这个区域”本身就是含糊不清的,除非用户提供被系统识别的名字。在另一个例子中,在触摸屏上的手势可能有不同的含义。例如,在示出地图的触摸屏上沿着直线移动手指可以表示在地图上画直线或者以特定的方向拖动地图。多模式同步模块使用来自所有被利用的模式的信息,以提供对用户输入最可能的解释。当在从特定渠道获取的信息中发现歧义时,在不同的系统状态下可以使用不同的方式。系统可以使用之前的上下文来帮助消歧,或者它可以要求用户通过同一个或者不同的模式来澄清。继续前面的例子,假设语音和触摸屏是所述的两个输入模式,并且用户在触摸屏上所显示的地图上移动他或她的手指。该手势至少有两种可能的解释:在地图上画直线,或者向另一个方向拖动地图。在这种情况下,如果用户说“我想要在这条街道上找到一些饭店”,系统就会知道用户画直线是用来指定街道的。如果用户在那时什么也没说,则可能是用户仅仅是想要拖动地图。
从一种模式获取的信息可能还包含错误。这些错误可能来自设备、系统甚至用户。此外,来自一种模式的错误可能还引起与来自其他模式的信息的不一致。多模式同步和消歧部件可以解决这种不一致、选择正确的解释并且基于上下文和置信度从这种错误中恢复。在一个实施例中,通过包括诸如输入设备的性能说明、特定模式的重要性、用来从输入数据中获取信息的算法的性能等的因素来计算置信度分数等。当在不同模式之间有不一致时,使用多个假设和对应的来自每种模式的置信度分数来决定哪些假设是传递给下一级处理的可能假设。通过对来自对于该假设的不同可用模式的置信度分数进行加权线性组合或者通过其他组合函数,来计算每个假设的合计置信度分数。
图4是根据实施例的实施多模式交互系统的口语对话系统的框图。为了本描述的目的,在处理设备上执行的任何处理还可以被称为模块或者部件,并且可以是在各自设备计算机上本地执行的独立程序,或者它们可以是在一个或更多设备上运行的分布式客户应用程序的部分。系统400的核心部件包括带有针对不完整输入的多个理解策略的口语理解(SLU)模块和语音识别(SR)模块402,处理多个对话线程的信息状态更新或者其他类型的对话管理器(DM)406,控制对基于本体领域知识的访问的知识管理器(KM)410,以及数据存储418。在一个实施例中,包括口语单词和词组的用户输入401产生由语音识别单元402接收的音波。语音识别单元402可以包括提供诸如动态语法或基于级别的n元语法的功能的部件。由语音识别单元识别的话语输出将被口语理解单元处理,以得到用户基于语音输入的语义。在用户输入401是基于文本而不是基于语音的情况下,语音识别被绕过,并且口语理解单元将接收用户基于文本的输入,然后生成用户基于文本的输入的语义。用户输入401还可以包括手势或者其他物理沟通方式。在这种情况下,手势识别部件404将识别的手势转换成机器可识别的输入信号。手势输入和识别系统可以是基于相机的手势输入、基于激光传感器、红外线或者任何其他机械或电磁传感器的系统。用户输入也可以由计算机或其他基于处理器的系统408提供。通过计算机408的输入可以通过任何方法,例如键盘/鼠标输入、触摸屏、笔/指示笔输入,或者任何其他可用的输入方法。
对于系统400的实施例,来自任何可用方法(语音、手势、计算机等)的用户输入被提供给多模式接口模块414,该模块与对话管理器404功能上耦合。多模式接口包括一个或者更多执行输入同步和输入消歧任务的功能模块。如图3所示,输入同步功能确定哪个输入或哪些输入对应于针对特定事件的响应。输入消歧功能解决在一个或者更多输入中出现的任何歧义。
然后由对话管理器部件404处理正确的输入。响应发生器和文本-语音(TTS)单元416提供系统400的输出并且能基于用户输入产生音频、文本和/或视觉输出。通过以来自文本-语音单元的语音形式提供的音频输出,通过扬声器420播放。文本和视觉/图形输出可以通过显示设备422被显示,该显示设备可以执行图形用户接口处理,例如图2中所示的GUI210。图形用户输入还可以访问或执行便利特定信息的显示的某些显示程序,例如用于显示名胜的地图等。
由响应发生器416提供的输出可以是查询的答案、对澄清或更多信息的要求、用户输入的重复或者任何其他适当的响应(例如,以音频输出的形式)。输出也可以是在地图屏幕上的直线、区域或者其他类型的标记(例如,以图形输出的形式)。在一个实施例中,响应发生器在产生响应时利用域信息。因此,对用户说同样事情的不同措辞将会经常产生非常不同的结果。图4中说明的系统400包括巨大的数据存储418,其存储被系统400的一个或者更多模块使用的某些数据。
系统400还包括应用管理器412,其从一个或者更多应用或设备向对话管理器404提供输入。应用管理器到对话管理器的连接可以是直接的,如图所示,或者可以通过多模式接口414处理一个或多个应用/设备输入以用于与用户输入401和403一起同步和消歧。
多模式接口414可以包括系统400的部件中的一个或更多的分布式处理。例如,在对话管理器404中可以提供同步功能,并且在SR/SLU单元402和手势识别模块404以及甚至在应用管理器412中提供消歧处理。同步功能基于输入事件的时间顺序以及来自诸如语音识别器、手势识别器等识别器的内容来同步输入。例如,识别的语音“在这个区域内找到一家中餐厅”将会提示系统等待来自手势识别部件的输入或者在延长的进行时段搜索输入。如果手势被识别,则对于语音识别器,可以预期到相似的处理。在两种情况下,需要语音和手势缓冲器来存储语音和手势事件延长的时间段。消歧功能基于对话上下文对从每种模式获取的信息进行消歧。
图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。当从一个或者更多模式接收到输入时(框502),同步功能基于可能与输入对应的事件的时间通信来同步输入(框504)。对于每个输入,对话管理器导出关于输入含义的可能性的原始假设集(框506)。假设(H)中的不确定性代表输入中歧义的量。某些假设正确的可能性可以由加权值(W)来表达。因此,每个输入可以具有与其相关联的假设和加权值(H,W)。对于多种输入模式,产生假设矩阵,例如对于三种输入模式(例如,语音/手势/键盘)来说的(H1W1;H2W2;H3W3)。
在某些情况下,来自不同输入类型或者模式的输入可以帮助澄清来自另一种模式的输入。例如,对地图的随意手势可能没有清楚地表明用户指向的位置,但是如果他或者她还说了“Palo Alto,”则该口头输入能够帮助纠正手势输入中的歧义,并且反之亦然。该步骤由可以与输入识别单元相关的消歧处理来执行。如图5所示,在框508中,口语单元从对话管理器对另一种模式输入的解释中接收到约束集合,并且将这些约束提供给消歧处理。然后约束与对话管理器中的原始假设相结合(框510)。然后对话管理器根据基于其他输入的约束导出新假设(框512)。通过这种方式,来自一种或者更多其他模式的输入被用来帮助确定来自特定输入模式的输入的含义。
因此多模式接口系统提供了一种系统和方法,该系统和方法用来同步和整合从多个输入设备获取的多模式信息,并且基于多模式信息对输入进行消歧。该系统和方法使得对话系统能够基于多模式信息检测错误并且从错误中恢复。本系统通过允许用户同时通过多种模式输入信息而为用户提供了更大的灵活性和便利性。消歧和错误恢复机制能够提高HMI系统的性能和鲁棒性。多模式接口系统的实施例可以被用在任何类型的人机交互(HMI)系统中,例如用来操作车载设备和服务的对话系统;呼叫中心、智能电话或者其他移动设备。这样的系统可以是包括用于来自一个或多个用户的口头输入的一个或多个读音识别器部件的基于语音的系统,或者他们可以是手势输入、机器输入、或者软件应用输入模块,或者其任意组合。
本文所描述的实施例包括对话系统中的计算机实施方法,所述方法包括:从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于所述多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户者提供,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入以及笔或者指示笔输入。
实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
实施例的对话系统包括包含口语理解单元的语音识别级(stage)。
实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。
本文所描述的实施例包括对话系统,所述对话系统包括:输入级,用来从多种输入模式接收输入;同步模块,用来基于与输入相关的事件的时间顺序同步输入;对话管理器,用来针对事件的输入产生原始假设;消歧模块,用来基于多个输入中的一个或更多其他输入接收该输入的约束,其中对话管理器将约束和原始假设结合起来并且导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户提供,并且其中,提供给输入级的多个输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。
实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
实施例的对话系统包括包含口语理解单元的语音识别级。
实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。
实施例的消歧模块包括手势识别单元和在每个语音识别级提供的消歧部件。
实施例的对话系统包括响应发生器,其基于用户输入产生系统输出。实施例的对话系统包括文本-语音单元,其将系统输出的至少一部分转换为口语输出。实施例的对话系统包括与文本-语音单元耦合的音频输出设备,其为用户播放口语输出。实施例的对话系统包括图形输出,其通过图形用户接口处理显示来自响应发生器的图形输出。
本文所描述的实施例包括计算机可读介质,其包含多个程序指令,该指令在由处理器执行时使得处理器执行:从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户者提供,并且其中,多个输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。
实施例的输入至少部分地由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
本文所描述的多模式同步和消歧处理的方面可以被实施为被编程到任何各种电路中的功能,所述各种电路包括诸如现场可编程门阵列(“FPGAs”)、可编程阵列逻辑(“PAL”)设备等的可编程逻辑设备(“PLDs”),电可编程逻辑和存储器设备以及基于标准单元的设备(standardcell-based device),以及专用集成电路。实施方面的一些其他可能性包括:具有存储器的微控制器(例如EEPROM),嵌入式微处理器,固件,软件等等。另外,服务于方法的内容的方面可以体现在具有基于软件的电路仿真的微处理器、离散逻辑(顺序的和组合的),定制设备,模糊(神经)逻辑,量子设备,以及任何上面设备类型的混合。在各种部件类型中可以提供基础的设备技术,例如,像互补金属氧化物半导体(CMOS)的金属氧化物半导体场效应晶体管(“MOSFET”)技术,像射极耦合逻辑(“ECL”)的双极技术,聚合物技术(例如,硅共轭聚合体和金属共轭聚合物-金属结构),模拟和数字混合等等。
还应该注意,按照本文公开的各种功能的行为、寄存器传送、逻辑部件和/或其他特征,可以使用任意数量的硬件、固件、和/或体现在各种机器可读的或者计算机可读的介质中的数据和/或指令的组合来描述这些功能。可以体现这些格式化的数据和/或指令的计算机可读介质包括,但不局限于,各种形式的非易失性存储介质(例如,光、磁或者半导体存储介质)和可以被用于通过无线、光学或者有线信号介质及其任意组合来传输这些格式化的数据和/或指令的载波。通过载波传输这些格式化的数据和/或指令的例子包括,但不局限于,经由一种或者更多数据传输协议(例如,HTTP、FTP、SMTP等等)通过互联网和/或其他计算机网络进行传输(上传、下载、电子邮件等)。
除非上下文明确地要求,否则在说明书和权利要求中,“包括(comprise)”、“包括(comprising)”等单词旨在以包含的方式而不是以排他或穷举的方式被解释;也就是说,以“包括但不局限于”的方式。使用单数或复数的单词也分别包括复数或单数。另外,单词“本文中”、“之后”、“上述”、“下面”以及类似意义的单词指的是作为整体的本申请而不是本申请的任何特定的部分。当使用单词“或者”提到两个或更多条目列表时,该单词覆盖对该单词的以下所有解释:列表中的任何项、列表中的所有项以及列表中项的任意组合。
所说明的多模式输入接口的实施例的以上描述并不意图是穷举的或者将这些实施例限制为所公开的精确形式或指示。尽管为了说明的目的,本文描述了计算设备中处理的具体实施例和例子,但是在本领域技术人员将意识到,在所公开的方法和结构范围内,各种等价修改是有可能的。上面描述的各种实施例的元件和动作可以被结合以提供更多的实施例。可以按照上面详细的描述对多模式输入接口处理做出这些和其他的修改。
总的来说,在所附的权利要求中,所使用的术语不应当被解释为将所公开的方法限制到在说明书和权利要求中所公开的特定实施例,而应当被解释为包括根据权利要求操作的所有操作或者处理。因此,所公开的结构和方法不受本公开所限制,而是完全由权利要求来确定所详述的方法的范围。
尽管在下面以特定的权利要求的形式提出所公开的系统和方法的某些方面,但是发明人设想任意数量的权利要求形式中的方法的各个方面。例如,虽然只有一个方面可能被陈述为体现在机器可读介质中时,但是其他方面也可以同样体现在机器可读介质中。因此,发明人保留在提交本申请之后增加附加权利要求的权利以为其他方面追求这种附加权利要求的形式。

Claims (20)

1.一种对话系统中的计算机实施方法,包括:
从多种输入模式接收输入;
基于与所述输入相关的事件的时间顺序同步所述输入;
针对事件的输入产生原始假设;
基于所述多个输入中的一个或者更多其他输入接收所述输入的约束;
将所述约束与所述原始假设结合;以及
导出新假设以解释所述输入。
2.根据权利要求1所述的方法,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
3.根据权利要求1所述的方法,其中,所述输入至少部分由人类用户提供,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
4.根据权利要求3所述的方法,其中,所述输入至少部分由应用程序或者设备提供,并且其中所述多种输入模式还包括程序输入和设备输入。
5.根据权利要求1所述的方法,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
6.根据权利要求5所述的方法,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
7.根据权利要求6所述的方法,其中,所述对话系统还包括手势识别单元,所述手势识别单元解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
8.一种对话系统,包括:
输入级,其从多种输入模式接收输入;
同步模块,其基于与所述输入相关的事件的时间顺序来同步所述输入;
对话管理器,其针对事件的输入产生原始假设;
消歧模块,其基于所述多个输入中的一个或者更多其他输入接收所述输入的约束,其中所述对话管理器将所述约束与所述原始假设结合并且导出新假设以解释所述输入。
9.根据权利要求8所述的系统,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
10.根据权利要求1所述的系统,其中,所述输入至少部分由人类用户提供,并且其中提供到所述输入级的所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
11.根据权利要求10所述的系统,其中,所述输入至少部分由应用程序或者设备提供,并且其中所述多种输入模式还包括程序输入和设备输入。
12.根据权利要求8所述的系统,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
13.根据权利要求12所述的系统,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
14.根据权利要求13所述的系统,其中,所述对话系统还包括手势识别单元,所述手势识别单元用于解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
15.根据权利要求14所述的系统,其中,所述消歧模块包括在所述手势识别单元和所述语音识别级中的每一个中提供的消歧部件
16.根据权利要求15所述的系统,还包括:
响应发生器,其基于所述用户输入产生系统输出;
文本-语音单元,其将至少一部分所述系统输出转换为口语输出;
耦合到文本-语音单元的音频输出设备,其为所述用户播放所述口语输出;以及
图形输出,其通过图形用户接口处理显示来自所述响应发生器的图形输出。
17.一种计算机可读介质,包含多个程序指令,当所述程序指令被处理器执行时,使得所述处理器执行以下步骤:
从多种输入模式接收输入;
基于与所述输入相关的事件的时间顺序同步所述输入;
针对事件的输入产生原始假设;
基于所述多个输入中的一个或者更多其他输入接收所述输入的约束;
将所述约束和所述原始假设结合;以及
导出新假设以解释所述输入。
18.根据权利要求17所述的介质,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
19.根据权利要求18所述的介质,其中,所述输入至少部分地由以下提供:
人类用户,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入;以及
应用程序或者设备,并且其中所述多种输入模式还包括程序输入和设备输入。
20.根据权利要求19所述的介质,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
CN201080021524.9A 2009-03-18 2010-02-05 用于多模式输入的同步和消歧的系统和方法 Active CN102428440B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/406,661 US9123341B2 (en) 2009-03-18 2009-03-18 System and method for multi-modal input synchronization and disambiguation
US12/406,661 2009-03-18
PCT/US2010/023410 WO2010107526A1 (en) 2009-03-18 2010-02-05 System and method for multi-modal input synchronization and disambiguation

Publications (2)

Publication Number Publication Date
CN102428440A true CN102428440A (zh) 2012-04-25
CN102428440B CN102428440B (zh) 2016-08-03

Family

ID=42163731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080021524.9A Active CN102428440B (zh) 2009-03-18 2010-02-05 用于多模式输入的同步和消歧的系统和方法

Country Status (4)

Country Link
US (1) US9123341B2 (zh)
EP (1) EP2409218A1 (zh)
CN (1) CN102428440B (zh)
WO (1) WO2010107526A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103376936A (zh) * 2012-04-26 2013-10-30 宏碁股份有限公司 触控检测方法与触控检测装置
CN103713876A (zh) * 2014-01-16 2014-04-09 联想(北京)有限公司 数据处理方法及电子设备
CN104021788A (zh) * 2013-03-01 2014-09-03 联发科技股份有限公司 声控装置和声控方法
CN104112448A (zh) * 2013-04-19 2014-10-22 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
CN104299623A (zh) * 2013-07-15 2015-01-21 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
CN104471639A (zh) * 2012-07-20 2015-03-25 微软公司 语音和手势识别增强
CN104700832A (zh) * 2013-12-09 2015-06-10 联发科技股份有限公司 语音关键字检测系统及方法
CN104823147A (zh) * 2012-10-12 2015-08-05 微软技术许可有限责任公司 作为与应用的交互的多模式用户表达和用户力度
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
CN105074817A (zh) * 2013-03-15 2015-11-18 高通股份有限公司 用于使用手势来切换处理模式的系统和方法
CN106569613A (zh) * 2016-11-14 2017-04-19 中国电子科技集团公司第二十八研究所 一种多模态人机交互系统及其控制方法
CN107153685A (zh) * 2017-04-25 2017-09-12 竹间智能科技(上海)有限公司 人机对话系统中基于时间线记忆的认知方法及装置
CN109298784A (zh) * 2018-09-05 2019-02-01 北京机械设备研究所 一种人机交互误操作管理系统和方法
CN109933272A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态深度融合机载座舱人机交互方法
CN110018746A (zh) * 2018-01-10 2019-07-16 微软技术许可有限责任公司 通过多种输入模式来处理文档
US10522145B2 (en) 2016-03-01 2019-12-31 Sony Corporation Information processing apparatus and information processing method
CN112506125A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种多模态控制方法、装置和系统

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100078040A (ko) * 2008-12-30 2010-07-08 삼성전자주식회사 멀티모달 시스템 및 그 입력처리방법
US20100281435A1 (en) * 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9348417B2 (en) * 2010-11-01 2016-05-24 Microsoft Technology Licensing, Llc Multimodal input system
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) * 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US8975903B2 (en) 2011-06-09 2015-03-10 Ford Global Technologies, Llc Proximity switch having learned sensitivity and method therefor
US8928336B2 (en) 2011-06-09 2015-01-06 Ford Global Technologies, Llc Proximity switch having sensitivity control and method therefor
WO2013022218A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
EP4235365A3 (en) 2011-08-05 2023-11-01 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
US10004286B2 (en) 2011-08-08 2018-06-26 Ford Global Technologies, Llc Glove having conductive ink and method of interacting with proximity sensor
US8830302B2 (en) * 2011-08-24 2014-09-09 Lg Electronics Inc. Gesture-based user interface method and apparatus
US9143126B2 (en) 2011-09-22 2015-09-22 Ford Global Technologies, Llc Proximity switch having lockout control for controlling movable panel
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8994228B2 (en) 2011-11-03 2015-03-31 Ford Global Technologies, Llc Proximity switch having wrong touch feedback
US10112556B2 (en) 2011-11-03 2018-10-30 Ford Global Technologies, Llc Proximity switch having wrong touch adaptive learning and method
US8878438B2 (en) 2011-11-04 2014-11-04 Ford Global Technologies, Llc Lamp and proximity switch assembly and method
US8954330B2 (en) 2011-11-28 2015-02-10 Microsoft Corporation Context-aware interaction system using a semantic model
US9652506B2 (en) 2011-12-16 2017-05-16 Microsoft Technology Licensing, Llc Providing data experience(s) via disparate semantic annotations based on a respective user scenario
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9934780B2 (en) 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US20130257753A1 (en) * 2012-04-03 2013-10-03 Anirudh Sharma Modeling Actions Based on Speech and Touch Inputs
US9520875B2 (en) 2012-04-11 2016-12-13 Ford Global Technologies, Llc Pliable proximity switch assembly and activation method
US9219472B2 (en) 2012-04-11 2015-12-22 Ford Global Technologies, Llc Proximity switch assembly and activation method using rate monitoring
US9660644B2 (en) 2012-04-11 2017-05-23 Ford Global Technologies, Llc Proximity switch assembly and activation method
US8933708B2 (en) 2012-04-11 2015-01-13 Ford Global Technologies, Llc Proximity switch assembly and activation method with exploration mode
US9065447B2 (en) 2012-04-11 2015-06-23 Ford Global Technologies, Llc Proximity switch assembly and method having adaptive time delay
US9184745B2 (en) 2012-04-11 2015-11-10 Ford Global Technologies, Llc Proximity switch assembly and method of sensing user input based on signal rate of change
US9531379B2 (en) 2012-04-11 2016-12-27 Ford Global Technologies, Llc Proximity switch assembly having groove between adjacent proximity sensors
US9287864B2 (en) 2012-04-11 2016-03-15 Ford Global Technologies, Llc Proximity switch assembly and calibration method therefor
US9568527B2 (en) 2012-04-11 2017-02-14 Ford Global Technologies, Llc Proximity switch assembly and activation method having virtual button mode
US9831870B2 (en) 2012-04-11 2017-11-28 Ford Global Technologies, Llc Proximity switch assembly and method of tuning same
US9197206B2 (en) 2012-04-11 2015-11-24 Ford Global Technologies, Llc Proximity switch having differential contact surface
US9944237B2 (en) 2012-04-11 2018-04-17 Ford Global Technologies, Llc Proximity switch assembly with signal drift rejection and method
US9559688B2 (en) 2012-04-11 2017-01-31 Ford Global Technologies, Llc Proximity switch assembly having pliable surface and depression
US20130285942A1 (en) * 2012-04-26 2013-10-31 Acer Incorporated Touch detection method and touch control device using the same
US9182233B2 (en) 2012-05-17 2015-11-10 Robert Bosch Gmbh System and method for autocompletion and alignment of user gestures
US9136840B2 (en) 2012-05-17 2015-09-15 Ford Global Technologies, Llc Proximity switch assembly having dynamic tuned threshold
US8981602B2 (en) 2012-05-29 2015-03-17 Ford Global Technologies, Llc Proximity switch assembly having non-switch contact and method
US9337832B2 (en) 2012-06-06 2016-05-10 Ford Global Technologies, Llc Proximity switch and method of adjusting sensitivity therefor
US9641172B2 (en) 2012-06-27 2017-05-02 Ford Global Technologies, Llc Proximity switch assembly having varying size electrode fingers
US9667742B2 (en) 2012-07-12 2017-05-30 Robert Bosch Gmbh System and method of conversational assistance in an interactive information system
US8922340B2 (en) 2012-09-11 2014-12-30 Ford Global Technologies, Llc Proximity switch based door latch release
WO2014070872A2 (en) * 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
US8796575B2 (en) 2012-10-31 2014-08-05 Ford Global Technologies, Llc Proximity switch assembly having ground layer
US20140196137A1 (en) * 2013-01-07 2014-07-10 Curtis John Schwebke Unified communications with a cloud client device
US9190058B2 (en) * 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
IN2013DE00428A (zh) * 2013-02-14 2015-06-19 Alcatel Lucent
US9311204B2 (en) 2013-03-13 2016-04-12 Ford Global Technologies, Llc Proximity interface development system having replicator and method
US9395764B2 (en) * 2013-04-25 2016-07-19 Filippo Costanzo Gestural motion and speech interface control method for 3d audio-video-data navigation on handheld devices
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9495959B2 (en) 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
US8825585B1 (en) * 2014-03-11 2014-09-02 Fmr Llc Interpretation of natural communication
EP2958010A1 (en) 2014-06-20 2015-12-23 Thomson Licensing Apparatus and method for controlling the apparatus by a user
US10038443B2 (en) 2014-10-20 2018-07-31 Ford Global Technologies, Llc Directional proximity switch assembly
US10276158B2 (en) 2014-10-31 2019-04-30 At&T Intellectual Property I, L.P. System and method for initiating multi-modal speech recognition using a long-touch gesture
US10613637B2 (en) 2015-01-28 2020-04-07 Medtronic, Inc. Systems and methods for mitigating gesture input error
US11347316B2 (en) 2015-01-28 2022-05-31 Medtronic, Inc. Systems and methods for mitigating gesture input error
US9654103B2 (en) 2015-03-18 2017-05-16 Ford Global Technologies, Llc Proximity switch assembly having haptic feedback and method
US9548733B2 (en) 2015-05-20 2017-01-17 Ford Global Technologies, Llc Proximity sensor assembly having interleaved electrode configuration
DE102015222152A1 (de) * 2015-11-11 2017-05-11 Robert Bosch Gmbh Elektrohandwerkzeugmaschine
CN106445442B (zh) * 2016-09-29 2019-10-08 福州新锐同创电子科技有限公司 一种三屏同步显示方法
CN106293483B (zh) * 2016-09-29 2019-10-08 福州新锐同创电子科技有限公司 电子显示屏板书区域调度显示方法
US10963273B2 (en) 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US11676220B2 (en) * 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US10872604B2 (en) 2018-05-17 2020-12-22 Qualcomm Incorporated User experience evaluation
US11455982B2 (en) * 2019-01-07 2022-09-27 Cerence Operating Company Contextual utterance resolution in multimodal systems
US11348581B2 (en) 2019-07-12 2022-05-31 Qualcomm Incorporated Multi-modal user interface
US11258750B2 (en) 2019-12-19 2022-02-22 Honeywell International Inc. Systems and methods for unified data and voice messages management

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
US7533014B2 (en) * 2000-12-27 2009-05-12 Intel Corporation Method and system for concurrent use of two or more closely coupled communication recognition modalities
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US7069215B1 (en) * 2001-07-12 2006-06-27 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US20030055644A1 (en) * 2001-08-17 2003-03-20 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
US20030093419A1 (en) * 2001-08-17 2003-05-15 Srinivas Bangalore System and method for querying information using a flexible multi-modal interface
EP1394692A1 (en) * 2002-08-05 2004-03-03 Alcatel Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
US7152033B2 (en) * 2002-11-12 2006-12-19 Motorola, Inc. Method, system and module for multi-modal data fusion
US7890324B2 (en) * 2002-12-19 2011-02-15 At&T Intellectual Property Ii, L.P. Context-sensitive interface widgets for multi-modal dialog systems
US20050197843A1 (en) * 2004-03-07 2005-09-08 International Business Machines Corporation Multimodal aggregating unit
US7430324B2 (en) 2004-05-25 2008-09-30 Motorola, Inc. Method and apparatus for classifying and ranking interpretations for multimodal input fusion
JP4416643B2 (ja) * 2004-06-29 2010-02-17 キヤノン株式会社 マルチモーダル入力方法
US7574356B2 (en) * 2004-07-19 2009-08-11 At&T Intellectual Property Ii, L.P. System and method for spelling recognition using speech and non-speech input
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US7742641B2 (en) * 2004-12-06 2010-06-22 Honda Motor Co., Ltd. Confidence weighted classifier combination for multi-modal identification
US20060143576A1 (en) * 2004-12-23 2006-06-29 Gupta Anurag K Method and system for resolving cross-modal references in user inputs
US20060143216A1 (en) * 2004-12-23 2006-06-29 Gupta Anurag K Method and system for integrating multimodal interpretations
US20060149550A1 (en) * 2004-12-30 2006-07-06 Henri Salminen Multimodal interaction
WO2006128248A1 (en) * 2005-06-02 2006-12-07 National Ict Australia Limited Multimodal computer navigation
JP4708913B2 (ja) 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7848917B2 (en) * 2006-03-30 2010-12-07 Microsoft Corporation Common word graph based multimodal input
JP4762070B2 (ja) * 2006-07-19 2011-08-31 富士通株式会社 手書き入力装置、手書き入力方法、及びコンピュータプログラム
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8660841B2 (en) * 2007-04-06 2014-02-25 Technion Research & Development Foundation Limited Method and apparatus for the use of cross modal association to isolate individual media sources
JP2010531478A (ja) * 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー 感情に訴える助言システム及び方法
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103376936A (zh) * 2012-04-26 2013-10-30 宏碁股份有限公司 触控检测方法与触控检测装置
CN103376936B (zh) * 2012-04-26 2016-04-20 宏碁股份有限公司 触控检测方法与触控检测装置
CN104471639A (zh) * 2012-07-20 2015-03-25 微软公司 语音和手势识别增强
CN104823147B (zh) * 2012-10-12 2019-04-30 微软技术许可有限责任公司 作为与应用的交互的多模式用户表达和用户力度
US10139937B2 (en) 2012-10-12 2018-11-27 Microsoft Technology Licensing, Llc Multi-modal user expressions and user intensity as interactions with an application
CN104823147A (zh) * 2012-10-12 2015-08-05 微软技术许可有限责任公司 作为与应用的交互的多模式用户表达和用户力度
US9691382B2 (en) 2013-03-01 2017-06-27 Mediatek Inc. Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data
CN104021788A (zh) * 2013-03-01 2014-09-03 联发科技股份有限公司 声控装置和声控方法
CN104021788B (zh) * 2013-03-01 2017-08-01 联发科技股份有限公司 声控装置和声控方法
CN105074817B (zh) * 2013-03-15 2018-11-27 高通股份有限公司 用于使用手势来切换处理模式的系统和方法
CN105074817A (zh) * 2013-03-15 2015-11-18 高通股份有限公司 用于使用手势来切换处理模式的系统和方法
CN104112448B (zh) * 2013-04-19 2017-07-14 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
CN104112448A (zh) * 2013-04-19 2014-10-22 通用汽车环球科技运作有限责任公司 用于管理语音系统的对话的方法和系统
CN104299623B (zh) * 2013-07-15 2017-09-29 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
CN104299623A (zh) * 2013-07-15 2015-01-21 国际商业机器公司 语音应用中用于自动确认和消歧模块的方法和系统
CN104700832A (zh) * 2013-12-09 2015-06-10 联发科技股份有限公司 语音关键字检测系统及方法
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
CN103713876A (zh) * 2014-01-16 2014-04-09 联想(北京)有限公司 数据处理方法及电子设备
CN103713876B (zh) * 2014-01-16 2016-10-05 联想(北京)有限公司 数据处理方法及电子设备
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
US10522145B2 (en) 2016-03-01 2019-12-31 Sony Corporation Information processing apparatus and information processing method
CN106569613A (zh) * 2016-11-14 2017-04-19 中国电子科技集团公司第二十八研究所 一种多模态人机交互系统及其控制方法
CN107153685A (zh) * 2017-04-25 2017-09-12 竹间智能科技(上海)有限公司 人机对话系统中基于时间线记忆的认知方法及装置
CN107153685B (zh) * 2017-04-25 2020-06-19 竹间智能科技(上海)有限公司 人机对话系统中基于时间线记忆的认知方法及装置
CN110018746A (zh) * 2018-01-10 2019-07-16 微软技术许可有限责任公司 通过多种输入模式来处理文档
CN110018746B (zh) * 2018-01-10 2023-09-01 微软技术许可有限责任公司 通过多种输入模式来处理文档
CN109298784A (zh) * 2018-09-05 2019-02-01 北京机械设备研究所 一种人机交互误操作管理系统和方法
CN109298784B (zh) * 2018-09-05 2021-06-01 北京机械设备研究所 一种人机交互误操作管理系统和方法
CN109933272A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态深度融合机载座舱人机交互方法
CN112506125A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种多模态控制方法、装置和系统

Also Published As

Publication number Publication date
US9123341B2 (en) 2015-09-01
WO2010107526A1 (en) 2010-09-23
US20100241431A1 (en) 2010-09-23
EP2409218A1 (en) 2012-01-25
CN102428440B (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN102428440B (zh) 用于多模式输入的同步和消歧的系统和方法
CN111418007B (zh) 多轮预制对话
CN110288994B (zh) 检测数字助理的触发
CN108733438B (zh) 应用程序与数字助理集成
CN108093126B (zh) 用于拒绝来电的方法、电子设备及存储介质
CN110046238B (zh) 对话交互方法、图形用户界面、终端设备以及网络设备
US20190095050A1 (en) Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
EP3005668B1 (en) Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts
CN116414282A (zh) 多模态界面
CN113190300A (zh) 分布式个人助理
CN107949823A (zh) 零延迟数字助理
CN108337380A (zh) 自动调整用户界面以用于免提交互
CN102439661A (zh) 用于车辆内自动交互的面向服务语音识别
CN115206304A (zh) 低延迟智能自动化助理
DK179558B1 (en) DETECTING A TRIGGER OF A DIGITAL ASSISTANT
EP3593350A1 (en) User interface for correcting recognition errors
CN102945120A (zh) 一种基于儿童应用中的人机交互辅助系统及交互方法
EP3625793A1 (en) Hierarchical belief states for digital assistants
EP4377773A2 (en) Gaze based dictation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant