CN102428440A - 用于多模式输入的同步和消歧的系统和方法 - Google Patents
用于多模式输入的同步和消歧的系统和方法 Download PDFInfo
- Publication number
- CN102428440A CN102428440A CN2010800215249A CN201080021524A CN102428440A CN 102428440 A CN102428440 A CN 102428440A CN 2010800215249 A CN2010800215249 A CN 2010800215249A CN 201080021524 A CN201080021524 A CN 201080021524A CN 102428440 A CN102428440 A CN 102428440A
- Authority
- CN
- China
- Prior art keywords
- input
- user
- hypothesis
- gesture
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000001360 synchronised effect Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 230000008676 import Effects 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007474 system interaction Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 229920000547 conjugated polymer Polymers 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了利用多模式输入接口以用于识别人机交互(HMI)系统中的用户输入的对话系统的实施例。实施例包括从多种不同的用户输入机制(多模式输入)接收用户输入并且执行特定的同步和消歧处理的部件。多模式输入部件将从不同模式获取的信息同步和整合,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这种系统有效地解决与用户输入相关的任何歧义并且校正人机交互中的错误。
Description
技术领域
本发明的实施例总体上涉及对话系统,并且更具体地说涉及对提供到对话系统的用户输入的同步和消歧。
背景技术
对于人类来说,口语是最自然和最方便的沟通工具。语音识别技术上的进步已经允许各种不同机器和计算机系统的口语接口的增加的使用。各种系统和服务的接口通过语音命令给人们提供了便利和效率,但是只有当口语接口是可靠的才行。这一点对于眼睛忙碌和手忙碌情况下的应用来说尤为重要,例如开车或执行复杂的计算任务。使用口头命令和语音识别的人机接口一般是基于对话系统的。对话系统是被设计为在输入和输出通道上使用一致的结构和文本、语音、图形或其他沟通模式来与人交谈的计算机系统。利用语音的通话系统被称为口头对话系统,并且一般代表最自然的人机接口类型。随着对电子设备依赖的不断增大,口头对话系统被越来越多地实施在许多不同的系统中。
在许多人机交互(HMI)系统中,用户可以通过多种输入设备或多种类型的设备与系统交互,例如通过语音输入、手势控制和传统的键盘/鼠标/笔输入。这在数据输入方面为用户提供了灵活性,并且允许用户根据其自己的偏好更高效地向系统提供信息。
现有的HMI系统通常限制特定类型数据的特定输入模式,或者允许用户一次仅使用多种模式中的一种。例如,车辆导航系统可以包括触摸屏和用于口头命令的语音识别系统。然而,触摸屏通常仅限于允许用户通过接触来选择确定的菜单项,而不是通过语音命令。这样的多模式系统既不通过不同的输入模式来协同用户命令,也不利用一种模式的输入数据来通知和/或修改另一种模式的数据。因此,现有的多模式系统没有充分地提供无缝的用户接口系统,在所述用户接口系统中,来自所有可能输入模式的数据可以被用来向系统提供准确的信息。
因此,所期望的是用于人机交互系统的多模式信息用户输入接口,其能够同步和整合从不同模式获取的信息,在多模式输入信息的帮助下消除歧义和从错误中恢复。这样的系统会极大地提高用户满意度、系统性能和系统鲁棒性。
还期望的是能够同步和整合以任意顺序从不同模式获取的多模式信息的HMI用户输入系统。
附图说明
在附图中以示例而非限制的方式说明了本发明的实施例,在附图中,相同的附图标记指示相同的元件并且在附图中:
图1说明了根据实施例的实施了多模式同步和消歧系统的多模式人机系统。
图2是根据实施例的多模式用户交互系统的框图,该多模式用户交互系统接受用户的手势和语音作为输入,并且包括了多模式同步和消歧系统。
图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。
图4是根据实施例的实施多模式交互系统的口头对话管理器系统的框图。
图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。
具体实施方式
描述了包括用于人机交互(HMI)系统的多模式同步和消歧系统的对话系统的实施例。实施例包括从多种不同的用户输入机制接收用户输入的部件。该多模式同步和消歧系统同步和整合从不同模式获取的信息,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这样的系统有效地解决了与用户输入相关的任何歧义并且校正人机交互中的错误。
在下面的描述中,介绍了许多具体的细节,以提供对多模式同步和消歧系统和方法的实施例的透彻理解和使其能够实现的描述。然而,相关领域的技术人员将会认识到可以在没有这些具体细节中的一个或多个的情况下实施这些实施例,或者可以用其他部件、系统等来实施这些实施例。在其他实例中,没示出公知的结构或操作,或者没有详细地描述,以避免混淆所公开的实施例的方面。
图1说明了根据实施例的实施多模式同步和消歧系统的多模式人机系统。在系统100中,用户102与机器或系统110交互,其可能是计算系统、机器或者任何自动的电机系统。用户能通过许多不同的模式来向系统110提供输入,一般是通过一种或更多输入模块的语音或触摸控制。例如,这些输入方式包括键盘或鼠标输入106、触摸屏或触摸板输入108、以及/或者通过麦克风104的语音输入103。其他用户输入模块也是可能的,例如脚踏操纵、小键盘、操纵杆/伺服控制、游戏键盘输入、红外线或激光指示器、基于相机的手势输入、电磁传感器等等。不同的用户输入可以控制机器操作的不同方面。在某些的示例中,特定的输入模块可以控制特定的操作类型。例如,语音命令可以被配置为与系统管理任务连接,而键盘输入可以被用来执行操作任务。在一个实施例中,来自不同输入模式的用户输入用来控制机器110的至少某些重叠的功能。对于这种实施例,使用多模式输入同步模块112来同步和整合从不同输入模式104-108获取的信息,对输入进行消歧,并使用来自任何模式的输入来校正、修改或者通知来自任何其他模式的输入。
如图1所示,在许多人机交互(HMI)系统中,用户能通过诸如触摸屏、鼠标、键盘、麦克风等的多个输入设备来与系统交互。多模式输入机制为用户通过其偏爱的方法将信息更高效地输入系统提供了灵活性。例如,当使用导航系统时,用户可能想要找到某地区的一个饭店。他或者她可能更喜欢通过触摸屏界面直接在所显示的地图上指定区域,而不是通过读音或声音命令来描述它。在另一个例子中,当用户向他的通讯簿中增加联系人姓名时,直接说出姓名可能比通过键盘或电话键盘打字更高效并且更便利。
用户也可以使用多种模式来完成他们的任务。即机器或机器操作的方面可能接受两种和更多用户输入模式。在一些情况下,用户可能使用所有可能的输入模式来执行任务。多模式同步部件112允许对从不同模式获取的信息进行同步和整合。不同的输入可以用来对响应进行消歧并且为任何有问题的输入提供错误恢复。用这种方式,用户可以使用最期望的输入方法,并且不用总是被迫学习不同的输入规范,例如有独特意义的新手势或命令。
不像传统的多模式HMI系统仅允许用户一次使用多个模式中的一种,多模式同步部件允许用户同时通过多种模式来输入信息。例如,用户可以在触摸屏上画一些东西的同时对系统讲话。因此,在导航系统中,用户可以在触摸屏上显示的地图上画一个圆形的区域,同时说“在这个区域内找到一个饭店”。在这种情况下,用户通过触摸屏输入来指定“这个区域”的意思。用户的多模式输入的含义的确定将依赖于在不同模式中传递的信息、当时模式的置信度以及从不同模式接收到的信息的时间。
图2是接受用户的手势和语音作为输入的多模式用户交互系统的框图。在多模式用户交互系统200中,用户可以通过打字、触摸屏幕、说话或者其他类似的方式来输入信息。诸如触摸屏输入201等的物理手势输入被发送到手势识别模块211。手势识别模块将处理用户的输入并且将其分类为不同类型的手势,例如拖动动作,或者画点、直线、曲线、区域等等。用户的语音输入202将被发送到语音识别模块222。从对应的手势识别模块和语音识别模块识别的手势和语音将被发送到对话系统221。对话系统基于对话的上下文和输入事件的时间顺序,对从每种模式获取的信息进行同步和消歧。对话系统与应用或者设备223交互,以完成用户通过多模式输入指定的任务。然后通过语音响应203将交互的输出和已执行任务的结果传递给用户,以及/或者通过在图形用户界面(GUI)210的呈现模块212上进行显示。图2的系统200可以被用来执行上面例子中提供的输入任务,即用户基于语音输入和触摸屏输入的结合来指定要找的饭店。
多模式用户交互系统的主要功能是区分和同步可能指向同一个应用的用户输入。不同的输入模式可能指向不同的任务,即使他们被同时输入。类似地,由用户在不同时间通过不同模式提供的输入实际上可能指向同一个任务。一般来说,应用和系统仅识别通过适当模式并且在适当时间段内提供的用户输入。
图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。如图3所示,水平轴302代表沿着时间轴对系统的输入事件。说明了表示为“事件1”和“事件2”的两个示例事件。输入事件代表对于特定的应用或者任务有效的用户输入时间段。如所示出的,三个不同的输入模式被表示为模式1、2和3,并且可以代表绘图输入、口头输入、键盘输入等等。不同的输入模式具有在不同的时间段内和变化的持续时间中有效的用户输入。对于事件1,用户已经通过模式1、2和3提供了输入,但是模式2是相对来说短和较晚的输入。同样对于事件2,模式1和3看起来具有有效的输入,但是模式2可能较早或者不存在。多模式交互系统可以使用由任何模式提供的信息来确定特定输入是否有效,以及帮助辨明输入的正确含义。
当接收到的信息不足以确定含义时,系统也可以要求更多来自各种模式的输入。可以使用为不同应用和任务开发的预定规则或者统计模型来指导多模式信息的同步和整合。
上面提供的例子说明了从单一渠道(例如,语音命令)获取的信息经常包含歧义的事实。由于对用户表达的无意识的多种解释导致可能会产生这种歧义。例如,词组“这个区域”本身就是含糊不清的,除非用户提供被系统识别的名字。在另一个例子中,在触摸屏上的手势可能有不同的含义。例如,在示出地图的触摸屏上沿着直线移动手指可以表示在地图上画直线或者以特定的方向拖动地图。多模式同步模块使用来自所有被利用的模式的信息,以提供对用户输入最可能的解释。当在从特定渠道获取的信息中发现歧义时,在不同的系统状态下可以使用不同的方式。系统可以使用之前的上下文来帮助消歧,或者它可以要求用户通过同一个或者不同的模式来澄清。继续前面的例子,假设语音和触摸屏是所述的两个输入模式,并且用户在触摸屏上所显示的地图上移动他或她的手指。该手势至少有两种可能的解释:在地图上画直线,或者向另一个方向拖动地图。在这种情况下,如果用户说“我想要在这条街道上找到一些饭店”,系统就会知道用户画直线是用来指定街道的。如果用户在那时什么也没说,则可能是用户仅仅是想要拖动地图。
从一种模式获取的信息可能还包含错误。这些错误可能来自设备、系统甚至用户。此外,来自一种模式的错误可能还引起与来自其他模式的信息的不一致。多模式同步和消歧部件可以解决这种不一致、选择正确的解释并且基于上下文和置信度从这种错误中恢复。在一个实施例中,通过包括诸如输入设备的性能说明、特定模式的重要性、用来从输入数据中获取信息的算法的性能等的因素来计算置信度分数等。当在不同模式之间有不一致时,使用多个假设和对应的来自每种模式的置信度分数来决定哪些假设是传递给下一级处理的可能假设。通过对来自对于该假设的不同可用模式的置信度分数进行加权线性组合或者通过其他组合函数,来计算每个假设的合计置信度分数。
图4是根据实施例的实施多模式交互系统的口语对话系统的框图。为了本描述的目的,在处理设备上执行的任何处理还可以被称为模块或者部件,并且可以是在各自设备计算机上本地执行的独立程序,或者它们可以是在一个或更多设备上运行的分布式客户应用程序的部分。系统400的核心部件包括带有针对不完整输入的多个理解策略的口语理解(SLU)模块和语音识别(SR)模块402,处理多个对话线程的信息状态更新或者其他类型的对话管理器(DM)406,控制对基于本体领域知识的访问的知识管理器(KM)410,以及数据存储418。在一个实施例中,包括口语单词和词组的用户输入401产生由语音识别单元402接收的音波。语音识别单元402可以包括提供诸如动态语法或基于级别的n元语法的功能的部件。由语音识别单元识别的话语输出将被口语理解单元处理,以得到用户基于语音输入的语义。在用户输入401是基于文本而不是基于语音的情况下,语音识别被绕过,并且口语理解单元将接收用户基于文本的输入,然后生成用户基于文本的输入的语义。用户输入401还可以包括手势或者其他物理沟通方式。在这种情况下,手势识别部件404将识别的手势转换成机器可识别的输入信号。手势输入和识别系统可以是基于相机的手势输入、基于激光传感器、红外线或者任何其他机械或电磁传感器的系统。用户输入也可以由计算机或其他基于处理器的系统408提供。通过计算机408的输入可以通过任何方法,例如键盘/鼠标输入、触摸屏、笔/指示笔输入,或者任何其他可用的输入方法。
对于系统400的实施例,来自任何可用方法(语音、手势、计算机等)的用户输入被提供给多模式接口模块414,该模块与对话管理器404功能上耦合。多模式接口包括一个或者更多执行输入同步和输入消歧任务的功能模块。如图3所示,输入同步功能确定哪个输入或哪些输入对应于针对特定事件的响应。输入消歧功能解决在一个或者更多输入中出现的任何歧义。
然后由对话管理器部件404处理正确的输入。响应发生器和文本-语音(TTS)单元416提供系统400的输出并且能基于用户输入产生音频、文本和/或视觉输出。通过以来自文本-语音单元的语音形式提供的音频输出,通过扬声器420播放。文本和视觉/图形输出可以通过显示设备422被显示,该显示设备可以执行图形用户接口处理,例如图2中所示的GUI210。图形用户输入还可以访问或执行便利特定信息的显示的某些显示程序,例如用于显示名胜的地图等。
由响应发生器416提供的输出可以是查询的答案、对澄清或更多信息的要求、用户输入的重复或者任何其他适当的响应(例如,以音频输出的形式)。输出也可以是在地图屏幕上的直线、区域或者其他类型的标记(例如,以图形输出的形式)。在一个实施例中,响应发生器在产生响应时利用域信息。因此,对用户说同样事情的不同措辞将会经常产生非常不同的结果。图4中说明的系统400包括巨大的数据存储418,其存储被系统400的一个或者更多模块使用的某些数据。
系统400还包括应用管理器412,其从一个或者更多应用或设备向对话管理器404提供输入。应用管理器到对话管理器的连接可以是直接的,如图所示,或者可以通过多模式接口414处理一个或多个应用/设备输入以用于与用户输入401和403一起同步和消歧。
多模式接口414可以包括系统400的部件中的一个或更多的分布式处理。例如,在对话管理器404中可以提供同步功能,并且在SR/SLU单元402和手势识别模块404以及甚至在应用管理器412中提供消歧处理。同步功能基于输入事件的时间顺序以及来自诸如语音识别器、手势识别器等识别器的内容来同步输入。例如,识别的语音“在这个区域内找到一家中餐厅”将会提示系统等待来自手势识别部件的输入或者在延长的进行时段搜索输入。如果手势被识别,则对于语音识别器,可以预期到相似的处理。在两种情况下,需要语音和手势缓冲器来存储语音和手势事件延长的时间段。消歧功能基于对话上下文对从每种模式获取的信息进行消歧。
图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。当从一个或者更多模式接收到输入时(框502),同步功能基于可能与输入对应的事件的时间通信来同步输入(框504)。对于每个输入,对话管理器导出关于输入含义的可能性的原始假设集(框506)。假设(H)中的不确定性代表输入中歧义的量。某些假设正确的可能性可以由加权值(W)来表达。因此,每个输入可以具有与其相关联的假设和加权值(H,W)。对于多种输入模式,产生假设矩阵,例如对于三种输入模式(例如,语音/手势/键盘)来说的(H1W1;H2W2;H3W3)。
在某些情况下,来自不同输入类型或者模式的输入可以帮助澄清来自另一种模式的输入。例如,对地图的随意手势可能没有清楚地表明用户指向的位置,但是如果他或者她还说了“Palo Alto,”则该口头输入能够帮助纠正手势输入中的歧义,并且反之亦然。该步骤由可以与输入识别单元相关的消歧处理来执行。如图5所示,在框508中,口语单元从对话管理器对另一种模式输入的解释中接收到约束集合,并且将这些约束提供给消歧处理。然后约束与对话管理器中的原始假设相结合(框510)。然后对话管理器根据基于其他输入的约束导出新假设(框512)。通过这种方式,来自一种或者更多其他模式的输入被用来帮助确定来自特定输入模式的输入的含义。
因此多模式接口系统提供了一种系统和方法,该系统和方法用来同步和整合从多个输入设备获取的多模式信息,并且基于多模式信息对输入进行消歧。该系统和方法使得对话系统能够基于多模式信息检测错误并且从错误中恢复。本系统通过允许用户同时通过多种模式输入信息而为用户提供了更大的灵活性和便利性。消歧和错误恢复机制能够提高HMI系统的性能和鲁棒性。多模式接口系统的实施例可以被用在任何类型的人机交互(HMI)系统中,例如用来操作车载设备和服务的对话系统;呼叫中心、智能电话或者其他移动设备。这样的系统可以是包括用于来自一个或多个用户的口头输入的一个或多个读音识别器部件的基于语音的系统,或者他们可以是手势输入、机器输入、或者软件应用输入模块,或者其任意组合。
本文所描述的实施例包括对话系统中的计算机实施方法,所述方法包括:从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于所述多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户者提供,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入以及笔或者指示笔输入。
实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
实施例的对话系统包括包含口语理解单元的语音识别级(stage)。
实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。
本文所描述的实施例包括对话系统,所述对话系统包括:输入级,用来从多种输入模式接收输入;同步模块,用来基于与输入相关的事件的时间顺序同步输入;对话管理器,用来针对事件的输入产生原始假设;消歧模块,用来基于多个输入中的一个或更多其他输入接收该输入的约束,其中对话管理器将约束和原始假设结合起来并且导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户提供,并且其中,提供给输入级的多个输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。
实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
实施例的对话系统包括包含口语理解单元的语音识别级。
实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。
实施例的消歧模块包括手势识别单元和在每个语音识别级提供的消歧部件。
实施例的对话系统包括响应发生器,其基于用户输入产生系统输出。实施例的对话系统包括文本-语音单元,其将系统输出的至少一部分转换为口语输出。实施例的对话系统包括与文本-语音单元耦合的音频输出设备,其为用户播放口语输出。实施例的对话系统包括图形输出,其通过图形用户接口处理显示来自响应发生器的图形输出。
本文所描述的实施例包括计算机可读介质,其包含多个程序指令,该指令在由处理器执行时使得处理器执行:从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。
实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。
实施例的输入至少部分由人类用户者提供,并且其中,多个输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。
实施例的输入至少部分地由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。
实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。
本文所描述的多模式同步和消歧处理的方面可以被实施为被编程到任何各种电路中的功能,所述各种电路包括诸如现场可编程门阵列(“FPGAs”)、可编程阵列逻辑(“PAL”)设备等的可编程逻辑设备(“PLDs”),电可编程逻辑和存储器设备以及基于标准单元的设备(standardcell-based device),以及专用集成电路。实施方面的一些其他可能性包括:具有存储器的微控制器(例如EEPROM),嵌入式微处理器,固件,软件等等。另外,服务于方法的内容的方面可以体现在具有基于软件的电路仿真的微处理器、离散逻辑(顺序的和组合的),定制设备,模糊(神经)逻辑,量子设备,以及任何上面设备类型的混合。在各种部件类型中可以提供基础的设备技术,例如,像互补金属氧化物半导体(CMOS)的金属氧化物半导体场效应晶体管(“MOSFET”)技术,像射极耦合逻辑(“ECL”)的双极技术,聚合物技术(例如,硅共轭聚合体和金属共轭聚合物-金属结构),模拟和数字混合等等。
还应该注意,按照本文公开的各种功能的行为、寄存器传送、逻辑部件和/或其他特征,可以使用任意数量的硬件、固件、和/或体现在各种机器可读的或者计算机可读的介质中的数据和/或指令的组合来描述这些功能。可以体现这些格式化的数据和/或指令的计算机可读介质包括,但不局限于,各种形式的非易失性存储介质(例如,光、磁或者半导体存储介质)和可以被用于通过无线、光学或者有线信号介质及其任意组合来传输这些格式化的数据和/或指令的载波。通过载波传输这些格式化的数据和/或指令的例子包括,但不局限于,经由一种或者更多数据传输协议(例如,HTTP、FTP、SMTP等等)通过互联网和/或其他计算机网络进行传输(上传、下载、电子邮件等)。
除非上下文明确地要求,否则在说明书和权利要求中,“包括(comprise)”、“包括(comprising)”等单词旨在以包含的方式而不是以排他或穷举的方式被解释;也就是说,以“包括但不局限于”的方式。使用单数或复数的单词也分别包括复数或单数。另外,单词“本文中”、“之后”、“上述”、“下面”以及类似意义的单词指的是作为整体的本申请而不是本申请的任何特定的部分。当使用单词“或者”提到两个或更多条目列表时,该单词覆盖对该单词的以下所有解释:列表中的任何项、列表中的所有项以及列表中项的任意组合。
所说明的多模式输入接口的实施例的以上描述并不意图是穷举的或者将这些实施例限制为所公开的精确形式或指示。尽管为了说明的目的,本文描述了计算设备中处理的具体实施例和例子,但是在本领域技术人员将意识到,在所公开的方法和结构范围内,各种等价修改是有可能的。上面描述的各种实施例的元件和动作可以被结合以提供更多的实施例。可以按照上面详细的描述对多模式输入接口处理做出这些和其他的修改。
总的来说,在所附的权利要求中,所使用的术语不应当被解释为将所公开的方法限制到在说明书和权利要求中所公开的特定实施例,而应当被解释为包括根据权利要求操作的所有操作或者处理。因此,所公开的结构和方法不受本公开所限制,而是完全由权利要求来确定所详述的方法的范围。
尽管在下面以特定的权利要求的形式提出所公开的系统和方法的某些方面,但是发明人设想任意数量的权利要求形式中的方法的各个方面。例如,虽然只有一个方面可能被陈述为体现在机器可读介质中时,但是其他方面也可以同样体现在机器可读介质中。因此,发明人保留在提交本申请之后增加附加权利要求的权利以为其他方面追求这种附加权利要求的形式。
Claims (20)
1.一种对话系统中的计算机实施方法,包括:
从多种输入模式接收输入;
基于与所述输入相关的事件的时间顺序同步所述输入;
针对事件的输入产生原始假设;
基于所述多个输入中的一个或者更多其他输入接收所述输入的约束;
将所述约束与所述原始假设结合;以及
导出新假设以解释所述输入。
2.根据权利要求1所述的方法,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
3.根据权利要求1所述的方法,其中,所述输入至少部分由人类用户提供,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
4.根据权利要求3所述的方法,其中,所述输入至少部分由应用程序或者设备提供,并且其中所述多种输入模式还包括程序输入和设备输入。
5.根据权利要求1所述的方法,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
6.根据权利要求5所述的方法,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
7.根据权利要求6所述的方法,其中,所述对话系统还包括手势识别单元,所述手势识别单元解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
8.一种对话系统,包括:
输入级,其从多种输入模式接收输入;
同步模块,其基于与所述输入相关的事件的时间顺序来同步所述输入;
对话管理器,其针对事件的输入产生原始假设;
消歧模块,其基于所述多个输入中的一个或者更多其他输入接收所述输入的约束,其中所述对话管理器将所述约束与所述原始假设结合并且导出新假设以解释所述输入。
9.根据权利要求8所述的系统,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
10.根据权利要求1所述的系统,其中,所述输入至少部分由人类用户提供,并且其中提供到所述输入级的所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
11.根据权利要求10所述的系统,其中,所述输入至少部分由应用程序或者设备提供,并且其中所述多种输入模式还包括程序输入和设备输入。
12.根据权利要求8所述的系统,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
13.根据权利要求12所述的系统,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
14.根据权利要求13所述的系统,其中,所述对话系统还包括手势识别单元,所述手势识别单元用于解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
15.根据权利要求14所述的系统,其中,所述消歧模块包括在所述手势识别单元和所述语音识别级中的每一个中提供的消歧部件
16.根据权利要求15所述的系统,还包括:
响应发生器,其基于所述用户输入产生系统输出;
文本-语音单元,其将至少一部分所述系统输出转换为口语输出;
耦合到文本-语音单元的音频输出设备,其为所述用户播放所述口语输出;以及
图形输出,其通过图形用户接口处理显示来自所述响应发生器的图形输出。
17.一种计算机可读介质,包含多个程序指令,当所述程序指令被处理器执行时,使得所述处理器执行以下步骤:
从多种输入模式接收输入;
基于与所述输入相关的事件的时间顺序同步所述输入;
针对事件的输入产生原始假设;
基于所述多个输入中的一个或者更多其他输入接收所述输入的约束;
将所述约束和所述原始假设结合;以及
导出新假设以解释所述输入。
18.根据权利要求17所述的介质,其中,所述假设包括假设值(H)和加权值(W),其中W表示所述输入的正确解释的可能性。
19.根据权利要求18所述的介质,其中,所述输入至少部分地由以下提供:
人类用户,并且其中所述多种输入模式选自由以下各项组成的组:口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入;以及
应用程序或者设备,并且其中所述多种输入模式还包括程序输入和设备输入。
20.根据权利要求19所述的介质,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/406,661 | 2009-03-18 | ||
US12/406,661 US9123341B2 (en) | 2009-03-18 | 2009-03-18 | System and method for multi-modal input synchronization and disambiguation |
PCT/US2010/023410 WO2010107526A1 (en) | 2009-03-18 | 2010-02-05 | System and method for multi-modal input synchronization and disambiguation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102428440A true CN102428440A (zh) | 2012-04-25 |
CN102428440B CN102428440B (zh) | 2016-08-03 |
Family
ID=42163731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080021524.9A Active CN102428440B (zh) | 2009-03-18 | 2010-02-05 | 用于多模式输入的同步和消歧的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9123341B2 (zh) |
EP (1) | EP2409218A1 (zh) |
CN (1) | CN102428440B (zh) |
WO (1) | WO2010107526A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103376936A (zh) * | 2012-04-26 | 2013-10-30 | 宏碁股份有限公司 | 触控检测方法与触控检测装置 |
CN103713876A (zh) * | 2014-01-16 | 2014-04-09 | 联想(北京)有限公司 | 数据处理方法及电子设备 |
CN104021788A (zh) * | 2013-03-01 | 2014-09-03 | 联发科技股份有限公司 | 声控装置和声控方法 |
CN104112448A (zh) * | 2013-04-19 | 2014-10-22 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
CN104471639A (zh) * | 2012-07-20 | 2015-03-25 | 微软公司 | 语音和手势识别增强 |
CN104700832A (zh) * | 2013-12-09 | 2015-06-10 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
CN104823147A (zh) * | 2012-10-12 | 2015-08-05 | 微软技术许可有限责任公司 | 作为与应用的交互的多模式用户表达和用户力度 |
CN104965592A (zh) * | 2015-07-08 | 2015-10-07 | 苏州思必驰信息科技有限公司 | 基于语音和手势识别的多模态非触摸人机交互方法及系统 |
CN105074817A (zh) * | 2013-03-15 | 2015-11-18 | 高通股份有限公司 | 用于使用手势来切换处理模式的系统和方法 |
CN106569613A (zh) * | 2016-11-14 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种多模态人机交互系统及其控制方法 |
CN107153685A (zh) * | 2017-04-25 | 2017-09-12 | 竹间智能科技(上海)有限公司 | 人机对话系统中基于时间线记忆的认知方法及装置 |
CN109298784A (zh) * | 2018-09-05 | 2019-02-01 | 北京机械设备研究所 | 一种人机交互误操作管理系统和方法 |
CN109933272A (zh) * | 2019-01-31 | 2019-06-25 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态深度融合机载座舱人机交互方法 |
CN110018746A (zh) * | 2018-01-10 | 2019-07-16 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
US10522145B2 (en) | 2016-03-01 | 2019-12-31 | Sony Corporation | Information processing apparatus and information processing method |
CN112506125A (zh) * | 2020-11-19 | 2021-03-16 | 北京蓦然认知科技有限公司 | 一种多模态控制方法、装置和系统 |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100078040A (ko) * | 2008-12-30 | 2010-07-08 | 삼성전자주식회사 | 멀티모달 시스템 및 그 입력처리방법 |
US20100281435A1 (en) * | 2009-04-30 | 2010-11-04 | At&T Intellectual Property I, L.P. | System and method for multimodal interaction using robust gesture processing |
KR101622111B1 (ko) | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US9348417B2 (en) * | 2010-11-01 | 2016-05-24 | Microsoft Technology Licensing, Llc | Multimodal input system |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US8975903B2 (en) | 2011-06-09 | 2015-03-10 | Ford Global Technologies, Llc | Proximity switch having learned sensitivity and method therefor |
US8928336B2 (en) | 2011-06-09 | 2015-01-06 | Ford Global Technologies, Llc | Proximity switch having sensitivity control and method therefor |
ES2958183T3 (es) | 2011-08-05 | 2024-02-05 | Samsung Electronics Co Ltd | Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo |
WO2013022218A2 (en) * | 2011-08-05 | 2013-02-14 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for providing user interface thereof |
US10004286B2 (en) | 2011-08-08 | 2018-06-26 | Ford Global Technologies, Llc | Glove having conductive ink and method of interacting with proximity sensor |
US8830302B2 (en) * | 2011-08-24 | 2014-09-09 | Lg Electronics Inc. | Gesture-based user interface method and apparatus |
US9143126B2 (en) | 2011-09-22 | 2015-09-22 | Ford Global Technologies, Llc | Proximity switch having lockout control for controlling movable panel |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8994228B2 (en) | 2011-11-03 | 2015-03-31 | Ford Global Technologies, Llc | Proximity switch having wrong touch feedback |
US10112556B2 (en) | 2011-11-03 | 2018-10-30 | Ford Global Technologies, Llc | Proximity switch having wrong touch adaptive learning and method |
US8878438B2 (en) | 2011-11-04 | 2014-11-04 | Ford Global Technologies, Llc | Lamp and proximity switch assembly and method |
US8954330B2 (en) | 2011-11-28 | 2015-02-10 | Microsoft Corporation | Context-aware interaction system using a semantic model |
US9652506B2 (en) * | 2011-12-16 | 2017-05-16 | Microsoft Technology Licensing, Llc | Providing data experience(s) via disparate semantic annotations based on a respective user scenario |
US9263040B2 (en) | 2012-01-17 | 2016-02-16 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance speech recognition |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
US9934780B2 (en) | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
US20130257753A1 (en) * | 2012-04-03 | 2013-10-03 | Anirudh Sharma | Modeling Actions Based on Speech and Touch Inputs |
US9660644B2 (en) | 2012-04-11 | 2017-05-23 | Ford Global Technologies, Llc | Proximity switch assembly and activation method |
US9831870B2 (en) | 2012-04-11 | 2017-11-28 | Ford Global Technologies, Llc | Proximity switch assembly and method of tuning same |
US9531379B2 (en) | 2012-04-11 | 2016-12-27 | Ford Global Technologies, Llc | Proximity switch assembly having groove between adjacent proximity sensors |
US9520875B2 (en) | 2012-04-11 | 2016-12-13 | Ford Global Technologies, Llc | Pliable proximity switch assembly and activation method |
US9219472B2 (en) | 2012-04-11 | 2015-12-22 | Ford Global Technologies, Llc | Proximity switch assembly and activation method using rate monitoring |
US9065447B2 (en) | 2012-04-11 | 2015-06-23 | Ford Global Technologies, Llc | Proximity switch assembly and method having adaptive time delay |
US9559688B2 (en) | 2012-04-11 | 2017-01-31 | Ford Global Technologies, Llc | Proximity switch assembly having pliable surface and depression |
US8933708B2 (en) | 2012-04-11 | 2015-01-13 | Ford Global Technologies, Llc | Proximity switch assembly and activation method with exploration mode |
US9184745B2 (en) | 2012-04-11 | 2015-11-10 | Ford Global Technologies, Llc | Proximity switch assembly and method of sensing user input based on signal rate of change |
US9197206B2 (en) | 2012-04-11 | 2015-11-24 | Ford Global Technologies, Llc | Proximity switch having differential contact surface |
US9287864B2 (en) | 2012-04-11 | 2016-03-15 | Ford Global Technologies, Llc | Proximity switch assembly and calibration method therefor |
US9568527B2 (en) | 2012-04-11 | 2017-02-14 | Ford Global Technologies, Llc | Proximity switch assembly and activation method having virtual button mode |
US9944237B2 (en) | 2012-04-11 | 2018-04-17 | Ford Global Technologies, Llc | Proximity switch assembly with signal drift rejection and method |
US20130285942A1 (en) * | 2012-04-26 | 2013-10-31 | Acer Incorporated | Touch detection method and touch control device using the same |
US9182233B2 (en) | 2012-05-17 | 2015-11-10 | Robert Bosch Gmbh | System and method for autocompletion and alignment of user gestures |
US9136840B2 (en) | 2012-05-17 | 2015-09-15 | Ford Global Technologies, Llc | Proximity switch assembly having dynamic tuned threshold |
US8981602B2 (en) | 2012-05-29 | 2015-03-17 | Ford Global Technologies, Llc | Proximity switch assembly having non-switch contact and method |
US9337832B2 (en) | 2012-06-06 | 2016-05-10 | Ford Global Technologies, Llc | Proximity switch and method of adjusting sensitivity therefor |
US9641172B2 (en) | 2012-06-27 | 2017-05-02 | Ford Global Technologies, Llc | Proximity switch assembly having varying size electrode fingers |
WO2014012028A2 (en) | 2012-07-12 | 2014-01-16 | Robert Bosch Gmbh | System and method of conversational assistance for automated tasks with integrated intelligence |
US8922340B2 (en) | 2012-09-11 | 2014-12-30 | Ford Global Technologies, Llc | Proximity switch based door latch release |
WO2014070872A2 (en) * | 2012-10-30 | 2014-05-08 | Robert Bosch Gmbh | System and method for multimodal interaction with reduced distraction in operating vehicles |
US8796575B2 (en) | 2012-10-31 | 2014-08-05 | Ford Global Technologies, Llc | Proximity switch assembly having ground layer |
US10135823B2 (en) * | 2013-01-07 | 2018-11-20 | Dell Products L.P. | Input redirection with a cloud client device |
US9190058B2 (en) * | 2013-01-25 | 2015-11-17 | Microsoft Technology Licensing, Llc | Using visual cues to disambiguate speech inputs |
IN2013DE00428A (zh) * | 2013-02-14 | 2015-06-19 | Alcatel Lucent | |
US9311204B2 (en) | 2013-03-13 | 2016-04-12 | Ford Global Technologies, Llc | Proximity interface development system having replicator and method |
US9395764B2 (en) * | 2013-04-25 | 2016-07-19 | Filippo Costanzo | Gestural motion and speech interface control method for 3d audio-video-data navigation on handheld devices |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
US9390726B1 (en) * | 2013-12-30 | 2016-07-12 | Google Inc. | Supplementing speech commands with gestures |
US9495959B2 (en) | 2014-02-27 | 2016-11-15 | Ford Global Technologies, Llc | Disambiguation of dynamic commands |
US8825585B1 (en) * | 2014-03-11 | 2014-09-02 | Fmr Llc | Interpretation of natural communication |
EP2958010A1 (en) | 2014-06-20 | 2015-12-23 | Thomson Licensing | Apparatus and method for controlling the apparatus by a user |
US10038443B2 (en) | 2014-10-20 | 2018-07-31 | Ford Global Technologies, Llc | Directional proximity switch assembly |
US10276158B2 (en) | 2014-10-31 | 2019-04-30 | At&T Intellectual Property I, L.P. | System and method for initiating multi-modal speech recognition using a long-touch gesture |
US11347316B2 (en) | 2015-01-28 | 2022-05-31 | Medtronic, Inc. | Systems and methods for mitigating gesture input error |
US10613637B2 (en) * | 2015-01-28 | 2020-04-07 | Medtronic, Inc. | Systems and methods for mitigating gesture input error |
US9654103B2 (en) | 2015-03-18 | 2017-05-16 | Ford Global Technologies, Llc | Proximity switch assembly having haptic feedback and method |
US9548733B2 (en) | 2015-05-20 | 2017-01-17 | Ford Global Technologies, Llc | Proximity sensor assembly having interleaved electrode configuration |
DE102015222152A1 (de) * | 2015-11-11 | 2017-05-11 | Robert Bosch Gmbh | Elektrohandwerkzeugmaschine |
CN106445442B (zh) * | 2016-09-29 | 2019-10-08 | 福州新锐同创电子科技有限公司 | 一种三屏同步显示方法 |
CN106293483B (zh) * | 2016-09-29 | 2019-10-08 | 福州新锐同创电子科技有限公司 | 电子显示屏板书区域调度显示方法 |
US10782986B2 (en) | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11676220B2 (en) * | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US10872604B2 (en) | 2018-05-17 | 2020-12-22 | Qualcomm Incorporated | User experience evaluation |
US11455982B2 (en) * | 2019-01-07 | 2022-09-27 | Cerence Operating Company | Contextual utterance resolution in multimodal systems |
US11348581B2 (en) | 2019-07-12 | 2022-05-31 | Qualcomm Incorporated | Multi-modal user interface |
US11258750B2 (en) | 2019-12-19 | 2022-02-22 | Honeywell International Inc. | Systems and methods for unified data and voice messages management |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3363283B2 (ja) * | 1995-03-23 | 2003-01-08 | 株式会社日立製作所 | 入力装置、入力方法、情報処理システムおよび入力情報の管理方法 |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
GB2355833B (en) * | 1999-10-29 | 2003-10-29 | Canon Kk | Natural language input method and apparatus |
WO2002052394A1 (en) * | 2000-12-27 | 2002-07-04 | Intel Corporation | A method and system for concurrent use of two or more closely coupled communication recognition modalities |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7069215B1 (en) | 2001-07-12 | 2006-06-27 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
US6868383B1 (en) | 2001-07-12 | 2005-03-15 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
US20030093419A1 (en) * | 2001-08-17 | 2003-05-15 | Srinivas Bangalore | System and method for querying information using a flexible multi-modal interface |
US20030055644A1 (en) | 2001-08-17 | 2003-03-20 | At&T Corp. | Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation |
EP1394692A1 (en) * | 2002-08-05 | 2004-03-03 | Alcatel | Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal |
US7152033B2 (en) * | 2002-11-12 | 2006-12-19 | Motorola, Inc. | Method, system and module for multi-modal data fusion |
US7890324B2 (en) * | 2002-12-19 | 2011-02-15 | At&T Intellectual Property Ii, L.P. | Context-sensitive interface widgets for multi-modal dialog systems |
US20050197843A1 (en) * | 2004-03-07 | 2005-09-08 | International Business Machines Corporation | Multimodal aggregating unit |
US7430324B2 (en) | 2004-05-25 | 2008-09-30 | Motorola, Inc. | Method and apparatus for classifying and ranking interpretations for multimodal input fusion |
JP4416643B2 (ja) | 2004-06-29 | 2010-02-17 | キヤノン株式会社 | マルチモーダル入力方法 |
US7574356B2 (en) * | 2004-07-19 | 2009-08-11 | At&T Intellectual Property Ii, L.P. | System and method for spelling recognition using speech and non-speech input |
KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
US7742641B2 (en) * | 2004-12-06 | 2010-06-22 | Honda Motor Co., Ltd. | Confidence weighted classifier combination for multi-modal identification |
US20060143576A1 (en) * | 2004-12-23 | 2006-06-29 | Gupta Anurag K | Method and system for resolving cross-modal references in user inputs |
US20060143216A1 (en) * | 2004-12-23 | 2006-06-29 | Gupta Anurag K | Method and system for integrating multimodal interpretations |
US20060149550A1 (en) * | 2004-12-30 | 2006-07-06 | Henri Salminen | Multimodal interaction |
WO2006128248A1 (en) * | 2005-06-02 | 2006-12-07 | National Ict Australia Limited | Multimodal computer navigation |
JP4708913B2 (ja) * | 2005-08-12 | 2011-06-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
US7848917B2 (en) * | 2006-03-30 | 2010-12-07 | Microsoft Corporation | Common word graph based multimodal input |
JP4762070B2 (ja) * | 2006-07-19 | 2011-08-31 | 富士通株式会社 | 手書き入力装置、手書き入力方法、及びコンピュータプログラム |
US8355915B2 (en) * | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
WO2008122974A1 (en) * | 2007-04-06 | 2008-10-16 | Technion Research & Development Foundation Ltd. | Method and apparatus for the use of cross modal association to isolate individual media sources |
CN101669090A (zh) * | 2007-04-26 | 2010-03-10 | 福特全球技术公司 | 情绪提示系统和方法 |
US20090228273A1 (en) * | 2008-03-05 | 2009-09-10 | Microsoft Corporation | Handwriting-based user interface for correction of speech recognition errors |
-
2009
- 2009-03-18 US US12/406,661 patent/US9123341B2/en active Active
-
2010
- 2010-02-05 WO PCT/US2010/023410 patent/WO2010107526A1/en active Application Filing
- 2010-02-05 CN CN201080021524.9A patent/CN102428440B/zh active Active
- 2010-02-05 EP EP10707382A patent/EP2409218A1/en not_active Ceased
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103376936A (zh) * | 2012-04-26 | 2013-10-30 | 宏碁股份有限公司 | 触控检测方法与触控检测装置 |
CN103376936B (zh) * | 2012-04-26 | 2016-04-20 | 宏碁股份有限公司 | 触控检测方法与触控检测装置 |
CN104471639A (zh) * | 2012-07-20 | 2015-03-25 | 微软公司 | 语音和手势识别增强 |
CN104823147B (zh) * | 2012-10-12 | 2019-04-30 | 微软技术许可有限责任公司 | 作为与应用的交互的多模式用户表达和用户力度 |
US10139937B2 (en) | 2012-10-12 | 2018-11-27 | Microsoft Technology Licensing, Llc | Multi-modal user expressions and user intensity as interactions with an application |
CN104823147A (zh) * | 2012-10-12 | 2015-08-05 | 微软技术许可有限责任公司 | 作为与应用的交互的多模式用户表达和用户力度 |
US9691382B2 (en) | 2013-03-01 | 2017-06-27 | Mediatek Inc. | Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data |
CN104021788A (zh) * | 2013-03-01 | 2014-09-03 | 联发科技股份有限公司 | 声控装置和声控方法 |
CN104021788B (zh) * | 2013-03-01 | 2017-08-01 | 联发科技股份有限公司 | 声控装置和声控方法 |
CN105074817B (zh) * | 2013-03-15 | 2018-11-27 | 高通股份有限公司 | 用于使用手势来切换处理模式的系统和方法 |
CN105074817A (zh) * | 2013-03-15 | 2015-11-18 | 高通股份有限公司 | 用于使用手势来切换处理模式的系统和方法 |
CN104112448B (zh) * | 2013-04-19 | 2017-07-14 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
CN104112448A (zh) * | 2013-04-19 | 2014-10-22 | 通用汽车环球科技运作有限责任公司 | 用于管理语音系统的对话的方法和系统 |
CN104299623B (zh) * | 2013-07-15 | 2017-09-29 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和系统 |
CN104700832A (zh) * | 2013-12-09 | 2015-06-10 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
CN104700832B (zh) * | 2013-12-09 | 2018-05-25 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
CN103713876A (zh) * | 2014-01-16 | 2014-04-09 | 联想(北京)有限公司 | 数据处理方法及电子设备 |
CN103713876B (zh) * | 2014-01-16 | 2016-10-05 | 联想(北京)有限公司 | 数据处理方法及电子设备 |
CN104965592A (zh) * | 2015-07-08 | 2015-10-07 | 苏州思必驰信息科技有限公司 | 基于语音和手势识别的多模态非触摸人机交互方法及系统 |
US10522145B2 (en) | 2016-03-01 | 2019-12-31 | Sony Corporation | Information processing apparatus and information processing method |
CN106569613A (zh) * | 2016-11-14 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种多模态人机交互系统及其控制方法 |
CN107153685A (zh) * | 2017-04-25 | 2017-09-12 | 竹间智能科技(上海)有限公司 | 人机对话系统中基于时间线记忆的认知方法及装置 |
CN107153685B (zh) * | 2017-04-25 | 2020-06-19 | 竹间智能科技(上海)有限公司 | 人机对话系统中基于时间线记忆的认知方法及装置 |
CN110018746A (zh) * | 2018-01-10 | 2019-07-16 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
CN110018746B (zh) * | 2018-01-10 | 2023-09-01 | 微软技术许可有限责任公司 | 通过多种输入模式来处理文档 |
CN109298784A (zh) * | 2018-09-05 | 2019-02-01 | 北京机械设备研究所 | 一种人机交互误操作管理系统和方法 |
CN109298784B (zh) * | 2018-09-05 | 2021-06-01 | 北京机械设备研究所 | 一种人机交互误操作管理系统和方法 |
CN109933272A (zh) * | 2019-01-31 | 2019-06-25 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态深度融合机载座舱人机交互方法 |
CN112506125A (zh) * | 2020-11-19 | 2021-03-16 | 北京蓦然认知科技有限公司 | 一种多模态控制方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102428440B (zh) | 2016-08-03 |
US20100241431A1 (en) | 2010-09-23 |
WO2010107526A1 (en) | 2010-09-23 |
EP2409218A1 (en) | 2012-01-25 |
US9123341B2 (en) | 2015-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102428440B (zh) | 用于多模式输入的同步和消歧的系统和方法 | |
CN110288994B (zh) | 检测数字助理的触发 | |
JP6835398B2 (ja) | マルチターンキャンドダイアログ | |
CN108733438B (zh) | 应用程序与数字助理集成 | |
CN108093126B (zh) | 用于拒绝来电的方法、电子设备及存储介质 | |
CN107924313B (zh) | 分布式个人助理 | |
US20190095050A1 (en) | Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts | |
EP3005668B1 (en) | Application gateway for providing different user interfaces for limited distraction and non-limited distraction contexts | |
CN107949823A (zh) | 零延迟数字助理 | |
CN110851101A (zh) | 虚拟助理激活 | |
CN108337380A (zh) | 自动调整用户界面以用于免提交互 | |
CN102439661A (zh) | 用于车辆内自动交互的面向服务语音识别 | |
CN115206304A (zh) | 低延迟智能自动化助理 | |
EP3593350A1 (en) | User interface for correcting recognition errors | |
CN102945120A (zh) | 一种基于儿童应用中的人机交互辅助系统及交互方法 | |
DK201770420A1 (en) | DETECTING A TRIGGER OF A DIGITAL ASSISTANT | |
WO2018212938A1 (en) | Hierarchical belief states for digital assistants | |
CN110651324A (zh) | 多模态界面 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |