CN105005468B - 使用自然用户界面输入加强预测置信和命令优先级 - Google Patents
使用自然用户界面输入加强预测置信和命令优先级 Download PDFInfo
- Publication number
- CN105005468B CN105005468B CN201510177990.0A CN201510177990A CN105005468B CN 105005468 B CN105005468 B CN 105005468B CN 201510177990 A CN201510177990 A CN 201510177990A CN 105005468 B CN105005468 B CN 105005468B
- Authority
- CN
- China
- Prior art keywords
- user
- command
- user inputs
- determining
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
实施方式提供了一种使用自然用户界面输入加强预测置信和命令优先级的方法,包括:在预定时间内在具有至少一个输入装置的装置处接收多个用户输入;基于多个用户输入使用装置的处理器来确定总体意图;确定包括将多个用户输入中的至少两个用户输入映射成通用命令;以及根据通用命令使用装置的处理器来提交操作。本发明描述并且要求保护了其它方面。
Description
技术领域
本发明涉及信息技术领域,具体地涉及使用自然用户界面输入加强预测置信和命令优先级。
背景技术
自然用户界面(NUI)利用多种输入方式(例如相机、声音、触摸等)来翻译自然语言输入并且提交例如映射成预定命令的操作。例如,NUI能够解析自然语言用户声音输入以将这些输入映射成预定命令,使得用户无需说特定命令以便使系统进行各种操作。这允许用户使用NUI更容易地控制系统。已在很多不同的装置类型和系统例如平板和膝上型计算装置、游戏机、电视机及其它娱乐装置、导航系统等的应用程序中发现NUI。这些系统采用NUI以允许用户更容易地与由这样的系统提供的应用程序进行对接。
发明内容
总之,一方面提供了一种方法,包括:在预定时间内在具有至少一个输入装置的装置处接收多个用户输入;基于多个用户输入使用装置的处理器来确定总体意图;确定包括将多个用户输入中的至少两个用户输入映射成通用命令;以及根据通用命令使用装置的处理器来提交操作。
另一方面提供了一种设备,包括:至少一个输入装置;处理器,其可操作地耦接到至少一个输入装置;以及存储器,用于存储指令,该指令可由处理器执行以:在预定时间内在至少一个输入装置处接收多个用户输入;通过将多个用户输入中的至少两个用户输入映射成通用命令、基于多个用户输入来确定总体意图;以及根据通用命令来提交操作。
进一步的方面提供了一种产品,包括:存储有代码的计算机可读存储装置,该代码可由处理器执行,并且该代码包括:用于在预定时间内在具有至少一个输入装置的装置处接收多个用户输入的代码;用于通过将多个用户输入中的至少两个用户输入映射成通用命令、基于多个用户输入、使用装置的处理器来确定总体意图的代码;以及用于根据通用命令使用装置的处理器来提交操作的代码。
前述是概要,并且因此可以包含细节的简化、概括和省略;因此,本领域的技术人员将理解的是,该概要仅仅是说明性的并且不意在以任何方式进行限制。
为了更好地理解实施方式连同实施方式的其它的和进一步的特征以及优点,参照以下的结合附图的描述。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理装置线路的示例。
图2示出了信息处理装置线路的另一示例。
图3示出了可以在确定总体意图中使用的用户输入的示例层次结构。
图4示出了使用NUI输入来加强预测置信和命令优先级的示例方法。
具体实施方式
将容易地理解的是,可以以除所描述的示例实施方式以外的多种不同的配置来布置和设计如在本文附图中概括地描述并示出的实施方式的部件。因此,以下如在附图中示出的、示例实施方式的更详细的描述,不意在限制所要求保护的实施方式的范围,而仅代表示例实施方式。
本说明书全文中,对“一个(one)实施方式”或“一种(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此,在本说明书全文的各处所出现的短语“在一个实施方式中”或“在一种实施方式中”等未必都指同一实施方式。
此外,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到,可以在没有一个或更多个具体细节或者有其它的方法、部件、材料等的情况下,对各种实施方式进行实践。在其它示例中,不再详细地示出或描述公知的结构、材料或操作,以避免混淆。
虽然自然用户界面(NUI)在可以被处理的用户输入方面——在可以使用的形式(例如,声音、触摸、姿势等)方面以及在所使用的实际输入方面这两个方面——允许较大的灵活性(即提供对用户输入的更加灵活的处理或提供将不精确的语言或其他输入映射成由系统可操作的预定命令的能力),但是NUI往往还具有在多用户环境例如起居室中进行操作的难点。在该情况下的问题之一是当多用户同时(或者在预定时间内)提供输入时的问题。
多用户输入情形是通常情况。例如,用户可能正尝试做出不起作用的命令,而另一用户可能尝试进行帮助并且也做出该命令。在其它情况下,用户可以给出具有相似意图的输入,但是传递不同的声音或姿势输入以表达该意图。使用传统的系统的通常结果是对接收并且理解(例如,到预定置信水平)的第一命令起作用,或者仅提供错误消息并且请求进一步的用户输入。
例如,典型地,来自多用户的同时发生的输入阻止系统理解任何一个(如果是声音命令),或者两个命令都被执行(例如,如果使用了不同的方式),其通常比什么都不做更糟(例如,一个用户执行朝前的姿势而另一用户做返回姿势——这使系统无用地进行循环)。此外,来自多用户的冗余命令通常不给出任何类型的优先级。简言之,在面对多用户输入时,不管是提供了赞同的、矛盾的还是仅模棱两可的输入,传统的NUI都具有确定该组的总体意图的难点。
实施方式给NUI添加了一层复杂性,使得当多个用户输入(例如,相似的命令或者甚至是矛盾的命令)在预定时间(例如,来自同一用户或者来自多用户)内输入到系统时,系统可以自动地确定总体意图。这可以包括在预测总体意图中自动地确定输入优先级和/或调整对输入识别的置信。
通过参考附图将最好地理解所示出的示例实施方式。下面的描述仅意在通过示例的方式,并且简要示出了某些示例实施方式。
虽然在信息处理装置(本文中也称为设备、电子装置或仅装置)中可以利用各种其它电路、线路或部件,但是对于智能电话和/或平板电脑线路100来说,图1中示出的示例包括在例如平板电脑或其它移动计算平台中发现的电路设计上的系统。软件和(一个或多个)处理器被组合在单电路110中。如本领域公知的,处理器包括内部运算单元、寄存器、高速缓存存储器、总线、I/O端口等。内部总线等取决于不同的供应商,但基本上所有外围装置(120)可以附接到单电路110。线路100将处理器、存储器控制以及I/O控制器集线器全部组合到单电路110中。此外,这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在有(一个或多个)电力管理芯片130,例如电池管理单元BMU,该电池管理单元BMU对例如经由可充电电池140供应的电力进行管理,可以通过连接到电源(未示出)来给可充电电池140充电。在至少一个设计中,单电路例如110用于提供类似BIOS的功能和DRAM存储器。
系统100通常包括以下中的一个或更多个:用于连接到各种网络例如电信网络和无线因特网装置(例如接入点)的WWAN收发器150和WLAN收发器160。附加的装置120通常包括在接收用户输入并且将与输入相关的数据提供给NUI的例如相机和/或麦克风中。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器装置,例如快闪存储器180和SDRAM 190。
图2描绘了信息处理装置电路、线路或部件的另一示例的框图。图2中描绘的示例可以对应于计算系统,例如由北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人电脑或其它装置。根据本文的描述明显的是,实施方式可以包括图2中示出的示例的仅一些特征或其它特征。
图2的示例包括所谓的芯片组210(芯片组,一组一起工作的集成电路或芯片),芯片组210具有可以取决于制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其它国家的注册商标。AMD是超微半导体有限公司在美国和其它国家的注册商标。ARM是安谋股份有限公司在美国和其它国家的未注册商标。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244来交换信息(例如数据、信号、命令等)。在图2中,DMI 242是芯片到芯片的接口(有时被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224来交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意,组220的部件可以被集成到代替常规的“北桥”式架构的芯片中。如本领域公知的,一个或更多个处理器222包括内部运算单元、寄存器、高速缓存存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如为可以被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226进一步包括用于显示装置292(例如CRT、平板、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232来支持的一些技术(例如串行数字视频、HDMI/DVI、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-快速接口(PCI-E)234。
在图2中,I/O控制器集线器250包括SATA接口251(例如用于HDD、SDD等280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如用于装置284如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其它连接装置等)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276如ROM 277、闪存278和NVRAM 279)、电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265以及SPI闪存266(其可以包括BIOS 268和启动代码290)。I/O控制器集线器250可以包括千兆以太网支持。
系统在通电时可以被配置成执行在SPI闪存266内存储的、用于BIOS268的启动代码290,此后,在一个或更多个操作系统和应用程序软件(例如存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任何位置处,并且例如根据BIOS 268的指令来访问。如本文所述,装置可以包括比在图2的系统中示出的特征更少或者更多的特征。
例如如图1或图2所概述的线路可以用于执行NUI,其给用户提供更加灵活并且容易使用的输入界面,用于控制在其上运行的系统和应用程序。例如,如图1和图2所概述的线路可以在很多不同的装置类型和系统(例如平板和膝上型计算装置、游戏机、智能电视和其它娱乐装置、导航系统等)中使用,以提供如本文所描述的NUI,允许用户更加容易地与由这样的系统提供的应用程序进行对接。
参照图3,示出了可以在通过NUI确定总体意图中使用的用户输入的示例层次结构。如图3所示,两个或更多个直接命令(例如用户声音输入“音量放大”和“音量增大”)可以随着被映射成通过NUI理解的通用命令而被实施方式接收并且理解,所述通用命令例如系统使用以增加运行的应用程序例如媒体播放器应用程序的音量的增大音量通用命令。因此,在这样的情形下,每个直接命令的意图被有效地同一化并且映射成总体意图例如在该示例中的增大音量。因此,实施方式利用这样的逻辑来确定在预定时间内(或同时地)连续接收的两个这样的直接命令要被映射为反映该组(或者,如果是单个用户,则是单个用户的多输入的合并)的总体意图的单个输入。
实施方式还可以例如使用自然语言处理来映射涉及直接命令和间接命令的两个或更多个用户输入。通过具体示例的方式,直接命令例如“音量放大”的用户声音输入和间接命令例如“我听不见它”的另一用户声音输入可以被再次映射成总体意图“增大音量”。在这个示例中,可以使用自然语言处理器来处理间接命令(其可以不是有意的命令而是用户不意在作为输入或者作为具体命令的系统捕捉的输入)。在所示出的示例(其是非限定性示例)中,自然语言处理可以包括将用户输入“我听不见它”解析成组成部分,然后,该组成部分被映射成通用节点例如在所示出的示例中的直接命令“音量放大”。
以类似的方式,虽然在图3中未明确示出,但是实施方式可以对使用不同的方式接收的用户输入进行处理。例如,直接声音命令“音量放大”和相似的姿势输入(例如用户朝上升高他或她的手)可以被映射成通用命令“音量放大”。因此,实施方式可以利用多个用户输入方式来确定或推断总体意图,在这个示例中应当提交增大音量操作。因为存在有在等价时间帧中有效地传递的两个或更多个相关命令,所以应当提高针对识别和确定单个命令的意图的置信。
例如,实施方式使用对多个用户输入的这样的处理来确信地利于确定或者预测命令本质的总体意图和最终优先级。在很多情况下,可以处理在短时间内接收的看似冗余、模棱两可或者甚至是矛盾的用户输入,使得总体意图确定的最终置信可以在这样的情形下被调高。
通过示例的方式,一个或更多个直接命令和一个或更多个间接命令可以被系统接收、逐字地理解以映射成通用命令,并且因为这些输入是相关的或是赞同的,因此这些输入可以用于提高总体意图确定的置信。通过具体示例的方式,如果用户A给出直接命令“音量放大”而用户B说“我听不见它”(即对于“音量放大”的间接命令),则实施方式可以利用这两个命令是相关的并且实际上彼此赞同的事实。应当注意的是,这个示例扩展到其中涉及不同输入方式的其它示例。因为存在有在等价时间帧中有效地传递的两个或更多个相关命令,所以应当提高针对识别和确定各个命令的意图的置信,避免在使用传统的NUI导致错误消息的所接收的用户输入中的潜在的模棱两可。在这个示例中,假设赞同的输入接收到了,即使每个输入单独地仅被部分地识别(即分配有较低的识别置信),NUI在预测命令本质的总体意图和最终优先级中分配的置信水平也可以被调高。
然后,要理解的是,在两个或更多个命令至少部分地被理解的情况下,实施方式可以同样地将该命令映射成每个命令的基本意图并且确定出其与普通意图或总体意图相关。当模棱两可的命令或用户输入被接收(例如部分被识别的语音或姿势等)时,实施方式可以利用下述事实并且调高总体置信,使得可以执行操作而不是发出与分别考虑的命令中的一个命令或两个命令相关的错误消息,所述事实为这些部分被识别的命令中的两个或更多个命令映射成单一的总体意图。换言之,因为存在有在等价时间帧中有效地传递的两个或更多个相关命令,所以应当提高针对识别和确定各个命令的意图的置信。在这个情形下,针对预测命令本质的总体意图和最终优先级的置信会通过实施方式被调高。
要理解的是,实施方式可以基于每个命令被理解了多少来执行最可能的总体意图或者提示用户进行进一步输入,该输入允许更加准确的确定例如确认问题或询问。与本文所描述的其它实施方式一样,这个示例扩展到其中涉及不同的输入方式的示例。
通过具体示例的方式,如果实施方式检测到用户A说“使它更大声”,则系统的识别可能性可以是“烤某个杂烩羹汤”(90%置信)以及“使它更大声”(80%置信)。实施方式还可以检测到(即在预定时间内)用户B说“我听不见它”,系统的识别可能性是:“我听不见它”(80%置信)以及“我不能忍受它”(50%置信)。通常,这会导致错误,因为系统不能操作对用户A的较高的置信识别(即该用户输入不能映射成预定可操作命令)并且,即使可操作,用户B的输入“我听不见它”也与用户A的最高置信输入(其可能已被先接收)相矛盾。然而,实施方式可以一起考虑这些输入以便推断总体意图。因此,实施方式可以改变例如各个输入的一个或多个置信值和/或合计置信值,使得恰当的总体意图被映射成可操作命令,该可操作命令在本示例中为增大音量命令。在这个示例中,实施方式可以确定出:假设命令中的两个命令即使分别以较低的置信被映射成通用总体意图,这些命令也总体地取代针对单独考虑的命令的任何单个置信得分。
在多个用户输入中存在有矛盾的情况下,即使确信地识别了多个用户输入,实施方式也依然可以将这些矛盾的输入解决为可操作的总体意图。通过示例的方式,对于至少部分地理解但矛盾的三个或更多个命令而言,总体意图可以被推断为是将这些命令中的大部分命令(直接地或间接地)映射成该总体意图的意图。
通过具体示例的方式,如果用户A和用户B传递被映射成增大音量的命令,而用户C同时地(或几乎同时地)提供减小音量的输入,则执行少数服从多数规则确定的实施方式可以将总体意图映射成增大音量总体意图,例如如图3的非限定性示例所示出的那样。
实施方式可以使用其它机制来附加地或替代地推断总体意图。例如,在所有情况下,可以通过下述动作根据命令是来自相同方式还是不同方式的输入来调节置信和/或优先级得分或等级:通过考虑在命令的传递之间的任何时间差异(例如命令的接收或检测的时序)、通过考虑分配给用于提供命令的输入方式的任何现有的优先级或权重、通过考虑分配给提供命令的用户的任何现有的优先级或权重、通过考虑关于下述事件的已登记的信息等,所述事件为特定命令是由所涉及的任何用户和/或使用特定方式(例如,可以给予用户的优选方式以更高的权重)的用户传递的这一情况有多普遍。通过具体示例的方式,如果用户A通常通过说“使它大声点”来调节音量,而用户B通常通过说“音量放大”来调节音量,则实施方式可能需要注意在进行置信水平确定中由相应的用户使用的每个方式。可以使用各种技术例如诸如声音识别的生物识别来识别用户。
然后参照图4,示出了使用NUI输入来加强预测置信和命令优先级的示例方法。在401处,实施方式可以使用例如一个或更多个方式来接收多个用户输入,例如使用装置的麦克风来接收声音命令、使用装置的相机和姿势识别引擎来检测姿势输入等。如本文所描述的那样,多个用户输入中的至少一个用户输入可以是自然语言输入,使得该至少一个用户输入不直接地映射成预定装置命令。
此后,实施方式可以在402处确定出将多个用户输入中的至少两个用户输入映射成通用命令。如图3所概述的那样,即使看似模棱两可、以及即使输入实际上相矛盾,也存在有其中用户输入可以彼此赞同的各种方式,这确定了将多于一个命令映射成通用命令在解决矛盾时是有用的。
然后,通过这样的映射实施方式可以在403处基于多个用户输入来确定总体意图是否可以被识别。因为用户输入实际上彼此赞同或足够相关到使得在403处单个通用命令可以被识别为总体意图,所以上述情况可能发生。实施方式还可以例如使用少数服从多数规则过程来解决在多个输入内的矛盾,以在403处识别反映总体意图的通用命令。如果在403处确定或识别了总体意图,则实施方式可以在404处根据通用命令来提交操作,通用命令例如增大媒体应用程序的音量,在网络浏览器中选择到网页的链路等。否则,实施方式可以请求更多数据以识别总体意图并且在405处不操作。实施方式可以抱着识别总体意图的希望从(一个或多个)用户询问或请求更多输入和/或等待进一步输入。
确定可以包括基于映射成通用命令的用户输入的数量来识别通用命令以例如解决矛盾命令情形。确定可以包括基于与针对通用命令的多个用户输入关联的合计置信水平来识别通用命令以例如解决单独为模棱两可、不可操作等的命令或输入。如本文所描述的那样,确定可以包括确定用于输入多个用户输入中的一个或更多个用户输入的方式并且将其考虑在内,例如在确定总体意图中将权重因子应用于特定方式。例如,实施方式可以识别提供多个用户输入中的一个或更多个用户输入的特定用户的优选方式,并且如果该优选方式已被利用以提供多个用户输入中的一个或更多个用户输入,则在确定总体意图中将附加权重应用于特定用户的用户输入。以相似的方式,实施方式可以将提供多个用户输入中的一个或更多个用户输入的特定用户的优选命令考虑在内,并且如果实施方式识别出用户正提供优选命令,则应用权重因子。同样地,可以将针对做出起作用的命令的优先级给某些用户,因此,可以应用权重因子以获得同样目的。
因此,实施方式提供了各种机制,通过这些机制可以确定或推断用户输入的总体意图。凭借以协调的方式处理用户输入,即使当接收了模棱两可或矛盾的用户输入时,实施方式通过减小当面对多用户输入时产生的错误并且利于由系统做出的置信决定来改善NUI的功能。
本领域的技术人员将理解的是,本发明的各个方面可以实施为系统、方法或装置程序产品。因此,本发明的各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式,所述软件在本文中可以全部统称为“电路”、“模块”或“系统”。此外,本发明的各个方面可以采用在一个或更多个装置可读介质中实施的装置程序产品的形式,所述一个或更多个装置可读介质具有与之实施的装置可读程序代码。
应当注意的是,可以使用被存储在装置可读存储介质例如非信号存储装置上的可由处理器执行的指令来实现本文所描述的各种功能。存储装置可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、设备或装置,或前述的任何适当的组合。存储介质的更多的具体示例将包括如下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置,或前述的任何适当的组合。在本文件的上下文中,存储装置不是信号,并且“非暂时的”包括除信号介质之外的全部介质。
可以使用任何适当的介质,包括但不限于无线、有线、光缆、RF等或前述的任何适当的组合,来传输在存储介质上所包含的程序代码。
可以以一种或更多种编程语言中的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包部分地在单个装置上且部分地在另一装置上执行或完全在其它装置上执行。在某些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接装置,或可以通过其它装置(例如通过使用因特网服务提供商的因特网)、通过无线连接例如近场通信或通过硬线连接(例如通过USB连接)来进行连接。
本文参考示出了根据各种示例实施方式的示例方法、装置和程序产品的附图来描述示例实施方式。要理解的是,操作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或其它可编程数据处理装置的处理器以产生机制,使得指令实现指定的功能/动作,所述指令经由装置的处理器被执行。
根据本公开的实施方式,可以提供一种产品,包括:存储有代码的计算机可读存储装置,该代码可由处理器执行,并且该代码包括:用于在预定时间内在具有至少一个输入装置的装置处接收多个用户输入的代码;用于通过将多个用户输入中的至少两个用户输入映射成通用命令、基于多个用户输入、使用装置的处理器来确定总体意图的代码;以及用于根据通用命令使用装置的处理器来提交操作的代码。
值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性的示例。由于明确说明的示例仅用于描述的目的,而不应被视为限制,所以在某些情况下,可以组合两个或更多个模块,可以将块分成两个或更多个块,或者可以按需要将某些块进行重新排序或重新组织。
如本文所用的那样,除另行指明,否则单数“一个(a)”和“一个(an)”可以被解释为包括“一个或更多个”。
给出本公开是为了说明和描述的目的,而非意在是穷举或限制。对本领域普通技术人员来说,许多修改和变化将是明显的。选择并描述示例实施方式是为了说明原理和实际应用,并且使本领域其他普通技术人员能够理解本公开,本公开针对与预期的特定使用相称的、具有多种修改的多种实施方式。
因此,尽管本文参考附图已经描述了说明性的示例实施方式,但要理解的是,这个描述不是限制性的,并且在不偏离本公开的范围或精神的情况下,本领域技术人员可以作出各种其它变化和修改。
Claims (20)
1.一种信息处理方法,包括:
在预定时间内在具有至少一个输入装置的信息处理装置处接收多个用户输入;其中,所述多个用户输入中的至少两个用户输入是来自不同的用户;
基于所述多个用户输入使用所述信息处理装置的处理器来确定总体意图;
所述确定包括将所述多个用户输入中的至少两个用户输入映射成通用命令;以及
根据所述通用命令使用所述信息处理装置的处理器来提交操作;
其中,所述确定包括将所述多个用户输入中的至少两个用户输入映射成通用命令包括:
若用户输入为直接命令,则确定在预定时间内连续接收到两个以上意图相同的直接命令,则将接收到的直接命令映射为反映多个用户输入的总体意图的单个输入;或,
若用户输入中包括间接命令,则使用自然语言处理器处理所述间接命令,以将所述间接命令映射成通用节点的直接命令;或,
若用户输入包括不同类型的输入,则将不同类型的输入映射为通用命令;其中,若多个用户输入中存在有在等价时间帧中传递的两个以上相关命令,则提高针对识别和确定单个命令的意图的置信;或,
若多个用户输入中存在矛盾的输入,则执行少数服从多数规则将多个用户输入映射成通用命令。
2.根据权利要求1所述的方法,其中,
所述多个用户输入包括与第二用户输入不同的第一用户输入;以及
所述确定总体意图包括:通过基于所述第一用户输入和所述第二用户输入中的一个用户输入,改变所述第一用户输入和所述第二用户输入中的另一用户输入的权重,来将所述第一用户输入和所述第二用户输入映射成所述通用命令。
3.根据权利要求1所述的方法,其中,
所述多个用户输入包括映射成所述通用命令的两个或更多个用户输入以及映射成不同命令的至少一个用户输入;以及
所述确定总体意图包括基于映射成所述通用命令的用户输入的数量来识别所述通用命令。
4.根据权利要求1所述的方法,其中,所述确定总体意图包括基于与针对所述通用命令的多个用户输入关联的合计置信水平来识别所述通用命令。
5.根据权利要求1所述的方法,其中,
所述确定总体意图包括确定用于输入所述多个用户输入中的一个或更多个用户输入的方式;以及
在确定所述总体意图中将权重因子应用于第一方式。
6.根据权利要求5所述的方法,进一步包括:识别提供所述多个用户输入中的一个或更多个用户输入的第一用户的第二方式;
其中,如果所述第二方式已被利用以提供所述多个用户输入中的一个或更多个用户输入,则在确定所述总体意图中将权重因子应用于特定用户的用户输入。
7.根据权利要求1所述的方法,进一步包括:识别提供所述多个用户输入中的一个或更多个用户输入的第一用户的第一命令;
其中,如果所述第一命令已被识别为针对所述通用命令的候选,则在确定所述总体意图中将权重因子应用于所述第一用户的用户输入。
8.根据权利要求1所述的方法,其中,
所述确定总体意图包括识别提供所述多个用户输入中的一个或更多个用户输入的用户;以及
在确定所述总体意图中将权重因子应用于特定用户的用户输入。
9.根据权利要求1所述的方法,其中,
所述确定总体意图包括识别所述多个用户输入中的一个或更多个用户输入的时间信息;以及
在确定所述总体意图中将权重因子应用于在所述预定时间内的特定时间处提供的用户输入。
10.根据权利要求1所述的方法,其中,用户输入选自由声音输入和姿势输入构成的组。
11.一种信息处理装置,包括:
至少一个输入装置;
处理器,其可操作地耦接到所述至少一个输入装置;以及
存储器,其用于存储指令,所述指令可由所述处理器执行以:
在预定时间内在所述至少一个输入装置处接收多个用户输入;其中,所述多个用户输入中的至少两个用户输入是来自不同的用户;
通过将所述多个用户输入中的至少两个用户输入映射成通用命令,基于所述多个用户输入来确定总体意图;以及
根据所述通用命令来提交操作;
其中,所述通过将所述多个用户输入中的至少两个用户输入映射成通用命令,基于所述多个用户输入来确定总体意图包括:
若用户输入为直接命令,则确定在预定时间内连续接收到两个以上意图相同的直接命令,则将接收到的直接命令映射为反映多个用户输入的总体意图的单个输入;或,
若用户输入中包括间接命令,则使用自然语言处理器处理所述间接命令,以将所述间接命令映射成通用节点的直接命令;或,
若用户输入包括不同类型的输入,则将不同类型的输入映射为通用命令;其中,若多个用户输入中存在有在等价时间帧中传递的两个以上相关命令,则提高针对识别和确定单个命令的意图的置信;或,
若多个用户输入中存在矛盾的输入,则执行少数服从多数规则将多个用户输入映射成通用命令。
12.根据权利要求11所述的信息处理装置,其中,
所述多个用户输入包括与第二用户输入不同的第一用户输入;以及
所述确定总体意图包括:通过基于所述第一用户输入和所述第二用户输入中的一个用户输入,改变所述第一用户输入和所述第二用户输入中的另一用户输入的权重,来将所述第一用户输入和所述第二用户输入映射成所述通用命令。
13.根据权利要求11所述的信息处理装置,其中,
所述多个用户输入包括映射成所述通用命令的两个或更多个用户输入以及映射成不同命令的至少一个用户输入;以及
所述确定总体意图包括基于映射成所述通用命令的用户输入的数量来识别所述通用命令。
14.根据权利要求11所述的信息处理装置,其中,确定总体意图包括基于与针对所述通用命令的多个用户输入关联的合计置信水平来识别所述通用命令。
15.根据权利要求11所述的信息处理装置,其中,
所述确定总体意图包括确定用于输入所述多个用户输入中的一个或更多个用户输入的方式;以及
在确定所述总体意图中将权重因子应用于第一方式。
16.根据权利要求15所述的信息处理装置,其中,所述指令进一步可由所述处理器执行以:识别提供所述多个用户输入中的一个或更多个用户输入的第一用户的第二方式;
其中,如果所述第二方式已被利用以提供所述多个用户输入中的一个或更多个用户输入,则在确定所述总体意图中将权重因子应用于特定用户的用户输入。
17.根据权利要求11所述的信息处理装置,其中,所述指令进一步可由所述处理器执行以:识别提供所述多个用户输入中的一个或更多个用户输入的第一用户的第一命令;
其中,如果所述第一命令已被识别为针对所述通用命令的候选,则在确定所述总体意图中将权重因子应用于所述第一用户的用户输入。
18.根据权利要求11所述的信息处理装置,其中,
所述确定总体意图包括识别提供所述多个用户输入中的一个或更多个用户输入的用户;以及
在确定所述总体意图中将权重因子应用于特定用户的用户输入。
19.根据权利要求11所述的信息处理装置,其中,
所述确定总体意图包括识别所述多个用户输入中的一个或更多个用户输入的时间信息;以及
在确定所述总体意图中将权重因子应用于在所述预定时间内的特定时间处提供的用户输入。
20.根据权利要求11所述的信息处理装置,其中,所述至少一个用户输入装置选自由声音输入装置和包括相机的姿势系统构成的组。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/262,096 | 2014-04-25 | ||
US14/262,096 US11209897B2 (en) | 2014-04-25 | 2014-04-25 | Strengthening prediction confidence and command priority using natural user interface (NUI) inputs |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005468A CN105005468A (zh) | 2015-10-28 |
CN105005468B true CN105005468B (zh) | 2020-06-23 |
Family
ID=54334723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510177990.0A Active CN105005468B (zh) | 2014-04-25 | 2015-04-15 | 使用自然用户界面输入加强预测置信和命令优先级 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11209897B2 (zh) |
CN (1) | CN105005468B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811312B2 (en) * | 2014-12-22 | 2017-11-07 | Intel Corporation | Connected device voice command support |
US10049670B2 (en) | 2016-06-06 | 2018-08-14 | Google Llc | Providing voice action discoverability example for trigger term |
CN107544271B (zh) * | 2017-09-18 | 2020-08-14 | 广东美的制冷设备有限公司 | 终端控制方法、装置及计算机可读存储介质 |
US11169668B2 (en) * | 2018-05-16 | 2021-11-09 | Google Llc | Selecting an input mode for a virtual assistant |
CN109640164A (zh) * | 2018-11-02 | 2019-04-16 | 重庆爱奇艺智能科技有限公司 | 一种用于多个虚拟现实设备间的播放方法与装置 |
US11423215B2 (en) * | 2018-12-13 | 2022-08-23 | Zebra Technologies Corporation | Method and apparatus for providing multimodal input data to client applications |
US11281862B2 (en) * | 2019-05-03 | 2022-03-22 | Sap Se | Significant correlation framework for command translation |
US11153180B1 (en) * | 2020-04-15 | 2021-10-19 | Verizon Patent And Licensing Inc. | Intelligent and assisted intent builder |
WO2023090951A1 (en) * | 2021-11-19 | 2023-05-25 | Samsung Electronics Co., Ltd. | Methods and systems for suggesting an enhanced multimodal interaction |
US20240029726A1 (en) * | 2022-07-21 | 2024-01-25 | Sony Interactive Entertainment LLC | Intent Identification for Dialogue Support |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989424A (zh) * | 2009-07-30 | 2011-03-23 | 索尼公司 | 语音处理设备和方法及程序 |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100651729B1 (ko) * | 2003-11-14 | 2006-12-06 | 한국전자통신연구원 | 홈네트워크 환경에서의 멀티-모달 상황 인식어플리케이션을 위한 시스템 및 방법 |
US7676446B2 (en) * | 2006-01-11 | 2010-03-09 | Decision Command, Inc. | System and method for making decisions |
US7805450B2 (en) | 2007-03-28 | 2010-09-28 | Yahoo, Inc. | System for determining the geographic range of local intent in a search query |
US8619029B2 (en) * | 2009-05-22 | 2013-12-31 | Motorola Mobility Llc | Electronic device with sensing assembly and method for interpreting consecutive gestures |
US9277021B2 (en) * | 2009-08-21 | 2016-03-01 | Avaya Inc. | Sending a user associated telecommunication address |
US9244533B2 (en) * | 2009-12-17 | 2016-01-26 | Microsoft Technology Licensing, Llc | Camera navigation for presentations |
US9268404B2 (en) * | 2010-01-08 | 2016-02-23 | Microsoft Technology Licensing, Llc | Application gesture interpretation |
US10705794B2 (en) * | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) * | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US9110882B2 (en) * | 2010-05-14 | 2015-08-18 | Amazon Technologies, Inc. | Extracting structured knowledge from unstructured text |
US8527668B2 (en) * | 2010-11-12 | 2013-09-03 | Invensys Systems, Inc. | Priority logic module |
US10409851B2 (en) * | 2011-01-31 | 2019-09-10 | Microsoft Technology Licensing, Llc | Gesture-based search |
US20120242620A1 (en) * | 2011-03-22 | 2012-09-27 | Research In Motion Limited | Combined optical navigation and button |
WO2013042117A1 (en) * | 2011-09-19 | 2013-03-28 | Personetics Technologies Ltd. | System and method for evaluating intent of a human partner to a dialogue between human user and computerized system |
US9465833B2 (en) * | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US8924735B2 (en) * | 2013-02-15 | 2014-12-30 | Microsoft Corporation | Managed biometric identity |
US9460155B2 (en) * | 2013-03-06 | 2016-10-04 | Kunal Verma | Method and system of continuous contextual user engagement |
US9367960B2 (en) * | 2013-05-22 | 2016-06-14 | Microsoft Technology Licensing, Llc | Body-locked placement of augmented reality objects |
US9311298B2 (en) * | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9483519B2 (en) * | 2013-08-28 | 2016-11-01 | International Business Machines Corporation | Authorship enhanced corpus ingestion for natural language processing |
WO2015053861A2 (en) * | 2013-10-09 | 2015-04-16 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on a natural language intent interpreter |
US20150112754A1 (en) * | 2013-10-17 | 2015-04-23 | Ebay Inc. | User intent tracking streams |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US9661067B2 (en) * | 2013-12-23 | 2017-05-23 | 24/7 Customer, Inc. | Systems and methods for facilitating dialogue mining |
WO2015148738A1 (en) * | 2014-03-26 | 2015-10-01 | Unanimous A.I. LLC | Methods and systems for real-time closed-loop collaborative intelligence |
-
2014
- 2014-04-25 US US14/262,096 patent/US11209897B2/en active Active
-
2015
- 2015-04-15 CN CN201510177990.0A patent/CN105005468B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989424A (zh) * | 2009-07-30 | 2011-03-23 | 索尼公司 | 语音处理设备和方法及程序 |
CN103106390A (zh) * | 2011-11-11 | 2013-05-15 | 索尼公司 | 信息处理设备、信息处理方法及程序 |
Also Published As
Publication number | Publication date |
---|---|
US20150309561A1 (en) | 2015-10-29 |
CN105005468A (zh) | 2015-10-28 |
US11209897B2 (en) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005468B (zh) | 使用自然用户界面输入加强预测置信和命令优先级 | |
US10643621B2 (en) | Speech recognition using electronic device and server | |
CN107025906B (zh) | 扩展语音识别的周期的方法和产品以及信息处理设备 | |
US11138971B2 (en) | Using context to interpret natural language speech recognition commands | |
US10796693B2 (en) | Modifying input based on determined characteristics | |
US10831440B2 (en) | Coordinating input on multiple local devices | |
CN106257410B (zh) | 用于声音辅助输入的多模式消岐的方法、电子装置和设备 | |
US20150213796A1 (en) | Adjusting speech recognition using contextual information | |
US10741182B2 (en) | Voice input correction using non-audio based input | |
US10770060B2 (en) | Adaptively learning vocabulary for completing speech recognition commands | |
CN107643909B (zh) | 用于协调多个本地设备上的输入的方法和电子设备 | |
EP3001283A2 (en) | Multi-modal fusion engine | |
CN108073275B (zh) | 信息处理方法、信息处理设备及程序产品 | |
TWI668629B (zh) | 欄位條目的音訊輸入技術 | |
US20180364798A1 (en) | Interactive sessions | |
US10845884B2 (en) | Detecting inadvertent gesture controls | |
US20170116174A1 (en) | Electronic word identification techniques based on input context | |
US20190050391A1 (en) | Text suggestion based on user context | |
US8544082B2 (en) | Security reuse in hybrid information handling device environments | |
US20190294766A1 (en) | Authentication based on determined privacy level of command | |
US20190065608A1 (en) | Query input received at more than one device | |
US9659480B2 (en) | Reminders based on virtual locations | |
US11048782B2 (en) | User identification notification for non-personal device | |
US20180364809A1 (en) | Perform function during interactive session | |
US11409855B2 (en) | Gesture based CAPTCHA test |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |