CN105468137B - 电子装置及用于多形态融合的方法 - Google Patents
电子装置及用于多形态融合的方法 Download PDFInfo
- Publication number
- CN105468137B CN105468137B CN201510355626.9A CN201510355626A CN105468137B CN 105468137 B CN105468137 B CN 105468137B CN 201510355626 A CN201510355626 A CN 201510355626A CN 105468137 B CN105468137 B CN 105468137B
- Authority
- CN
- China
- Prior art keywords
- input
- command
- electronic device
- application
- modality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 6
- 241000699666 Mus <mouse, genus> Species 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000699670 Mus sp. Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010922 spray-dried dispersion Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/0416—Control or interface arrangements specially adapted for digitisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Debugging And Monitoring (AREA)
- Input From Keyboards Or The Like (AREA)
- Stored Programmes (AREA)
Abstract
本发明提供了一种电子装置及用于多形态融合的方法。所述用于多形态融合的方法包括:在电子装置处检测使用第一形态的命令输入;在电子装置处检测使用不同形态的选择输入;使用处理器将所述命令输入和所述选择输入组合成应用格式的命令;以及将应用格式的命令提供给所述电子装置上运行的应用以供执行。描述并要求保护其它方面。
Description
技术领域
本发明涉及一种电子装置及用于多形态融合的方法。
背景技术
某些电子装置(例如台式电脑和笔记本电脑)提供了丰富的输入环境(诸如物理鼠标和键盘)以及其它输入形态(例如用于视线追踪(gaze tracking)/眼球输入(eyeinputs)的摄像头、用于语音输入的麦克风等)。其它电子装置采用不同的形式,例如诸如平板计算装置或智能电话的更加便携的形式。这些便携形式中的一些通常缺少一个或更多个输入装置,例如物理键盘和鼠标。
用户可能希望使用具有考虑到不同形式的电子装置而设计的应用(例如电子表格应用)的更小型和便携的电子装置(例如平板电脑或智能电话)。因此,用户可能发现,与应用的移动装置版本相比,正讨论的应用在更传统的形式因素(例如笔记本电脑或台式电脑)上具有增强的使用能力。即使在应用完全以便携形式实现的情况下,用户仍可能发现难以与某些便携装置(例如平板电脑、智能电话等)上的应用交互。这是由电子装置的差异(即每个电子装置所提供的不同输入环境)所导致的。
发明内容
总之,一个方面提供了一种方法,包括:在电子装置处检测使用第一形态的命令输入;在电子装置处检测使用不同形态的选择输入;使用处理器将命令输入和选择输入组合成应用格式的命令;以及将该应用格式的命令提供给电子装置上运行的应用以供执行。
另一方面提供了一种电子装置,包括:第一输入装置,其检测使用第一形态的用户输入;第二输入装置,检测使用不同形态的用户输入;处理器;以及存储器,所述存储器存储能够由处理器执行以实现如下操作的指令:检测使用第一形态的命令输入;检测使用不同形态的选择输入;将命令输入和选择输入组合成应用格式的命令;以及将应用格式的命令提供给电子装置上运行的应用以供执行。
再一方面提供了一种程序产品,包括:存储装置,所述存储装置存储处理器可执行的代码,处理器可执行的代码包括:用于检测使用第一形态的命令输入的代码;用于检测使用不同形态的选择输入的代码;用于将命令输入和选择输入组合成应用格式的命令的代码;以及用于将应用格式的命令提供给电子装置上运行的应用以供执行的代码。
以上为概要,从而可能包含简化、概括及细节的省略。因此,本领域的技术人员将理解的是,该概要仅仅是说明性的并且不意在以任何方式进行限制。
为了更好地理解实施方式连同实施方式的其它的和进一步的特征及优点,参考以下的结合附图的描述。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理装置电路的示例。
图2示出了信息处理装置电路的另一示例。
图3示出了具有示例网络浏览器应用的多形态融合的示例。
图4示出了用于多形态融合的系统的示例概述。
图5示出了具有示例电子表格应用的多形态融合的示例。
具体实施方式
将容易理解的是,可以以所描述的示例实施方式以外的多种不同的配置来布置和设计本文附图中总体描述并示出的实施方式的部件。因而,如在附图中示出的示例实施方式的以下更详细的描述,不意在限制所要求保护的实施方式的范围,而只是代表示例实施方式。
贯穿本说明书,对“一个实施方式”或“实施方式”(等)的指代意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此,在本说明书全文的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。
此外,在一个或更多个实施方式中,可以以任何适当的方式组合所描述的特征、结构或特性。在下面的描述中,提供了许多具体的细节以给出对于实施方式的透彻理解。然而,相关领域的技术人员将认识到,可以使用其它的方法、部件、材料等来实施各种实施方式,而无需一个或更多个具体细节。在其它示例中,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
实施方式允许用户通过组合输入的形态来以更自然的方式与电子装置进行交互。例如,实施方式允许用户将自然口语与诸如触摸输入、手势输入或眼球跟踪输入的其它形态组合使用,以用于操作电子装置应用。因此,实施方式解决了指代消解的问题,即,当在例如“用电子邮件将这个表格发送给约翰”、“将这个段落翻译为西班牙语”等的语句中使用诸如“这个”、“那个”等的表达时,可靠地理解用户所指的是哪个实体。
目前商业上可用的多形态方案不允许语音和其它形态的紧密结合,而是允许用户选择一种形态或另一种形态来执行其任务。这阻止了用户说出涉及用户可能希望用以提供输入的其它事件(诸如触摸、手势或注视)的自然语句。可以理解的是,实施方式允许充分利用具有受限的输入形态(例如缺少物理键盘和鼠标)的电子装置,诸如移动电话、平板计算装置等型式因素。因此,用户可以采用许多应用,例如电子表格应用、文字处理应用等以充分发挥作用。
如本文进一步描述的,实施方式使用一组单一形态的输入处理器(诸如语音识别器、触摸屏事件处理器、视线跟踪器等)来采集用户可以分别提供的各种输入,虽然这些输入彼此相关。本文中被称为“库”或“数据库”的单一事件库存储输入事件(incomingevent),其具有之后通过与其它事件、命令等的关联来推断其含义所必需的信息和时间戳。例如,时间戳可以允许实施方式确定在用户触摸特定点时屏幕上是什么。自然语言理解模块从用户所说的语句中提取命令(例如“复制”、“翻译”、“发送电子邮件”等)和指代表述(例如“这个表格”、“约翰”、“这个段落”等)。然后,指代消解引擎将所提取的、指代表述与应用内的一个或更多个实体匹配,从而使用应用特定解析器来产生应用可用的输出。
这种模块化架构提供了从应用本身中抽象出多形态融合所需的核心处理的方法。换言之,实施方式可以实现为广义子系统,该广义子系统可以在多个应用内容易地重用,其中,每个应用仅需有限数量的编码。
与其它多形态方案相比,在许多情形下,特别是在涉及操纵诸如文档、通讯录(例如来自地址簿或社交网络)、图像等的实体的应用中,本文中描述的实施方式允许更自然地交互。此外,与多形态融合的应用特定方式相比,这样的模块化架构赋予实施方式很大的灵活性,降低了开发新应用的难度和成本。
通过参考附图可以最好地理解所示出的示例实施方式。下面的描述仅意在作为示例,并且简要示出了某些示例实施方式。
虽然在信息处理装置中可以采用各种其它电路、电路系统或部件,但是对于智能电话和/或平板电路系统100来说,图1所示的示例包括在例如平板或其它便携式计算平台中发现的芯片设计上的系统。软件和处理器被组合在单芯片110中。处理器包括内部运算单元、寄存器、高速缓存存储器、总线、I/O端口等。内部总线等取决于不同的供应商,但基本上所有附加装置(120)均可以附接到单芯片110。电路系统100将处理器、存储器控制以及I/O控制器集线器全部组合到单芯片110中。并且,这种类型的系统100通常不使用串行高级技术附件(SATA)或外部设备互联(PCI)或LPC。公共接口例如包括安全数字输入输出(SDIO)和I2C。
存在用于管理经由例如可再充电电池140供应的电力的电力管理电路130(例如电池管理单元BMU),可再充电电池140可以通过连接到电源(未示出)而再充电。在至少一个设计中,使用单个芯片(诸如110)来提供类似BIOS的功能和DRAM存储器。
系统100通常包括无线广域网(WWAN)收发器150和无线局域网(WLAN)收发器160中的一个或更多个以连接到各种网络,诸如电信网络和无线因特网装置(如接入点)。另外,附加装置120通常包括例如图像传感器(诸如摄像头)或音频传感器(诸如麦克风)。通常,系统100包括用于数据输入、显示/呈现的触摸屏/控制器170。系统100通常还包括各种存储装置,例如闪存180和同步动态随机存取存储器(SDRAM)190。
图2描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于诸如由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的THINKPAD系列的个人计算机的计算系统或其它装置。根据本文的描述明显可知,实施方式可以包括其它特征或仅包括图2所示的示例的特征中的一些特征。
图2的示例包括其架构可能依据制造商(例如,INTEL、AMD、ARM等)而不同的所谓的芯片集210(一起工作的一组集成电路或芯片,芯片集)。INTEL是英特尔公司在美国和其它国家的注册商标。AMD是超微半导体公司在美国和其它国家的注册商标。ARM是安谋国际科技股份有限公司在美国或其它国家的未注册商标。芯片集210的架构包括经由直接管理接口(DMI)242或链接控制器244交换信息(例如数据、信号、命令等)的核/存储器控制组220和I/O控制器集线器250。在图2中,DMI242是芯片-芯片接口(有时称为“北桥”与“南桥”之间的链接)。核/存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意组220的部件可以被集成在代替传统“北桥”式架构的芯片中。一个或更多个处理器222包括内部算术运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226和存储器240连接(例如,以对可以被称为“系统存储器”或“存储器”的RAM类型提供支持)。存储器控制器集线器226还包括用于显示装置292(例如,CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以通过LVDS接口232支持的一些技术(例如串行数字视频、高清晰度多媒体接口(HDMI)/数字视频接口(DVI)、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI扩展接口(PCI-E)234。
在图2中,I/O控制器集线器250包括SATA接口251(例如用于HDD,SDD 280等),PCI-E接口252(例如用于无线连接282)、USB接口253(例如,用于诸如数字转换器、键盘、鼠标、摄像头、电话、麦克风、存储装置、其它连接装置等的装置284)、网络接口254(例如,LAN)、通用输入输出(GPIO)接口255、LPC接口270(用于专用集成电路(ASIC)271、TPM 272、超级I/O273、固件集线器274、BIOS支持275以及如ROM 277、闪存278以及NVRAM 279的各种类型的存储器276),电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器或麦克风294)、TCO接口264、系统管理总线接口265以及可以包括基本输入输出系统(BIOS)268和启动代码290的SPI闪存266。I/O控制器集线器250可以包括千兆比特的以太网支持。
系统在通电时可以被配置成执行存储在SPI闪存266内的用于BIOS 268的启动代码290,此后,在一个或更多个操作系统和应用软件(例如存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多个位置中的任意位置,并且可以根据例如BIOS 268的指令被访问。如本文所描述的,装置可以包括比图2的系统中示出的特征更少或更多的特征。
可以在各种实施方式中使用例如如图1或图2所概述的信息处理装置电路。然而,为了通过非限制性的示例的方式来突出某些方面,将结合对包括例如通过图1中的示例所概述的电路的电子装置(诸如平板电脑或智能电话)的操作来描述某些实施方式。
应理解的是,在目前装置主要依赖于触摸屏输入和麦克风输入来进行应用控制的情况下,这样的装置(例如平板式计算装置)主要提供了触摸屏、麦克风和摄像头作为主要输入装置。在实施方式中,这样的形态的融合提供了更友好的用户体验,特别是针对某些应用可以向用户保证不被这样的设备所支持的其它输入形态(例如物理鼠标)。
通过示例,并且参考图3,考虑在诸如图1的触摸屏/控制器170的显示装置上呈现网页的文本和图像的网络浏览器。实施方式允许用户以流线的方式来提供触摸输入和语音输入,以操作各种功能,诸如文本选择、复制、共享等。
在图3的示例中,用户可以在平板计算装置的例如触摸输入显示器上的特定词(例如位置301处的“Backed”)处提供触摸输入。通常,由于该词不是超文本链接的,因而该区域301中的触摸输入将没有影响(除了可能稍微地重新定位呈现的网页之外)。然而,实施方式将该触摸输入事件记录在库中,例如在与网页中的元素(在该示例中是词“Backed”)关联的特定位置(例如触摸屏坐标)处发生了触摸输入。如本文所描述的,该事件数据可以存储为上下文数据并与时间戳(例如“t1”时刻)相关联。
在例如“t2”时刻的另一时间,用户可以使用自然语言(诸如“对其进行复制”)来将语音输入提供给例如平板计算装置100的麦克风120。在传统的系统中,“其”与用户先前触摸的词(在该示例中为与触摸位置301相关联的“Backed”)之间不存在关联。然而,由于实施方式将预定数量的事件(如本文中进一步描述的,预定数量的事件可以变化)保持在库或事件数据库中以建立上下文数据存储库,因此语音输入命令“复制”可以与词“Backed”的位置301处的触摸输入相关联。因此,实施方式可以执行复制命令,例如将词“Backed”放置在剪切板上以粘贴至另一位置(例如电子邮件、文本消息等的正文)。
通过扩展上述示例,实施方式可以使用自然语言处理来容易地区分各种命令以及利用多形态融合来解决任何歧义。因此,例如,如果输入命令为“复制该语句”,则实施方式可以将301处的触摸输入(即与词“Backed”相关联)进一步与语句“Backed by the GoogleApp Store…”302相关联。因此,通过触摸事件301与语音输入命令的自然语言处理的简单融合,借助于实施方式对上下文库和关联的访问,用户能够复制整个语句。
可以进一步理解的是,同样通过在触摸输入显示器(即该示例中的区域301)上简单触摸相同的点,实施方式可以同样地从命令“对其进行复制”和命令“复制该语句”中区分命令“复制该段落”,以允许用户复制整个段落。大致相同的情况可以用于网页中的其它元素,例如图片、表格等。因此,使用触摸和语音输入的融合来帮助用户进行各种动作(例如选择和复制动作),就如同用户装备有具有物理鼠标、键盘等的电子装置一样。
如同正讨论的电子装置访问了更多传统的输入装置一样,实施方式具有以增强的方式对各种应用给出输入的能力。应理解的是,可以通过应用开发人员建立指示应用需要哪些类型输入的形式来促进该能力。鉴于该信息,实施方式所提供的融合引擎可以收集提供形态输入的融合所需要的上下文信息,所述形态输入映射到特定应用所需的输入或与特定应用所需的输入相关联。将通过进一步非限制性的示例的方式来描述电子表格应用。
首先,参考图4关于这一点来整体上概述实施方式。在图4的该示例中示出了总体框架。如所描述的,装置将具有传感器或输入装置401,例如如图4所示的麦克风或触摸输入能力。使用这些装置或传感器401,用户可以与装置进行交互,例如提供触摸事件和语音输入。
实施方式使用麦克风401来接收语音输入(例如以自然语言形式发出的命令),并且将这些语音输入提交至语音识别系统,在本示例中提交至自然语言理解或处理模块402。这使得实施方式能够准确地理解字面输入(使用语音识别)并解析自然语言输入,即将语音识别系统的字面解释翻译成例如用于电子装置上运行的应用的可用的命令参数。
同样地,实施方式对事件(例如提供给触摸屏显示器的触摸事件、提供给摄像头和视线跟踪子系统的眼聚焦事件等)进行记录,并且将这些事件存储在事件历史数据库403中。可以理解的是,事件历史数据库403可以存储许多事件或几个事件(例如,最近的“x”个事件,其中,例如可以基于用户偏好、系统能力(如存储器的数量)等定制或修改“x”)。
如图4所示,自然语言理解或处理模块402的输出可以是命令。事件历史数据库可以被指代消解模块404访问或咨询以提供用于指代消解。作为示例,语音输入“复制该段落”的自然语言处理会如实地产生“复制”命令解析。然而,对事件历史数据库403的访问使得实施方式能够上下文地理解在该情况下“该段落”是什么段落,即借用图3所示的示例,用户最近触摸的网页的段落,可能是与触摸位置301关联的段落。
因此,可以理解的是,实施方式在405处可以输出补充有参数的用户命令,例如“该段落”的特定应用指代。这允许用户使用对可能具有歧义的语音输入命令的上下文理解或解析来控制应用,例如电子装置上运行的应用的复制功能。应进一步理解的是,这样的解析有效地扩展了许多更小规格装置上提供的有限数量的传感器或输入装置401的能力,使得用户能够与甚至更复杂的应用容易地交互。
转向图5,参考电子表格应用来说明这样的应用控制的示例。应该注意的是,这是非限制性的示例,并且本文中一般性描述的原理可以被扩展至许多其它类型的应用、输入事件、形态等。
在图5的示例中,使用电子表格应用来说明根据实施方式的多形态融合的示例。在图5中,电子表格500A包括具有标题单元格值(诸如“一月”、“二月”、“三月”、以及“四月”)的不同列。同样地,按照电子表格应用的布局,所示出的电子表格500A包括每列的行中的值。
如本文中进一步描述的,如果用户将触摸输入501提供至给定的单元格,则该事件将被记录并存储在例如事件历史数据库403中,用于供以后在上下文解析方面参考。如果用户使用不同的形态(例如,诸如“对此求平均”的语音输入502)附加地提供了另一输入,则实施方式同样地例如经由诸如麦克风的传感器401接收该输入,使用自然语言处理器或理解模块402来处理该输入。应该注意的是,可以以任意顺序来接收输入(在本示例中为语音和触摸)。
在传统的设置中,语音输入“对此求平均”可以由诸如402的自然语言处理器来处理,并且被理解为用于例如运行中的电子表格应用的“求平均”命令。然而,将不能解析歧义“此”。然而,在实施方式中,多形态融合允许指代消解模块404例如通过咨询事件历史数据库403来确定语音输入命令中的“此”指的是触摸输入501,即触摸输入显示器的与电子表格应用的列“二月”逻辑上关联的区域。因此,实施方式可以提供有格式的应用数据(例如针对列“二月”的“求平均”命令),使得电子表格应用可以处理该有格式的应用数据并在预定区域(例如503)中产生输出“17.5”。
因此,用户可以提供触摸输入501和语音输入502,以产生电子表格的列的平均,例如更新电子表格以形成500B,即在列“二月”下的预定单元格503中包括平均值“17.5”。以该方式,多形态融合使得用户能够容易地使用通常需要使用更复杂的输入装置(例如鼠标和/或键盘)或否则需要单独提供给触摸屏的冗长的输入的应用(诸如电子表格应用)。
如本领域的技术人员将理解的,各个方面可以被实施为系统、方法或装置程序产品。因此,各个方面可以采用完全硬件实施方式或包括软件的实施方式的形式,其在本文中可以全部统称为“电路”、“模块”或“系统”。此外,各个方面可以采用在一个或多个装置可读介质中实施的装置程序产品的形式,在所述一个或多个装置可读介质中包含有装置可读程序代码。
应该注意,本文所描述的各种功能可以使用存储在装置可读存储介质(如通过处理器执行的非信号存储装置)上的指令来实施。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或前述的任何适当的组合。存储介质的更多具体示例可以包括如下:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任何适当的组合。在本文的上下文中,存储介质不是信号并且“非暂态”包括除了信号介质以外的所有介质。
可以使用任何适当的媒介来传输存储介质上所包含的程序代码,包括但不限于无线、电线、光纤线缆、RF等或前述的任何适合的组合。
可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。该程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包执行、部分地在单个装置上执行且部分地在另一装置上执行,或完全在其他装置上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接装置,或者可以通过其它装置(例如通过使用因特网服务提供商的因特网)或通过无线连接(如近场通信)或通过硬线(如通过USB连接)来进行连接。
本文参照附图描述了示例实施方式,这些附图示出了根据各种示例实施方式的示例方法、装置以及程序产品。要理解的是,可以至少部分地由程序指令来实现动作和功能。可以将这些程序指令提供给装置的处理器以产生机器,以使得经由装置的处理器执行的指令实现指定的功能/动作。
值得注意,虽然在附图中使用了特定块,并且已经示出了块的特定顺序,但是这些是非限制性示例。在某些上下文中,可以合并两个或更多个块,可以将一个块分为两个或更多块,或者可以将某些块恰当地重新排序或重新组织,因为详细示出的示例仅用于描述目的而不解释为限制性的。
除非另外明确指出,本文所使用的单数的“一”和“一个”可以被解释为包括复数“一个或更多个”。
为了说明和描述的目的呈现了本公开内容而非意在穷举或限制。对于本领域的技术人员来说,许多修改和变型将是明显的。为了说明原理和实际应用选择并描述了示例实施方式,并且示例实施方式使得本领域的技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。
因此,虽然本文参照附图描述了说明性的示例实施方式,但是要理解本描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下本领域的技术人员可以对其作出各种其它变化和修改。
Claims (15)
1.一种用于多形态融合的方法,包括:
在电子装置处检测使用第一形态的命令输入;
在所述电子装置处检测使用不同形态的选择输入;
使用处理器将所述命令输入和所述选择输入组合成应用格式的命令;以及
将所述应用格式的命令提供给所述电子装置上运行的应用以供执行;
其中,所述组合包括参考存储的输入的库;所述库的单一事件库存储输入事件,用于推断所述第一形态的命令输入的含义;
其中,所述命令输入包括自然语言语音输入;
使用处理器将所述命令输入和所述选择输入组合成应用格式的命令包括:
从输入的自然语言语音中提取命令和指代表述;
基于所述库,将所述指代表述与应用内的一个或更多个实体匹配,组合成对所述实体的命令。
2.根据权利要求1所述的方法,其中,所述组合包括将所述命令输入和所述选择输入中的一个或更多个与特定的形式相关联。
3.根据权利要求2所述的方法,其中,所述关联包括将所述命令输入和所述选择输入中的一个或更多个转换成不同的形式。
4.根据权利要求3所述的方法,其中,所述转换包括对所述命令输入应用自然语言处理。
5.根据权利要求3所述的方法,其中,所述转换包括将触摸输入显示坐标与所述应用内呈现的对象相关联。
6.根据权利要求1所述的方法,其中,所述参考包括响应于所述命令输入和所述选择输入中的一个或更多个来访问存储的输入的所述库。
7.根据权利要求1所述的方法,其中,所述选择输入选自触摸输入、手势输入以及眼球跟踪输入。
8.一种电子装置,包括:
第一输入装置,其检测使用第一形态的用户输入;
第二输入装置,其检测使用不同形态的用户输入;
处理器;以及
存储器,所述存储器存储能够由所述处理器执行以实现如下操作的指令:
检测使用第一形态的命令输入;
检测使用不同形态的选择输入;
将所述命令输入和所述选择输入组合成应用格式的命令;以及
将所述应用格式的命令提供给所述电子装置上运行的应用以供执行;
其中,所述组合包括参考存储的输入的库;所述库的单一事件库存储输入事件,用于推断所述第一形态的命令输入的含义;将所述命令输入和所述选择输入组合成应用格式的命令包括:
从输入的自然语言语音中提取命令和指代表述;
基于所述库,将所述指代表述与应用内的一个或更多个实体匹配,组合成对所述实体的命令。
9.根据权利要求8所述的电子装置,其中,所述组合包括将所述命令输入和所述选择输入中的一个或更多个与特定的形式相关联。
10.根据权利要求9所述的电子装置,其中,所述关联包括将所述命令输入和所述选择输入中的一个或更多个转换成不同的形式。
11.根据权利要求10所述的电子装置,其中,所述转换包括对所述命令输入应用自然语言处理。
12.根据权利要求10所述的电子装置,其中,所述转换包括将触摸输入显示坐标与所述应用内呈现的对象相关联。
13.根据权利要求8所述的电子装置,其中,所述参考包括响应于所述命令输入和所述选择输入中的一个或更多个来访问存储的输入的所述库。
14.根据权利要求8所述的电子装置,其中,所述选择输入选自触摸输入、手势输入以及眼球跟踪输入。
15.根据权利要求8所述的电子装置,其中,所述第一输入装置和所述第二输入装置不是同一装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/498,241 | 2014-09-26 | ||
US14/498,241 US10649635B2 (en) | 2014-09-26 | 2014-09-26 | Multi-modal fusion engine |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105468137A CN105468137A (zh) | 2016-04-06 |
CN105468137B true CN105468137B (zh) | 2020-10-16 |
Family
ID=54291024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510355626.9A Active CN105468137B (zh) | 2014-09-26 | 2015-06-24 | 电子装置及用于多形态融合的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10649635B2 (zh) |
EP (1) | EP3001283A3 (zh) |
CN (1) | CN105468137B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10444977B2 (en) * | 2014-12-05 | 2019-10-15 | Verizon Patent And Licensing Inc. | Cellphone manager |
US9811312B2 (en) * | 2014-12-22 | 2017-11-07 | Intel Corporation | Connected device voice command support |
DK179588B1 (en) * | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
KR102630662B1 (ko) * | 2018-04-02 | 2024-01-30 | 삼성전자주식회사 | 어플리케이션 실행 방법 및 이를 지원하는 전자 장치 |
EP3973469A1 (en) * | 2019-08-02 | 2022-03-30 | Google LLC | Systems and methods for generating and providing suggested actions |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749990A (zh) * | 2011-04-08 | 2012-10-24 | 索尼电脑娱乐公司 | 通过追踪用户视线和姿态提供反馈的系统和方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131437A (ja) * | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
JPH1186015A (ja) * | 1997-09-09 | 1999-03-30 | Canon Inc | 情報処理方法及び装置及びその記憶媒体 |
US6996800B2 (en) * | 2000-12-04 | 2006-02-07 | International Business Machines Corporation | MVC (model-view-controller) based multi-modal authoring tool and development environment |
US7401337B2 (en) | 2003-12-19 | 2008-07-15 | International Business Machines Corporation | Managing application interactions using distributed modality components |
US20070124507A1 (en) * | 2005-11-28 | 2007-05-31 | Sap Ag | Systems and methods of processing annotations and multimodal user inputs |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8417529B2 (en) * | 2006-12-27 | 2013-04-09 | Nuance Communications, Inc. | System and methods for prompting user speech in multimodal devices |
US10437459B2 (en) * | 2007-01-07 | 2019-10-08 | Apple Inc. | Multitouch data fusion |
US8296151B2 (en) | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8836638B2 (en) | 2010-09-25 | 2014-09-16 | Hewlett-Packard Development Company, L.P. | Silent speech based command to a computing device |
US9348417B2 (en) | 2010-11-01 | 2016-05-24 | Microsoft Technology Licensing, Llc | Multimodal input system |
US20120260176A1 (en) * | 2011-04-08 | 2012-10-11 | Google Inc. | Gesture-activated input using audio recognition |
US20140350942A1 (en) * | 2013-05-23 | 2014-11-27 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
-
2014
- 2014-09-26 US US14/498,241 patent/US10649635B2/en active Active
-
2015
- 2015-06-24 CN CN201510355626.9A patent/CN105468137B/zh active Active
- 2015-09-28 EP EP15187209.0A patent/EP3001283A3/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102749990A (zh) * | 2011-04-08 | 2012-10-24 | 索尼电脑娱乐公司 | 通过追踪用户视线和姿态提供反馈的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20160092074A1 (en) | 2016-03-31 |
CN105468137A (zh) | 2016-04-06 |
EP3001283A2 (en) | 2016-03-30 |
US10649635B2 (en) | 2020-05-12 |
EP3001283A3 (en) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468137B (zh) | 电子装置及用于多形态融合的方法 | |
US11138971B2 (en) | Using context to interpret natural language speech recognition commands | |
CN105528339B (zh) | 基于上下文的文本校正的方法和设备 | |
US9524428B2 (en) | Automated handwriting input for entry fields | |
CN106407176B (zh) | 在语音识别中插入字符的方法和设备 | |
TWI668629B (zh) | 欄位條目的音訊輸入技術 | |
CN106020434B (zh) | 人机接口设备输入融合的方法、设备及产品 | |
US9229543B2 (en) | Modifying stylus input or response using inferred emotion | |
US10437350B2 (en) | Stylus shorthand | |
US9858272B2 (en) | Context enriched application text translation | |
US20150135115A1 (en) | Multi-touch input for changing text and image attributes | |
US20150002484A1 (en) | Stylus lexicon sharing | |
US20150169214A1 (en) | Graphical input-friendly function selection | |
US10592096B2 (en) | Cursor indicator for overlay input applications | |
US11238865B2 (en) | Function performance based on input intonation | |
US20170116174A1 (en) | Electronic word identification techniques based on input context | |
US9298692B2 (en) | Real time data tagging in text-based documents | |
US11175746B1 (en) | Animation-based auto-complete suggestion | |
US10133368B2 (en) | Undo operation for ink stroke conversion | |
CN106557251B (zh) | 书写区至数字显示器的灵活映射 | |
US20190050391A1 (en) | Text suggestion based on user context | |
US10380460B2 (en) | Description of content image | |
US20150049009A1 (en) | System-wide handwritten notes | |
US10255493B2 (en) | Ink layout analysis | |
US9870188B2 (en) | Content visibility management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |