CN105589555A - 视线触发语音识别 - Google Patents
视线触发语音识别 Download PDFInfo
- Publication number
- CN105589555A CN105589555A CN201510579132.9A CN201510579132A CN105589555A CN 105589555 A CN105589555 A CN 105589555A CN 201510579132 A CN201510579132 A CN 201510579132A CN 105589555 A CN105589555 A CN 105589555A
- Authority
- CN
- China
- Prior art keywords
- user
- sight line
- phonetic entry
- voice
- input module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/12—Digital output to print unit, e.g. line printer, chain printer
- G06F3/1201—Dedicated interfaces to print systems
- G06F3/1202—Dedicated interfaces to print systems specifically adapted to achieve a particular effect
- G06F3/1203—Improving or facilitating administration, e.g. print management
- G06F3/1208—Improving or facilitating administration, e.g. print management resulting in improved quality of the output result, e.g. print layout, colours, workflows, print preview
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Abstract
本发明涉及视线触发语音识别。一个实施例提供了一种方法,包括:在电子设备处检测用户视线的位置;基于用户视线的位置来激活语音输入模块;在电子设备处检测语音输入;使用语音输入模块来评估语音输入;以及基于对语音输入的评估来执行至少一个动作。描述并要求保护了其他方面。
Description
背景技术
随着智能数字个人助理的产生,(例如,SIRI、SVoice、GOOGLENOW、CORTANA以及HIDI)使用语音命令来控制电子设备已经变得非常普遍。SIRI是苹果公司在美国和其他国家的注册商标。SVOICE是三星电子公司在美国和其他国家的注册商标。GOOGLE是谷歌公司在美国和其他国家的注册商标。CORTANA是微软在美国和其他国家的申请中的待决商标。通常,用户通过使用自然语言与例如包含在个人助理中的语音输入模块进行交互。这种类型的接口使得设备能够从用户接收语音输入,例如,语音命令(例如,“明天天气怎样”,“给Dan打电话”),通过自身执行任务或将用户的请求委托给期望的应用来处理这些请求并且执行用户所期望的动作。
因为自然语言是人感到舒服的交流的主要方法,使用语音命令的能力提供了自然和高效的方式来利用设备的操作系统或应用的无论多简单或多复杂的功能。然而,利用个人助理时的主要的问题之一是确定用户的语音的什么部分意在被接收为语音命令。在可用水平的误报(即,助理对不相关的语音进行响应)和漏报(即,助理忽略用户命令)的情况下,持续地听用户已经证明是太难完成的任务。此外,个人助理可能是高能耗应用,因此,使个人助理在后台不断地运行可能对电池寿命具有显著的影响。为了克服这个问题,现在的大多数语音控制助理利用一些形式的触发来启动语音识别处理。这种触发假定紧接在触发之后的任何语音都是指向助理的命令。一些常见的触发是物理按钮按下(例如,SIRI激活)和在任何指向系统的命令之前说的特定的关键短语(例如,OKayGOOGLE)。
发明内容
总体上,一方面提供了一种方法,包括:在电子设备处检测用户视线的位置;基于用户视线的位置来激活语音输入模块;在电子设备处检测语音输入;使用语音输入模块来评估语音输入;以及基于对语音输入的评估来执行至少一个动作。
另一方面提供了一种信息处理设备,包括:处理器;至少一个传感器,至少一个传感器工作上耦接至处理器;以及存储器,该存储器存储指令,所述指令能够由处理器执行以:检测用户视线的位置;基于用户视线的位置来激活语音输入模块;使用至少一个传感器来检测语音输入;使用语音输入模块来评估语音输入;以及基于对语音输入的评估来执行至少一个动作。
又一方面提供了一种电子设备,包括:用于基于所述用户视线的所述位置来激活语音输入模块的激活单元;用于检测语音输入的语音输入单元;用于使用所述语音输入模块来评估所述语音输入的评估单元;用于基于对所述语音输入的评估来执行至少一个动作的执行单元
前述是总结性的并且因此可能包含细节的简化、概括及省略;因此,本技术领域的普通技术人员要理解,该总结仅是说明性的并且不意在以任何方式的限制。
为了更好地理解实施例连同实施例的其他的和进一步的特征和优点,参考以下的结合附图的描述。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理设备电路系统的示例。
图2示出了信息处理设备电路系统的另一示例。
图3示出了视线触发识别的示例方法。
图4示出了视线触发识别的另一示例方法。
具体实施方式
将容易理解的是,可以用除所描述的示例实施例之外的多种不同的配置来布置和设计在本文附图中一般地描述并示出的实施例的部件。从而,以下如在附图中示出的、示例实施例的更详细的描述,不意在限制所要求保护的实施例的范围,而只是示例实施例的代表。
本说明书全文中,对“一个(one)实施例”或“一种(an)实施例”(等)的引用意味着结合实施例所描述的特定特征、结构或特性包含在至少一个实施例中。因此,在本说明书全文的各处所出现的短语“在一个实施例中”或“在一种实施例中”等未必都指同一实施例。
而且,在一个或多个实施例中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施例的透彻的理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下,使用其他的方法、部件、材料等来实施各种实施例。在其他示例中,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
实施例使得用户能够通过跟踪用户的视线并且使用用户视线的位置作为触发机制来与电子设备进行交互。例如,实施例可以在用户的视线固定在智能电话屏幕的右上方和拐角上时主动地听音频输入。因此,实施例方便并且容易地解决了需要手动地触发电子设备以接收音频输入例如语音命令的问题。
一些当前可利用的商业系统使用需要按下特定的按钮的触发(例如,按下并且保持主页按钮以激活SIRI,或按下并且保持搜索按钮以激活CORTANA)。当前可利用的可替选方法是使用关键短语(例如,当运行iOS8或之后版本的设备接通时说“HeySIRI”,或者当运行ANDROID4.3的设备醒着时说“OkayGOOGLE”)。ANDROID是谷歌公司在美国和其他国家的注册商标。当用户说关键短语时,设备被触发来听在关键短语之后的语音命令。
激活触发的当前的方法的主要问题是这些方法往往中断用户当前涉及的无论什么任务(例如,当激活个人助理时退出应用)。特别地,如果用户涉及执行需要在设备上的键盘输入、鼠标输入或触摸输入的任务(例如,编辑邮件、编辑文档、浏览图片或观看社交网络),则用户将必须中断该任务或者可能甚至必须关闭其当前的应用以点击、触摸或进入独立的区域以访问个人助理。
对触觉输入的要求的一个现有的解决方案是使用关键短语。目前,大多数关键短语仅能在第三方应用的外部使用,或者要求你处于设备的操作系统的特定菜单中或特定屏幕中(例如,在说“OkayGOOGLE”之前处于GOOGLEnow应用中)。因此,关键短语触发可以没有和按键方法一样的限制性,关键短语触发可以使用户重新放置他们的手或使用双手来按键。然而,使用关键短语的方法也有缺点。即使关键短语可以在第三方应用中使用,关键短语触发也必须在由用户给出的每个语音命令之前说出。这个不变并且重复的动作给用户增加了负担并且降低了智能助理的作为其主要特性之一的自然语言方面的优点。
因此,实施例通过利用视线跟踪来解决这些限制,这使得用户能够通过简单地看向设备的显示器上的指定区域来触发语音识别。实施例使用对用户视线的位置进行检测的传感器设备。然后,实施例激活语音输入模块例如智能助理,语音输入模块检测来自用户的任何语音命令。可以通过用户将其视线固定在设备屏幕的特定的拐角上或通过看向由用户设定的预定位置来激活触发。此外,实施例可以具有在用户希望激活智能助理时用户要聚焦于其上的图标或甚至动画角色(例如,CLIPPY,微软的可爱的办公助理)。
应该注意的是,尽管本文关注于智能助理来提供示例,但是这些示例是非限制性的并且可以将通用的技术一般地应用于通常例如以听写的形式提供或者通常在应用内部的语音模块。
通过参考附图可以最好地理解所示出的示例实施例。下面的描述仅意在作为示例,并且简要示出了特定示例实施例。
虽然在信息处理设备中可以利用各种其他电路、电路系统或部件,但是对于智能电话和/或平板电脑电路系统100来说,图1中示出的示例包括在例如平板电脑或其他移动计算平台中发现的芯片设计上的系统。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括现有技术中众所周知的内部运算单元、寄存器、缓存内存、总线、I/O端口等。内部总线等取决于不同的供应商,但基本上所有外围设备(120)可以附接至单芯片110。电路系统100将处理器、存储器控制器以及I/O控制器集线器全部组合到单芯片110中。并且,这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在有(一个或多个)电力管理芯片130,例如电池管理单元BMU,该电池管理单元BMU管理例如经由可再充电电池140供给的电力,可以通过连接到电源(未示出)来给可再充电电池140充电。在至少一个设计中,单芯片如110用于提供类似BIOS的功能和DRAM存储器。
系统100通常包括用于连接到各种网络例如电信网络和无线因特网设备如接入点的WWAN收发器150和WLAN收发器160中的一个或多个。此外,设备120通常包括图像传感器例如摄像头。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器装置,例如闪存存储器180和SDRAM190。
图2描绘了信息处理设备电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于计算系统,例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人电脑或其他设备。根据此处的描述明显的是,实施例可以包括图2中示出的示例的特征中的仅一些特征或其他特征。
图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组),芯片组210具有可以取决于制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其他国家的注册商标。AMD是超微半导体公司在美国和其他国家的注册商标。ARM是安谋公司在美国和其他国家的注册商标。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224交换信息的一个或多个处理器222(例如单核或多核)和存储器控制器集线器226;注意,组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或多个处理器222包括现有技术中众所周知的内部运算单元、寄存器、缓存内存、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如,为可以被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以经由LVDS接口232来支持的一些技术(例如串行数字视频、HDMI/DVI(高清晰度多媒体接口/数字视频接口)、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O集线器控制器250包括SATA接口251(例如,用于HDD(硬盘驱动器)、SDD(固态硬盘)280等)、PCI-E接口252(例如,用于无线连接282)、USB接口253(例如用于设备284如数字转换器、键盘、鼠标、摄像头、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如LAN)、GPIO(通用输入输出)接口255、LPC接口270(用于ASIC(专用集成电路)271、TPM(可信平台模块)272、超级I/O273、固件集线器274、BIOS支持275以及各种类型的存储器276如ROM(只读存储器)277、闪存278和NVRAM(非易失性随机存储器)279)、电力管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆以太网支持。
系统在通电时可以被配置成执行在SPI闪存266内存储的、用于BIOS268的启动代码290,此后,在一个或多个操作系统和应用程序软件(例如,存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任何位置处,并且可以例如根据BIOS268的指令来访问。如本文所述,设备可以包括比在图2的系统中示出的特征更少或者更多的特征。
信息处理设备电路系统如在图1中或图2中所描画的示例通常可以应用于例如平板电脑、智能电话、个人计算机设备的设备中和/或用户可以用来输入、记录或修改数据的电子设备。例如,图1中所描画的电路系统可以在平板电脑或智能电话实施例中实现,然而,图2中所描画的电路系统可以在个人计算机实施例中实现。
要理解的是,在目前设备主要依赖于触摸屏输入和麦克风输入来进行应用控制的情况下,这样的设备(例如,平板计算设备、个人计算机或智能电话)主要提供了触摸屏、麦克风和摄像头作为主要输入设备。在实施例中,这样的模式的融合提供了更用户友好的体验,特别是针对某些应用可以保证使用不被这样的设备所支持的其他输入模式。
作为示例,并且现在参考图3,示出了将要在通常的信息处理设备的显示器例如图1的触摸屏170或图2的显示设备292上观看的网页。实施例使得用户能够以非侵入性的方式激活智能数字个人助理。
在实施例中,使用传感器设备来检测用户视线的位置。传感器设备可以容置于信息处理设备(例如,平板电脑的网络摄像头、智能电话、个人计算机等)内。此外或可替选地,传感器设备可以是独立的设备(例如,独立的网络摄像头或传感器例如KINECT设备)。KINECT是微软公司在美国和其他国家的注册商标。在另一实施例中,传感器设备可以是任何图像捕获设备或视频捕获设备。此外,传感器可以具有更复杂的特性(例如,范围成像设备、3D扫描设备等)。
作为示例,在实施例中,用户可能正在浏览网页300并且希望利用智能数字个人助理来询问关于其正在观看的网站上的某事物。代替要求用户退出其浏览器应用、使用户按下并且保持按钮或者重复烦人的关键短语,实施例使得用户能够简单地看向屏幕上的预定位置(例如,左下角301)。通过看向该预定位置,用户可以激活个人助理并且任何随后的输入(例如,语音命令)将会被解释为意在由个人助理使用。
作为另外的示例,在实施例中,用户可能正在浏览网页300并且希望利用智能数字个人助理来发出关于与其正在观看的网站不相关的某事物的命令(例如,向其日程表增加预约)。同样,代替要求用户退出其浏览器应用、使用户按下并且保持按钮或者重复烦人的关键短语,用户可以简单地看向屏幕上的预定图标(例如,位于屏幕上的麦克风图标302)。通过看向作为针对语音识别的直观符号的图标,用户可以激活个人助理并且任何另外的输入(例如,语音命令)将被解释为意在由个人助理使用。
在另外的实施例中,用户可能正在浏览网页300并且希望利用智能数字个人助理来询问关于第三方应用上的某事物(例如,在网上购物应用上检查价格)。同样,代替要求用户退出其浏览器应用、使用户按下并且保持按钮或者重复烦人的关键短语,用户可以简单地看向在屏幕上的拟人媒介物(例如,CLIPPY,位于屏幕上的动画角色303等)。通过看向个人助理的视觉表示,用户可以激活个人助理并且任何另外的输入(例如,语音命令)将被解释为意在由个人助理使用。
为了进一步增加直观的特性,实施例可以改变预定位置的视觉表示。作为示例,并且参考图4,实施例可以当用户将其视线指向具有视觉符号401的预定位置时改变颜色或突出该预定位置。这种位置的视觉状态的改变对于用户是清楚的指示符,该指示符表示智能个人助理当前是激活的并且将能够接收另外的命令。此外,位置的视觉状态的改变使得用户能够避免误报。如果用户没有意图激活个人助理,则用户可以避免发出另外的命令并且转移其视线,因此避免了需要取消或退出个人助理应用。
此外或可替选地,实施例可以改变预定图标的视觉表示。作为示例,并且参考图4,实施例可以当用户将其视线指向预定图标402时改变背景颜色或突出预定图标402。在另外的实施例中,图标可以仅当用户的视线聚焦在图标的已知位置时出现或消失。如前所述的这种图标的视觉状态的改变是对智能个人助理当前是激活的清楚的指示符。此外,图标的视觉状态的改变使得用户能够避免误报。如果用户没有意图激活个人助理,则用户容易地避免了需要取消或退出个人助理激活。因此,节省了用户时间并且避免了使用个人助理时受挫。
在另一实施例中,动画角色可以对用户的视觉聚焦作出反应。作为示例,并且参考图4与图3的303进行比较,实施例可以当用户将其视线指向动画角色403的位置时改变动画角色403的反应。在另外的实施例中,动画角色可以取决于多重环境(例如,打开了什么应用、用户的视线存在多长时间、一天的时间等)而具有多重反应,所述多重反应可以向用户指示智能个人助理准备接收特定的命令集。不仅这种角色的反应的改变是对智能个人助理当前是激活的清楚的指示符。此外,如前所述,位置的视觉状态的改变使得用户能够避免误报。如果用户没有意图激活个人助理,则用户容易地避免了需要取消或退出个人助理激活。因此,节省了用户时间并且避免了使用个人助理时受挫。
在另外的实施例中,用户可以选择其希望利用哪些选项(例如,位置、图标、角色等)。因此,如果用户发现动画角色过度侵扰或烦人,则用户可以选择更简单或更清楚的预定位置的选项。可替选地,如果用户记忆预定位置有困难,则用户可以选择实现图标并且使图标一直保持在屏幕上从而使得能够更容易地识别。在另一实施例中,用户可以基于图像、视频、第三方应用等来选择个性化图标或角色。
此外,实施例使得:无论用户选择了什么模式的位置识别(例如,预定位置、图标、角色等),用户都能够选择该位置识别的预定位置。除了总体上的缺省设置之外,用户还可以基于用户已经打开了哪些应用来设置标识符的位置(例如,浏览器的较下角以避免覆盖统一资源定位符(URL)/搜索条、视频的较上角以避免覆盖播放/时间条等)。在另外的实施例中,第三方应用可以具有基于应用的图形用户界面(GUI)的预设的优选位置。在另一实施例中,该预设可以由用户否决。
除了容易使用之外,实施例使得能够提供更大的准确性。用户可能希望进一步防止其不受误报的可能性的影响。因此,实施例可以配合用户的视线提供另外的激活模式。该另外的激活步骤可以包括当前的激活方法例如当用户的视线位于预定位置(例如,待按的按钮)时按下并且保持特定的键。此外或可替选地,实施例可以利用关键短语作为另外的激活模式(例如,当聚焦在动画角色403上时通过名字来指引动画角色403)。
除了上面提到的现有的触发方法之外,视线跟踪使可替选的方法成为可能。例如,实施例可以使得用户能够在激活智能个人助理之前用一只眼睛或两只眼睛眨一次眼或眨两次眼。该另外的步骤在不需要用户的大量额外的努力的情况下并且在不过度繁重(例如,每次用户希望其激活个人助理时重复相同的关键短语)的情况下提供更高程度的能力。
此外或可替选地,实施例可以使得用户能够结合利用他们的视线来移动其设备(例如,平板电脑、智能电话、个人计算机等)。例如,如果用户将其视线固定至预定的图标上并且该图标的视觉状态发生改变,则用户可以(例如,利用加速度计)轻拂或改变其设备的位置或角度作为用于验证用户激活智能个人助理的意图的第二模式。这使得在不需要第二只手或不要求用户重复烦人的关键短语的情况下具有另外的增加的能力。
此外或可替选地,实施例可以例如使用户结合利用他们的视线向其设备发送电子通信(例如,通过蓝牙耳机、近场通信设备等)。例如,如果用户将其视线固定在预定图标上并且该图标的视觉状态发生改变,则用户可以与独立的设备进行交互(例如,按下其蓝牙耳机上的按钮)以验证用户激活智能个人助理的意图。
本领域的普通技术人员将理解的是,本发明的各个方面可以体现为系统、方法或设备程序产品。因此,本发明的各个方面可以采用完全硬件实施例的形式或采用包括软件的实施例的形式,这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。而且,本发明的各个方面可以采用包含在一个或多个设备可读介质中的设备程序产品的形式,该一个或多个设备可读介质具有包含于其中的设备可读程序代码。
应当注意的是,本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质例如非信号存储设备上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备,或前述的任何适当的组合。存储介质的更多的具体示例包括如下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、磁存储设备,或前述的任何适当的组合。在本文档的上下文中,存储介质不是信号,并且“非暂时的”包括除信号介质之外的全部介质。
可以使用任何适当的介质,包括但不限于无线、有线、光缆、RF等或前述的任何适当的组合,来传输在存储介质上所包含的程序代码。
可以以一种或多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在单个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接设备,或可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接例如近场通信或通过硬线连接(例如通过USB连接)来进行连接。
本文参考示出了根据各种示例实施例的示例方法、设备和程序产品的附图来描述示例实施例。要理解的是,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用目的信息处理设备的处理器、专用目的信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器,使得经由设备的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性的示例。由于明确说明的示例仅用于描述的目的,而不应被视为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以按需要将某些块重新排序或重新组织。
如本文所用的那样,除非另行清楚地指明,否则单数“一(a)”和“一个(an)”可以被解释为包括复数“一个或多个”。
给出本公开内容是为了说明和描述的目的,而非意在是穷举或限制。对本领域普通技术人员来说,许多修改和变化是明显的。为了说明原理和实际应用选择并描述了示例实施例,并且示例实施例使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施例的公开内容。
从而,尽管本文参考附图已经描述了说明性的示例实施例,但要理解的是,这个描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下本领域技术人员可以作出各种其他变化和修改。
Claims (20)
1.一种方法,包括:
在电子设备处检测用户视线的位置;
基于所述用户视线的所述位置来激活语音输入模块;
在所述电子设备处检测语音输入;
使用所述语音输入模块来评估所述语音输入;以及
基于对所述语音输入的评估来执行至少一个动作。
2.根据权利要求1所述的方法,其中,检测用户视线的位置包括:使用传感器设备来检测所述用户视线。
3.根据权利要求2所述的方法,其中,所述传感器设备选自:图像捕获设备、视频捕获设备、范围成像设备以及3D扫描设备。
4.根据权利要求1所述的方法,其中,检测语音输入包括:使用音频捕获设备来检测音频。
5.根据权利要求4所述的方法,其中,所检测的音频包括来自所述用户的语音命令。
6.根据权利要求1所述的方法,其中,通过将所述用户视线的位置聚焦在选自预定位置、图标、拟人媒介物、用户选择的图像以及第三方创建的媒介物中的特征上来触发对所述语音输入模块的激活。
7.根据权利要求6所述的方法,还包括:响应于将所述用户视线聚焦在所述特征上来改变所述特征的视觉状态。
8.根据权利要求6所述的方法,其中,基于选自用户选择、第三方应用偏好以及当前设备任务中的因素来确定所述特征的位置。
9.根据权利要求1所述的方法,其中,激活所述语音输入模块是基于使用结合所述用户视线的所述位置来检测输入的模式的命令输入。
10.根据权利要求9所述的方法,其中,所述模式检测选自面部操控、所述设备的速度的改变、电子通信、关键短语以及按钮按下中的输入。
11.一种信息处理设备,包括:
处理器;
至少一个传感器,所述至少一个传感器工作上耦接至所述处理器;以及
存储器,所述存储器存储指令,所述指令能够由所述处理器执行以:
检测用户视线的位置;
基于所述用户视线的所述位置来激活语音输入模块;
使用所述至少一个传感器来检测语音输入;
使用所述语音输入模块来评估所述语音输入;以及
基于对所述语音输入的评估来执行至少一个动作。
12.根据权利要求11所述的信息处理设备,其中,检测用户视线的位置包括:使用选自图像捕获设备、视频捕获设备、范围成像设备以及3D扫描设备中的传感器设备。
13.根据权利要求11所述的信息处理设备,其中,检测语音输入包括:使用音频捕获设备来检测音频。
14.根据权利要求13所述的信息处理设备,其中,所检测的音频包括来自所述用户的语音命令。
15.根据权利要求11所述的信息处理设备,其中,通过将所述用户视线的位置聚焦在选自预定位置、图标、拟人媒介物、用户选择的图像以及第三方创建的媒介物中的特征上来触发对所述语音输入模块的激活。
16.根据权利要求15所述的信息处理设备,还包括:响应于将所述用户视线聚焦在所述特征上来改变所述特征的视觉状态。
17.根据权利要求15所述的信息处理设备,其中,基于选自用户选择、第三方应用偏好以及当前设备任务中的因素来确定所述特征的位置。
18.根据权利要求11所述的信息处理设备,其中,激活所述语音输入模块是基于使用结合所述用户视线的所述位置来检测输入的模式的语音输入。
19.根据权利要求18所述的信息处理设备,其中,所述模式检测选自面部操控、所述设备的速度的改变、电子通信、关键短语以及按钮按下中的输入。
20.一种电子设备,包括:
用于检测用户视线的位置的检测单元;
用于基于所述用户视线的所述位置来激活语音输入模块的激活单元;
用于检测语音输入的语音输入单元;
用于使用所述语音输入模块来评估所述语音输入的评估单元;以及
用于基于对所述语音输入的评估来执行至少一个动作的执行单元。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/539,495 | 2014-11-12 | ||
US14/539,495 US10228904B2 (en) | 2014-11-12 | 2014-11-12 | Gaze triggered voice recognition incorporating device velocity |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589555A true CN105589555A (zh) | 2016-05-18 |
CN105589555B CN105589555B (zh) | 2020-11-24 |
Family
ID=55132717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510579132.9A Active CN105589555B (zh) | 2014-11-12 | 2015-09-11 | 信息处理方法、信息处理设备及电子设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10228904B2 (zh) |
CN (1) | CN105589555B (zh) |
DE (1) | DE102015119592A1 (zh) |
GB (1) | GB2534274B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108198553A (zh) * | 2018-01-23 | 2018-06-22 | 北京百度网讯科技有限公司 | 语音交互方法、装置、设备和计算机可读存储介质 |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN109992237A (zh) * | 2018-01-03 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 智能语音设备控制方法、装置、计算机设备和存储介质 |
CN110262767A (zh) * | 2019-06-03 | 2019-09-20 | 清华大学 | 基于靠近嘴部检测的语音输入唤醒装置、方法和介质 |
CN113301247A (zh) * | 2020-02-05 | 2021-08-24 | 佳能株式会社 | 一种语音输入设备、其控制方法以及存储介质 |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP2958010A1 (en) | 2014-06-20 | 2015-12-23 | Thomson Licensing | Apparatus and method for controlling the apparatus by a user |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US9990921B2 (en) * | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
JP2017117371A (ja) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御方法、制御装置およびプログラム |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10261752B2 (en) * | 2016-08-02 | 2019-04-16 | Google Llc | Component libraries for voice interaction services |
JP6801329B2 (ja) * | 2016-09-21 | 2020-12-16 | 富士ゼロックス株式会社 | 画像形成装置、情報処理装置及び情報処理システム |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11397558B2 (en) | 2017-05-18 | 2022-07-26 | Peloton Interactive, Inc. | Optimizing display engagement in action automation |
US11016729B2 (en) | 2017-11-08 | 2021-05-25 | International Business Machines Corporation | Sensor fusion service to enhance human computer interactions |
US10685648B2 (en) | 2017-11-08 | 2020-06-16 | International Business Machines Corporation | Sensor fusion model to enhance machine conversational awareness |
US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
EP3729421A1 (en) * | 2017-12-22 | 2020-10-28 | Telefonaktiebolaget LM Ericsson (publ) | Gaze-initiated voice control |
WO2019173045A1 (en) * | 2018-03-08 | 2019-09-12 | Frontive, Inc. | Methods and systems for speech signal processing |
WO2019195799A1 (en) * | 2018-04-05 | 2019-10-10 | Synaptics Incorporated | Context-aware control for smart devices |
WO2019202355A1 (en) | 2018-04-18 | 2019-10-24 | Flex Ltd. | System and method for using gaze control to control electronic switches and machinery |
JP7263505B2 (ja) | 2018-05-04 | 2023-04-24 | グーグル エルエルシー | ホットワードを用いない自動アシスタント機能の適応 |
WO2019212569A1 (en) | 2018-05-04 | 2019-11-07 | Google Llc | Adapting automated assistant based on detected mouth movement and/or gaze |
KR102661487B1 (ko) * | 2018-05-04 | 2024-04-26 | 구글 엘엘씨 | 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11049608B2 (en) * | 2018-07-03 | 2021-06-29 | H&R Accounts, Inc. | 3D augmented reality document interaction |
US11210968B2 (en) * | 2018-09-18 | 2021-12-28 | International Business Machines Corporation | Behavior-based interactive educational sessions |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11151993B2 (en) * | 2018-12-28 | 2021-10-19 | Baidu Usa Llc | Activating voice commands of a smart display device based on a vision-based mechanism |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10708653B1 (en) * | 2019-03-19 | 2020-07-07 | Bose Corporation | Entry presence detection for audio-video products and devices |
WO2020222723A1 (en) * | 2019-04-29 | 2020-11-05 | Leka Donald | Dynamic nlp cross-platform voice search interface |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
EP3757818B1 (en) * | 2019-06-28 | 2022-09-28 | AO Kaspersky Lab | Systems and methods for automatic service activation on a computing device |
RU2746201C2 (ru) | 2019-06-28 | 2021-04-08 | Акционерное общество "Лаборатория Касперского" | Система и способ невербальной активации сервиса на мобильном устройстве |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11756574B2 (en) | 2021-03-11 | 2023-09-12 | Apple Inc. | Multiple state digital assistant for continuous dialog |
US11955137B2 (en) | 2021-03-11 | 2024-04-09 | Apple Inc. | Continuous dialog with a digital assistant |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049081A (zh) * | 2012-12-05 | 2013-04-17 | 上海量明科技发展有限公司 | 开启对象视觉触发的方法、客户端及系统 |
CN103336576A (zh) * | 2013-06-28 | 2013-10-02 | 优视科技有限公司 | 一种基于眼动追踪进行浏览器操作的方法及装置 |
US20130307771A1 (en) * | 2012-05-18 | 2013-11-21 | Microsoft Corporation | Interaction and management of devices using gaze detection |
CN103500061A (zh) * | 2013-09-26 | 2014-01-08 | 三星电子(中国)研发中心 | 控制显示器的方法及设备 |
US20140184550A1 (en) * | 2011-09-07 | 2014-07-03 | Tandemlaunch Technologies Inc. | System and Method for Using Eye Gaze Information to Enhance Interactions |
CN104023127A (zh) * | 2014-05-16 | 2014-09-03 | 深圳市中兴移动通信有限公司 | 一种短信息处理的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1215658A3 (en) | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
US20150109191A1 (en) * | 2012-02-16 | 2015-04-23 | Google Inc. | Speech Recognition |
US20140350942A1 (en) | 2013-05-23 | 2014-11-27 | Delphi Technologies, Inc. | Vehicle human machine interface with gaze direction and voice recognition |
KR20150086646A (ko) * | 2014-01-20 | 2015-07-29 | 삼성전자주식회사 | 프리뷰 이미지를 제공하는 화상형성장치, 그 프리뷰 이미지를 디스플레이하는 디스플레이 장치 및 그 방법들 |
-
2014
- 2014-11-12 US US14/539,495 patent/US10228904B2/en active Active
-
2015
- 2015-09-11 CN CN201510579132.9A patent/CN105589555B/zh active Active
- 2015-11-12 DE DE102015119592.5A patent/DE102015119592A1/de active Pending
- 2015-11-12 GB GB1520012.4A patent/GB2534274B/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140184550A1 (en) * | 2011-09-07 | 2014-07-03 | Tandemlaunch Technologies Inc. | System and Method for Using Eye Gaze Information to Enhance Interactions |
US20130307771A1 (en) * | 2012-05-18 | 2013-11-21 | Microsoft Corporation | Interaction and management of devices using gaze detection |
CN103049081A (zh) * | 2012-12-05 | 2013-04-17 | 上海量明科技发展有限公司 | 开启对象视觉触发的方法、客户端及系统 |
CN103336576A (zh) * | 2013-06-28 | 2013-10-02 | 优视科技有限公司 | 一种基于眼动追踪进行浏览器操作的方法及装置 |
CN103500061A (zh) * | 2013-09-26 | 2014-01-08 | 三星电子(中国)研发中心 | 控制显示器的方法及设备 |
CN104023127A (zh) * | 2014-05-16 | 2014-09-03 | 深圳市中兴移动通信有限公司 | 一种短信息处理的方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992237A (zh) * | 2018-01-03 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 智能语音设备控制方法、装置、计算机设备和存储介质 |
CN109992237B (zh) * | 2018-01-03 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 智能语音设备控制方法、装置、计算机设备和存储介质 |
CN108198553A (zh) * | 2018-01-23 | 2018-06-22 | 北京百度网讯科技有限公司 | 语音交互方法、装置、设备和计算机可读存储介质 |
US10991372B2 (en) | 2018-01-23 | 2021-04-27 | Beijing Baidu Netcom Scienc And Technology Co., Ltd. | Method and apparatus for activating device in response to detecting change in user head feature, and computer readable storage medium |
CN108198553B (zh) * | 2018-01-23 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音交互方法、装置、设备和计算机可读存储介质 |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN110262767A (zh) * | 2019-06-03 | 2019-09-20 | 清华大学 | 基于靠近嘴部检测的语音输入唤醒装置、方法和介质 |
CN110262767B (zh) * | 2019-06-03 | 2022-03-11 | 交互未来(北京)科技有限公司 | 基于靠近嘴部检测的语音输入唤醒装置、方法和介质 |
CN113301247A (zh) * | 2020-02-05 | 2021-08-24 | 佳能株式会社 | 一种语音输入设备、其控制方法以及存储介质 |
US11600277B2 (en) | 2020-02-05 | 2023-03-07 | Canon Kabushiki Kaisha | Voice input apparatus, control method thereof, and storage medium for executing processing corresponding to voice instruction |
CN113301247B (zh) * | 2020-02-05 | 2023-12-05 | 佳能株式会社 | 一种摄像设备、其控制方法以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
GB2534274A (en) | 2016-07-20 |
US20160132290A1 (en) | 2016-05-12 |
DE102015119592A1 (de) | 2016-05-12 |
GB2534274B (en) | 2019-07-17 |
GB201520012D0 (en) | 2015-12-30 |
US10228904B2 (en) | 2019-03-12 |
CN105589555B (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589555A (zh) | 视线触发语音识别 | |
CN112565516B (zh) | 用于与外围设备无线配对并显示关于外围设备的状态信息的设备、方法和图形用户界面 | |
EP3779643B1 (en) | Method for operating electronic device and electronic device | |
US11323658B2 (en) | Display apparatus and control methods thereof | |
US10951253B2 (en) | Bendable user terminal device and method for displaying thereof | |
CN103890836B (zh) | 用于头戴式显示器的具有电源管理的蓝牙或其他无线接口 | |
JP2023058530A (ja) | 生体認証の実施 | |
US9851790B2 (en) | Gaze based notification reponse | |
KR20140112910A (ko) | 입력 제어 방법 및 이를 지원하는 전자 장치 | |
WO2012138917A2 (en) | Gesture-activated input using audio recognition | |
US10269377B2 (en) | Detecting pause in audible input to device | |
CN104571518A (zh) | 执行设定操作的方法和装置 | |
US20230275985A1 (en) | Dual-Display Electronic Device Operation During Incoming Call | |
CN105183439A (zh) | 基于语言环境对输入方法的实时修改 | |
CN108073275A (zh) | 信息处理方法、信息处理设备及程序产品 | |
KR20170109077A (ko) | 정보 처리 장치 및 기록 매체 | |
KR20140000749A (ko) | 단말기의 제어방법 | |
CN104391742B (zh) | 应用优化方法和装置 | |
CN106789472A (zh) | 消费类电子控制cec功能检测方法、装置及系统 | |
CN104049843B (zh) | 一种信息处理方法及电子设备 | |
US20190034554A1 (en) | Extend conversational session waiting time | |
JP6496220B2 (ja) | 情報配信装置および情報配信プログラム | |
JP2014021587A (ja) | 情報端末 | |
CN109298787B (zh) | 柔性人机交互装置和终端设备 | |
Roudaki et al. | A framework for bimanual inter-device interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |