CN107103905B - 用于语音识别的方法和产品以及信息处理设备 - Google Patents

用于语音识别的方法和产品以及信息处理设备 Download PDF

Info

Publication number
CN107103905B
CN107103905B CN201610833694.6A CN201610833694A CN107103905B CN 107103905 B CN107103905 B CN 107103905B CN 201610833694 A CN201610833694 A CN 201610833694A CN 107103905 B CN107103905 B CN 107103905B
Authority
CN
China
Prior art keywords
user
information processing
focus
processing apparatus
user focus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610833694.6A
Other languages
English (en)
Other versions
CN107103905A (zh
Inventor
拉塞尔·斯佩格特·范布恩
阿诺德·S·韦克斯勒
约翰·卡尔·梅谢
纳林·J·彼得森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN107103905A publication Critical patent/CN107103905A/zh
Application granted granted Critical
Publication of CN107103905B publication Critical patent/CN107103905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及用于语音识别的方法和产品以及信息处理设备。实施方式提供了一种方法,包括:在设备处接收包括至少一个命令的语音输入;使用用户的图像来识别用户焦点的方向;以及响应于识别出用户焦点的方向指向设备,基于至少一个命令来执行动作。还描述和要求保护了其他方面。

Description

用于语音识别的方法和产品以及信息处理设备
技术领域
本发明涉及用于语音识别的方法和产品以及信息处理设备。
背景技术
随着智能数字个人助理(例如,SIRI、S Voice、GOOGLE NOW、CORTANA等)的产生,使用语音命令控制电子设备已经变得非常流行。通常,用户通过使用自然语言与例如包含在个人助理中的语音输入模块进行交互。这种类型的交互使设备接收来自用户的语音输入如语音命令(例如,“明天天气怎么样”、“给Dan打电话”),处理这些请求,并且通过执行任务本身或将用户请求委托给期望的应用程序来执行用户期望的动作。SIRI是苹果公司在美国和其他国家的注册商标。S VOICE是三星电子公司在美国和其他国家的注册商标。GOOGLE是谷歌公司在美国和其他国家的注册商标。CORTANA是微软在美国和其他国家的未注册商标。
因为自然语言是人们通常感到舒服的通信方法,所以无论如何简单或复杂,使用语音命令的能力都提供了利用设备的操作系统或应用程序的功能的自然高效的方法。然而,利用个人助理时的主要问题之一是:确定用户语音的哪部分意在作为语音命令被接收。已经证实不断地聆听用户是太困难的任务,而不能达到可用的误报(即,助理响应不相关的语音)水平以及可用的漏报(即,助理忽略用户命令)水平。另外,个人助理可以是能源密集型应用程序,因此允许其在后台不断运行可能对电池寿命产生重大影响。为了克服这个问题,如今大多数语音控制的助理利用一些形式的触发器来启动语音识别处理。这种触发器假定紧跟该触发的任何语音是定向至助理的命令。一些普通触发器是物理按钮按压(例如,SIRI激活)或在任何系统定向的命令之前讲出的特定关键短语(例如,Okay GOOGLE)。
发明内容
总之,一个方面提供了一种方法,该方法包括:在设备处接收包括至少一个命令的语音输入;使用用户的图像来识别用户焦点的方向;以及响应于识别出用户焦点的方向指向设备,基于至少一个命令来执行动作。
另一方面提供了一种信息处理设备,该信息处理设备包括:处理器;音频捕获设备,其在操作上耦接至处理器;以及存储器,其存储有指令,所述指令能够由处理器执行以:在音频捕获设备处接收包括至少一个命令的语音输入;使用用户的图像来识别用户焦点的方向;以及响应于识别出用户焦点的方向指向信息处理设备,基于至少一个命令来执行动作。
又一方面提供了一种产品,该产品包括:存储设备,其存储有代码,所述代码能够由处理器执行并且所述代码包括:用于在音频捕获设备处接收包括至少一个命令的语音输入的代码;用于使用用户的图像来识别用户焦点的方向的代码;以及用于响应于识别到用户焦点的方向指向音频捕获设备而基于至少一个命令来执行动作的代码。
前述是总结性的并且因此可以包含对细节的简化、概括和省略;因此,本领域技术人员要理解的是,该总结仅是说明性的并且不意在以任何方式进行限制。
为了更好地理解实施方式连同实施方式的其他的和进一步的特征及优点,参照以下结合附图的描述。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理设备线路的示例。
图2示出了信息处理设备线路的另一示例。
图3示出了启用用户焦点的语音识别的示例方法。
具体实施方式
将容易理解的是,可以用除了所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而,如在附图中示出的示例实施方式的以下更详细的描述,不意在限制所要求保护的实施方式的范围,而是仅代表示例实施方式。
遍及本说明书,对“一个(one)实施方式”或“(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包括在至少一个实施方式中。因此,遍及本说明书的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。
而且,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任意适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或更多个具体细节的情况下实施各种实施方式,或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他情况下,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
一些当前可用的商业系统使用需要按下特定按钮的触发器(例如,按下并保持主页按钮以激活SIRI虚拟助理,或按下并保持搜索按钮以激活CORTANA虚拟助理)。当前可用的替选方法是使用关键短语(例如,当使用运行iOS 8的设备时或者之后说“Hey SIRI”或当唤醒运行ANDROID4.3的设备时说“Okay GOOGLE”)。一旦用户讲出关键短语,设备就被触发以聆听跟随关键短语的语音命令。ANDROID是谷歌公司在美国和其他国家的注册商标。
存在其他解决方案如“举起就说话”,其中,用户举起设备(例如,移动设备)并且运动被检测(例如,使用加速计)。这种解决方案仅适用于手持的或可穿戴设备,并且如果用户当前正以垂直方式保持他们的设备,则这将不起作用。当前激活触发器的方法的主要问题在于:无论用户当前正参与什么任务,这些激活触发的方法趋向于中断用户当前参与的任务。具体地,如果用户正在参与执行需要使用他们的手的任务(例如,使用计算机、做家务、做饭等)。关于触发短语,他们不变的并且重复的性质对用户造成负担并且削弱了智能助理在自然语言方面的优势,而智能助理在自然语言方面的优势是它的主要性质之一。
因此,实施方式使用头部或眼睛跟踪来自动启用对设备(例如,智能助理)的聆听模式。由于可能很难跨房间跟踪用户的眼睛或注视,所以实施方式可以在较大空间中使用头部跟踪。另外,可以在特定空间中利用两个或更多个相机(或一个广角相机)以确保适当覆盖房间的所有区域。为了简便起见,遍及本文献,将引用“用户焦点”,“用户焦点”应当被理解为经由头部跟踪系统、眼睛跟踪系统、面部识别系统或能够确定用户的焦点指向哪里的任意系统来确定。
在示例实施方式中,如果用户看着设备并且给出命令,则处理该命令。然而,如果确定出用户正将目光从设备移开,则忽略该命令。在一个实施方式中,虽然设备不断地聆听并接收语音输入,但是仅在确定出用户正看着设备的情形下,设备才采取行动。因而,甚至在用户转移目光之后,实施方式仍可以继续处理语音。这样,用户焦点以与触发短语或触觉键类似的方式起作用,所述方式简单地激活“唤醒模式”并且使得设备能够处理所接收的用户输入。因而,将会处理当前的句子或用户命令(例如,直到用户暂停讲话为止)。
可替选地,如果用户的焦点改变或被指引远离设备,则实施方式可以停止处理语音输入。因而,将忽略在用户焦点分散之后发出的任何命令或请求。这将使得用户能够取消说了一半的命令。在另外的实施方式中,用户能够在开始发出命令之后立即看着设备并且使所有命令被接受。例如,如果用户忘记看着设备,则他们可以在开始讲话之后立即看着设备。在一个实施方式中,设备可以保持口语输入的滚动缓冲并且紧接在用户的焦点被指向设备之前从输入缓冲捕获最后一个命令。
另外地或可替选地,用户焦点可以由具有传感器设备(例如,红外线的、光学的、飞行时间相机、无线电波等)的任意设备来跟踪。附加设备可以是例如主设备的附件或者是可以与主设备通信的独立设备。在另外的实施方式中,当未给设备自身供电时,可以给附件供电。这使得附属设备能够根据需要经由通信标准(例如,短程无线通信、无线LAN、无线WAN等)“唤醒”未被供电的主设备。另外,如果没有用户在设备附近(例如,在传感器的范围内),则设备可以进入低功耗模式。实施方式可以基于使用例如短程无线装置、GPS等的接近检测而退出低功耗模式。
在另外的实施方式中,用户焦点可以连同触发短语或唤醒词一起来使用以增加唤醒词检测的可信度。例如在吵闹的房间中这可能是有利的。在吵闹的环境中,很难捕获或检测触发短语或唤醒词。因此,如果实施方式确定特定环境的背景噪声超过了阈值,则唤醒词可以连同用户的焦点一起来使用以增加检测的可信度。可替选地,实施方式可以在吵闹环境中完全禁用触发短语的使用并且只依靠用户焦点的检测。
本文中所描述的示例实施方式可以涉及任意设备,包括膝上型计算机、平板计算机、智能电话、可穿戴技术(例如,智能手表)、音频助理(例如,AMAZON ECHO设备)等。应当注意,尽管本文提供了关注智能助理的示例,但这些示例是非限制性的,并且一般技术通常可以适用于如形式上设置成用于听写的或通常在应用程序内的语音模块。AMAZON ECHO用作亚马逊公司在美国和其他国家的商标。
通过参照附图可以最好地理解所示出的示例实施方式。下面的描述仅意在举例说明,并且仅仅示出了某些示例实施方式。
虽然在信息处理设备中可以利用各种其他电路、线路或部件,但是对于智能电话和/或平板计算机线路100而言,图1中示出的示例包括例如在平板计算机或其他移动计算平台中发现的片上系统设计。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等取决于不同的供应商,但基本上所有外围设备(120)可以附接至单芯片110。线路100将处理器、存储器控制以及I/O控制器集线器全部组合到单芯片110中。并且,这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在有(一个或多个)电力管理芯片130,例如电池管理单元BMU,电池管理单元BMU管理例如经由可再充电电池140供给的电力,可再充电电池140可以通过连接至电源(未示出)来被再充电。在至少一个设计中,单芯片如110用于提供类似BIOS的功能和DRAM存储器。
系统100通常包括用于连接至各种网络(例如电信网络和无线因特网设备,如接入点)的WWAN收发器150和WLAN收发器160中的一个或更多个。另外,设备120通常包括例如音频输入设备(如将模拟音频处理成数字输入信号的麦克风)和用于捕获图像数据的相机。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器设备,例如闪速存储器180和SDRAM 190。
图2示出了信息处理设备电路、线路或部件的另一示例的框图。图2中示出的示例可以与计算系统(例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人计算机或其他设备)相对应。根据此处的描述明显的是,实施方式可以包括图2中示出的示例的特征中的仅一些特征或其他特征。
图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组),芯片组210具有可以取决于制造商(例如,因特尔公司、超微半导体公司、安谋公司等)而变化的架构。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,核和存储器控制组220和I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI 242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意,组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或更多个处理器222包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如,以便为可以被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以经由LVDS接口232来支持的一些技术(例如,串行数字视频、HDMI/DVI、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O集线器控制器250包括SATA接口251(例如,用于HDD、SDD等280)、PCI-E接口252(例如,用于无线连接282)、USB接口253(例如,用于设备284,如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276,如ROM 277、闪存278和NVRAM 279)、电力管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS 268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆以太网支持。
系统在通电时可以被配置成执行在SPI闪存266内存储的用于BIOS268的启动代码290,此后,在一个或更多个操作系统和应用软件(例如,存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任意位置处,并且可以例如根据BIOS 268的指令被访问。如本文中所述,设备可以包括与在图2的系统中示出的特征相比更少或者更多的特征。
信息处理设备线路,如在图1中或图2中所示出的示例,通常可以用于如平板计算机、智能电话、个人计算机设备等设备中和/或用于用户可以发出语音命令以执行特定动作的电子设备中。例如,图1中所示出的线路可以在平板计算机或智能电话实施方式中实现,然而,图2中所示出的线路可以在个人计算机实施方式中实现。
将理解的是,这样的设备(例如,平板计算设备、个人计算机或智能电话)主要提供触摸屏、麦克风和相机作为主要输入设备,其中当前设备主要依靠触摸屏和麦克风输入来进行应用控制。在实施方式中,尤其对于可以准许不由这样的设备支持的其他输入形式的使用的某些应用而言,融合这样的形式的提供了更加用户友好的体验。
现在借助于示例并参照图3,在310处,实施方式在设备处接收来自用户的语音输入。经由音频捕获设备来捕获音频,音频捕获设备可以操作上附接至所述设备或者可以被远程地定位。
在320处,另外的实施方式跟踪用户的焦点。可以经由传感器或传感器阵列(例如,图像捕获设备、视频捕获设备、距离成像设备和3D扫描设备等)在设备自身处进行这一跟踪。传感器或传感器阵列可以是被动检测系统、主动检测系统或这两者的组合。另外地或可替选地,可能由单个远程传感器或多个远程传感器进行跟踪。遍及空间各个位置来定位传感器将允许更鲁棒的跟踪系统。
一旦在320处确定了用户焦点的方向,则在330处实施方式可以确定用户的焦点是否指向设备(例如,移动设备、智能个人助理设备、计算机等)。如果确定出用户的焦点不指向设备,则在340处实施方式可以不采取行动。可替选地,如果确定出用户的焦点指向设备,则实施方式可以确定用户正将语音输入指向设备(即,用户想让语音输入成为命令)。
在另外的实施方式中,用户的焦点可以指向用户想要与之交互的第二设备(例如,电视机、灯的开关、收音机等)。例如,用户可以看着TV并且请求由设备打开TV。因此,实施方式不仅可以确定用户的焦点指向设备,而且还可以确定用户的焦点指向第二设备并且在那个指定设备上执行用户的命令。
另外的实施方式还可以在确定出用户的焦点指向设备的情形下向用户提供指示或确认。指示本质上可以是视觉的或听觉的。例如,设备可以发特定颜色的光以指示用户焦点的确定。可替选地,当音频捕获设备识别出用户的焦点指向它时,它可以播放特定声音(例如,铃声、喇叭声等)或者给出口头确认(例如,说“用户,你好”)。实施方式还可以使用视觉指示和/或听觉指示的组合。另外,可以由用户基于用户的偏好来调整指示类型。
实施方式可以基于用户的焦点指向设备的确定来解析所接收的用户语音输入(例如,在310处所接收的用户语音输入)以在350处识别语音输入中的至少一个命令。一旦实施方式在350处识别出了语音输入中的至少一个命令,则这种实施方式可以在360处基于至少一个命令来采取行动。例如,实施方式可以接收命令“天气怎么样”,并且继续通知用户当前的天气状况(例如,经由扬声器描述天气、经由显示器显示天气等)。
如本文中所讨论的,如果实施方式已经在330处确定出用户的焦点不指向设备(例如,主设备或主设备的子部件(例如,音频设备,如麦克风或扬声器)),则这种实施方式在340处不采取行动。然而,如果当用户正讲话(例如,输入语音命令)时用户的焦点转移(例如,移动至音频捕获设备、TV或其他类似设备),则即使在语音输入开始时在音频捕获设备上没有检测到用户焦点,实施方式仍然可以基于用户输入来执行动作。例如,用户可以一回到家就请求打开电视而不是首先就看着音频捕获设备。然而,用户可以在陈述中途或在发出命令之后立即将他们的焦点转移至音频捕获设备。因而,实施方式可以将此陈述中的焦点转移或陈述后的焦点转移解释为用户打算发出命令。为了执行此动作,实施方式可以保持用户语音的滚动缓冲(例如,10秒、30秒等),当接收到新的用户输入时,用户语音的滚动缓冲可以被自动刷新。
如本领域技术人员将理解的,本发明的各个方面可以实施为系统、方法或设备程序产品。因此,本发明的各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式,这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。此外,本发明的各个方面可以采用包含在一个或更多个设备可读介质中的设备程序产品的形式,所述一个或更多个设备可读介质包含有设备可读程序代码。
应当注意,本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质(如非信号存储设备)上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备,或前述项的任意适当的组合。存储介质的更多的具体示例包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、磁存储设备,或前述项的任意适当的组合。在本文献的上下文中,存储设备不是信号并且是“非暂时的”,包括除信号介质之外的全部介质。
可以使用任意适当的介质,包括但不限于无线、有线、光缆电缆、RF等或前述项的任意适当的组合,来传输在存储介质上所包含的程序代码。
可以以一种或更多种编程语言的任意组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在一个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下,可以通过任意类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接设备,或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信)或通过硬线连接(如通过USB连接)来进行连接。
本文参照示出了根据各种示例实施方式的示例方法、设备和程序产品的附图来描述示例实施方式。应当理解,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理设备的处理器、专用信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器,使得经由设备的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性的示例。由于明确示出的示例仅用于描述的目的而不应被视为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以按需要将某些块重新排序或重新组织。
除非另行清楚地指明,如本文所使用的单数“一个(a)”和“一个(an)”可以被解释为包括复数“一个或多个”。
提出本公开内容是出于说明和描述的目的,而非意在穷举或限制。对本领域普通技术人员而言,许多修改和变型是明显的。选择并描述了示例实施方式以解释原理和实际应用,并且使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。
因此,尽管本文已经参照附图描述了示意性示例实施方式,但要理解的是,这种描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以做出各种其他变化和修改。

Claims (18)

1.一种用于语音识别的方法,包括:
在设备处接收包括至少一个命令的语音输入;
使用用户的图像来识别用户焦点的方向,其中,识别出用户焦点的方向不指向所述设备;以及
在电子设备处检测在所述语音输入至少部分地被接收之后指向所述设备的用户焦点的方向的转移;
响应于检测出所述转移,基于至少部分地被接收的语音输入来执行动作。
2.根据权利要求1所述的方法,其中,所述用户的图像使用至少一个传感器获得;以及
其中,所述至少一个传感器选自:图像捕获设备、视频捕获设备、距离成像设备和3D扫描设备。
3.根据权利要求1所述的方法,其中,所述识别用户焦点的方向基于所述用户的头部位置。
4.根据权利要求1所述的方法,其中,所述识别用户焦点的方向基于所述用户的注视位置。
5.根据权利要求1所述的方法,其中,所述用户的图像从多个传感器获得。
6.根据权利要求1所述的方法,还包括:
基于识别出在预定时间内所述用户焦点的方向不指向所述设备,将所述设备设置在低功耗状态下。
7.根据权利要求1所述的方法,还包括:
基于识别出所述用户焦点的方向指向所述设备,将所述设备从低功耗状态唤醒。
8.根据权利要求1所述的方法,还包括:响应于所述用户焦点的方向指向所述设备,改变音频捕获设备的视觉特性。
9.根据权利要求1所述的方法,还包括:响应于所述用户焦点的方向指向所述设备,播放听觉通知。
10.一种信息处理设备,包括:
处理器;
音频捕获设备,所述音频捕获设备在操作上耦接至所述处理器;以及
存储器,所述存储器存储有指令,所述指令能够由所述处理器执行以:
在所述音频捕获设备处接收包括至少一个命令的语音输入;
使用用户的图像来识别用户焦点的方向,其中,识别出用户焦点的方向不指向所述音频捕获设备;以及
在电子设备处检测在所述语音输入至少部分地被接收之后指向所述音频捕获设备的用户焦点的方向的转移;以及
响应于检测出所述转移,基于至少部分地被接收的语音输入来执行动作。
11.根据权利要求10所述的信息处理设备,其中,所述用户的图像使用至少一个传感器获得;以及
其中,所述至少一个传感器选自:图像捕获设备、视频捕获设备、距离成像设备和3D扫描设备。
12.根据权利要求10所述的信息处理设备,其中,所述识别用户焦点的方向基于所述用户的头部位置。
13.根据权利要求10所述的信息处理设备,其中,所述识别用户焦点的方向基于所述用户的注视位置。
14.根据权利要求10所述的信息处理设备,所述用户的图像从多个传感器获得。
15.根据权利要求10所述的信息处理设备,其中,所述指令还能够由所述处理器执行以:
基于识别出在预定时间内所述用户焦点的方向不指向所述信息处理设备,将所述信息处理设备设置在低功耗状态下。
16.根据权利要求10所述的信息处理设备,其中,所述指令还能够由所述处理器执行以:
基于识别出所述用户焦点的方向指向所述信息处理设备,将所述信息处理设备从低功耗状态唤醒。
17.根据权利要求10所述的信息处理设备,其中,所述指令还能够由所述处理器执行以:
响应于所述用户焦点的方向指向所述音频捕获设备,改变所述音频捕获设备的视觉特性。
18.一种用于语音识别的产品,包括:
存储设备,所述存储设备存储有代码,所述代码能够由处理器执行并且所述代码包括:
用于在设备处接收包括至少一个命令的语音输入的代码;
用于使用用户的图像来识别用户焦点的方向的代码,其中,识别出用户焦点的方向不指向所述设备,在电子设备处检测在所述语音输入至少部分地被接收之后指向所述设备的用户焦点的方向的转移;以及
用于响应于检测出所述转移,基于至少部分地被接收的语音输入来执行动作的代码。
CN201610833694.6A 2015-12-09 2016-09-19 用于语音识别的方法和产品以及信息处理设备 Active CN107103905B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/964,078 US9990921B2 (en) 2015-12-09 2015-12-09 User focus activated voice recognition
US14/964,078 2015-12-09

Publications (2)

Publication Number Publication Date
CN107103905A CN107103905A (zh) 2017-08-29
CN107103905B true CN107103905B (zh) 2020-10-02

Family

ID=57542819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610833694.6A Active CN107103905B (zh) 2015-12-09 2016-09-19 用于语音识别的方法和产品以及信息处理设备

Country Status (5)

Country Link
US (1) US9990921B2 (zh)
EP (1) EP3179474B1 (zh)
CN (1) CN107103905B (zh)
DE (1) DE102016122719A1 (zh)
GB (1) GB2545561B (zh)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
JP6876936B2 (ja) * 2016-11-11 2021-05-26 パナソニックIpマネジメント株式会社 翻訳装置の制御方法、翻訳装置、および、プログラム
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US20180322869A1 (en) * 2017-05-04 2018-11-08 Unlimiter Mfa Co., Ltd. Voice transmission device and method for executing voice assistant program thereof
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10110999B1 (en) * 2017-09-05 2018-10-23 Motorola Solutions, Inc. Associating a user voice query with head direction
US10224033B1 (en) 2017-09-05 2019-03-05 Motorola Solutions, Inc. Associating a user voice query with head direction
KR102489914B1 (ko) 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
US10685648B2 (en) * 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US20200327890A1 (en) * 2017-11-28 2020-10-15 Sony Corporation Information processing device and information processing method
CN108257596B (zh) * 2017-12-22 2021-07-23 北京小蓦机器人技术有限公司 一种用于提供目标呈现信息的方法与设备
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
US10978061B2 (en) * 2018-03-09 2021-04-13 International Business Machines Corporation Voice command processing without a wake word
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
GB2572587B (en) * 2018-04-04 2021-07-07 Jaguar Land Rover Ltd Apparatus and method for controlling operation of a voice recognition system of a vehicle
WO2019202355A1 (en) * 2018-04-18 2019-10-24 Flex Ltd. System and method for using gaze control to control electronic switches and machinery
US10586538B2 (en) 2018-04-25 2020-03-10 Comcast Cable Comminications, LLC Microphone array beamforming control
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US10890969B2 (en) * 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
KR20230173211A (ko) 2018-05-04 2023-12-26 구글 엘엘씨 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
EP3743794B1 (en) * 2018-05-04 2022-11-09 Google LLC Hot-word free adaptation of automated assistant function(s)
EP3583481B1 (en) * 2018-05-07 2021-02-17 Google LLC Methods, systems, and apparatus for providing composite graphical assistant interfaces for controlling connected devices
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11165779B2 (en) 2018-11-29 2021-11-02 International Business Machines Corporation Generating a custom blacklist for a listening device based on usage
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10943400B2 (en) * 2019-01-07 2021-03-09 Cerence Operating Company Multimodal user interface for a vehicle
US11183185B2 (en) 2019-01-09 2021-11-23 Microsoft Technology Licensing, Llc Time-based visual targeting for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020213996A1 (en) * 2019-04-17 2020-10-22 Samsung Electronics Co., Ltd. Method and apparatus for interrupt detection
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
WO2020235141A1 (ja) * 2019-05-17 2020-11-26 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム及び情報処理プログラム
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11691076B2 (en) 2020-08-10 2023-07-04 Jocelyn Tan Communication with in-game characters
US11955137B2 (en) 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US11756574B2 (en) 2021-03-11 2023-09-12 Apple Inc. Multiple state digital assistant for continuous dialog
US11769501B2 (en) * 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN104951062A (zh) * 2014-03-24 2015-09-30 联想(新加坡)私人有限公司 基于眼动追踪引导语音输入的装置和方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1215658A3 (en) 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
CA2847975A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
US20150109191A1 (en) * 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US20130342672A1 (en) 2012-06-25 2013-12-26 Amazon Technologies, Inc. Using gaze determination with device input
US9092600B2 (en) * 2012-11-05 2015-07-28 Microsoft Technology Licensing, Llc User authentication on augmented reality display device
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US10339711B2 (en) * 2013-03-15 2019-07-02 Honda Motor Co., Ltd. System and method for providing augmented reality based directions based on verbal and gestural cues
US9671864B2 (en) * 2013-03-21 2017-06-06 Chian Chiu Li System and methods for providing information
KR102129786B1 (ko) * 2013-04-03 2020-07-03 엘지전자 주식회사 단말기 및 이의 제어방법
US20140350942A1 (en) * 2013-05-23 2014-11-27 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
US10635167B2 (en) * 2013-05-30 2020-04-28 Umoove Services Ltd. Smooth pursuit gaze tracking
US9619022B2 (en) * 2013-10-28 2017-04-11 Chian Chiu Li Systems and methods for presenting location related information
CN104656877A (zh) * 2013-11-18 2015-05-27 李君� 基于手势和语音识别控制的人机交互方法及其设备和应用
CN105723451B (zh) * 2013-12-20 2020-02-28 英特尔公司 从低功率始终侦听模式到高功率语音识别模式的转换
KR20150086646A (ko) * 2014-01-20 2015-07-29 삼성전자주식회사 프리뷰 이미지를 제공하는 화상형성장치, 그 프리뷰 이미지를 디스플레이하는 디스플레이 장치 및 그 방법들
US11226686B2 (en) * 2014-01-20 2022-01-18 Lenovo (Singapore) Pte. Ltd. Interactive user gesture inputs
US9477217B2 (en) * 2014-03-06 2016-10-25 Haier Us Appliance Solutions, Inc. Using visual cues to improve appliance audio recognition
US9684827B2 (en) * 2014-03-26 2017-06-20 Microsoft Technology Licensing, Llc Eye gaze tracking based upon adaptive homography mapping
JP6350903B2 (ja) * 2014-05-20 2018-07-04 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
US10228904B2 (en) * 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US9837081B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076876A (zh) * 2012-11-22 2013-05-01 西安电子科技大学 基于视线跟踪与语音识别的字符输入装置和方法
CN104951062A (zh) * 2014-03-24 2015-09-30 联想(新加坡)私人有限公司 基于眼动追踪引导语音输入的装置和方法

Also Published As

Publication number Publication date
US20170169818A1 (en) 2017-06-15
GB2545561B (en) 2020-01-08
EP3179474A1 (en) 2017-06-14
GB2545561A (en) 2017-06-21
US9990921B2 (en) 2018-06-05
GB201619920D0 (en) 2017-01-11
CN107103905A (zh) 2017-08-29
DE102016122719A1 (de) 2017-06-14
EP3179474B1 (en) 2019-07-24

Similar Documents

Publication Publication Date Title
CN107103905B (zh) 用于语音识别的方法和产品以及信息处理设备
US10204624B1 (en) False positive wake word
CN105589555B (zh) 信息处理方法、信息处理设备及电子设备
US10741182B2 (en) Voice input correction using non-audio based input
US20150310861A1 (en) Processing natural language user inputs using context data
CN109101517B (zh) 信息处理方法、信息处理设备以及介质
CN106257410B (zh) 用于声音辅助输入的多模式消岐的方法、电子装置和设备
US10269377B2 (en) Detecting pause in audible input to device
US20190051307A1 (en) Digital assistant activation based on wake word association
CN108073275B (zh) 信息处理方法、信息处理设备及程序产品
US20180364798A1 (en) Interactive sessions
US10831273B2 (en) User action activated voice recognition
US11144091B2 (en) Power save mode for wearable device
US11437031B2 (en) Activating speech recognition based on hand patterns detected using plurality of filters
US20200192485A1 (en) Gaze-based gesture recognition
US20190065608A1 (en) Query input received at more than one device
US20190050391A1 (en) Text suggestion based on user context
US20190019505A1 (en) Sustaining conversational session
US10847163B2 (en) Provide output reponsive to proximate user input
CN111681654A (zh) 语音控制方法、装置、电子设备及存储介质
US11741951B2 (en) Context enabled voice commands
US11074024B2 (en) Mobile device for interacting with docking device and method for controlling same
US20160253996A1 (en) Activating voice processing for associated speaker
US20190392121A1 (en) User identification notification for non-personal device
JP2020088868A (ja) 情報処理方法、情報処理デバイス及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant