CN104094192A - 来自用户的音频输入 - Google Patents

来自用户的音频输入 Download PDF

Info

Publication number
CN104094192A
CN104094192A CN201280068615.7A CN201280068615A CN104094192A CN 104094192 A CN104094192 A CN 104094192A CN 201280068615 A CN201280068615 A CN 201280068615A CN 104094192 A CN104094192 A CN 104094192A
Authority
CN
China
Prior art keywords
user
computing equipment
described user
audio
prompting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280068615.7A
Other languages
English (en)
Other versions
CN104094192B (zh
Inventor
伊万·舍塞勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104094192A publication Critical patent/CN104094192A/zh
Application granted granted Critical
Publication of CN104094192B publication Critical patent/CN104094192B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

一种计算设备,检测观看所述计算设备的用户,并在检测到所述用户观看所述计算设备的情况下输出提示。如果用户持续观看所述计算设备达预定量的时间,则所述计算设备接收来自所述用户的音频输入。

Description

来自用户的音频输入
背景技术
当用户访问设备以键入诸如音频输入之类的输入时,用户可以首先使用计算设备的诸如鼠标或键盘之类的输入部件,以启用计算设备的音频输入部件。用户可以继续访问鼠标或键盘来启动计算设备上的应用以接收来自用户的音频输入。当用户操作输入部件时,时间会浪费,而且用户可能犯错从而导致令人沮丧的用户体验。
附图说明
所公开实施例的各特性及优点将由结合附图的下列具体实施方式而显见,附图以示例的方式一起图示所公开实施例的特性。
图1示出根据示例的具有传感器、输出部件和音频输入部件的计算设备。
图2示出根据示例的输出提示的输出部件和检测观看计算设备的用户的传感器。
图3示出根据示例的检测来自用户的音频输入的语音应用的框图。
图4是示出根据示例的用于检测音频输入的方法的流程图。
图5是示出根据示例的用于检测音频输入的方法的流程图。
具体实施方式
计算设备包括诸如图像捕获部件之类的传感器,以检测观看计算设备的用户。为了此应用,如果传感器检测到用户的脸或眼睛面对计算设备,则用户正在观看计算设备。如果用户正在观看计算设备,则诸如视觉指示器、音频输出扬声器和/或触觉反馈电机之类的输出部件向用户提供提示。此提示可以是视觉的、音频的和/或触觉反馈的提示,该提示通知用户计算设备准备好接收来自用户的音频输入。当提示被输出时,计算设备可使用传感器来检测观看计算设备和/或输出部件达预定量的时间的用户。
如果当提示被输出时计算设备确定用户持续观看计算设备达预定量的时间,则计算设备可确认用户想要和计算设备接合。然后,计算设备的诸如麦克风之类的音频输入部件可接收来自用户的音频输入。在一个实施例中,当接收音频输入时,计算设备启动该计算设备的监听模式以启用、取消静音和/或校准音频输入部件来接收来自用户的音频输入。音频输入可以是语音命令、语音查询和/或由用户产生并由计算设备接收作为输入的任何其它声音。因此,用户能够方便地利用音频输入与设备交互,而不用身体访问或操作计算设备的输入部件。
图1示出根据示例的具有传感器130、输出部件160和音频输入部件140的计算设备100。在一个实施例中,计算设备100可以是台式机、膝上机、笔记本、平板、上网本、一体式系统和/或服务器。在另一实施例中,计算设备100可以是蜂窝设备、PDA(个人数字助理)、E-Reader(电子阅读器)、平板、相机和/或能够包含传感器130、输出部件160和音频部件140的任何附加设备。
计算设备100包括控制器120、传感器130、输出部件160、音频输入部件140和用于计算设备100和/或设备100的一个或多个部件彼此通信的通信信道150。在一个实施例中,计算设备100还包括存储在非易失计算机可读介质上的语音应用,所述介质包含于计算设备100内或对于计算设备100是可访问的。为了此应用,语音应用是能够独立地使用和/或与控制器120结合使用以管理对计算设备100的音频输入145的应用。为了此应用,音频输入145包括作为计算设备100的输入而接收的来自用户的语音和/或声音。
当管理音频输入145时,可首先使用传感器130检测用户是否在观看计算设备100。为了此应用,传感器130是硬件部件,比如图像捕获部件和/或红外部件,所述部件能够捕获计算设备100前方的景象以检测观看计算设备100的用户。检测观看计算设备100的用户包括确定用户的脸是否面对计算设备100。在一个实施例中,控制器320和/或语音应用能够使用面部检测技术和/或眼注视检测技术以确定用户的脸或眼是否在观看计算设备100。
如果用户被检测到正在观看计算设备100,则控制器120和/或语音应用指示输出部件160向该用户输出提示165。为了此应用,提示165是来自输出部件160的信号或通知,以通知该用户计算设备100准备好接收来自该用户的音频输入145。输出部件160是计算设备100的硬件部件,其能够向用户提供视觉提示、音频提示和/或触觉反馈提示。在一个实施例中,输出部件160可以是视觉指示器、音频输出扬声器、触感电机和/或能够输出提示165的任何附加部件。
控制器110和/或语音应用可以使用传感器130来检测用户是否在观看计算设备100达预定量的时间。此预定量的时间可以由控制器120、语音应用和/或用户定义。例如,此预定量的时间可以被定义为半秒、2秒或任何附加量的时间。如果传感器130检测到用户持续观看计算设备100达预定量的时间,则控制器110和/或语音应用确定用户在观看计算设备100达预定量的时间。
在另一实施例中,当检测用户观看计算设备100达预定量的时间时,传感器130还可以检测用户观看计算设备100的输出部件160。控制器120和/或语音应用可识别用户的视线,以确定用户是否在观看计算设备100和/或输出部件160。控制器120和/或语音应用可以使用面部检测技术和/或眼注视检测技术以识别用户的视线。
如果用户持续观看计算设备100和/或输出部件160达预定量的时间,控制器120和/或语音应用就能够确定用户意图是要和计算设备100交互并开始使用音频输入部件140接收来自用户的音频输入145。为了此应用,音频输入部件140是硬件部件,比如麦克风,所述部件能够接收来自用户的音频输入145。
为了此应用,音频输入145包括来自用户的可听声,控制器110和/或语音应用可接收此可听声作为计算设备100的输入。例如,音频输入145可以是对计算设备100的语音命令和/或查询。在一个实施例中,接收音频输入145包括控制器120和/或语音应用启动计算设备100的监听模式。为了此应用,计算设备100的监听模式相当于计算设备100的输入模式以接收来自用户的音频输入145。如果计算设备100处于监听模式,则音频输入部件140被启用并被取消静音以接收音频输入145。
图2示出根据示例的输出部件260响应于传感器230检测到用户205观看计算设备200而输出提示265。为了此应用,传感器230是计算设备200的硬件部件,其检测观看计算设备200的用户205。传感器230可以是图像捕获部件、红外部件和/或能够检测观看计算设备200的用户205的任何附加部件。在一个实施例中,传感器230还可以检测用户205在计算设备200周围的物理近距(physicalproximity)。用户205的物理近距相当于用户离音频输入部件240的位置或距离。用户205可以是能够与计算设备200交互并向计算设备200键入一个或多个音频输入的任何人。
传感器230可以首先捕获计算设备200前方的景象以检测用户205。如果检测到用户205,控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术来检测用户205是否在观看计算设备200。控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术以确定计算设备200是否在用户205的视线内。如果计算设备200在用户的视线内,控制器和/或语音应用就确定用户205在观看计算设备200。
如果检测到用户205在观看计算设备200,输出部件260就开始输出提示265以通知用户205计算设备200准备好接收来自用户205的音频输入。在一个实施例中,控制器和/或语音应用还可以在指示输出部件260输出提示265之前确定用户是否持续观看计算设备200达预定量的时间。如上所提到的,预定量的时间可以由控制器、语音应用和/或由用户205定义成半秒、2秒和/或任意的时间量。
如果用户205持续观看计算设备200达预定量的时间,就可用输出部件260输出提示265。为了此应用,输出部件260是计算设备200的硬件部件,比如视觉指示器、显示部件、音频输出扬声器和/或触感电机,所述部件输出提示265。该提示265包括视觉信号、音频信号、触觉反馈和/或任何附加的提示265中的至少一个,其通知用户205计算设备200准备好接收音频输入。例如视觉信号可以是点亮的光源。音频信号可以是输出的可听音调。触觉反馈可以包括一个或多个震动。
在一个实施例中,输出部件260是具有受限视野的方向性视觉指示器,提示265根据用户205的位置被输出给用户205。如上所提到的,传感器230可被用于检测用户205的物理位置或近距。方向性视觉指示器可以包括具有受限视野的光源阵列。用户205近距内的一个或多个光源可被点亮以将提示265输出给用户205去观看。用户205近距处以外的其他光源不被点亮。所以,通过在提示265的受限视野内输出提示265可以提高用户205和计算设备200的安全性,使得其他人看不到提示265也看不到用户205和计算设备200交互。
当输出部件260输出提示265时,控制器和/或语音应用确定用户205是否在结合所输出的提示265观看计算设备200达预定量的时间。为了此应用,如果用户205在输出部件160输出提示265时持续观看计算设备200,则用户205就可以被确定为在结合提示265观看计算设备200。例如,如果用户205在提示265被输出的同时持续观看计算设备200达预定量的时间,用户205就被确定为在结合所输出的提示265观看计算设备200。
在另一个实施例中,不同于观看计算设备200,控制器和/或语音应用可以检测用户205结合所输出的提示265观看输出部件260达预定量的时间。在其它实施例中,传感器230还检测用户205的面部表情变化或来自用户205的持续注视。当检测面部表情变化时,传感器230检测微笑、皱眉、眨眼、扬眉和/或来自用户205的任何附加的面部表情变化。当检测持续注视时,传感器230检测用户205的面部和眼睛持续观看计算设备200或其它输出部件260达预定量的时间。
如果用户205结合所输出的提示265在观看计算设备200和/或输出部件260达预定量的时间,控制器和/或语音应用就确定用户想要用音频输入同计算设备200交互。如图2中所示,音频输入部件240可被用于检测来自用户205的音频输入。为了此应用,音频输入部件240是硬件部件,比如麦克风,所述部件检测语音、声音和/或噪声作为计算设备200的音频输入。在一个实施例中,来自用户205的音频输入可以是对计算设备200的语音命令以执行指令或命令。此指令或命令可能会启动或终止应用,打开或关闭文件,及/或将字母文本口授输入到电子邮件、应用程序和/或web浏览器。
在另一实施例中,音频输入可以是对来自计算设备200的信息的语音查询。此查询可能是关于计算设备200的状态、关于本地天气预报和/或关于可取自计算设备200或其他设备的信息。在捕获来自用户205的语音命令和/或查询时,传感器230还可以捕获用户205口部的视图。用户205口部的视图可被控制器和/或语音应用所使用以改善关于识别来自用户205的语音命令和/或查询的精度。在其它实施例中,用户205可以用手、身体部分和/或配件来创建用于音频输入部件240的音频以接收作为音频输入。
图3示出根据示例的检测来自用户的音频输入的语音应用310的框图。如上所提到的,语音应用310可以独立地和/或与控制器320相结合地使用以管理音频输入。在一个实施例中,语音应用310可以是嵌入到计算设备的一个或多个部件上的固件。在另一实施例中,语音应用310可以是能够从计算设备的非易失计算机可读存储器访问的应用。此计算机可读存储器是供此设备所用或与其相连的容纳、存储、传送或传输应用的有形装置。在一个实施例中,计算机可读存储器是硬盘、光盘、闪存盘、网盘或其他任何耦接到该计算设备的有形装置形式。
如图3中所示,传感器330已经检测到观看计算设备的用户。作为回应,控制器320和/或语音应用310指示输出部件360向用户输出视觉、音频和/或触觉反馈提示。在一个实施例中,在输出提示时,控制器320和/或语音应用310可以使用面部辨识技术认证用户。控制器320和/或语音应用310可以指示传感器330捕获用户面部的图像,并将用户面部的图像与计算设备的已识别用户的图像相比较。已识别用户的图像可以本地存储在该计算设备或对于控制器320和/或语音应用310可访问的其他设备的存储部件上。
在一个实施例中,如果用户的图像不匹配于已识别用户的图像,则用户认证失败,并且控制器320和/或语音应用310禁用计算设备的监听模式。当禁用监听模式时,控制器320和/或语音应用310可以禁用音频输入部件340、使音频输入部件340静音,和/或拒绝任何来自用户的音频输入。如果用户的图像匹配于已识别用户的图像,则用户会成功认证,并且控制器320和/或语音应用310开始确定用户是否持续观看计算设备或输出部件达预定量的时间。
如果确定用户观看计算设备和/或输出部件达预定量的时间,控制器320和/或语音应用310就确定用户想要同计算设备交互并开始启动监听模式。在另一实施例中,当用户持续观看计算设备和/或输出部件时,控制器320和/或语音应用310可以进一步检测来自用户的持续注视或面部表情变化。通过检测持续注视或面部表情变化,控制器320和/或语音应用310可以进一步确认用户要和计算设备交互的意图。
然后,控制器320和/或语音应用310可以启动计算设备的监听模式。当启动监听模式时,控制器320和/或语音应用310可以启用音频输入部件340并将音频输入部件340取消静音以接收来自用户的音频输入。在一个实施例中,当启动监听模式时,控制器320和/或语音应用载入与用户身份相关的朗读配置(speechprofile)。为了此应用,此朗读配置包括用户语音或朗读模式的信息,控制器320和/或语音应用310用该信息改善对来自用户的音频的检测和识别。此信息可以包括用户语音的音高、用户讲话的速率、用户朗读的宣告(annunciation)和/或用户语音或朗读模式的任何附加信息。
在一个实施例中,控制器320和/或语音应用310还指示传感器330检测用户相对于音频输入部件340的物理近距。如上所提到的,用户的物理近距相当于用户距音频输入部件340的位置或距离。基于用户的位置和距离,控制器320和/或语音应用310能够校准音频输入部件340以改善对来自用户的音频输入的检测的精度。校准音频输入部件340可以包括对准音频输入部件340以接收来自用户位置的音频输入。在另一实施例中,校准音频输入部件340可以包括基于用户的距离和/或位置应用噪声过滤或消除算法。
响应于检测来自用户的音频输入,控制器320和/或语音应用310识别计算设备的与来自用户的音频输入相关的命令、指令、输入和/或查询。在一个实施例中,当音频输入部件340检测到音频输入时,传感器330还可以捕获用户口部的视图。通过捕获用户口部的视图,识别计算设备的与音频输入相对应的命令、指令和/或查询的精度可得到提高。用户口部的视图还可以用作音频输入部件340的指示以开始接收来自用户的音频输入。
图4是示出根据示例的用于检测音频输入的方法的流程图。在400处,诸如图像捕获部件之类的传感器可以首先检测观看计算设备的用户。如果用户正在观看此计算设备,则在410处,控制器和/或语音应用可以指示输出部件,比如视觉指示器、音频扬声器和/或触感电机,以输出视觉、音频和/或触感反馈提示。此提示可被用于通知用户此计算设备准备好启动监听模式以接收来自用户的音频输入。当提示被输出时,在420处,控制器和/或语音应用可以确定用户是否在提示被输出时持续观看输出部件达预定量的时间。在430处,如果用户持续观看输出部件达预定量的时间,则控制器和/或语音应用就确定此用户想要键入语音命令和/或查询,并且启动计算设备的监听模式用于音频输入部件以接收来自用户的音频输入。然后此方法完成。在其他实施例中,除了图4中所描绘的这些方法外,和/或作为这些方法的替代,图4的方法包括附加步骤。
图5是示出根据示例的用于检测音频输入的方法的流程图。在500处,诸如图像捕获部件之类的传感器可以被用于捕获用户的视图,并且控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术以确定用户是否正在观看计算设备。在510处,控制器与/或语音应用通过确定用户面部是否正朝向计算设备和/或用户的眼注视是否正在看计算设备来检测用户是否正在观看计算设备。如果用户没有在观看计算设备,则控制器和/或语音应用继续在500处检测观看计算设备的用户。
如果确定用户正在观看计算设备,则在520处,输出部件可被用于输出视觉、音频和/或触觉反馈提示以通知用户计算设备准备好启动监听模式。当提示被输出时,在530处,控制器和/或语音应用可以确定用户是否持续观看输出部件达预定量的时间。如果用户没有观看输出部件达预定量的时间,控制器和/或语音应用就继续在500处检测观看计算设备的用户。
在一个实施例中,如果确定用户观看了输出部件达预定量的时间,则在540处,控制器和/或语音应用可确定是否在用户处检测到面部表情变化,比如扬眉、眨眼和/或微笑。如果未检测到面部表情变化,则控制器和/或语音应用在530处继续确定用户是否观看输出设备达预定量的时间。如果检测到面部表情变化,则在550处,用户可以使用面部辨识技术来认证。如果用户认证失败,则不启动监听模式,并且控制器和/或语音应用继续在500处检测是否另一用户在观看计算设备。
如果用户成功被认证,则在560处,控制器和/或语音应用加载与用户身份相关的朗读配置。朗读配置被用于改善来自用户的音频输入的检测和辨识。然后在570处,控制器和/或语音应用可以通过启用音频输入部件,比如麦克风而启动计算设备的监听模式,以接收来自用户的音频输入。在一个实施例中,在580处,传感器和/或音频输入部件还可以识别用户的物理近距并基于用户的物理近距开始校准音频输入部件。在另一实施例中,当启动监听模式时,控制器和/或语音应用还可以禁用计算设备上的其它形式输入,如触摸输入、键盘输入、鼠标输入和/或用于计算设备的其它形式输入。然后此方法完成。在其它实施例中,图5的方法包括除图5所描绘的步骤以外的附加步骤或/或代替图5所描绘的步骤的附加步骤。

Claims (15)

1.一种计算设备,包括:
传感器,用于检测观看所述计算设备的用户;
输出部件,用于在检测到所述用户观看所述计算设备的情况下输出提示;以及
控制器,用于在所述传感器检测到所述用户结合所输出的提示持续观看所述计算设备达预定量的时间的情况下,利用音频输入部件接收来自所述用户的音频输入。
2.如权利要求1所述的计算设备,其中所述提示包括视觉信号、音频信号、触觉反馈中的至少一种,用于向所述用户指示所述计算设备准备好启动监听模式以接收音频输入。
3.如权利要求1所述的计算设备,其中所述音频输入是来自所述用户的语音命令或查询。
4.如权利要求1所述的计算设备,其中所述传感器包括图像捕获部件和红外部件中的至少一个。
5.如权利要求1所述的计算设备,其中所述输出部件包括视觉指示器、音频扬声器和触感电机中的至少一个以输出所述提示。
6.如权利要求1所述的计算设备,其中所述控制器在检测观看所述计算设备的所述用户时检测来自所述用户的持续注视或所述用户的面部表情变化。
7.一种用于接收音频输入的方法,包括:
利用传感器检测观看计算设备的用户;
如果所述用户在观看所述计算设备,则利用输出部件输出提示;
确定所述用户是否在观看所述输出部件达预定量的时间;以及
如果所述用户在观看所述输出部件达预定量的时间,则启动所述计算设备的监听模式以接收来自所述用户的音频输入。
8.如权利要求7所述的用于接收音频输入的方法,进一步包括:如果所述用户在观看所述输出部件,则利用面部辨识技术认证所述用户。
9.如权利要求7所述的用于接收音频输入的方法,进一步包括:加载与所述用户的身份相关联的朗读配置。
10.如权利要求7所述的用于接收音频输入的方法,进一步包括:利用所述传感器识别所述用户的物理近距,并基于所述用户的物理近距校准所述计算设备的音频输入部件。
11.如权利要求7所述的用于接收音频输入的方法,其中如果所述用户认证失败则所述计算设备的监听模式不被启用。
12.一种非易失性计算机可读介质,所述非易失性计算机可读介质包括指令,所述指令如果被执行则使控制器:
利用传感器检测观看计算设备的用户;
如果所述用户在观看所述计算设备,则利用输出部件输出提示;
检测所述用户是否结合所输出的提示持续观看所述输出部件达预定量的时间;以及
如果所述用户在观看所述输出部件达所述预定量的时间,则启动所述计算设备的监听模式以接收来自所述用户的音频输入。
13.如权利要求12所述的非易失性计算机可读介质,其中当所述音频输入部件检测来自所述用户的音频输入时,所述传感器附加地捕获所述用户的口部的视图。
14.如权利要求12所述的非易失性计算机可读介质,其中所述控制器识别所述计算设备的与音频输入及所述用户的口部的视图相关联的输入命令。
15.如权利要求12所述的非易失性计算机可读介质,其中所述输出部件是具有受限视野的方向性视觉指示器,并且所述提示基于所述用户的位置被输出给所述用户。
CN201280068615.7A 2012-04-27 2012-04-27 来自用户的音频输入 Expired - Fee Related CN104094192B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/035538 WO2013162603A1 (en) 2012-04-27 2012-04-27 Audio input from user

Publications (2)

Publication Number Publication Date
CN104094192A true CN104094192A (zh) 2014-10-08
CN104094192B CN104094192B (zh) 2017-09-29

Family

ID=49483700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280068615.7A Expired - Fee Related CN104094192B (zh) 2012-04-27 2012-04-27 来自用户的音频输入

Country Status (7)

Country Link
US (1) US9626150B2 (zh)
EP (1) EP2842014A4 (zh)
JP (1) JP6001758B2 (zh)
CN (1) CN104094192B (zh)
BR (1) BR112014018604B1 (zh)
TW (1) TWI490778B (zh)
WO (1) WO2013162603A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107548483A (zh) * 2015-03-27 2018-01-05 法雷奥舒适驾驶助手公司 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆
CN108854052A (zh) * 2018-06-22 2018-11-23 福州市马尾区朱雀网络信息技术有限公司 一种游戏声音实时反馈方法和系统
CN110602556A (zh) * 2019-09-20 2019-12-20 深圳创维-Rgb电子有限公司 播放方法、云端服务器及存储介质

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105658693B (zh) * 2013-10-21 2018-10-09 三井化学株式会社 光学材料用聚合性组合物和光学材料
TWI514258B (zh) * 2014-02-17 2015-12-21 Hooloop Corp 語音管理方法及系統,及其電腦程式產品
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6555858B2 (ja) * 2014-08-01 2019-08-07 シャープ株式会社 機器、音声出力方法、音声出力プログラム、ネットワークシステム、サーバ、および通信機器
KR102337682B1 (ko) * 2014-10-01 2021-12-09 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
KR102390853B1 (ko) * 2015-03-26 2022-04-27 삼성전자주식회사 컨텐츠 제공 방법 및 이를 수행하는 전자 장치
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
AU2017234428B2 (en) * 2016-03-14 2020-04-09 Apple Inc. Identification of voice inputs providing credentials
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10103699B2 (en) * 2016-09-30 2018-10-16 Lenovo (Singapore) Pte. Ltd. Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10366691B2 (en) * 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US20190050195A1 (en) * 2017-08-14 2019-02-14 Lenovo (Singapore) Pte. Ltd. Output provision based on gaze detection
US11295735B1 (en) * 2017-12-13 2022-04-05 Amazon Technologies, Inc. Customizing voice-control for developer devices
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
EP3596584B1 (en) 2018-05-04 2021-03-24 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze
CN112236738A (zh) * 2018-05-04 2021-01-15 谷歌有限责任公司 基于检测到的手势和凝视调用自动化助理功能
JP7263505B2 (ja) * 2018-05-04 2023-04-24 グーグル エルエルシー ホットワードを用いない自動アシスタント機能の適応
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
EP3848788A4 (en) 2018-09-07 2021-11-10 Sony Group Corporation TERMINAL DEVICE AS WELL AS THE MANUFACTURING PROCESS OF THE SAME, AND RECORDING MEDIA
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11271762B2 (en) * 2019-05-10 2022-03-08 Citrix Systems, Inc. Systems and methods for virtual meetings
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11955137B2 (en) * 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
TWI832575B (zh) * 2022-11-23 2024-02-11 酷碼科技股份有限公司 振動裝置及其運作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200720991A (en) * 2005-11-22 2007-06-01 Delta Electronics Inc Voice control methods
US20070174060A1 (en) * 2001-12-20 2007-07-26 Canon Kabushiki Kaisha Control apparatus
CN101674363A (zh) * 2009-09-23 2010-03-17 中兴通讯股份有限公司 移动设备及通话方法
TW201033852A (en) * 2009-03-02 2010-09-16 Univ Nat Central Apparatus and method for recognizing gaze
US20100315482A1 (en) * 2009-06-15 2010-12-16 Microsoft Corporation Interest Determination For Auditory Enhancement

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004192653A (ja) * 1997-02-28 2004-07-08 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
US6118888A (en) 1997-02-28 2000-09-12 Kabushiki Kaisha Toshiba Multi-modal interface apparatus and method
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
JP2001070293A (ja) * 1999-09-06 2001-03-21 Toshiba Corp X線診断装置
JP2001134256A (ja) * 1999-11-05 2001-05-18 Sony Corp ディスプレイ装置の利用者検出回路
JP2002041084A (ja) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd 対話処理システム
JP2003044089A (ja) * 2001-07-26 2003-02-14 Matsushita Electric Works Ltd 音声認識装置及び音声認識方法
US7762665B2 (en) 2003-03-21 2010-07-27 Queen's University At Kingston Method and apparatus for communication between humans and devices
US7522065B2 (en) * 2004-10-15 2009-04-21 Microsoft Corporation Method and apparatus for proximity sensing in a portable electronic device
US20060192775A1 (en) 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US7438414B2 (en) * 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
JP4992218B2 (ja) 2005-09-29 2012-08-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7429108B2 (en) 2005-11-05 2008-09-30 Outland Research, Llc Gaze-responsive interface to enhance on-screen user reading tasks
WO2007089198A1 (en) 2006-02-01 2007-08-09 Tobii Technology Ab Generation of graphical feedback in a computer system
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
WO2010089989A1 (ja) * 2009-02-05 2010-08-12 パナソニック株式会社 情報表示装置及び情報表示方法
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20110205148A1 (en) 2010-02-24 2011-08-25 Corriveau Philip J Facial Tracking Electronic Reader
US20110310001A1 (en) 2010-06-16 2011-12-22 Visteon Global Technologies, Inc Display reconfiguration based on face/eye tracking
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9202105B1 (en) * 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174060A1 (en) * 2001-12-20 2007-07-26 Canon Kabushiki Kaisha Control apparatus
TW200720991A (en) * 2005-11-22 2007-06-01 Delta Electronics Inc Voice control methods
TW201033852A (en) * 2009-03-02 2010-09-16 Univ Nat Central Apparatus and method for recognizing gaze
US20100315482A1 (en) * 2009-06-15 2010-12-16 Microsoft Corporation Interest Determination For Auditory Enhancement
CN101674363A (zh) * 2009-09-23 2010-03-17 中兴通讯股份有限公司 移动设备及通话方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107548483A (zh) * 2015-03-27 2018-01-05 法雷奥舒适驾驶助手公司 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆
CN108854052A (zh) * 2018-06-22 2018-11-23 福州市马尾区朱雀网络信息技术有限公司 一种游戏声音实时反馈方法和系统
CN110602556A (zh) * 2019-09-20 2019-12-20 深圳创维-Rgb电子有限公司 播放方法、云端服务器及存储介质

Also Published As

Publication number Publication date
TW201403458A (zh) 2014-01-16
CN104094192B (zh) 2017-09-29
BR112014018604B1 (pt) 2022-02-01
US9626150B2 (en) 2017-04-18
BR112014018604A8 (pt) 2021-03-09
TWI490778B (zh) 2015-07-01
JP6001758B2 (ja) 2016-10-05
US20150033130A1 (en) 2015-01-29
EP2842014A1 (en) 2015-03-04
JP2015514254A (ja) 2015-05-18
WO2013162603A1 (en) 2013-10-31
EP2842014A4 (en) 2015-12-02

Similar Documents

Publication Publication Date Title
CN104094192A (zh) 来自用户的音频输入
US10390213B2 (en) Social reminders
CN104850827B (zh) 指纹识别方法及装置
US10460095B2 (en) Earpiece with biometric identifiers
EP3314493B1 (en) Method and apparatus for enabling the touchscreen display of a mobile device
CN107077847B (zh) 关键短语用户识别的增强
WO2016107030A1 (zh) 通知信息显示方法及装置
US8823491B2 (en) Security-enhanced radio frequency object locator system, method and program storage device
KR102409903B1 (ko) 사용자 정보를 제공하는 전자 장치 및 방법
CN104363205B (zh) 应用登录方法和装置
US20160294823A1 (en) Displaying content based on device orientation
CN106204011A (zh) Nfc支付方法及装置
CN104182039B (zh) 设备控制方法、装置及电子设备
JP2018525696A5 (zh)
CN106778198A (zh) 执行操作的安全认证方法及装置
TW201407414A (zh) 輸入裝置及搭配其使用之主機
CN109120788A (zh) 消息的播放方法、装置及计算机可读存储介质
US11227610B1 (en) Computer-based systems for administering patterned passphrases
AU2017100235A4 (en) Social reminders
KR101751514B1 (ko) 금융 사이트의 진위 식별 알림 방법 및 금융서버
KR20160006497A (ko) 스마트 기기를 이용한 공인인증서 발급 방법 및 금융 서버

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170929

CF01 Termination of patent right due to non-payment of annual fee