CN104094192A

CN104094192A - 来自用户的音频输入

Info

Publication number: CN104094192A
Application number: CN201280068615.7A
Authority: CN
Inventors: 伊万·舍塞勒
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2012-04-27
Filing date: 2012-04-27
Publication date: 2014-10-08
Anticipated expiration: 2032-04-27
Also published as: TW201403458A; TWI490778B; EP2842014A1; US9626150B2; US20150033130A1; BR112014018604A8; CN104094192B; JP2015514254A; WO2013162603A1; BR112014018604B1; EP2842014A4; JP6001758B2

Abstract

一种计算设备，检测观看所述计算设备的用户，并在检测到所述用户观看所述计算设备的情况下输出提示。如果用户持续观看所述计算设备达预定量的时间，则所述计算设备接收来自所述用户的音频输入。

Description

来自用户的音频输入

背景技术

当用户访问设备以键入诸如音频输入之类的输入时，用户可以首先使用计算设备的诸如鼠标或键盘之类的输入部件，以启用计算设备的音频输入部件。用户可以继续访问鼠标或键盘来启动计算设备上的应用以接收来自用户的音频输入。当用户操作输入部件时，时间会浪费，而且用户可能犯错从而导致令人沮丧的用户体验。

附图说明

所公开实施例的各特性及优点将由结合附图的下列具体实施方式而显见，附图以示例的方式一起图示所公开实施例的特性。

图1示出根据示例的具有传感器、输出部件和音频输入部件的计算设备。

图2示出根据示例的输出提示的输出部件和检测观看计算设备的用户的传感器。

图3示出根据示例的检测来自用户的音频输入的语音应用的框图。

图4是示出根据示例的用于检测音频输入的方法的流程图。

图5是示出根据示例的用于检测音频输入的方法的流程图。

具体实施方式

计算设备包括诸如图像捕获部件之类的传感器，以检测观看计算设备的用户。为了此应用，如果传感器检测到用户的脸或眼睛面对计算设备，则用户正在观看计算设备。如果用户正在观看计算设备，则诸如视觉指示器、音频输出扬声器和/或触觉反馈电机之类的输出部件向用户提供提示。此提示可以是视觉的、音频的和/或触觉反馈的提示，该提示通知用户计算设备准备好接收来自用户的音频输入。当提示被输出时，计算设备可使用传感器来检测观看计算设备和/或输出部件达预定量的时间的用户。

如果当提示被输出时计算设备确定用户持续观看计算设备达预定量的时间，则计算设备可确认用户想要和计算设备接合。然后，计算设备的诸如麦克风之类的音频输入部件可接收来自用户的音频输入。在一个实施例中，当接收音频输入时，计算设备启动该计算设备的监听模式以启用、取消静音和/或校准音频输入部件来接收来自用户的音频输入。音频输入可以是语音命令、语音查询和/或由用户产生并由计算设备接收作为输入的任何其它声音。因此，用户能够方便地利用音频输入与设备交互，而不用身体访问或操作计算设备的输入部件。

图1示出根据示例的具有传感器130、输出部件160和音频输入部件140的计算设备100。在一个实施例中，计算设备100可以是台式机、膝上机、笔记本、平板、上网本、一体式系统和/或服务器。在另一实施例中，计算设备100可以是蜂窝设备、PDA(个人数字助理)、E-Reader(电子阅读器)、平板、相机和/或能够包含传感器130、输出部件160和音频部件140的任何附加设备。

计算设备100包括控制器120、传感器130、输出部件160、音频输入部件140和用于计算设备100和/或设备100的一个或多个部件彼此通信的通信信道150。在一个实施例中，计算设备100还包括存储在非易失计算机可读介质上的语音应用，所述介质包含于计算设备100内或对于计算设备100是可访问的。为了此应用，语音应用是能够独立地使用和/或与控制器120结合使用以管理对计算设备100的音频输入145的应用。为了此应用，音频输入145包括作为计算设备100的输入而接收的来自用户的语音和/或声音。

当管理音频输入145时，可首先使用传感器130检测用户是否在观看计算设备100。为了此应用，传感器130是硬件部件，比如图像捕获部件和/或红外部件，所述部件能够捕获计算设备100前方的景象以检测观看计算设备100的用户。检测观看计算设备100的用户包括确定用户的脸是否面对计算设备100。在一个实施例中，控制器320和/或语音应用能够使用面部检测技术和/或眼注视检测技术以确定用户的脸或眼是否在观看计算设备100。

如果用户被检测到正在观看计算设备100，则控制器120和/或语音应用指示输出部件160向该用户输出提示165。为了此应用，提示165是来自输出部件160的信号或通知，以通知该用户计算设备100准备好接收来自该用户的音频输入145。输出部件160是计算设备100的硬件部件，其能够向用户提供视觉提示、音频提示和/或触觉反馈提示。在一个实施例中，输出部件160可以是视觉指示器、音频输出扬声器、触感电机和/或能够输出提示165的任何附加部件。

控制器110和/或语音应用可以使用传感器130来检测用户是否在观看计算设备100达预定量的时间。此预定量的时间可以由控制器120、语音应用和/或用户定义。例如，此预定量的时间可以被定义为半秒、2秒或任何附加量的时间。如果传感器130检测到用户持续观看计算设备100达预定量的时间，则控制器110和/或语音应用确定用户在观看计算设备100达预定量的时间。

在另一实施例中，当检测用户观看计算设备100达预定量的时间时，传感器130还可以检测用户观看计算设备100的输出部件160。控制器120和/或语音应用可识别用户的视线，以确定用户是否在观看计算设备100和/或输出部件160。控制器120和/或语音应用可以使用面部检测技术和/或眼注视检测技术以识别用户的视线。

如果用户持续观看计算设备100和/或输出部件160达预定量的时间，控制器120和/或语音应用就能够确定用户意图是要和计算设备100交互并开始使用音频输入部件140接收来自用户的音频输入145。为了此应用，音频输入部件140是硬件部件，比如麦克风，所述部件能够接收来自用户的音频输入145。

为了此应用，音频输入145包括来自用户的可听声，控制器110和/或语音应用可接收此可听声作为计算设备100的输入。例如，音频输入145可以是对计算设备100的语音命令和/或查询。在一个实施例中，接收音频输入145包括控制器120和/或语音应用启动计算设备100的监听模式。为了此应用，计算设备100的监听模式相当于计算设备100的输入模式以接收来自用户的音频输入145。如果计算设备100处于监听模式，则音频输入部件140被启用并被取消静音以接收音频输入145。

图2示出根据示例的输出部件260响应于传感器230检测到用户205观看计算设备200而输出提示265。为了此应用，传感器230是计算设备200的硬件部件，其检测观看计算设备200的用户205。传感器230可以是图像捕获部件、红外部件和/或能够检测观看计算设备200的用户205的任何附加部件。在一个实施例中，传感器230还可以检测用户205在计算设备200周围的物理近距(physicalproximity)。用户205的物理近距相当于用户离音频输入部件240的位置或距离。用户205可以是能够与计算设备200交互并向计算设备200键入一个或多个音频输入的任何人。

传感器230可以首先捕获计算设备200前方的景象以检测用户205。如果检测到用户205，控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术来检测用户205是否在观看计算设备200。控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术以确定计算设备200是否在用户205的视线内。如果计算设备200在用户的视线内，控制器和/或语音应用就确定用户205在观看计算设备200。

如果检测到用户205在观看计算设备200，输出部件260就开始输出提示265以通知用户205计算设备200准备好接收来自用户205的音频输入。在一个实施例中，控制器和/或语音应用还可以在指示输出部件260输出提示265之前确定用户是否持续观看计算设备200达预定量的时间。如上所提到的，预定量的时间可以由控制器、语音应用和/或由用户205定义成半秒、2秒和/或任意的时间量。

如果用户205持续观看计算设备200达预定量的时间，就可用输出部件260输出提示265。为了此应用，输出部件260是计算设备200的硬件部件，比如视觉指示器、显示部件、音频输出扬声器和/或触感电机，所述部件输出提示265。该提示265包括视觉信号、音频信号、触觉反馈和/或任何附加的提示265中的至少一个，其通知用户205计算设备200准备好接收音频输入。例如视觉信号可以是点亮的光源。音频信号可以是输出的可听音调。触觉反馈可以包括一个或多个震动。

在一个实施例中，输出部件260是具有受限视野的方向性视觉指示器，提示265根据用户205的位置被输出给用户205。如上所提到的，传感器230可被用于检测用户205的物理位置或近距。方向性视觉指示器可以包括具有受限视野的光源阵列。用户205近距内的一个或多个光源可被点亮以将提示265输出给用户205去观看。用户205近距处以外的其他光源不被点亮。所以，通过在提示265的受限视野内输出提示265可以提高用户205和计算设备200的安全性，使得其他人看不到提示265也看不到用户205和计算设备200交互。

当输出部件260输出提示265时，控制器和/或语音应用确定用户205是否在结合所输出的提示265观看计算设备200达预定量的时间。为了此应用，如果用户205在输出部件160输出提示265时持续观看计算设备200，则用户205就可以被确定为在结合提示265观看计算设备200。例如，如果用户205在提示265被输出的同时持续观看计算设备200达预定量的时间，用户205就被确定为在结合所输出的提示265观看计算设备200。

在另一个实施例中，不同于观看计算设备200，控制器和/或语音应用可以检测用户205结合所输出的提示265观看输出部件260达预定量的时间。在其它实施例中，传感器230还检测用户205的面部表情变化或来自用户205的持续注视。当检测面部表情变化时，传感器230检测微笑、皱眉、眨眼、扬眉和/或来自用户205的任何附加的面部表情变化。当检测持续注视时，传感器230检测用户205的面部和眼睛持续观看计算设备200或其它输出部件260达预定量的时间。

如果用户205结合所输出的提示265在观看计算设备200和/或输出部件260达预定量的时间，控制器和/或语音应用就确定用户想要用音频输入同计算设备200交互。如图2中所示，音频输入部件240可被用于检测来自用户205的音频输入。为了此应用，音频输入部件240是硬件部件，比如麦克风，所述部件检测语音、声音和/或噪声作为计算设备200的音频输入。在一个实施例中，来自用户205的音频输入可以是对计算设备200的语音命令以执行指令或命令。此指令或命令可能会启动或终止应用，打开或关闭文件，及/或将字母文本口授输入到电子邮件、应用程序和/或web浏览器。

在另一实施例中，音频输入可以是对来自计算设备200的信息的语音查询。此查询可能是关于计算设备200的状态、关于本地天气预报和/或关于可取自计算设备200或其他设备的信息。在捕获来自用户205的语音命令和/或查询时，传感器230还可以捕获用户205口部的视图。用户205口部的视图可被控制器和/或语音应用所使用以改善关于识别来自用户205的语音命令和/或查询的精度。在其它实施例中，用户205可以用手、身体部分和/或配件来创建用于音频输入部件240的音频以接收作为音频输入。

图3示出根据示例的检测来自用户的音频输入的语音应用310的框图。如上所提到的，语音应用310可以独立地和/或与控制器320相结合地使用以管理音频输入。在一个实施例中，语音应用310可以是嵌入到计算设备的一个或多个部件上的固件。在另一实施例中，语音应用310可以是能够从计算设备的非易失计算机可读存储器访问的应用。此计算机可读存储器是供此设备所用或与其相连的容纳、存储、传送或传输应用的有形装置。在一个实施例中，计算机可读存储器是硬盘、光盘、闪存盘、网盘或其他任何耦接到该计算设备的有形装置形式。

如图3中所示，传感器330已经检测到观看计算设备的用户。作为回应，控制器320和/或语音应用310指示输出部件360向用户输出视觉、音频和/或触觉反馈提示。在一个实施例中，在输出提示时，控制器320和/或语音应用310可以使用面部辨识技术认证用户。控制器320和/或语音应用310可以指示传感器330捕获用户面部的图像，并将用户面部的图像与计算设备的已识别用户的图像相比较。已识别用户的图像可以本地存储在该计算设备或对于控制器320和/或语音应用310可访问的其他设备的存储部件上。

在一个实施例中，如果用户的图像不匹配于已识别用户的图像，则用户认证失败，并且控制器320和/或语音应用310禁用计算设备的监听模式。当禁用监听模式时，控制器320和/或语音应用310可以禁用音频输入部件340、使音频输入部件340静音，和/或拒绝任何来自用户的音频输入。如果用户的图像匹配于已识别用户的图像，则用户会成功认证，并且控制器320和/或语音应用310开始确定用户是否持续观看计算设备或输出部件达预定量的时间。

如果确定用户观看计算设备和/或输出部件达预定量的时间，控制器320和/或语音应用310就确定用户想要同计算设备交互并开始启动监听模式。在另一实施例中，当用户持续观看计算设备和/或输出部件时，控制器320和/或语音应用310可以进一步检测来自用户的持续注视或面部表情变化。通过检测持续注视或面部表情变化，控制器320和/或语音应用310可以进一步确认用户要和计算设备交互的意图。

然后，控制器320和/或语音应用310可以启动计算设备的监听模式。当启动监听模式时，控制器320和/或语音应用310可以启用音频输入部件340并将音频输入部件340取消静音以接收来自用户的音频输入。在一个实施例中，当启动监听模式时，控制器320和/或语音应用载入与用户身份相关的朗读配置(speechprofile)。为了此应用，此朗读配置包括用户语音或朗读模式的信息，控制器320和/或语音应用310用该信息改善对来自用户的音频的检测和识别。此信息可以包括用户语音的音高、用户讲话的速率、用户朗读的宣告(annunciation)和/或用户语音或朗读模式的任何附加信息。

在一个实施例中，控制器320和/或语音应用310还指示传感器330检测用户相对于音频输入部件340的物理近距。如上所提到的，用户的物理近距相当于用户距音频输入部件340的位置或距离。基于用户的位置和距离，控制器320和/或语音应用310能够校准音频输入部件340以改善对来自用户的音频输入的检测的精度。校准音频输入部件340可以包括对准音频输入部件340以接收来自用户位置的音频输入。在另一实施例中，校准音频输入部件340可以包括基于用户的距离和/或位置应用噪声过滤或消除算法。

响应于检测来自用户的音频输入，控制器320和/或语音应用310识别计算设备的与来自用户的音频输入相关的命令、指令、输入和/或查询。在一个实施例中，当音频输入部件340检测到音频输入时，传感器330还可以捕获用户口部的视图。通过捕获用户口部的视图，识别计算设备的与音频输入相对应的命令、指令和/或查询的精度可得到提高。用户口部的视图还可以用作音频输入部件340的指示以开始接收来自用户的音频输入。

图4是示出根据示例的用于检测音频输入的方法的流程图。在400处，诸如图像捕获部件之类的传感器可以首先检测观看计算设备的用户。如果用户正在观看此计算设备，则在410处，控制器和/或语音应用可以指示输出部件，比如视觉指示器、音频扬声器和/或触感电机，以输出视觉、音频和/或触感反馈提示。此提示可被用于通知用户此计算设备准备好启动监听模式以接收来自用户的音频输入。当提示被输出时，在420处，控制器和/或语音应用可以确定用户是否在提示被输出时持续观看输出部件达预定量的时间。在430处，如果用户持续观看输出部件达预定量的时间，则控制器和/或语音应用就确定此用户想要键入语音命令和/或查询，并且启动计算设备的监听模式用于音频输入部件以接收来自用户的音频输入。然后此方法完成。在其他实施例中，除了图4中所描绘的这些方法外，和/或作为这些方法的替代，图4的方法包括附加步骤。

图5是示出根据示例的用于检测音频输入的方法的流程图。在500处，诸如图像捕获部件之类的传感器可以被用于捕获用户的视图，并且控制器和/或语音应用可以使用面部检测技术和/或眼注视检测技术以确定用户是否正在观看计算设备。在510处，控制器与/或语音应用通过确定用户面部是否正朝向计算设备和/或用户的眼注视是否正在看计算设备来检测用户是否正在观看计算设备。如果用户没有在观看计算设备，则控制器和/或语音应用继续在500处检测观看计算设备的用户。

如果确定用户正在观看计算设备，则在520处，输出部件可被用于输出视觉、音频和/或触觉反馈提示以通知用户计算设备准备好启动监听模式。当提示被输出时，在530处，控制器和/或语音应用可以确定用户是否持续观看输出部件达预定量的时间。如果用户没有观看输出部件达预定量的时间，控制器和/或语音应用就继续在500处检测观看计算设备的用户。

在一个实施例中，如果确定用户观看了输出部件达预定量的时间，则在540处，控制器和/或语音应用可确定是否在用户处检测到面部表情变化，比如扬眉、眨眼和/或微笑。如果未检测到面部表情变化，则控制器和/或语音应用在530处继续确定用户是否观看输出设备达预定量的时间。如果检测到面部表情变化，则在550处，用户可以使用面部辨识技术来认证。如果用户认证失败，则不启动监听模式，并且控制器和/或语音应用继续在500处检测是否另一用户在观看计算设备。

如果用户成功被认证，则在560处，控制器和/或语音应用加载与用户身份相关的朗读配置。朗读配置被用于改善来自用户的音频输入的检测和辨识。然后在570处，控制器和/或语音应用可以通过启用音频输入部件，比如麦克风而启动计算设备的监听模式，以接收来自用户的音频输入。在一个实施例中，在580处，传感器和/或音频输入部件还可以识别用户的物理近距并基于用户的物理近距开始校准音频输入部件。在另一实施例中，当启动监听模式时，控制器和/或语音应用还可以禁用计算设备上的其它形式输入，如触摸输入、键盘输入、鼠标输入和/或用于计算设备的其它形式输入。然后此方法完成。在其它实施例中，图5的方法包括除图5所描绘的步骤以外的附加步骤或/或代替图5所描绘的步骤的附加步骤。

Claims

1.一种计算设备，包括：

传感器，用于检测观看所述计算设备的用户；

输出部件，用于在检测到所述用户观看所述计算设备的情况下输出提示；以及

控制器，用于在所述传感器检测到所述用户结合所输出的提示持续观看所述计算设备达预定量的时间的情况下，利用音频输入部件接收来自所述用户的音频输入。

2.如权利要求1所述的计算设备，其中所述提示包括视觉信号、音频信号、触觉反馈中的至少一种，用于向所述用户指示所述计算设备准备好启动监听模式以接收音频输入。

3.如权利要求1所述的计算设备，其中所述音频输入是来自所述用户的语音命令或查询。

4.如权利要求1所述的计算设备，其中所述传感器包括图像捕获部件和红外部件中的至少一个。

5.如权利要求1所述的计算设备，其中所述输出部件包括视觉指示器、音频扬声器和触感电机中的至少一个以输出所述提示。

6.如权利要求1所述的计算设备，其中所述控制器在检测观看所述计算设备的所述用户时检测来自所述用户的持续注视或所述用户的面部表情变化。

7.一种用于接收音频输入的方法，包括：

利用传感器检测观看计算设备的用户；

如果所述用户在观看所述计算设备，则利用输出部件输出提示；

确定所述用户是否在观看所述输出部件达预定量的时间；以及

如果所述用户在观看所述输出部件达预定量的时间，则启动所述计算设备的监听模式以接收来自所述用户的音频输入。

8.如权利要求7所述的用于接收音频输入的方法，进一步包括：如果所述用户在观看所述输出部件，则利用面部辨识技术认证所述用户。

9.如权利要求7所述的用于接收音频输入的方法，进一步包括：加载与所述用户的身份相关联的朗读配置。

10.如权利要求7所述的用于接收音频输入的方法，进一步包括：利用所述传感器识别所述用户的物理近距，并基于所述用户的物理近距校准所述计算设备的音频输入部件。

11.如权利要求7所述的用于接收音频输入的方法，其中如果所述用户认证失败则所述计算设备的监听模式不被启用。

12.一种非易失性计算机可读介质，所述非易失性计算机可读介质包括指令，所述指令如果被执行则使控制器：

利用传感器检测观看计算设备的用户；

检测所述用户是否结合所输出的提示持续观看所述输出部件达预定量的时间；以及

如果所述用户在观看所述输出部件达所述预定量的时间，则启动所述计算设备的监听模式以接收来自所述用户的音频输入。

13.如权利要求12所述的非易失性计算机可读介质，其中当所述音频输入部件检测来自所述用户的音频输入时，所述传感器附加地捕获所述用户的口部的视图。

14.如权利要求12所述的非易失性计算机可读介质，其中所述控制器识别所述计算设备的与音频输入及所述用户的口部的视图相关联的输入命令。

15.如权利要求12所述的非易失性计算机可读介质，其中所述输出部件是具有受限视野的方向性视觉指示器，并且所述提示基于所述用户的位置被输出给所述用户。