CN106662990A

CN106662990A - 与语音识别设备的非语音交互

Info

Publication number: CN106662990A
Application number: CN201580041836.9A
Authority: CN
Inventors: A·S·李; O·E·穆里洛; Y·张; L·H·杰恩兹; L·施蒂费尔曼; M·R·沃尔夫; C·陈
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-07-31
Filing date: 2015-07-27
Publication date: 2017-05-10
Also published as: EP3175352A1; WO2016018784A1; US20160034249A1

Abstract

提供了与语音输入系统进行交互的各实施例。一种示例提供了包括耳机、语音输入系统和非语音输入系统的电子设备。电子设备还包括指令，该指令可执行以通过音频输出向用户呈现请求，并通过第一输入模式接收响应于所述请求的用户输入，在所述第一输入模式中，用户输入通过语音输入系统做出，并且还通过第二输入模式接收响应于所述请求的用户输入，在所述第二输入模式中，通过非语音输入系统作出对所述请求的响应。

Description

与语音识别设备的非语音交互

附图简述

图1示意性地示出包括耳机和主机的示例个人助理计算设备。

图2示意性地示出图1的耳机和主机的示例实现。

图3是接收计算设备上的输入的示例方法的流程图。

图4解说了将非语音输入分成类似的输入类型的各个组的示例组织。

图5示意地示出了示例非语音输入。

图6示出了示例计算设备的框图。

详细描述

语音输入系统可以被配置成识别并处理用户语音输入。语音输入系统可以在许多不同类型的计算设备上被实现，包括但不局限于移动设备。例如，计算设备可以被配置为用作主要通过语音输入来操作的个人助理计算设备。一种示例个人助理计算设备可以采用具有耳机用户接口的可穿戴设备的形式。该耳机可以包括用于接收语音输入的一个或多个话筒，并还可以包括用于(例如以合成语音形式)提供音频输出的扬声器。个人助理计算设备可以包括可由该设备的处理系统执行以处理语音输入、响应于所述语音输入执行任务并呈现任务的结果的指令。作为一个示例，个人助理计算设备可以通过合成语音输出(例如“would you like a list of nearby restaurants？(你想要附近餐馆的列表吗？)”)呈现一个选项，接收语音输入(“yes(是)”或“no(否)”)，处理结果(例如将查询和位置信息(例如全球定位系统(GPS)信息)一起呈现给搜索引擎)，接收结果并通过耳机的扬声器呈现所述结果。

在一些示例中，计算设备可以不包括显示屏。这样，语音可以是与设备交互的主要模式。然而，在各种情况中，例如当用户处于公共环境中或要不然不想说话时，与这样的计算设备的交互可能难以以期望的隐私程度来执行。

公开了涉及通过非语音输入与语音输入系统进行交互的实施例。一种示例提供了包括耳机、语音输入系统和非语音输入系统的电子设备。电子设备还包括指令，该指令可执行以通过音频输出向用户呈现请求，并通过第一输入模式接收响应于所述请求的用户输入，在所述第一输入模式中，用户输入通过语音输入系统来做出，并且还通过第二输入模式接收响应于所述请求的用户输入，在所述第二输入模式中，通过非语音输入系统做出对所述请求的响应。

非语音输入可以被实现用于计算设备上，该计算设备可以利用语音作为主要输入模式。所公开的实施例可以帮助扩展可在其中使用主要利用语音交互的个人助理计算设备或其它设备的环境的范围，因为非语音输入模式可以允许在隐私关注可能阻碍语音交互的环境中的交互。

非语音输入可以通过各种机制来实现，例如通过运动传感器(例如惯性运动传感器)、图像传感器、触摸传感器、物理按键和其它非语音输入模式。因为基于语音输入的计算设备，例如个人助理计算设备，可以支持许多不同的用户交互，在所述个人助理计算设备的每个期望控制被映射到唯一的姿势或触摸输入的情况下，用户可能必须了解相对大量的非语音输入以与该设备进行交互。

在一些实现中，个人助理计算设备的各功能可以在两个或更多单独的设备(例如耳机和与耳机通信的主机设备)之间分布。在这样的设备中，设备功能在主机和耳机之间的分布可能增加与设备的非语音交互的复杂度，因为主机和耳机两者都可以包括用户输入模式。

这样，为了减少非语音输入模式的潜在复杂度，公开了将各功能分组成较少数目的非语音输入的示例，其中所述分组可以允许通过类似的输入来执行类似的功能。这可以帮助用户更加容易地了解如何执行非语音交互。作为一个非限制性示例，可以基于正被控制的功能由输入模式分组非语音输入。在这样的实现中，软件交互(例如与个人助理功能的交互)可以通过在耳机处接收到的输入来被执行，并且物理硬件交互(例如开机/关机、音量控制、电容性触摸输入以及其它硬件输入设备)可以通过在与耳机分开的主机设备处的输入来被执行。类似地，在其它实现中，物理硬件交互可以在耳机上被执行，而个人助理交互可以在主机上被执行。在又一些其它实现中，物理硬件控制和个人助理软件交互可以通过不同的输入设备(例如触摸传感器和运动传感器)在同一组件上(例如两者都在主机上或两者都在耳机上)被执行。具体而言，物理硬件控制交互和个人助理控制可以通过不同的输入模式被执行。以此方式，可以在与信息请求和呈现界面和物理设备界面的各用户交互之间做出区分。

为了进一步减少用于与计算设备交互的非语音输入的数目，被做出来控制个人助理的非语音输入可以进一步被分组成正面响应组和负面响应组。对于正面响应组，同一非语音输入可以被用于在不同的计算设备上下文中做出不同的肯定响应。例如，依据做出非语音输入的上下文，同一输入可以唤醒个人助理，肯定通过个人助理功能呈现的请求和/或做出对正在完成的附加信息的请求。类似地，在负面响应组中，再次依据在做出输入时的设备的上下文，非语音输入可以静音个人助理并驳回由个人助理所呈现的请求。以此方式，许多看上去不同的动作和/或用户响应的逻辑分组可以通过将输入桶装入较小数目的类别(例如物理硬件输入、正面输入和负面输入)中来完成。

图1示出包括耳机102和主机104的示例个人助理计算设备100。在替换示例中，除了耳机102之外个人助理计算设备100还可以包括第二耳机。第二耳机可以包括与耳机102一样的功能或不同的功能。如在下面更加详细解释的，耳机102可以包括多种输入机制，包括接收语音输入的话筒和一个或多个接收非语音输入的其它传感器，例如运动传感器和/或触摸传感器。耳机102还可以包括用于输出音频输出的一个或多个扬声器，包括但不局限于给用户106的合成语音输出。扬声器可以是未遮挡的以允许环境声音和来自其它源的音频抵达用户的耳朵。通过在被配置为驻留在用户的耳朵中的组件(例如耳机)中提供语音输入和输出(例如话筒和扬声器)，由用户做出的语音输入以及来自个人助理计算设备的语音和其它音频输出可以被不起眼地呈现，而不会受到背景噪声的破坏，并且同时保持输出的隐私性。

耳机102可被配置成通过合适的有线或无线通信机制与主机104通信。而且，主机104可以被配置成由用户穿戴。例如，主机104可以被配置为被作为项链佩戴、佩戴到手腕上、夹在用户的衣服上(例如皮带、衬衫、腰带、衣领)，装在口袋、公文包、钱包或用户的其它贴身配件中，或以任何其它合适的方式被佩戴。

主机104可以包括用于与外部网络(例如因特网)对接的外部网络通信系统，以允许个人助理功能与用于执行搜索查询和其它任务的外部网络对接。例如，用户可以通过到耳机的语音输入请求接收在用户当前位置两个街区的半径内的所有的餐馆的列表。耳机102可以检测该语音输入并将所述请求发送给主机104。主机104随后可以获得与查询有关的信息(例如搜索结果)并将所述信息发送给耳机102。随后，餐馆的列表可以通过耳机102的合成语音输出被呈现给用户。

用户的语音输入的识别和/或解释可以由耳机102、主机104和/或通过网络与主机和/或耳机通信的远程计算设备来部分或全部执行。类似地，合成语音输出可以由耳机102、主机104和/或外部计算设备来生成，如下参考图2和3所述的。

如上所述，在一些环境中，用户可能不希望通过语音输入与耳机102和主机104交互。这样，耳机102和/或主机104可以被配置成接收来自用户的非语音输入。作为一个非限制性示例，物理硬件控制，例如设备开机/关机控制和音量提高/降低控制可以被用作在主机104上的一种或多种非语音输入机制。在主机104上的非语音输入机制的示例可以包括但不限于一个或多个机械按键(例如滚轮、切换按键、换档开关(paddle switch)或其它按键或开关)，一个或多个触摸传感器和/或一个或多个运动传感器。而且，在这样的示例中，个人助理交互，例如激活个人助理或响应由个人助理所提供的请求，可以通过耳机102上的一个或多个非语音输入机制来被执行。耳机102上的非语音输入机制的示例可以包括但不限于一个或多个运动传感器、触摸传感器和/或机械按键。

将理解，图1所示的硬件配置是出于示例的目的而被呈现的，且不旨在以任何方式进行限制。在其它示例中，主机可以采用任何其它合适的配置，例如手腕佩戴设备、项链、储藏在鞋跟中的气垫(puck)或储藏在用户的身体上使用塑料、挂钩和环形紧固件的低型面设备和/或某种其它机制。在另外的示例中，主机可以不是形成具有耳机的多组件设备的专用的个人助理计算设备组件，而是代之以外部的独立的设备，例如移动计算设备、膝上设备或其它设备，它们不必被配置为由用户穿戴。在又一些示例中，设备可以不包括主机，并且所有的功能可以驻留在耳机中。

图2示意性示出个人助理计算设备100的示例配置的框图200，并且解说可以被包括在耳机102和主机104上的示例组件。耳机102包括一个或多个用于接收用户输入的传感器。这样的传感器可以包括，但不局限于，运动传感器202、触摸传感器204、机械输入机制206和话筒208。任何合适的运动传感器可以被使用，包括但不局限于一个或多个陀螺仪、加速度计、磁力计或检测在一个或多个轴中的运动的其它传感器。类似地，任何合适的触摸传感器可以被使用，包括但不限于电容性、电阻性和光学触摸传感器。合适的机械输入机制206的示例包括但不限于滚轮、按键、转盘和/或其它合适的机械输入机制。耳机102还包括用于将信息呈现给用户的一个或多个输出，例如一个或多个扬声器210以及可能的其它输出机制212，例如触觉输出(例如振动输出系统)。

耳机102还包括主机通信系统214，其被配置为允许与主机104或其它个人助理计算设备组件的通信。主机通信系统214可以通过任何合适的有线或无线通信协议与主机104通信。

耳机102还可以包括逻辑子系统216和存储子系统218。存储子系统包括被配置成保持可由逻辑子系统216执行以实现例如此处描述的方法和过程的一个或多个物理设备的指令。存储子系统可以是易失存储器、非易失存储器或这两者的组合。在逻辑子系统216中实现的方法和过程可以包括语音识别和解释220以及语音输出合成222。语音识别和解释220可以包括可由逻辑子系统216执行以识别如话筒208所检测到的由用户做出的语音输入以及将所述语音输入解释成命令和/或对信息的请求的指令。语音输出合成222可以包括可由逻辑子系统216执行以从接收自例如主机104的信息中生成要通过一个或多个扬声器210被呈现给用户的经合成的语音输出的指令。存储子系统218还可以包括可由逻辑子系统216执行以接收来自运动传感器202、触摸传感器204和/或机械输入机制206的信号并将所述信号解释为用于控制信息检索和/或语音输出合成的命令的指令。

如上所述，在各种不同的实现中，这些功能可以被不同地分布在主机和耳机之间。例如，语音识别和解释、和/或语音输出合成功能也可以在主机上执行，或在主机和耳机之间分布。术语“语音输入系统”在本文中可以被用于描述可以被用于接收和解释语音输入的组件(硬件、固件和/或软件)。这样的组件可以包括，例如，用于接收语音输入的话筒208、以及语音识别和解释指令220。这样的指令还可以在耳机远程地驻留(例如驻留在主机上，如下更加详细描述地)，并且语音输入系统可以(以原始或经处理的格式)发送来自话筒的信号，以用于要被远程执行的语音识别和解释。

术语“非语音输入系统”在本文中可以被用于描述可以被用于接收和解释非语音输入的组件(硬件、固件和/或软件)。非语音输入系统可以包括例如运动传感器202、触摸传感器204以及机械输入机制206中的一个或多个，以及可执行以将来自这些传感器的用户输入信号解释成用于控制对主机的信息检索和/或经合成的语音的输出的命令的指令。如上所述，在各个实现中，这些组件可以位于耳机、主机(如下更加详细描述地)上，或分布在耳机和主机之间。

术语“合成语音输出系统”在本文中可以被用于描述可以被用于通过音频输出系统提供语音输出的组件(硬件、固件和/或软件)。合成语音输出系统可以包括例如语音输出合成指令222和扬声器210。语音输出合成指令还可以至少部分位于主机104上，如下更加详细描述地。

主机104还包括一个或多个用于接收用户输入的输入机制。例如，主机可以包括一个或多个运动传感器224、触摸传感器226以及机械输入机制228，例如如上针对耳机所述的那些。主机104还包括用于与耳机102通信的耳机通信系统230以及用于与外部网络242(例如计算机网络、移动电话网络和/或其它合适的外部网络)进行通信的外部网络通信系统232。

主机104还可以包括逻辑子系统234和存储子系统236。存储子系统236包括被配置成保持可由逻辑子系统234执行以实现例如此处描述的方法和过程的指令的一个或多个物理设备。这样的指令可以包括语音识别和解释指令238以及语音输出合成指令240。如上所述，这些功能还可以驻留在耳机102上或分布在耳机102和主机104之间。

存储子系统236还可以包括可由逻辑子系统234执行以接收来自运动传感器224、触摸传感器226和/或机械输入机制228的信号并将所述信号解释为控制个人助理计算设备、音量控制或其它物理硬件功能的命令的指令。以下将参考图6来描述关于逻辑子系统和存储子系统配置的附加细节。

个人助理计算设备100还可以包括信息请求和检索系统，其可以被称为个人助理。个人助理可以包括可执行以接收对信息的请求(作为语音输入、作为(例如基于地理位置、时间、所接收的消息或任何其它合适的触发器)和/或以任何其它合适的方式进行响应而算术生成的请求)，将对信息的请求发送给外部网络，从外部网络接收所请求的信息并将所述信息发送给合成语音输出系统的指令。可执行以操作个人助理的指令可以位于耳机102、主机104上或分布在设备之间。所述个人助理的一些指令也可以驻留在通过计算机网络被访问的一个或多个远程计算设备上。个人助理还可以包括将信息呈现给用户的指令，例如对更多信息、澄清、交互发起或其它命令或查询的请求。

图3示出了解说用于管理在个人助理计算设备上的输入的方法的实施例的流程图。方法300可根据存储在耳机和/或主机或任何其它合适的设备或设备的组合上的指令，在以上参考图1和2所描述的个人助理计算设备100上执行。方法300包括，在302，通过音频输出呈现请求。所述请求可以以任何合适的方式，例如通过经由耳机上的话筒所呈现的经合成的语音输出，被呈现。所述请求可以包括任何合适的查询，例如对已经被呈现的信息的确认的请求。经合成的语音输出可以在耳机上被生成，如在304处所示，或在主机上被生成并随后被发送给耳机以供呈现，如在306处所示。

在308，方法300包括接收响应于所述请求的用户输入。各种用户输入可以被接收，例如由所述请求所引起的问题的肯定或驳回。在一些环境中，用户可以提供用户输入给语音输入系统，如在310处所示。然而，在其它环境中，例如当在非私密环境中用户与个人助理计算设备交互时，用户可能希望避免与个人助理计算设备通过语音进行通信。在这些环境中，响应于所述请求的输入可以在耳机处通过第一非语音输入模式来做出，如在312处所示。在耳机处的非语音输入可以包括由一个或多个非语音输入机制，例如运动传感器、触摸传感器和/或机械输入机制，所检测到的非语音输入。非语音输入可以在耳机处被处理或被发送给主机设备以供处理。

如上所述，通过第一非语音输入模式所做出的各非语音输入可以被分类到正面响应组311和负面响应组313中，而不同的姿势和/或触摸输入被映射到每个组。各种不同的输入可以被分组到这些组中的每个组中。例如，由于由个人助理计算设备在302向用户呈现的各请求可以通过简单的yes(是)或no(否)响应来应答，“yes”响应可以被包括在正面响应组中，而“no”响应则在负面响应组中。在一些上下文中，用户可以能够请求附加信息作为对个人助理请求的响应(“tell me more(告知我更多)”输入)。这样的输入可以被分组为正面响应。而且，作出激活个人助理(“调用”)的请求的用户输入可以被分组为正面响应。类似地，个人助理的静音(“do not bother me(不要打搅我)”输入)可以与“no”响应一起被分组为负面响应。

在一些实现中，在正面响应组中的每个响应可以由命令输入来指示，例如作为示例在耳机上的(通过运动传感器和/或触摸传感器所检测到的)点头或单次轻击。类似地，在负面响应组中的每个响应可以由不同的公共输入来指示，例如前后摇头或通过轻击耳机两次，这些都是非限制性示例。用于正面和负面响应组的其它说明性触摸和姿势输入在下面关于图5被描述。

由于正面和负面响应组每个都可以利用公共的输入(在各组之间是不同的)，基于产生所述响应的请求的上下文，可以将用户想要做出的特定命令与共享相同公共输入的其它命令区分开来。例如，如果由个人助理所呈现的请求包括查询“would you like me tofind more restaurants in your area？(你需要我查找在你的区域中的更多的餐馆吗？)”，根据所述问题的上下文，正面响应输入将被解释为“yes(是)”响应。在另一个示例中，如果在没有来自个人助理的先前请求的情况下提供了正面响应输入，则该响应输入可以被解释为对激活个人助理的调用。在另外的示例中，如果用户向如上所述的针对附加餐馆的查询输入负面响应输入，则个人助理可以将该负面响应解释为no(否)，而不是静音。为了在这样的情况下静音个人助理，负面响应输入可以例如被第二次输入。

在图3继续，如上所述，物理硬件交互可以被认为是除了用于语音系统交互的正面和负面输入组之外的附加输入组。如此，方法300包括，在314，通过第二非语音输入模式接收物理硬件控制输入。非语音输入的第二模式与第一模式的区别在于：第二模式控制设备的硬件功能，例如开机/关机或提高/降低音量，而第一模式控制个人助理的功能，例如对由个人助理提供的请求进行响应。在一些实现中，通过非语音输入的第二模式做出的输入可以对主机来做出，如在316处所示。这样，主机可以包括一种或多种输入机制，例如按键或触摸传感器，通过其用户可以进行输入以便对(包括耳机的)个人助理计算设备进行开机或关机或调节由耳机提供的音频输出的音量。

在其它示例中，非语音输入的第二模式的输入可以由耳机来做出，如在318处所示。在这些示例中，非语音输入的第二模式可以利用与非语音输入的第一模式不同的输入传感器。作为说明性示例，非语音输入的第一模式可以将一个运动传感器用于与个人助理的正面和负面交互，然而非语音输入的第二模式可以将一个触摸传感器或机械输入用于物理硬件控制。

图4示出解说了个人助理计算设备控制的组织的示例框图400，并且根据非限制性示例解说了可以在主机和耳机处被作出的输入。对个人助理计算设备作出的输入可以被细分成三个输入类别：在耳机处作出的非语音正面响应420、也在耳机处作出的非语音负面响应430以及在主机处作出的物理硬件输入440。

非语音正面响应420包括肯定响应422(例如yes(是))、调用424以及告知我更多响应426。非语音负面响应430包括驳回响应432(例如no(否))和静音434。物理硬件输入包括开机/关机442和提高/降低音量444。这样的组织可以允许通过被分组成各逻辑组的相对较少数目的用户输入来执行相对较大数目的交互。该组织可以有利地为用户提供更多可访问的、直观的用户体验，因为用户可以沿着在示意框图400中所描述的组织的线路将输入组要么与耳机要么与主机相关联。该组织还可以简化专用于处理这些各种输入的硬件和软件资源，因为所述组织将某些输入职责加载给耳机，同时将其它输入职责卸载到主机。

图5示出说明如何实现图4的正面和负面分组的输入的非限制性示例的框图500。在一些实现中，非语音输入可以通过轻击输入(例如触摸输入)被实现，如在510处示出。在该示例中，正面输入可以通过第一触摸输入512(例如通过用一根手指轻击耳机的表面)来被执行。在一些示例中，所述输入可以包括轻击耳机的任意表面(例如以供通过运动传感器检测)，而在其它示例中，所述输入可以包括轻击耳机的特定位置(例如在触摸传感器上轻击)。类似地在该示例中，负面输入可以通过第二触摸输入514(例如通过用两根手指轻击耳机的表面)来被执行。

在一些实现中，非语音输入还可以通过机械输入520来被执行。在本示例中，正面输入可以通过第一机械输入522，例如通过点击按键并将按键保持在按下状态达少于阈值时间量的时间，来被执行。指示负面输入的第二机械输入524可以通过点击按键并保持达阈值时间量(例如作为非限制性示例为四或更多秒)，来被执行。

而且，在一些实现中，非语音输入可以通过头部姿势来被执行。在该示例中，正面输入可以由第一姿势输入532(例如通过以可由运动传感器检测到的上下点头的方式)来被执行。指示负面输入的第二姿势输入534可以包括来回摇头的方式。

应当理解，上面的示例输入仅是作为示例而提供并且并不进行限定，因为其它输入也是可能的。例如，负面组触摸输入可以包括轻击耳机的表面两次。在另一个示例中，负面组机械输入可以包括点击按键两次。实际上，任何触摸、机械或姿势输入均在本公开的范围之内。

这样，上述系统和方法提供了电子设备的第一示例，所述电子设备包括耳机、语音输入系统、非语音输入系统以及指令，所述指令可执行以通过音频输出向用户呈现请求，并通过第一输入模式接收响应于所述请求的用户输入，在所述第一输入模式中，用户输入通过语音输入系统做出，并且还通过第二输入模式接收响应于所述请求的用户输入，在所述第二输入模式中，通过非语音输入系统作出对所述请求的响应。

非语音输入系统可以包括触摸输入传感器、机械按键和运动传感器中的一个或多个。非语音输入系统可以包括触摸输入传感器、机械按键和运动传感器中的两个或更多个，并且所述指令可执行以接收通过第一非语音模式的物理硬件交互和通过第二非语音模式的个人助理交互。

耳机可以被配置成与外部主机无线地通信。在一个示例中，外部主机和耳机形成多部件设备的具有分布式的功能的两个单独部件，并且非语音输入系统可以包括位于外部主机上的触摸输入传感器、机械按键和运动传感器中的一个或多个，以及位于耳机上的触摸输入传感器、机械按键和运动传感器中的一个或多个。所述外部主机上的触摸输入传感器、机械按键和运动传感器中的一个或多个可以被配置为接收物理硬件输入，而所述耳机上的触摸输入传感器、机械按键和运动传感器中的一个或多个可被配置成接收个人助理输入。物理硬件输入可以控制设备音量输出和功率状态中的一个或多个，而个人助理输入可以包括正面交互组和负面交互组。

在另一个示例中，外部主机设备独立于耳机，并且耳机被配置为通过外部主机设备与外部网络通信。耳机可以被配置为接收耳机物理硬件输入和个人助理输入。在独立的外部主机设备上的一个或多个传感器可以被配置为接收耳机物理硬件输入。

在另一个示例中，被配置成与外部设备通信并通过所述外部设备与广域计算机网络通信的耳机包括被配置为接收语音输入的语音输入系统、被配置为通过耳机输出经合成的语音输出的合成语音输出系统以及包括接收非语音用户输入的两种或更多种模式的非语音输入系统。耳机还包括指令，所述指令可执行以通过合成语音输出系统呈现请求，可选地通过语音输入系统和通过非语音输入系统的第一模式接收对所述请求的响应，并通过非语音输入子系统的第二模式接收物理硬件控制输入。

在一个示例中，非语音输入系统的第一模式可以包括在耳机上的第一传感器，而非语音输入系统的第二模式可以包括在耳机上的第二传感器。在另一个示例中，非语音输入系统的第一模式可以包括在耳机上的第一传感器，而非语音输入系统的第二模式可以包括可执行以接收通过外部设备作出的非语音输入的指令。在另外的示例中，非语音输入的第一模式可以包括运动传感器，并且所述指令可执行以通过来自运动传感器的反馈标识第一姿势输入和第二姿势输入，第一姿势输入包括对所述请求的肯定响应，而第二姿势输入包括对所述请求的负面响应。

在又另一个示例中，多组件设备包括主机和耳机。所述主机包括耳机通信系统、被配置为在广域网上通信的通信系统、包括一种或多种非语音输入模式的主机用户输入系统，以及保持可由主机逻辑子系统执行的指令的主机存储子系统。所述耳机包括主机通信系统、合成语音输出系统、包括一种或多种非语音输入传感器的耳机输入系统，以及保持可由耳机逻辑子系统执行的指令的耳机存储子系统。在主机和耳机上的指令可执行以在主机输入系统处接收物理硬件控制输入，并接收用于与个人助理进行交互的非语音输入。

主机用户输入系统可以包括触摸输入传感器、机械按键和运动传感器中的一个或多个。在主机用户输入系统处的硬件控制输入可以控制设备音频音量输出和功率状态。用于与个人助理进行交互的非语音输入可以包括通过来自耳机输入系统的触摸传感器的反馈所标识的触摸输入。用于与个人助理进行交互的非语音输入可以包括通过来自耳机输入子系统的运动传感器的反馈所标识的姿势输入。

用于与个人助理进行交互的非语音输入可以包括肯定响应输入组，所述肯定响应输入组包括以下中的一个或多个：耳机激活的请求、通过合成语音输出子系统呈现的请求的肯定以及响应于通过合成语音输出子系统呈现的请求的附加信息请求。

用于与个人助理进行交互的非语音输入可以包括负面响应输入组，所述负面响应输入组包括以下中的一个或多个：至少所述合成语音输出系统的停用请求和通过合成语音输出子系统呈现的请求的驳回。

在一些实施例中，本文中描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，这样的方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

图6示意性地示出了可执行上述方法和过程中的一个或多个的计算系统600的非限制性实施例。计算系统600可以是耳机102、和/或主机104、和/或与耳机102和/或主机104对接的外部设备的一种非限制性示例。以简化形式示出了计算系统600。计算系统600还可采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)、具有嵌入式计算系统的物品(例如器械、保健物品、衣服和其它可穿戴物品、基础设施、运输物品等，其可以被统称为物联网)和/或其他计算设备。

计算系统600包括逻辑子系统602和存储子系统604。计算系统600可任选地包括输入子系统606、通信子系统608和/或图6未示出的其他组件。

逻辑子系统602包括被配置成执行指令的一个或多个物理设备。例如，逻辑子系统可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

逻辑子系统可包括被配置成执行软件指令的一个或多个处理器。附加地或替代地，逻辑子系统可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑子系统的处理器可以是单核的或多核的，其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间，所述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

存储子系统604包括被配置成保持可由逻辑子系统执行的指令以实现此处描述的方法和过程的一个或多个物理设备。在实现此类方法和过程时，存储子系统604的状态可以被变换——例如，以保持不同的数据。

存储子系统604可以包括可移动和/或内置设备。存储子系统604可以包括光学存储器(例如，CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁性存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、等等。存储子系统604可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，存储子系统604包括一个或多个物理设备。然而，本文描述的指令的各方面可替换地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。

逻辑子系统602和存储子系统604的各方面可以被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

输入子系统606可包括诸如键盘、鼠标、触摸屏或游戏控制器等一个或多个用户输入设备或者与这些用户输入设备对接。在一些实施例中，输入子系统可以包括或相接于所选择的自然用户输入(NUI)部件。这样的部件可以是集成式的或者是外设，并且输入动作的转换和/或处理可以在板上或板下处理。示例NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动的电场感测部件。

通信子系统608可以被配置成将计算系统600与一个或多个其它计算设备可通信地耦合。通信子系统608可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，通信子系统可允许计算系统600经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其他设备接收消息。

将会理解，本文描述的配置和/或方式本质是示例性的，这些具体实施例或本文示例不应被视为限制性的，因为许多变体是可能的。本文描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

本公开的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其他特征、功能、动作、和/或特性、以及其任何和全部等效物。

Claims

1.一种电子设备，包括：

耳机；

语音输入系统；

非语音输入系统；以及

存储指令的存储器，所述指令可执行以：

通过音频输出向用户呈现请求，以及

通过第一输入模式接收响应于所述请求的用户输入，在所述第一输入模式中，用户输入通过所述语音输入系统做出，并且还通过第二输入模式接收响应于所述请求的用户输入，在所述第二输入模式中，通过所述非语音输入系统作出对所述请求的响应。

2.如权利要求1所述的电子设备，其特征在于，所述非语音输入系统包括触摸输入传感器、机械按键和运动传感器中的一个或多个。

3.如权利要求1所述的电子设备，其特征在于，所述非语音输入系统包括触摸输入传感器、机械按键和运动传感器中的两个或更多个，并且其中所述指令可执行以接收通过第一非语音模式的物理硬件交互和通过第二非语音模式的个人助理交互。

4.如权利要求1所述的电子设备，其特征在于，所述耳机被配置成与外部主机无线地通信。

5.如权利要求4所述的电子设备，其特征在于，所述外部主机和耳机形成多部件设备的具有分布式的功能的两个单独部件，并且其中所述非语音输入系统包括位于所述外部主机上的触摸输入传感器、机械按键和运动传感器中的一个或多个，以及位于所述耳机上的触摸输入传感器、机械按键和运动传感器中的一个或多个。

6.如权利要求5所述的电子设备，其特征在于，在所述外部主机上的所述触摸输入传感器、机械按键和运动传感器中的一个或多个被配置为接收物理硬件输入，而所述耳机上的触摸输入传感器、机械按键和运动传感器中的一个或多个被配置成接收个人助理输入。

7.如权利要求6所述的电子设备，其特征在于，所述物理硬件输入控制设备音量输出和功率状态中的一个或多个，并且其中所述个人助理输入包括正面响应组和负面响应组。

8.如权利要求4所述的电子设备，其特征在于，所述外部主机设备独立于所述耳机，并且其中所述耳机被配置为通过所述外部主机设备与外部网络进行通信。

9.如权利要求8所述的电子设备，其特征在于，所述耳机被配置为接收耳机物理硬件输入和个人助理输入。

10.如权利要求8所述的电子设备，其特征在于，在独立的外部主机设备上的一个或多个传感器被配置为接收耳机物理硬件输入。

11.一种被配置为与外部设备进行通信并通过所述外部设备与广域计算机网络进行通信的耳机，所述耳机包括：

被配置为接收语音输入的语音输入系统；

被配置为通过所述耳机输出经合成的语音输出的合成语音输出系统；

包括接收非语音用户输入的两种或更多种模式的非语音输入系统；以及

指令，可执行以：

通过所述合成语音输出系统呈现请求，

可选地通过所述语音输入系统和通过非语音输入系统的第一模式来接收对所述请求的响应，以及

通过所述非语音输入子系统的第二模式来接收物理硬件控制输入。

12.如权利要求11所述的耳机，其特征在于，所述非语音输入系统的所述第一模式包括在所述耳机上的第一传感器，并且其中所述非语音输入系统的所述第二模式包括在所述耳机上的第二传感器。

13.如权利要求11所述的耳机，其特征在于，所述非语音输入系统的所述第一模式包括在所述耳机上的第一传感器，并且其中所述非语音输入系统的所述第二模式包括可执行以接收通过所述外部设备作出的非语音输入的指令。

14.如权利要求11所述的耳机，其特征在于，所述非语音输入的所述第一模式包括运动传感器，并且其中所述指令可执行以通过来自所述运动传感器的反馈标识第一姿势输入和第二姿势输入，所述第一姿势输入包括对所述请求的肯定响应，而所述第二姿势输入包括对所述请求的负面响应。