CN110678921A

CN110678921A - 来自智能扬声器的动态文本到语音响应

Info

Publication number: CN110678921A
Application number: CN201880034610.XA
Authority: CN
Inventors: J·阿尔德斯; 宋祖揆; 张绍勋; E·J·弗里曼
Original assignee: BOSS Co Ltd
Current assignee: BOSS Co Ltd; Bose Corp
Priority date: 2017-05-26
Filing date: 2018-05-17
Publication date: 2020-01-10
Also published as: EP3631792B1; EP3631792A1; US10521512B2; WO2018217531A1; US20190384821A1; US20180341643A1

Abstract

本发明公开了一种操作与虚拟个人助理(VPA)服务提供方相关联的情境意识扬声器的方法，该方法包括接收对靠近该情境意识扬声器的环境的至少一个参数的指示；以及通过该情境意识扬声器的音频输出将格式化为语音的对声音查询的响应递送给用户，该响应的至少一个音频参数基于对该至少一个参数的指示来设置。

Description

来自智能扬声器的动态文本到语音响应

技术领域

本公开的各方面和实施方式整体涉及至少部分地基于智能扬声器周围的环境的一个或多个参数来定制智能扬声器对用户的命令或查询的响应。

背景技术

可以访问虚拟个人助理(VPA)服务的智能扬声器是这样的设备，该设备通过例如使用互联网搜索对用户查询的响应来响应于用户查询(该用户查询可以是口头查询的形式)，并且通常以可听响应(诸如合成语音)的形式向用户提供响应。可以访问VPA服务的智能扬声器还可响应于用户命令，以播放来自指定音频源(例如，互联网广播电台)的音频，或者控制智能设备，例如以打开或关闭灯或更改另一种智能设备的设置，智能扬声器可例如经由Wi-Fi信号直接访问或通过用户的互联网路由器访问该灯或该另一种智能设备。在用户按下按钮或说出唤醒词或短语(例如，“Alexa”)之后，用户通常通过智能扬声器或其他设备向VPA提供查询或命令，该唤醒词或短语向智能扬声器或其他设备指示用户正在对VPA说话。VPA使能设备在提供竞争设备的各种公司中变得越来越普遍，例如，来自亚马逊公司(Amazon)的

设备，来自谷歌公司(Google)的Google

设备，以及来自苹果公司(Apple)的结合有

应用程序的各种设备。当前的智能扬声器尚未具有情境意识。它们缺乏例如检测其周围环境的参数(诸如人的位置、智能扬声器周围的人的数量、或环境噪声等级)的能力。当前的智能扬声器无法基于环境参数来定制对用户查询或命令的VPA响应。

发明内容

根据本公开的一方面，提供了操作情境意识扬声器的方法。该方法包括接收对靠近情境意识扬声器的环境的至少一个参数的指示，从虚拟个人助理接收在情境意识扬声器处的音频信息，以及基于至少一个参数的指示修改音频信息。接收音频信息可包括接收对用户向情境意识扬声器说出的查询的音频响应。该方法还可包括通过情境意识扬声器呈现音频响应。

在一些实施方式中，该方法包括通过基于对至少一个参数的指示设置响应的音量来修改音频信息。至少一个参数可以是查询的音量、由情境意识扬声器的音频传感器感测的背景噪声的音量、或用户的身份中的一个或多个。

修改音频信息可包括调整音频信息的音量、音调、均衡、音调或呈现速度中的一个或多个。至少一个参数可包括以下各项中的一个或多个：提供给情境意识扬声器的查询的音量、背景噪声的音量、背景噪声的频谱、用户的身份、用户的位置、当日时间、靠近情境意识扬声器的人的生理参数、用户对由情境意识扬声器提供的先前响应的响应、或靠近情境意识扬声器的一个或多个设备的活动状态。

在一些实施方式中，该方法包括基于用户的位置来设置响应的音量。该方法还包括基于用户的位置来选择通过其递送响应的扬声器，或者基于用户距情境意识扬声器的距离来设置响应的音量。

在一些实施方式中，该方法包括基于以下各项中的一个或多个来设置响应的音量：当日时间、在情境意识扬声器的听力距离内的人的生理参数、用户对由情境意识扬声器提供的先前响应的响应、或靠近情境意识扬声器的一个或多个设备的活动状态。

在一些实施方式中，该方法包括基于对至少一个参数的指示来设置响应的音调。该方法可包括将响应格式化为模拟耳语、模拟呼喊、或去除响应的低频分量之一。响应的音调可基于以下各项中的一个或多个来设置：声音查询的音量、由音频传感器感测的背景噪声的音量、用户的身份、用户的位置、当日时间、情境意识扬声器的听力距离内的人的生理参数、由音频传感器感测的背景噪声的频谱、或用户对由情境意识扬声器提供的先前响应的响应。

在一些实施方式中，该方法包括基于对至少一个参数的指示来设置响应的模拟语音的速度。可以基于声音查询的语音速度或用户的身份中的一个来设置响应的模拟语音的速度。

根据另一方面，提供了将虚拟个人助理(VPA)服务提供方对用户的查询的响应动态格式化的方法。该方法包括通过可以访问VPA服务提供方的设备的音频传感器接收对从用户接收的声音查询的指示，接收对声音查询的响应，以及通过设备的音频输出将格式化为语音的响应递送给用户，响应的至少一个音频参数基于靠近设备的环境的至少一个参数来设置。

在一些实施方式中，该方法包括基于至少一个参数将响应的音量和/或响应的音调格式化。响应的音频参数可基于用户的身份来格式化。响应的音频参数可基于当日时间来格式化。

根据另一方面，提供了智能扬声器。智能扬声器包括麦克风、至少一个扬声器和处理器。处理器被配置为识别在麦克风处接收的口头用户查询，将用户查询传送到虚拟个人助理服务提供方，从虚拟个人助理服务提供方接收对用户查询的响应，将响应格式化为语音，并且通过至少一个扬声器呈现对用户的响应。响应的至少一个音频参数基于靠近智能扬声器的环境的至少一个参数来设置。

处理器可被配置为基于以下各项中的一个或多个来设置响应的音量：口头用户查询的音量、由麦克风感测的背景噪声的音量、用户的身份、用户的位置、当日时间、用户的生理参数、或用户对由智能扬声器提供的先前响应的响应。处理器可被配置为基于以下各项中的一个或多个来设置响应的音调：口头用户查询的音调、由麦克风感测的背景噪声的频谱、用户的身份、用户的位置、或当日时间。

附图说明

附图并非旨在按比例绘制。在附图中，在各种图中示出的每个相同或几乎相同的部件以类似的数字表示。为清楚起见，并不在每个附图中对每个部件都注上标记。在附图中：

图1A是包括访问VPA服务提供方的功能的智能扬声器的示例的简化示意图；

图1B是包括访问VPA服务提供方的功能的智能扬声器的另一个示例的简化示意图；

图1C示出了用户向包括访问VPA服务提供方的功能的智能扬声器提供查询，以及智能扬声器对用户进行响应；

图1D示出了包括与VPA服务提供方通信的智能扬声器的系统；

图2示出了通过路由器在智能扬声器与各种设备之间的通信；

图3示出了智能扬声器与用户的设备之间的通信；

图4示出了配备有访问VPA服务提供方的功能的车辆；并且

图5示出了配备有访问VPA服务提供方的功能的耳机。

具体实施方式

本文所公开的方面和具体实施不限于以下描述中提及的或附图中示出的构造细节和部件布置。本文所公开的方面和具体实施能够以各种方式实践或实施。

本文公开的各方面和实施方式可适用于可以访问虚拟个人助理(VPA)服务的各种智能扬声器。本文公开的智能扬声器的各方面和实施方式包括赋予智能扬声器情境意识的功能。基于一个或多个所测量或监测的参数，智能扬声器的各方面和实施方式可将由VPA服务提供给用户查询或命令的响应(VPA响应)定制为在给定一个或多个所测量或监测的参数的情况下更合适。定制对用户查询或命令的响应可以包括以与未经定制的响应中提供的顺序相同的顺序提供相同的内容(例如，相同字词)，但是其中一个或多个音频分量(诸如音量、音调、速度等)从默认音量、音调、速度等修改。智能扬声器可用来定制VPA响应的所测量或监测的参数的示例可包括以下各项中的任一个或多个：用户查询或命令的音量、用户查询或命令的语调、用户查询或命令中的语音速度、环境噪声等级、当日时间、一周中的某天、提供查询或命令的用户的位置、提供查询或命令的用户的身份、或用户对由VPA服务通过智能扬声器给出的响应的响应。

图1示出了智能扬声器(通常以100指示)的简化示意图。智能扬声器100包括主体105。一个或多个音频传感器(例如，麦克风110)安装在主体105上或其内。在一些实施方式中，提供多个麦克风110可以使智能扬声器能够对音频信号的起源方向(例如，用户的查询或命令或音频源(例如，用户)的位置)进行三角测量。在其他实施方式中，单个定向麦克风110可以提供给智能扬声器以确定音频信号的起源方向。一个或多个麦克风110(下文中为简单起见，以单数形式表示)连同智能扬声器100的其他部件电连接至电路115，该电路包括设置在智能扬声器的主体105内的至少一个处理器。电路115在图1中示为单个框，但是可以包括用于执行智能扬声器100的各种功能的多个模块、子电路或处理器，例如音频信号处理电路、通信电路、存储器等。

电路115可包括一个或多个天线120或与之电耦合(在图1A中仅示出天线中的一个)。一个或多个天线120(下文中为简单起见，以单数形式表示)可由智能扬声器100用来连接到VPA服务、互联网、或另一个源，以搜索信息以响应用户的查询。智能扬声器100可利用天线120经由蜂窝信号连接到互联网或通过互联网路由器经由Wi-Fi连接到互联网。

天线120还可由智能扬声器100用来与其他设备进行通信。在配备有智能设备(例如，可经由Wi-Fi等控制的智能恒温器、灯或器具)的家庭或建筑物中，智能扬声器100可利用天线120将来自用户的命令中继到智能设备。例如，用户可向智能扬声器100提供音频命令以打开房屋房间中的灯，并且智能扬声器100可以解释该命令并经由Wi-Fi(在一些实施方式中，通过Wi-Fi路由器)将适当信号发送到房间中灯的控制器以打开灯。在其他实施方式中，智能扬声器100可利用天线120来定位设备或与设备通信，例如蜂窝电话或其他移动计算设备，以采集信息或向设备发送命令。例如，在一些实施方式中，智能扬声器100可利用天线120来识别智能扬声器100附近的蜂窝电话或其他计算设备的IP地址，并且可识别与蜂窝电话或其他计算设备相关联的用户。智能扬声器100可使用单个天线120经由Wi-Fi、蜂窝、蓝牙或其他通信协议进行通信，或者可以包括用于不同通信协议的专用天线120。

智能扬声器100还包括电源125。电源125可通过插头130从电源插座接收电力并且/或者可包括一个或多个电池或其他储电设备。

至少一个音频输出(例如，扬声器135)包括在智能扬声器100中以输出对用户的查询的音频响应，并且/或者提供命令的接收或完成的提示或验证，或者提供关于智能扬声器100的条件或设置的信息。在一些实施方式中，如图1B所示，可以提供多个扬声器135。多个扬声器135可用于控制到用户的音频输出的方向。

用户界面140(其可包括手动激活的控件，并且在一些实施方式中，包括显示器)可以设置在智能扬声器100的主体上，以允许用户改变智能扬声器100的设置(例如，通电/断电、音量等)或对智能扬声器100进行编程。在其他实施方式中，可例如使用用户的手机或其他计算设备上的应用程序通过天线120无线地调整智能扬声器100的设置和/或编程。附加地或另选地，可以使用连接到用户界面140并耦合到外部设备(例如，用户的手机或其他计算设备)的电缆来调整智能扬声器100的设置和/或编程。

智能扬声器100可以以各种形状因数实现。在一些实施方式中，智能扬声器100被设计成放置在桌或台面的固定位置。在其他实施方式中，智能扬声器100包括在车辆中。在另外的实施方式中，智能扬声器100在耳机中，或在移动计算设备(例如，手机)中的软件中实现。上文参考图1A所述的智能扬声器100的实施方式可针对特定实施方式适当地修改。例如，当包括在车辆、耳机或手机中时，智能扬声器100可以不包括单独电源125或插头130，并且智能扬声器100的各种部件可分布在整个车辆、耳机或手机中，或者在与车辆、耳机或手机的其他系统共享的软件或硬件模块中实现。

图1C示出了与智能扬声器100的用户交互的一个示例。如图所示，用户195可向智能扬声器100说出音频查询100A。智能扬声器100通过麦克风接收音频查询100A，并且执行音频查询100A的语音到文本转换。另选地，智能扬声器100记录音频查询并将其作为音频文件发送到另一个系统，例如，基于云的VPA服务提供方1000。智能扬声器100请求VPA服务提供方1000在数据库(例如，互联网或云)中搜索信息以响应用户的查询100A。智能扬声器100可经由互联网路由器150访问VPA服务提供方或其他信息源。智能扬声器100以文本形式从VPA服务提供方检索响应用户的查询100A所需的信息，对所接收的信息执行文本到语音转换，并且向用户195输出音频响应100B。另选地，响应的文本到语音转换可由VPA服务提供方执行，并且响应可作为音频文件从VPA服务提供方发送到智能扬声器100。

在其他实施方式中，VPA功能(例如，将对信息的请求发送到VPA服务提供方或其他信息源，以及从VPA服务提供方或其他信息源接收对信息请求的响应)可以在与接收用户查询或命令或将响应呈现给用户查询或命令的设备分开的设备中执行。如图1D所示，用户195可向智能扬声器101提供口头查询100A。用户195可在提供口头查询100A之前向智能扬声器101说出唤醒词，因此智能扬声器101将会将口头查询100A解释为用户195期望对其做出响应的查询。智能扬声器101可包括与参考图1A和图1B所述的智能扬声器100基本上相同的部件，但是可能缺乏向VPA服务提供方或其他数据源发送查询并从VPA服务提供方或其他数据源接收对查询的响应的功能。在一个非限制性示例中，智能扬声器101是可得自博士公司(Bose Corporation)的

音频播放设备或类似流式音频播放器中的一个。智能扬声器101可任选地在记录口头查询100A之后将口头查询100A中继到智能扬声器100，该智能扬声器具有向如上所述的VPA服务提供方或其他信息源(例如，对云1000中的服务提供方或其他信息源)请求和接收对用户查询100A的响应的能力。智能扬声器100可从VPA服务提供方或其他信息源接收对用户查询的响应，并且将响应传送到智能扬声器101以便呈现。在将适当的信号调节应用于响应以基于智能扬声器101周围环境的一个或多个环境变量来改变响应的一个或多个音频参数之后，智能扬声器101可将该响应作为音频响应100B呈现给用户195。

智能扬声器101、智能扬声器100和VPA服务提供方1000之间的通信可以通过如图1D所示的路由器150，或者可包括智能扬声器101和智能扬声器100之间的直接通信(有线或无线)。

应当理解，本文中对智能扬声器100的参考包括其中单个部件接收口头用户查询并向用户提供音频响应以及从外部源请求和接收对查询的响应的系统，以及如图1D所示的其中第一设备接收用户查询并将响应呈现给用户，并且第二设备请求和接收对用户查询的响应，并将响应传送到第一设备以进行呈现的系统。

如上所述，智能扬声器100可具有情境意识，并且可基于一个或多个所测量或监测的参数来定制对用户查询或命令的响应。一个参数可以是向智能扬声器100发出口头查询或命令的用户的声音音量。在一些实施方式中，智能扬声器100可包括用户可以设置为默认等级的音量控制。在一些情况下，智能扬声器100可以以不同于设定音量或默认音量的音量来响应查询或命令。例如，如果用户早起并且该用户家庭的其他成员仍在睡觉，则用户可以以低音量口头查询智能扬声器100以获取诸如当天的天气预报的信息。智能扬声器100可通过麦克风110接收查询，并确定用户声音的音量是高于还是低于在与智能扬声器100交互时的典型值或高于还是低于预先确定的阈值。如果查询是由用户轻声说话来提供的，则智能扬声器100可以以低于默认音量或设定音量的音量向查询提供可听响应。在另一个示例中，智能扬声器100可以提供比平常更响亮的响应，例如，以克服背景噪声，或者用户离智能扬声器100较远的情况。用户可以以升高的音量向智能扬声器100提供查询或命令，并且智能扬声器100将以高于默认音量或设定音量的对应音量来响应该查询或命令。在一些实施方式中，智能扬声器100可以具有设定数量的音量调整等级，例如，默认音量或设定音量的25％、50％、100％、125％、150％和200％。在其他实施方式中，智能扬声器100可基于用户查询的音量，以连续的音量范围内的某个音量来响应用户的查询。

在其他实施方式中，智能扬声器100可以以基于用户向智能扬声器100提供的命令或查询的音量或音调的音调来响应查询或命令。例如，如果用户以低音量或低声地向智能扬声器100提供命令或查询，则智能扬声器可向命令或查询提供听起来像耳语的可听响应。相反，如果用户对智能扬声器100呼喊命令或查询，则智能扬声器100可以用听起来像是呼喊的可听响应来响应。在一些实施方式中，如果用户以特定音调提供查询或命令，例如，如果儿童以儿童声音的典型音调提供查询或命令，则智能扬声器100可以用听起来像儿童声音的响应来响应。类似地，基于用户查询或命令是以女性声音还是以男性声音提供的，可以将智能扬声器100提供的响应的音调作为女性声音或男性声音来提供。智能扬声器100的电路115中的信号处理电路可将音频滤波/信号处理应用于响应，以便以替代音调产生响应。

智能扬声器100可通过将带通滤波器应用于响应，来附加地或另选地从默认音调修改对命令或查询的响应的音调。低频声音比高频声音易于通过建筑物更远地传播。因此，如果用户以低音量向智能扬声器100提供命令或查询，或者如果智能扬声器100接收到其应该提供不会传播远的音频响应的一些其他指示，则智能扬声器100可将高通滤波器应用于音频响应，从而从响应移除低频波长。

在一些实施方式中，智能扬声器100可以包括确定向智能扬声器100提供命令或查询的用户的语音快度的功能，并且可以基于用户的语音快度来调整对命令或查询的音频响应的再现快度。如果用户通过缓慢讲话来提供命令或查询，则智能扬声器100可以缓慢地对命令或查询提供音频响应。如果用户不熟练使用英语或智能扬声器100编程以响应的任何其他语言，并且用户希望比默认响应速度或设定响应速度更慢地从智能扬声器接收响应以帮助用户理解响应，则这样的功能可能是有用的。相反，如果用户通过快速讲话来提供命令或查询，则智能扬声器100可以以复制快速语音的方式对命令或查询提供音频响应。如果用户着急，并且用户希望比默认响应速度或设定响应速度更快地从智能扬声器接收响应，则这样的功能可能是有用的。

在其他实施方式中，当接收到唤醒短语并且在从用户接收命令或查询之前或期间，智能扬声器100可监测或测量背景或环境噪声的音量等级和/或频谱。当格式化对用户命令或查询的音频响应时，智能扬声器100可以考虑背景或环境噪声的音量等级和/或频谱。如果多人交谈产生大量或高音量的背景噪声，或智能扬声器100附近的电视或收音机产生大量或高音量的背景噪声，或者由于智能扬声器100处于户外环境，因此智能扬声器100可以以比默认音量或设定音量高的音量输出响应。在一些实施方式中，智能扬声器100可以具有设定数量的音量调整等级，例如，默认音量或设定音量的25％、50％、100％、125％、150％和200％。在其他实施方式中，智能扬声器100可基于背景或环境噪声的音量，以连续的音量范围内的某个音量来响应用户的查询。附加地或另选地，智能扬声器100可分析背景或环境噪声的频谱。智能扬声器100可以仅修改音频响应的某些频率的音量，例如，背景或环境噪声比其他频率响亮的频率。在其他实施方式中，智能扬声器100可以在背景或环境噪声比在其他频率下更轻柔或更不响的频率下增加响应的音量，使得用户可以更容易地将音频响应与背景或环境噪声区分开。

智能扬声器100可基于向智能扬声器100提供命令或查询的用户声音的参数以外的因素来动态地调整对命令或查询的响应的音量和/或音调。在一些实施方式中，智能扬声器100可包括时钟(例如，在图1的电路115内)或接收对时间的指示，并且可被编程为在预期家庭成员可能在睡觉的夜间时段期间以低于默认音量或设定音量的减小音量提供对命令或查询的音频响应。减小音量可以是由智能扬声器100的用户设置的音量。附加地或另选地，智能扬声器100可被编程为在夜间时段或由用户设置的其他时段期间以类似于耳语的音调或用被抑制的音频响应的较低频率(例如，用应用于音频响应的高通滤波器)来对命令或查询提供音频响应。

此外，智能扬声器100可查询其可能直接或经由Wi-Fi路由器150(参见图2)与之通信的其他智能设备，例如灯160或娱乐系统170(例如，其他智能扬声器、电视、收音机等)，或者甚至家庭居住者的生理监测器180。如果灯160或娱乐系统170处于活动状态并且/或者如果生理监测器180指示家庭居住者醒着，则这可以提供以下指示：家庭中的人醒着，并且可能无法保证对查询或命令的减小音量响应，并且智能扬声器100可以以默认音量或设定音量响应于查询或命令。如果灯160或娱乐系统不活动并且/或者如果生理监测器指示家庭居住者在睡觉，则这可以提供以下指示：家庭中的人在睡觉，并且可以有理由对查询或命令的减小音量响应。在其他实施方式中，用户的生理监测器180可提供关于用户的心率或呼吸率的信息。用户的心率或呼吸率升高可以指示用户处于兴奋状态或处于运动状态或刚结束运动。响应于智能扬声器100从用户的生理监测器180接收到用户的心率或呼吸率升高的指示，智能扬声器100可以以升高到高于默认音量或设定音量的音量向用户的查询或命令提供音频响应。

智能扬声器100还可包括与用户195的一个或多个其他设备190(例如，手机、智能手表等)通信的功能。(参见图3。)智能扬声器100可向设备190查询可以从中得出用户身份的信息。例如，智能扬声器100可以请求设备190的IP地址，并尝试将设备190的IP地址与智能扬声器100的电路115的存储器中或云1000中的查找列表中的用户进行匹配(图1B)。一旦VPA确定了用户195的身份，它就可以以适合用户的方式定制对来自用户的查询或命令的响应。例如，如果智能扬声器100确定用户是可能有一些听力损失的中老年人，则智能扬声器100可以以相对于默认音量或设定音量增加的音量提供的音频响应来响应于来自用户的查询或命令。在一些实施方式中，针对对查询或命令的响应，不同用户可以以不同的偏好来对智能扬声器100进行编程，例如音频响应的音高，音频响应应该是女性声音还是男性声音，音频响应的音量，音频响应的速度等。

在一些实施方式中，智能扬声器100可以收听以下指示：用户不理解由智能扬声器100提供给命令或查询的音频响应。如果检测到这样的指示，则智能扬声器100也许可能以较低的“讲话”速率和/或较高的音量重复音频响应。例如，如果智能扬声器100以第一讲话速率和第一音量向用户的命令或查询提供音频响应，如果用户例如通过说出“什么？”、“那是什么？”、“嗯？”、“我不理解”、“请重复”等来用表示用户不理解响应的声音短语做出响应，则智能扬声器100可以以较低的讲话速率和/或较高的音量重复该响应。

配备有多个麦克风110或配备有定向麦克风的智能扬声器100可以检测用户命令或查询的起源方向和/或提供该命令或查询的用户的位置。智能扬声器100可使用该方向或位置信息来将响应指向给出命令或查询的用户。例如，在包括不止一个扬声器135(参见例如图1B)的智能扬声器100中，可调制不同扬声器的相对音量以将响应中的大部分声能导向提供命令或查询的用户的方向。在一些实施方式中，智能扬声器100可以与其他智能扬声器100处于主从关系，或者可以具有控制单独的智能扬声器或音频设备的能力。在此类实施方式中，接收到来自用户的查询结果的智能扬声器100可引导与接收查询结果的智能扬声器100相比更靠近用户的智能扬声器100或者单独的智能扬声器或音频设备向用户提供对查询的可听响应。

在一个特定实施方式中，可以在车辆(诸如汽车或SUV)的电子器件中实现具有访问VPA服务的功能的智能扬声器100。智能扬声器100可包括专用电路115，或者可被实现为车辆200的计算机中的软件。如授予与本申请相同的受让人的国际申请PCT/US2017/021521和PCT/US2017/021625中所公开的，车辆200可包括用于车辆中每个乘客的共享扬声器205和专用扬声器210。专用扬声器210可以内置在车辆200的座椅的头枕或其他部分中。(参见图4。)车辆200可在车辆200的一部分中，例如在仪表板中或在车辆的座椅的头枕中包括一个或多个麦克风215。麦克风215可用于接收对在车辆的电子器件中实现的智能扬声器的查询或命令，并且可被智能扬声器用来确定查询或命令源自哪个用户/座椅。智能扬声器可以将对查询或命令的音频响应提供给与查询或命令所源自的用户/座椅相关联的专用扬声器。在一些实施方式中，与除了查询或命令所源自的用户/座椅以外的用户/座椅相关联的专用扬声器可以利用串扰消除或噪声消除技术来至少部分地降低除了查询或命令所源自的用户/座椅以外的用户/座椅处的音频响应的感知音量。

在一些实施方式中，具有访问VPA服务的功能的智能扬声器可以包括在耳机中。如图5所示，通常以300指示的耳机可以包括通过头带320彼此耦合的一对耳罩310。耳罩210中的每个包括至少一个扬声器(为了清楚起见未示出)以将音频(例如，音乐)递送到用户的耳朵。通过将VPA接入电路115和一个或多个麦克风110结合到耳机300中，例如结合到耳罩310中的一个或多个中，可以在耳机300中提供VPA功能。VPA接入电路115可包括一个或多个天线120，以使得能够与互联网或其他设备进行通信，如上面参考智能扬声器100的各种实施方式所描述的。在一些实施方式中，耳机300是无线耳机，并且天线120可以在VPA接入电路115和耳机300的用于提供无线连接的电路之间共享。在一些实施方式中，耳机300还可包括位置确定系统，例如GPS接收器330和相关联的电路和/或生理监测器180(例如，心率监测器)。应当理解，图5中示出的各种部件(例如，VPA接入电路115、天线120、GPS接收器330、麦克风110或生理监测器180)可位于耳机300内的不同位置，例如至少部分地位于头带320中，或者可至少部分地包括在耳机300所无线连接的设备(例如，便携式音乐播放器或手机)中。为了清楚起见，图5中省略了部件之间的电连接。

在使用中，用户可向VPA功能对其提供响应的耳机300提供声音查询或命令。可通过耳罩310中的扬声器来提供响应，任选地，同时对用户通过耳机300收听的任何音乐或其他音频内容降低音量或静音。可以基于用户的查询或命令的语音量或快度来修改响应的语音量或快度，如上参考智能扬声器100的各种实施方式所讨论的。耳机还可基于其他因素(诸如用户的心律、用户的身份等)来更改对用户查询或命令的音频响应的音量或速度，如上参考智能扬声器100的各种实施方式所讨论的。耳机300可以能够使用GPS接收器330来确定佩戴耳机300的用户的位置，并且可以基于用户的位置来调整对用户的查询或命令的音频响应的音量，例如如果用户在城市环境，则提供较响亮的响应，而如果用户在郊外地区，则提供轻柔的响应。

在上述实施方式中的任一个中，用户可通过在提供命令或查询之前向智能扬声器100提供经修改的替代唤醒短语来使智能扬声器100以考虑上述参数中的任一个的方式做出响应。例如，如果用户希望智能扬声器考虑用户的声音音量来调整响应的音量，则用户可以说唤醒短语“Volume,Siri(Siri，音量)”而不是“Hey,Siri(嗨，Siri)”。另选地，智能扬声器100可包括开关或者可响应于口头命令以基于一个或多个所监测或测量的参数来启用或禁用响应的修改或格式化。

假想例1：

位于用户家庭的厨房中的智能扬声器具有设置为第一等级的音量选择器。用户在其他家庭成员正在睡觉时在半夜醒来，并去厨房吃午夜零食。用户低声地向智能扬声器说出唤醒词，并询问智能扬声器第二天的天气预报是什么。智能扬声器将关于天气预报的用户请求的音量与预设音量阈值进行比较，并确定与预设音量阈值相比用户正在以减小的音量讲话。智能扬声器通过用户家庭中的Wi-Fi网络将用户请求发送到VPA使能设备。VPA向云中的VPA服务提供方查询第二天的天气报告，并且从VPA服务提供方接收天气报告。VPA将天气报告传送到智能扬声器。与智能扬声器将基于设置的音量等级呈现音频的音量相比，智能扬声器以较小的音量向用户呈现天气报告。

假想例2：

中老年人用户说出唤醒词，并向智能扬声器请求关于处方准备情况的信息。智能扬声器检测到移动电话已进入智能扬声器附近。智能扬声器向移动电话查询标识信息，例如IP地址，并从移动电话接收标识信息。智能扬声器通过用户家庭中的Wi-Fi网络将信息请求和标识信息从移动电话传送到VPA使能设备。VPA使能设备向云中的VPA服务提供方查询关于处方准备情况的信息，并接收处方已准备好提取的响应。VPA服务提供方还访问与VPA相关联的帐户，并搜索将来自移动电话的标识信息与特定用户关联的信息，并且确定该移动电话属于中老年人用户。VPA将关于处方准备情况和用户身份的信息传送到智能扬声器。智能扬声器以在智能扬声器的存储器中与中老年人用户相关联的预设音量，以及在智能扬声器的存储器中与中老年人用户相关联的预设速度向用户呈现关于处方准备情况的信息，该预设音量与默认音量等级相比增加，该预设速度与默认响应语音速度相比降低。

已经这样描述了至少一个实施方式的若干方面，应当理解，本领域技术人员将容易想到各种改变、修改和改进。此类改变、修改和改进旨在成为本公开的一部分，并且旨在落入本公开的实质和范围内。本文所公开的方法的操作可以与所示出的不同的顺序来执行，并且可省略、代替或添加一种或多种操作。本文所公开的任何一个示例的一个或多个特征可结合或取代所公开的任何其他示例的一个或多个特征。因此，上述说明书和附图仅以举例的方式进行。

本文所用的措辞和术语是出于描述的目的，而不应被视为限制。如本文所用，术语“多个”是指两个或更多个项目或部件。如本文所用，被描述为“基本上类似”的尺寸应被视为在彼此的约25％内。无论在书面描述中还是在权利要求等中，术语“包括”、“包含”、“带有”、“具有”、“包含”和“涉及”均为开放式术语，即，是指“包括但不限于”。因此，此类术语的使用旨在涵盖其后列出的项目和它们的等同物，以及另外的项目。对于权利要求，仅连接短语“由…组成”和“基本上由…组成”分别为封闭的或半封闭的连接短语。在权利要求中使用诸如“第一”、“第二”、“第三”之类的序数术语来修饰权利要求元素本身并不意味着一个权利要求元素超过另一个权利要求元素的任何优先权、优先级或顺序，或者执行方法动作的时间顺序，而是仅用作用以区分具有某个名称的一个权利要求元素与具有相同名称的另一个元素(但用于使用序数术语)以区分权利要求元素的标签。

Claims

1.一种操作情境意识扬声器的方法，所述方法包括：

接收对靠近所述情境意识扬声器的环境的至少一个参数的指示；

从虚拟个人助理接收在所述情境意识扬声器处的音频信息；以及

基于所述至少一个参数的所述指示修改所述音频信息。

2.根据权利要求1所述的方法，其中修改所述音频信息包括调整所述音频信息的音量、音调、均衡、音调或呈现速度中的一个或多个。

3.根据权利要求1所述的方法，其中所述至少一个参数包括以下各项中的一个或多个：提供给所述情境意识扬声器的查询的音量、背景噪声的音量、背景噪声的频谱、所述用户的身份、所述用户的位置、当日时间、靠近所述情境意识扬声器的人的生理参数、所述用户对由所述情境意识扬声器提供的先前响应的响应、或靠近所述情境意识扬声器的一个或多个设备的活动状态。

4.根据权利要求1所述的方法，其中接收所述音频信息包括接收对用户向所述情境意识扬声器说出的查询的音频响应。

5.根据权利要求4所述的方法，还包括通过所述情境意识扬声器呈现所述音频响应。

6.根据权利要求4所述的方法，包括基于所述查询的音量来设置所述响应的音量。

7.根据权利要求4所述的方法，包括通过基于对所述至少一个参数的所述指示设置所述响应的音量来修改所述音频信息。

8.根据权利要求4所述的方法，包括基于由所述情境意识扬声器的音频传感器感测的背景噪声的音量来设置所述响应的音量。

9.根据权利要求4所述的方法，包括基于所述情境意识扬声器的用户的身份来设置所述响应的音量。

10.根据权利要求4所述的方法，包括基于所述情境意识扬声器的用户的位置来设置所述响应的音量。

11.根据权利要求10所述的方法，还包括基于所述用户的所述位置来选择通过其递送所述响应的扬声器。

12.根据权利要求4所述的方法，包括基于当日时间来设置所述响应的音量。

13.根据权利要求4所述的方法，包括基于所述情境意识扬声器的听力距离内的人的生理参数来设置所述响应的音量。

14.根据权利要求4所述的方法，包括基于所述用户对由所述情境意识扬声器提供的先前响应的响应来设置所述响应的音量。

15.根据权利要求4所述的方法，包括基于靠近所述情境意识扬声器的一个或多个设备的活动状态来设置所述响应的音量。

16.根据权利要求4所述的方法，包括基于对所述至少一个参数的所述指示来设置所述响应的音调。

17.根据权利要求16所述的方法，包括将所述响应格式化为模拟耳语、模拟呼喊、或去除所述响应的低频分量之一。

18.根据权利要求16所述的方法，包括基于以下各项中的一个或多个来设置所述响应的音调：声音查询的音量、由所述音频传感器感测的背景噪声的音量、所述用户的身份、所述用户的位置、当日时间、所述情境意识扬声器的听力距离内的人的生理参数、由所述音频传感器感测的背景噪声的频谱、或所述用户对由所述情境意识扬声器提供的先前响应的响应。

19.根据权利要求4所述的方法，包括基于所述声音查询的语音速度或所述用户的身份中的一个来设置所述响应的模拟语音的速度。

20.一种将虚拟个人助理(VPA)服务提供方对用户的查询的响应动态格式化的方法，所述方法包括：

通过可以访问所述VPA服务提供方的设备的音频传感器接收对从用户接收的声音查询的指示；

接收对所述声音查询的响应；以及

通过所述设备的音频输出将格式化为语音的所述响应递送给所述用户，所述响应的至少一个音频参数基于靠近所述设备的环境的至少一个参数来设置。

21.根据权利要求20所述的方法，包括基于所述至少一个参数来格式化所述响应的音量。

22.根据权利要求20所述的方法，包括基于所述至少一个参数来格式化所述响应的音调。

23.根据权利要求20所述的方法，包括基于所述用户的身份来格式化所述响应的音频参数。

24.根据权利要求20所述的方法，包括基于当日时间来格式化所述响应的音频参数。

25.一种智能扬声器，所述智能扬声器包括：

麦克风；

至少一个扬声器；和

处理器，所述处理器被配置为：

识别在所述麦克风处接收的口头用户查询；

将所述用户查询传送到虚拟个人助理服务提供方；

从所述虚拟个人助理服务提供方接收对所述用户查询的响应；

将所述响应格式化为语音，所述响应的至少一个音频参数基于靠近所述智能扬声器的环境的至少一个参数来设置；以及

通过所述至少一个扬声器向用户呈现所述响应。

26.根据权利要求25所述的智能扬声器，其中所述处理器被配置为基于以下各项中的一个或多个来设置所述响应的音量：所述口头用户查询的音量、由所述麦克风感测的背景噪声的音量、所述用户的身份、所述用户的位置、当日时间、所述用户的生理参数、或所述用户对由所述智能扬声器提供的先前响应的响应。

27.根据权利要求25所述的智能扬声器，其中所述处理器被配置为基于以下各项中的一个或多个来设置所述响应的音调：所述口头用户查询的音调、由所述麦克风感测的背景噪声的频谱、所述用户的身份、所述用户的位置、或当日时间。