CN110832579A

CN110832579A - 最后一英里均衡

Info

Publication number: CN110832579A
Application number: CN201880044897.4A
Authority: CN
Inventors: M·埃利奥特; D·班纳吉
Original assignee: Bose Corp
Current assignee: Bose Corp
Priority date: 2017-07-06
Filing date: 2018-06-26
Publication date: 2020-02-21
Anticipated expiration: 2038-06-26
Also published as: US10038419B1; WO2019010035A1; JP2020526789A; US20190013788A1; JP7053687B2; EP3649638A1; US10200004B2; CN110832579B

Abstract

一种音频播放系统，其执行一种方法，该方法包括识别第一音频流中所包括的第一类型的音频，利用与该第一类型的音频相对应的第一数字标签标记该第一音频流，识别第二音频流中所包括的第二类型的音频，利用与该第二类型的音频相对应的第二数字标签标记该第二音频流，利用被应用至其的第一均衡轮廓来渲染该第一音频流，该第一均衡轮廓响应于该音频播放系统检测到该第一音频流中的该第一数字标签而被选择，并且利用被应用至其的不同于该第一均衡轮廓的第二均衡轮廓来渲染该第二音频流，该第二均衡轮廓响应于该音频播放系统检测到该第二音频流中的该第二数字标签而被选择。

Description

最后一英里均衡

技术领域

本公开的各方面和实施方式总体上涉及包括用于播放诸如音乐的音频内容以及用于对用户的命令或查询提供音频响应两者的功能的音频播放器。

背景技术

虚拟个人助理(VPA)是通过在例如互联网的数据库中搜索针对用户的查询的响应并且经常以诸如合成语音的可听响应的形式将该响应提供给用户而对用户查询(其可以是口头查询的形式)作出响应的设备。VPA还可以对用户命令作出响应以播放来自例如互联网广播电台的指定音频源的音频，或者控制智能设备以例如开启或关闭灯光或者改变另一个智能设备的设置，该VPA例如经由WiFi信号直接地或者通过用户的互联网路由器而接入所述另一个智能设备。查询或命令通常在用户说出唤醒单词或短语之后由用户提供给VPA，所述唤醒单词或短语例如“Alexa”，其向VPA指示用户正在寻址该VPA。VPA正随着各家公司提供竞争性设备而变得越来越普及，例如来自Amazon的Echo^TMVPA，来自Google的GoogleHome^TMVPA，以及来自Apple的整合Siri^TM应用的各种设备。智能扬声器系统可以包括流传输音乐或其它音频内容以及充当VPA两者的功能。

发明内容

依据本公开的一个方面，提供了一种包括处理器和相关联程序的音频播放系统。该程序在该处理器上执行时使得该音频播放系统实行一种方法，该方法包括识别第一音频流中包括的第一类型的音频，利用与该第一类型的音频相对应的第一数字标签标记该第一音频流，识别第二音频流中包括的第二类型的音频，利用与该第二类型的音频相对应的第二数字标签标记该第二音频流，利用被应用至其的第一均衡轮廓渲染该第一音频流，该第一均衡轮廓响应于该音频播放系统检测到该第一音频流中的该第一数字标签而被选择，并且利用被应用至其的不同于该第一均衡轮廓的第二均衡轮廓渲染该第二音频流，该第二均衡轮廓响应于该音频播放系统检测到该第二音频流中的该第二数字标签而被选择。

该音频播放系统可以包括主控流音频播放器和至少一个从属流音频播放器，该至少一个从属流音频播放器被配置为在该主控流音频播放器的控制下渲染该第一音频流和第二音频流。

在一些实施方式中，该至少一个从属流音频播放器被配置为识别口头用户查询，并且将该用户查询传输至主设备，并且其中该主控流音频播放器被配置为生成针对该用户查询的响应并且在第一音频流中将针对该用户查询的响应传输至该至少一个从属流音频播放器以便渲染，该第一音频流中所包括的该第一标签将该第一音频流识别为包括针对该用户查询的响应。

在一些实施方式中，该至少一个从属流音频播放器可以响应于检测到用户所讲出的唤醒单词而降低正通过该至少一个从属流音频播放器渲染的音频流的音量。

在一些实施方式中，仅识别出用户查询的从属流音频播放器渲染针对该用户查询的响应。在其它实施方式中，该系统中的每个流音频播放器都渲染针对该用户查询的响应。

在一些实施方式中，该至少一个从属流音频播放器被配置为识别该第一音频流中的该第一标签，并且响应于识别出该第一标签而向针对该用户查询的响应应用该第一均衡轮廓。

在一些实施方式中，该主控流音频播放器进一步被配置为将该第二音频流传输至该至少一个从属流音频播放器，该第二音频流中的该第二标签将该第二音频流识别为包括除了针对该用户查询的响应以外的音频，并且该至少一个从属流音频播放器被配置为识别该第二音频流中的该第二标签，并且响应于检测到该第二标签而向该第二音频流应用该第二均衡轮廓。该主控流音频播放器可以进一步被配置为向该至少一个从属流音频播放器传输包括音频鸣响(chime)的第三音频流，该第三音频流包括将该第三音频流识别为包括音频鸣响的第三标签，并且该至少一个从属流音频播放器被配置为识别该第三音频流中的第三标签，并且响应于检测到该第三标签而向该第三音频流应用不同于该第一均衡轮廓的第三均衡轮廓。

在一些实施方式中，该第一均衡轮廓和该第二均衡轮廓在该至少一个从属流音频播放器中被编程到相应的第一和第二标签中并且与之相关联。

在一些实施方式中，如果该至少一个从属流音频播放器在渲染该第二音频流的同时接收到包括该第一标签的音频流，则该至少一个从属流音频播放器降低该第二音频流的音量并且以相对于该第二音频流更高的音量渲染包括该第一标签的该音频流。

依据另一个方面，提供了一种方法，该方法包括在流音频播放器的麦克风处接收用户所讲出的用户查询，利用该流音频播放器，以应用于针对该用户查询的响应的第一均衡轮廓渲染针对该用户查询的语音响应，并且利用该流音频播放器，以应用于娱乐音频的不同于该第一均衡轮廓的第二均衡轮廓渲染该娱乐音频。

在一些实施方式中，该流音频播放器是在主控流音频播放器的控制下进行操作的从属流音频播放器，并且该方法还包括将该用户查询从该从属流音频播放器传输至该主控流音频播放器，并且将针对该用户查询的响应从该主控流音频播放器传输至该从属流音频播放器。

该方法可以还包括该流音频播放器将该用户查询传输至基于云的服务，并且从该基于云的服务接收针对该用户查询的响应。

该方法可以还包括：该主控流音频播放器包括将第一指示符包括在该第一音频流中，所述第一指示符将该第一音频流识别为包括针对该用户查询的响应，其中将针对该用户查询的响应从该主控流音频播放器传输至该从属流音频播放器包括将该第一音频流从该主控流音频播放器传输至该从属流音频播放器。

在一些实施方式中，该从属流音频播放器响应于识别出该第一音频流中的该第一指示符而向针对该用户查询的响应应用该第一均衡轮廓。

该方法可以还包括该主控音频流播放器将第二指示符包括在该第二音频流中，所述第二指示符将该第二音频流识别为包括该娱乐音频，其中该从属流音频播放器响应于识别出该第二音频流中的该第二指示符而利用被应用至其的第二均衡轮廓渲染该娱乐音频。

在一些实施方式中，该从属流音频播放器响应于接收到该第一音频流并且识别出该第一音频流中的该第一指示符而降低正在从属音频设备上渲染的娱乐音频的音量，并且该从属流音频播放器以相对于该娱乐音频的音量有所增加的音量渲染针对该用户查询的响应。

该方法可以还包括该流音频播放器从流音乐服务流传输该娱乐音频。

在一些实施方式中，该流音频播放器识别该用户查询之前的唤醒单词，并且响应于识别出该唤醒单词而降低该娱乐音频的音量。

依据另一个方面，提供了一种流音频播放器。该流音频播放器包括数模转换器，耦合至该数模转换器的电声换能器，网络接口，耦合至该数模转换器和该网络接口的处理器，和存储在非瞬态计算机可读介质上的指令。该指令在被执行时使得该处理器经由该网络接口接收第一数字音频数据，基于与该第一数字音频数据相关联的第一数字标签从多种均衡轮廓中选择第一均衡轮廓，并且根据该第一均衡轮廓对该第一数字音频数据进行均衡。

在一些实施方式中，该第一数字音频数据包括针对从基于云的服务接收的话音请求的响应，并且该指令在被执行时进一步使得该处理器将该第一数字标签附加至该第一数字音频数据，其中该第一均衡标签将该第一数字音频数据识别为针对话音请求的响应。该指令在被执行时可以进一步使得该处理器经由该网络接口将具有被附加至其的第一数字标签的该第一数字音频数据传送至一个或多个其它流音频播放器，以便在该一个或多个其它流音频播放器上渲染该第一数字音频数据。

在一些实施方式中，该指令在被执行时进一步使得该处理器经由该网络接口接收第二数字音频数据，基于与该第二数字音频数据相关联的第二数字标签从多种均衡轮廓中选择第二均衡轮廓，并且根据该第二均衡轮廓对该第二数字音频数据进行均衡，其中该第二均衡轮廓不同于该第一均衡轮廓。该流音频播放器可以被配置为同时渲染根据该第一均衡轮廓被均衡的该第一数字音频数据以及根据该第二均衡轮廓被均衡的该第二数字音频数据。该流音频播放器可以被配置为在其渲染该第一数字音频数据的同时降低所渲染的第二数字音频数据的音量。

在一些实施方式中，该指令在被执行时进一步使得该处理器将该第二数字标签附加至该第二数字音频数据，其中该第二均衡标签将该第二数字音频数据识别为娱乐音频数据。该指令在被执行时可以进一步使得该处理器经由该网络接口将具有被附加至其的第二数字标签的该第二数字音频数据传送至一个或多个其它流音频播放器，以便在该一个或多个其它流音频播放器上渲染该第二数字音频数据。该流音频播放器可以被配置为将该第一数字音频数据和该第二数字音频数据同时传送至该一个或多个其它流音频播放器。

在一些实施方式中，该流音频播放器被配置为接收来自用户的话音请求，经由该网络接口将该话音请求传送至基于云的服务，并且经由该网络接口从该基于云的服务接收针对该话音请求的响应，其中该响应包括该第一数字音频数据。该流音频播放器可以包括麦克风，并且该话音请求可以经由该麦克风被接收。该话音请求可以经由该网络接口从另一个流音频播放器被接收。

附图说明

附图并非意在依比例绘制。在附图中，在各图中所图示的每个相同或近似相同的组件由同样的数字表示。出于清楚的目的，可能并未在每幅图中标记出每个组件。在附图中：

图1A是包括VPA功能的流音频播放器的实施例的等距视图；

图1B是图1的流音频播放器设备的平面图；

图1C图示了图1的流音频播放器中包括的电子模块；

图1D图示了图1的流音频播放器中包括的附加电子模块；

图2A图示了用户和包括VPA功能的流音频播放器之间的通信；

图2B图示了用户和流音频播放器之间以及该流音频播放器和包括VPA功能的单独设备之间的通信；

图3A图示了主控流音频播放器和从属流音频播放器之间通过路由器的通信；和

图3B图示了主控流音频播放器和从属流音频播放器之间的直接通信。

具体实施方式

本文所公开的方面和实施方式并不局限于以下描述中给出或者附图中所图示的构造以及组件的部署形式的细节。本文所公开的方面和实施方式能够以各种方式被实践或实施。

本文所公开的方面和实施方式能够应用于各种各样的音频播放器，例如可以并入虚拟个人助理(VPA)功能或者与VPA通信的智能扬声器的智能扬声器系统或流音频播放器。本文所公开的音频播放器的方面和实施方式包括使得音频播放器能够在音频流中不同形式的内容之间加以区分并且以基于内容类型变化的方式来渲染音频流的功能。例如，当音频播放器提供针对用户查询或命令的响应时，其可以利用第一均衡或频率响应来渲染该响应。当音频播放器播放音乐时，其可以利用第二均衡或频率响应来渲染该音乐。在一些实施方式中，音频播放器可能正在播放娱乐音频并且响应于检测到唤醒单词或短语而降低该娱乐音频的音量，等候来自用户的查询或命令，并且在以原本音量继续该娱乐视频的播放之前对用户的查询或命令作出响应。

图1A图示了示例性的流音频播放器10，其包括外壳11。图形界面12(例如，OLED显示器)处于外壳11上，其能够为用户提供有关当前播放的(“现在正在播放”)音频内容(例如，流音乐)的信息或者有关系统状态的其它信息。屏幕14掩盖了一个或多个电声换能器15(图1C)。流音频播放器10还包括用户输入接口16。如图1B所示，用户输入接口16包括多个预设指示器18，它们在所图示的示例中是硬件按钮。预设指示器18(数字编号1-6)为用户提供了对于分配给那些按钮的实体的便捷的、一次按压式访问。

如图1B所示，用户输入接口16还可以包括一个或多个麦克风17以接收来自用户的话音查询或命令。在一些实施方式中，该一个或多个电声换能器15(图1C)可以被用来渲染音频内容以及接收来自用户的话音查询或命令两者。

参考图1C，流音频播放器10还包括网络接口20、处理器22、音频硬件24，用于为各个流音频播放器组件供电的电源26，以及存储器28。处理器22、图形界面12、网络接口20、音频硬件24、电源26和存储器28中的每一个都使用各种总线进行互连，并且若干组件可以被安装在共用母板上或者适当地以其它方式来安装。VPA功能可以利用驻留在例如存储器28中的关联程序而被包括在处理器22中。

网络接口20可以提供无线接口30和有线接口32中的任一个或其二者。无线接口30允许流音频播放器10依据诸如IEEE 802.11b/g的通信协议与其它设备进行无线通信。有线接口32经由有线(例如，以太网)连接提供网络接口功能。

来自网络分组的数字音频可以从网络媒体处理器34通过USB桥36被引导至处理器22并且进入到解码器、DSP，并且最终经由(多个)电声换能器15被播放(渲染)。

网络接口11可以包括低功耗蓝牙(BTLE)片上系统(SoC)38以用于低功耗蓝牙应用(例如，用于与支持蓝牙的控制器的无线通信)。适当的BTLE SoC是能够从总部设在得克萨斯州达拉斯的德州仪器获得的CC2540。

流传输数据从网络接口20行进至处理器22。处理器22可以执行流音频播放器内的指令(例如，用于尤其地执行数字信号处理、解码和均衡功能)，包括存储在存储器28中的指令。指令22可以被实施为芯片的芯片组，其包括分立且多个模拟和数字处理器。处理器22例如可以提供流音频播放器10的其它组件的协同，诸如对用户接口或者流音频播放器10所运行的应用的控制。

处理器22将经处理的数字音频信号提供至音频硬件24，所述音频硬件24包括用于将该数字音频信号转换为模拟音频信号的一个或多个数模(D/A)转换器。音频硬件24还包括一个或多个放大器，其将经放大的模拟音频信号提供至(多个)电声换能器15以供播放。此外，音频硬件24可以包括用于处理模拟输入信号的电路，以提供数字音频信号以便与其它设备共享。

存储器28在流音频播放器10内存储信息。在这一方面，存储器28可以存储账户信息，诸如有关音频电台或频道预设的信息。

存储器28例如可以包括闪存和/或非易失性随机访问存储器(NVRAM)。在一些实施方式中，指令(例如，软件)被存储在信息载体中。指令还可以被一个或多个存储设备所存储，诸如一个或多个计算机或机器可读介质(例如，存储器28或者处理器上的存储器)。指令可以包括用于执行解码(即，包括用于解码数字音频流的音频编解码器的软件模块)以及数字信号处理和均衡的指令。

网络接口20经由一种或多种通信协议提供流音频播放器10和控制器(例如，安装了适当控制应用的计算机或智能电话或遥控器)、连接至互联网的服务器或者基于云的服务器之间的通信，所述服务器可以包含账户数据库，所述账户数据库包括有关用户的音频系统账户、音频源和其它流音频播放器10的信息。网络接口20还可以提供流音频播放器10和基于云的服务之间的通信，所述基于云的服务例如Alexa Voice Service，其用来响应于用户所进行的查询而获取信息而用于准备并渲染针对用户的查询的音频响应。网络接口20和基于云的服务之间的通信可以通过互联网路由器。该服务将取得麦克风17所录制的上传的音频(话音)文件，并且将对该话音文件执行自动语音识别和自然语言理解以提供适当响应。该响应将例如作为数字音频文件而被反馈给流音频播放器10。例如，用户可以向驻留在流音频播放器10上的VPA询问当前的天气预报是什么。该VPA将具有该问询的录制话音文件提供至话音服务，并且将从那里接收包括当地天气预报的数字音频文件以便在流音频播放器10上播放。

图2A图示了用户100向包括如本文所公开的VPA功能的流音频播放器10提供口头查询100A(例如，通过讲出唤醒单词而被触发)。流音频播放器10辨识口头查询100A，并且经由互联网路由器150访问云端1000的基于云的服务并获得对查询100作出响应所必需的信息。流音频播放器10经由互联网路由器150从云端的基于云的服务接收所请求的信息，并且在所接收到的信息尚未处于音频格式的情况下执行所接收信息的文本至语音变换，并且经由合成话音提供针对查询100A的响应100B。一些情况下，该基于云的服务可以以音频形式提供所请求的信息(例如，该基于云的服务可以执行搜索结果的文本至语音变换)。如果流音频播放器10在针对查询100A的响应100B要被渲染时正在播放娱乐音频——例如音乐，则针对查询100A的响应100B可以以相对于该娱乐音频有所提升的音量被渲染。该娱乐音频在针对查询100A的响应100B的渲染期间可以被暂时降低音量或者被关闭。

在其它实施方式中，VPA功能(例如向VPA服务提供方或其它信息源提供对于信息的请求并且从该VPA服务提供方或其它信息源接收针对该信息的请求的响应)可以在与接收用户查询或命令并且对该用户查询或命令的响应进行渲染的设备分立的设备中被执行。例如，在一些实施方式中，流音频播放器10可能缺失向VPA服务提供方或其它信息源发送对于信息的请求并且从该VPA服务提供方或其它信息源接收针对该对信息的请求的响应的功能。流音频播放器10因此可以与分立设备进行通信，该分立设备包括用于从VPA服务提供方或其它信息源发送和接收信息的VPA功能。

如图2B所示，用户100可以向流音频播放器10提供口头查询100A。用户100可以在提供口头查询100A之前向流音频播放器10讲出唤醒单词，从而流音频播放器10会将口头查询100A解释为用户想要得到响应的查询。可选地，在录制口头查询100A之后，流音频播放器10可以将口头查询100A中继至支持VPA的设备101(在本文也被简称为“VPA”)，例如中继至云端1000的服务提供方或其它信息源，该支持VPA的设备101具有如上文所描述的从VPA服务提供方或其它信息源请求并接收针对用户查询100A的响应的能力。VPA 101可以从VPA服务提供方或其它信息源接收针对该用户查询的响应，并且将该响应传输至流音频播放器10以便进行渲染。流音频播放器10可以在对该响应应用本文所公开的适当均衡之后将该响应作为音频响应100B向用户进行渲染。

VPA 101可以包括处理器、存储器和网络接口，其可以被配置成或者可以包括与上文参考流音频播放器10所描述的处理器22、存储器28和网络接口20相类似的功能。VPA 101的处理器可以实施存储在VPA 101的存储器中的指令，其向VPA 101提供了向VPA服务提供方或其它信息源发送对于信息的请求并且从该VPA服务提供方或其它信息源接收针对该信息的请求的响应，以及接收来自流音频播放器10的查询并且向流音频播放器10发送针对该查询的响应。

流音频播放器10和VPA 101之间的通信可以如图2B所示的那样通过路由器150，或者可以为流音频播放器10和VPA 101之间的直接通信(有线或无线)的形式。

应当理解的是，本文对于流音频播放器10的引用包括其中单个组件接收口头用户查询并且向用户提供音频响应以及从外部源请求并接收针对该查询的响应的系统，而且涉及到如图2B所示的其中第一设备(例如，流音频播放器10)接收用户查询并且向用户渲染响应并且第二设备(例如，VPA 101)请求并接收针对该用户查询的响应并且将该响应传输至第一设备以供渲染的系统。

依据一些方面和实施方式，流音频播放器10的存储器28包括指令，所述指令在被处理器所执行时使得该处理器利用专用于流中所包括内容的类型的标记(在本文也被称作数字标签或简称为标签)对音频流进行标记。例如，该处理器可以将第一类型的数字标签包括在音频流中，而该音频流包括针对用户查询或命令的VPA响应，该第一类型的数字标签将该第一音频流识别成包括针对用户查询或命令的VPA响应；并且可以将第二类型的数字标签包括在第二音频流(包括音乐)中，所述第二类型的数字标签将该第二音频流识别为娱乐音频。在渲染音频流时，流音频播放器10的音频硬件24可以基于音频流中所包括的数字标签的类型而向音频流应用不同的信号调节，例如不同类型的均衡。例如，如果音频流中的数字标签是与音乐相关联的数字标签，则与该数字标签是与语音相关联的情况下相比，流音频播放器10的音频硬件24可以以更高幅度的低音频率来渲染该音频流。如果音频流中的数字标签是与针对向流音频播放器10所作出的用户查询的响应相关联的数字标签，则与该数字标签是与音乐相关联的情况下相比，流音频播放器10的音频硬件24可以以更低幅度的低音频率来渲染该音频流，而使得用户更容易理解该响应。

流音频播放器10的处理器可以将音频流区分成不仅仅包括针对用户查询或命令的VPA响应的流以及包括娱乐音频的音频流。流音频播放器10的处理器可以将音频流区分为另外的类别，诸如口头话音、娱乐音频，例如指示门铃振铃或者接收到的文本消息或电话呼叫的鸣响，或者不同类型的音乐，例如古典音乐对比摇滚音乐。该处理器可以将表示任何这些不同类型的音频的数字标签嵌入到在流音频播放器10处所接收的音频流中，并且不同的预定均衡轮廓可以基于被嵌入在相应音频流中的特定数字标签而被应用于每种不同类型的音频。该不同类型的音频例如可以包括话音(例如，文本至语音、热线广播、新闻广播)、音乐、电影、音频鸣响等。音频流中的不同类型的音频可以由流音频播放器10的处理器基于与该不同类型的音频相关联的一种或多种频率轮廓进行识别，流音频播放器10的处理器可以试图将所述频率轮廓与特定音频流中的音频、不同音频类型的源或者已经存在于包括该不同类型音频的音频流中的其它标识性元数据进行匹配。

如图1D所示，流音频播放器10可以包括解析器40、环形缓冲器42、解码器44、样本缓冲器46、同步模块(SM)48、异步采样速率转换器(ASRC)50和均衡器52。相对于在图1C中所示的组件，这些组件可以是附加的，或者例如可以被包括在图1C中所示的处理器22、音频硬件44和/或存储器28中。在流的开始处，数据(编码音频，例如娱乐音频或者针对话音请求的响应)开始流向流音频播放器10，其在那里被解析器40所解析以标识帧边界。解析器40剥离该编码音频被封装于其中的任何容器(例如，MP3)。流音频播放器10确定该编码音频的类型，并且将与该编码音频的类型相关联的数字标签附加至该编码音频的分组头。被解析但是仍然被编码的数据被存储在主控方的环形缓冲器42中。接下来，该编码数据被解码并且时间偏移量被生成并被附着至音频帧的头部，并且经解码的音频帧被存储在样本缓冲器46中。该偏移量被同步模块48用来确定来自相对应音频帧的音频样本何时被送入ASRC 50。ASRC 50确保用于渲染的恒定采样速率。ASRC 50的输出被馈送入均衡器52，所述均衡器52在它被送至音频硬件44的数模转换器并最终被换能器15转变为声音能量之前应用(如该数字标签所指示的)适当的均衡轮廓。

在一些实施方式中，多个流音频播放器10可以被分组在一起以提供同步的、多房间式的播放。通常，在这样的群组中，设备之一将充当主控方的角色，而其余设备则将作为从属方来操作。主控设备将向从属方提供音频流、播放时序信息和主控时钟时间。从属方因此可以使用该播放时序信息和主控时钟时间而与主控方以及彼此同步地再现流音频。主控设备将时钟数据提供至从属设备(即，主控设备充当时间服务器)，所述从属设备因此使用该时钟数据来更新他们各自的时钟从而与主控设备的时钟同步。该时钟数据可以被定期提供(例如，每隔1至6秒钟)从而保持从属设备被更新并且与主控方同步。

主控设备还向从属设备提供“播放于(play at)”时间。该“播放于”时间表示设备要开始播放音频流中的第一样本的时间。该“播放于”时间可以在独立于音频流的控制数据中被传输。每个新的音轨或流将得到新的“播放于”时间。

从属设备接收流中的第一样本并且在所指定的该“播放于时间”开始播放。由于所有设备都具有相同的当前时钟时间，所以它们全部在相同的时间开始播放。从那时起，该设备全部以恒定的采样速率提供播放，并且因此保持同步。

对于多房间同步而言，编码数据被立即拉出主控方的环形缓冲器并且被提供至(多个)从属播放设备(亦称作(多个)从属方)环形播放器。从那里，从属方遵循与上文所概述的相同过程。每个从属方将对从主控方拉取的编码音频进行解码，向帧头指派以偏移量，并且将经解码的音频帧存储在它们各自的样本缓冲器中。从属方均向音频帧应用它们自己的偏移量，但是这些偏移量将与主控方所应用的那些相同，因为每个设备都正在接收相同的流并且正在使用相同的解码器软件。从属设备也将使用被附加至音频数据的数字标签来向音频应用适当的均衡轮廓。就此而言，每个设备可以具有存储在存储器中的均衡轮廓的库——可以使用查找表来将数字标签与相对应的均衡轮廓进行关联。在一些示例中，相同的标签可以导致不同的从属设备例如基于之前的用户输入和选择而对音频内容采用不同的均衡轮廓。例如，特定的互联网广播电台在一个从属设备上可能利用与话音内容相关联的均衡轮廓被渲染，而在另一个从属设备上则利用与音乐相关联的均衡轮廓来渲染。

例如，如图3A所示，主控流音频播放器10可以经由路由器150与一个或多个从属流音频播放器10A、10B、10C进行通信。可替换地，如图3B所示，主控流音频播放器10和从属流音频播放器10A、10B、10C例如可以采用主控和从属设备的每一个设备中的网络接口而互相直接通信。

主控流音频播放器10和/或从属流音频播放器10A、10B、10C的VPA功能可以由来自用户的唤醒单词触发，所述唤醒单词由主控流音频播放器10和/或从属流音频播放器10A、10B、10C所检测，其随后跟有话音请求。检测到该唤醒单词以及用户话音请求或查询100A的主控流音频播放器10和/或从属流音频播放器10A、10B、10C之一将会在其麦克风17检测到唤醒单词时录制该话音请求。如果接收到用户话音请求或查询100A的是主控流音频播放器10，则其可以如上文所描述的向用户提供合成话音响应100B。

在一些实例中，从属流音频播放器10A、10B、10C之一可以接收该话音请求。由于用户可能不知道群组中的哪个设备是主控流音频播放器10，或者甚至不知道主控流音频播放器10的存在，所以用户可能不知不觉地将话音请求引导至从属流音频播放器10A、10B、10C之一(例如，用户可能简单地将话音请求引导至与他/她最接近的流音频播放器)。接收方从属流音频播放器10A、10B、10C可将该话音请求传输至基于云的话音服务；然而，来自基于云的话音服务的响应通常是通过安全套接字被提供回向基于云的话音服务传输了话音请求的相同设备——这意味着来自该话音服务的响应将被返回至接收方从属流音频播放器10A、10B、10C，而后者却可能原本并未被妥善配置为向其它流音频播放器分发音频。为了解决该问题，在话音请求被从属流音频播放器10A、10B、10C的麦克风17所拾取的情况下，从属流音频播放器可以将相对应的音频文件转发至主控流音频播放器10以便将其传输至基于云的话音服务。这确保了响应将被引导回主控流音频播放器10，后者随后可以标记该音频并且将其分发至从属流音频播放器10A、10B、10C。在一些实例中，主控流音频播放器10可以记录从属流音频播放器10A、10B、10C中的哪一个将用户请求100A转发至主控流音频播放器10的指示，并且可以将响应100B转发至与将用户请求100A转发给主控流音频播放器10的从属流音频播放器相同的从属流音频播放器。可替换地，响应100B可以被发送给每个从属流音频播放器10A、10B、10C以供渲染。响应100B也可以或者可替换地由主控流音频播放器10来渲染。

分发针对用户查询100A的VPA合成话音响应100B的一种选项将是在主控流音频播放器10处将它与可能正在播放的任何娱乐音频流进行混合，并且随后分发单一的、经混合的音频流以便在从属流音频播放器10A、10B、10C处播放。该选项利用了从属流音频播放器10A、10B、10C已经被同步到主控流音频播放器10的时钟时间的事实。然而，该选项的问题在于从属流音频播放器10A、10B、10C可能无法将话音响应100B从娱乐音频区分并分离开来，并且因此将无法在渲染之前对那些音频类型应用不同的均衡轮廓(例如，不同频带的不同放大水平)。

为了更加容易地使得从属流音频播放器10A、10B、10C能够区分不同类型的音频流(例如，VPA响应100B对比娱乐音频)，主控流音频播放器10可以向从属流音频播放器10A、10B、10C分发多个单独的音频流，每个音频流具有其自己的播放时序信息。流可以被并行分发。这些流可以包括一个用于娱乐音频的流，以及用于针对话音请求的VPA响应100B的单独的流。从属流音频播放器10A、10B、10C可能已经同步到主控流音频播放器10的时钟以便播放娱乐音频。然而，在从属侧，每个音频流被单独处理(例如，每个流可以具有其自己的缓冲器、解码器、异步采样速率转换器(ASRC)和均衡轮廓)，这允许不同的均衡被应用于不同的流。两个流的处理可以并行地进行。由于从属流音频播放器10A、10B、10C通常并不知晓音频流中的内容的内容类型或源，所以主控流音频播放器10可以利用相对应的内容类型对流进行标记，从而确保从属流音频播放器10A、10B、10C在渲染该内容之前应用适当的均衡。例如，主控流音频播放器10可以将音频内容类型的标识包括在提供至从属流音频播放器10A、10B、10C的音频分组的头部之中。从属流音频播放器10A、10B、10C可以基于从主控流音频播放器10传输的音频流中所提供的音频内容类型的标识而被预编程以不同的均衡轮廓(例如，针对音频流中的不同频率的不同放大因数)，以应用于不同类型的音频内容。从属流音频播放器10A、10B、10C可以基于从主控流音频播放器10传输的音频流中所提供的音频内容类型的标识而被预编程以不同音量，该不同类型的音频内容将以该不同的音量来渲染。从属流音频播放器10A、10B、10C可以被预编程为在接收到第二类型的音频流时改变正在渲染的第一音频流的音量，从而第二类型的音频流可以优先于第一类型被听到。例如，从属流音频播放器10A、10B、10C可以被预编程为在接收到VPA响应100B时以及在VPA响应100B被渲染的同时降低娱乐音频的音量，从而VPA响应100B可以优先于娱乐视频而被听到。

在其它示例中，不同的均衡轮廓和/或音量调节可以被主控流音频播放器10在向(多个)从属流音频播放器10A、10B、10C发送不同类型的音频流以供渲染之前应用于不同类型的音频流。例如，主控流音频播放器10可以在被识别为包括摇滚音乐的音频流中应用强调较低频率的均衡，并且可以在被识别为包括话音或VPA响应100B的音频流中应用强调较高频率的均衡。在这样的示例中，在(多个)从属流音频播放器10A、10B、10C处所接收以供渲染的音频流可能已经具有了由主控流音频播放器10对其所应用的适当均衡，并且(多个)从属流音频播放器10A、10B、10C可以不需要检查识别音频流中的音频类型的标签或者对所接收音频流应用专用于音频类型的均衡。

实施方式并不局限于从主控流音频播放器10向从属流音频播放器10A、10B、10C发送仅两种音频流(例如，娱乐音频和VPA响应100B)。在一些示例中，主控流音频播放器10可以向从属流音频播放器10A、10B、10C同步并发送具有不同标识标记的附加音频流。附加类型的音频流的一个示例可以是音频鸣响，例如门铃正在鸣响或者到来的电话呼叫或文本消息的指示。从属流音频播放器10A、10B、10C可以遵循如上文关于VPA响应100B所描述的相同规则以向被标记为音频鸣响的音频流应用不同于被标记为娱乐音频的音频流的不同均衡轮廓。在其它示例中，可以在从属流音频播放器10A、10B、10C(或主控流音频播放器10)的存储器中针对不同类型的音频定义优先级层级。基于该优先级层级，包括第一类型的音频(例如音频鸣响或VPA响应100B)的音频流可以以比当前所接收的包括第二类型的音频(例如音乐)的音频流更高的音量被渲染，所述第二类型的音频可以被认为没有第一类型的音频那么重要。

因此已经描述了至少一种实施方式的若干方面，所要意识到的是，本领域技术人员将会轻易地意识到各种改变、修改和改进。这样的改变、修改和改进意在作为本公开的一部分并且意在处于本公开的精神和范围之内。本文所公开的方法的动作可以以不同于所图示的顺序来实行，并且一个或多个动作可以被省略、替代或增加。本文所公开的任何一个示例的一个或多个特征都可以与所公开的任何其它示例的一个或多个特征相结合或者被其所替代。因此，以上描述和附图仅是作为示例。

本文所使用的短语和术语是出于描述的目的而并不应当被理解为限制。如本文所使用的，术语“多个”是指两个或更多的事项或组件。如本文所使用的，被描述为“基本上相似”的尺寸应当被认为彼此处于大约25％以内。无论是在文字描述还是权利要求等中，术语“包括”、“包含”、“带有”、“具有”、“含有”和“涉及”都是开放式的术语，即意味着“包含但并不局限于”。因此，使用这样的术语意味着涵盖了随后所列出的事项及其等同形式以及附加事项。关于权利要求而言，仅过渡短语“由…构成”和“基本上由…构成”分别是封闭或半封闭的过渡短语。权利要求中为了修改权利要求要素而使用的诸如“第一”、“第二”、“第三”等的顺序术语本身并未暗示一个权利要求要素相对于另一个的任何优先级、优先性或顺序或者执行方法动作的时间顺序，而是仅被用作对具有某个名称的一个权利要求要素与具有相同名称的另一个权利要求要素进行区分的标记(而是为了顺序术语的使用)，从而对权利要求要素加以区分。

Claims

1.一种音频播放系统，其包括处理器和相关联程序，所述程序在所述处理器上被执行时使得所述音频播放系统执行一种方法，所述方法包括：

识别第一音频流中所包括的第一类型的音频；

利用与所述第一类型的音频相对应的第一数字标签标记所述第一音频流；

识别第二音频流中所包括的第二类型的音频；

利用与所述第二类型的音频相对应的第二数字标签标记所述第二音频流；

利用应用至所述第一音频流的第一均衡轮廓来渲染所述第一音频流，所述第一均衡轮廓响应于所述音频播放系统检测到所述第一音频流中的所述第一数字标签而被选择；并且

利用应用至所述第二音频流的、不同于所述第一均衡轮廓的第二均衡轮廓来渲染所述第二音频流，所述第二均衡轮廓响应于所述音频播放系统检测到所述第二音频流中的所述第二数字标签而被选择。

2.根据权利要求1所述的音频播放系统，包括主控流音频播放器和至少一个从属流音频播放器，所述至少一个从属流音频播放器被配置为在所述主控流音频播放器的控制下，渲染所述第一音频流和所述第二音频流。

3.根据权利要求2所述的音频播放系统，其中所述至少一个从属流音频播放器被配置为识别口头用户查询，并且将所述用户查询传输至所述主控设备，并且其中所述主控流音频播放器被配置为生成针对所述用户查询的响应，并且在所述第一音频流中将针对所述用户查询的所述响应传输至所述至少一个从属流音频播放器以便渲染，所述第一音频流中所包括的所述第一标签将所述第一音频流识别为包括针对所述用户查询的所述响应。

4.根据权利要求3所述的音频播放系统，其中所述至少一个从属流音频播放器响应于检测到由所述用户所讲出的唤醒单词，降低正通过所述至少一个从属流音频播放器渲染的音频流的音量。

5.根据权利要求3所述的音频播放系统，其中仅识别出所述用户查询的从属流音频播放器渲染针对所述用户查询的所述响应。

6.根据权利要求3所述的音频播放系统，其中所述系统中的每个流音频播放器渲染针对所述用户查询的所述响应。

7.根据权利要求3所述的音频播放系统，其中所述至少一个从属流音频播放器被配置为识别所述第一音频流中的所述第一标签，并且响应于识别出所述第一标签而向针对所述用户查询的所述响应应用所述第一均衡轮廓。

8.根据权利要求3所述的音频播放系统，其中所述主控流音频播放器进一步被配置为将所述第二音频流传输至所述至少一个从属流音频播放器，所述第二音频流中的所述第二标签将所述第二音频流识别为包括除针对所述用户查询的所述响应以外的音频，并且所述至少一个从属流音频播放器被配置为识别所述第二音频流中的所述第二标签，并且响应于检测到所述第二标签而向所述第二音频流应用所述第二均衡轮廓。

9.根据权利要求8所述的音频播放系统，其中所述主控流音频播放器进一步被配置为向所述至少一个从属流音频播放器传输包括音频鸣响的第三音频流，所述第三音频流包括将所述第三音频流识别为包括所述音频鸣响的第三标签，并且所述至少一个从属流音频播放器被配置为识别所述第三音频流中的所述第三标签，并且响应于检测到所述第三标签而向所述第三音频流应用不同于所述第一均衡轮廓的第三均衡轮廓。

10.根据权利要求8所述的音频播放系统，其中所述第一均衡轮廓和所述第二均衡轮廓被编程到所述至少一个从属流音频播放器中相应的所述第一标签和所述第二标签中，并且与所述至少一个从属流音频播放器中相应的所述第一标签和所述第二标签相关联。

11.根据权利要求8所述的音频播放系统，其中如果所述至少一个从属流音频播放器在渲染所述第二音频流的同时接收到包括所述第一标签的音频流，则所述至少一个从属流音频播放器降低所述第二音频流的音量，并且以相对于所述第二音频流更高的音量渲染包括所述第一标签的所述音频流。

12.一种方法，包括：

在流音频播放器的麦克风处接收由用户所讲出的用户查询；

使用所述流音频播放器，利用被应用至针对所述用户查询的响应的第一均衡轮廓来渲染针对所述用户查询的语音响应；并且

使用所述流音频播放器，利用被应用于娱乐音频的与所述第一均衡轮廓不同的第二均衡轮廓来渲染所述娱乐音频。

13.根据权利要求12所述的方法，其中所述流音频播放器是在主控流音频播放器的控制下进行操作的从属流音频播放器，并且所述方法还包括：

将所述用户查询从所述从属流音频播放器传输至所述主控流音频播放器；并且

将针对所述用户查询的所述响应从所述主控流音频播放器传输至所述从属流音频播放器。

14.根据权利要求13所述的方法，还包括：所述主控流音频播放器将所述用户查询传输至基于云的服务，并且从所述基于云的服务接收针对所述用户查询的所述响应。

15.根据权利要求13所述的方法，还包括：所述主控流音频播放器将第一指示符包括在第一音频流中，所述第一指示符将所述第一音频流识别为包括针对所述用户查询的所述响应，其中将针对所述用户查询的所述响应从所述主控流音频播放器传输至所述从属流音频播放器包括：将所述第一音频流从所述主控流音频播放器传输至所述从属流音频播放器。

16.根据权利要求15所述的方法，其中所述从属流音频播放器响应于识别出所述第一音频流中的所述第一指示符而向针对所述用户查询的响应应用所述第一均衡轮廓。

17.根据权利要求16所述的方法，还包括：所述主控音频流播放器将第二指示符包括在第二音频流中，所述第二指示符将所述第二音频流识别为包括所述娱乐音频，其中所述从属流音频播放器响应于识别出所述第二音频流中的所述第二指示符，而利用被应用至所述娱乐视频的第二均衡轮廓来渲染所述娱乐音频。

18.根据权利要求16所述的方法，其中所述从属流音频播放器响应于接收到所述第一音频流、并且识别出所述第一音频流中的所述第一指示符，而降低正在所述从属音频设备上渲染的娱乐音频的音量，并且所述从属流音频播放器以相对于所述娱乐音频的所述音量有所增加的音量来渲染针对所述用户查询的所述响应。

19.根据权利要求12所述的方法，还包括：所述流音频播放器从流音乐服务流传输所述娱乐音频。

20.根据权利要求12所述的方法，其中所述流音频播放器识别所述用户查询之前的唤醒单词，并且响应于识别出所述唤醒单词而降低所述娱乐音频的音量。

21.一种流音频播放器，包括：

数模转换器；

耦合至所述数模转换器的电声换能器；

网络接口；

耦合至所述数模转换器和所述网络接口的处理器；以及

存储在非瞬态计算机可读介质上的指令，所述指令在被执行时使得所述处理器：

经由所述网络接口接收第一数字音频数据；

基于与所述第一数字音频数据相关联的第一数字标签，从多种均衡轮廓中选择第一均衡轮廓；并且

根据所述第一均衡轮廓对所述第一数字音频数据进行均衡。

22.根据权利要求21所述的流音频播放器，其中所述第一数字音频数据包括针对从基于云的服务接收的话音请求的响应；并且

其中所述指令在被执行时进一步使得所述处理器将所述第一数字标签附加至所述第一数字音频数据，其中所述第一均衡标签将所述第一数字音频数据识别为针对话音请求的响应。

23.根据权利要求22所述的流音频播放器，其中所述指令在被执行时进一步使得所述处理器经由所述网络接口将所述第一数字音频数据传送至一个或多个其它流音频播放器，以便在所述一个或多个其它流音频播放器上渲染所述第一数字音频数据，所述第一数字音频数据具有附加至其的所述第一数字标签。

24.根据权利要求21所述的流音频播放器，其中所述指令在被执行时进一步使得所述处理器：

经由所述网络接口接收第二数字音频数据；

基于与所述第二数字音频数据相关联的第二数字标签，从所述多种均衡轮廓中选择第二均衡轮廓；并且

根据所述第二均衡轮廓对所述第二数字音频数据进行均衡，其中所述第二均衡轮廓不同于所述第一均衡轮廓。

25.根据权利要求24所述的流音频播放器，其中所述流音频播放器被配置为同时渲染根据所述第一均衡轮廓被均衡的所述第一数字音频数据、以及根据所述第二均衡轮廓被均衡的所述第二数字音频数据。

26.根据权利要求25所述的流音频播放器，其中所述流音频播放器被配置为在其渲染所述第一数字音频数据的同时，降低所渲染的第二数字音频数据的音量。

27.根据权利要求24所述的流音频播放器，其中所述指令在被执行时进一步使得所述处理器：

将所述第二数字标签附加至所述第二数字音频数据，其中所述第二均衡标签将所述第二数字音频数据识别为娱乐音频数据。

28.根据权利要求27所述的流音频播放器，其中所述指令在被执行时进一步使得所述处理器经由所述网络接口将所述第二数字音频数据传送至一个或多个其它流音频播放器，以便在所述一个或多个其它流音频播放器上渲染所述第二数字音频数据，所述第二数字音频数据具有附加至其的所述第二数字标签。

29.根据权利要求28所述的流音频播放器，其中所述流音频播放器被配置为将所述第一数字音频数据和所述第二数字音频数据同时传送至所述一个或多个其它流音频播放器。

30.根据权利要求21所述的流音频播放器，其中所述流音频播放器被配置为：

接收来自用户的话音请求；

经由所述网络接口将所述话音请求传送至基于云的服务；并且

经由所述网络接口从所述基于云的服务接收针对所述话音请求的响应，

其中所述响应包括所述第一数字音频数据。

31.根据权利要求30所述的流音频播放器，其中所述流音频播放器包括麦克风，并且其中所述话音请求经由所述麦克风被接收。

32.根据权利要求30所述的流音频播放器，其中所述话音请求经由所述网络接口从另一个流音频播放器被接收。