CN114787766A

CN114787766A - 声音播放的选择性调整

Info

Publication number: CN114787766A
Application number: CN202080084653.6A
Authority: CN
Inventors: J.菲罗斯; F.奥利维耶里; N.G.彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-12-12
Filing date: 2020-11-17
Publication date: 2022-07-22
Also published as: WO2021118770A1; EP4073625A1; US20220382509A1; TW202134856A

Abstract

一种用于管理声音播放的设备包括一个或多个处理器，该一个或多个处理器被配置成在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户‑设备交互的指示。该一个或多个处理器还被配置成基于接收到用户设备交互的指示，发起声音播放操作的选择性调整，以基于用户的位置降低多扬声器音频播放系统的播放声音。

Description

声音播放的选择性调整

相关申请的交叉引用

本申请要求于2019年12月12日提交的标题为“SELECTIVE ADJUSTMENT OF SOUNDPLAYBACK”的希腊临时专利申请第20190100555号的优先权，该申请的全部内容通过引用并入本文。

技术领域

本公开总体上涉及声音播放。

背景技术

技术的进步已经导致更小且更强大的计算设备。例如，目前存在各种便携式个人计算设备，包括诸如移动电话和智能电话的无线电话、平板电脑和笔记本电脑，它们体积小、重量轻且易于用户携带。这些设备可以通过无线网络通信语音和数据分组。此外，许多这样的设备包含附加功能，诸如数字相机、数字摄像机、数字记录器和音频文件播放器。而且，这样的设备可以处理可执行指令，包括可用于接入互联网的软件应用程序，诸如网页浏览器应用程序。因此，这些设备可以包括重要的计算能力。

计算设备可以包括音频接口设备(诸如家庭自动化系统)，其是语音激活的或为用户输出音频(例如，天气更新)。通过另一个音频系统(诸如家庭娱乐系统)的声音播放可能会干扰音频接口设备的操作。例如，音频接口设备在区分用户的话音和家庭娱乐系统的播放声音时可能会经历错误。作为另一个示例，用户可能无法在家庭娱乐系统的播放声音之上听到来自音频接口设备的输出。对音频接口设备操作的干扰会对用户体验产生不利影响。

发明内容

在特定方面中，一种用于管理声音播放的设备包括一个或多个处理器，该一个或多个处理器被配置成在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示。该一个或多个处理器还被配置成基于接收到用户设备交互的指示，发起声音播放操作的选择性调整，以基于用户的位置降低多扬声器音频播放系统的播放声音。

在另一特定方面中，一种声音播放的方法包括在多扬声器音频播放系统的声音播放操作期间，在设备处接收用户与音频接口设备之间的用户-设备交互的指示。该方法还包括基于接收到用户-设备交互的指示，在设备处发起声音播放操作的选择性调整，以基于用户的位置降低播放声音。

在另一特定方面中，一种计算机可读存储设备存储指令，该指令在由一个或多个处理器执行时，使得一个或多个处理器在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示。该指令在由一个或多个处理器执行时，还使得一个或多个处理器基于接收到的用户-设备交互的指示，发起声音播放操作的选择性调整，以基于用户的位置降低播放声音。

在另一特定方面中，一种装置包括用于在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示的部件。该装置还包括用于发起声音播放操作的选择性调整以基于用户的位置降低播放声音的部件，选择性调整基于接收到用户-设备交互的指示而被发起。

在回顾完整的申请文件之后本公开的其他方面、优点和特征将变得显而易见。完整的申请文件包括以下部分：附图说明、具体实施方式和权利要求。

附图说明

图1是可操作以执行声音播放的选择性调整的系统的特定说明性方面的框图；

图2A是图1的系统的扬声器配置的说明性示例；

图2B是图1的系统的扬声器配置的另一说明性示例；

图3A是可以由图1的系统执行的操作的说明性示例；

图3B是可以由图1的系统执行的操作的另一说明性示例；

图3C是可以由图1的系统执行的波束成形的说明性示例；

图4是可以由图1的系统执行的播放声音的选择性调整的说明性示例；

图5A是可以由图1的系统执行的播放声音的选择性调整的说明性示例；

图5B是可以由图1的系统执行的播放声音的选择性调整的说明性示例；

图6是图示声音播放的选择性调整的方法的流程图；

图7是结合图1的系统的方面的车辆的说明性示例；

图8是结合图1的系统的方面的语音控制扬声器系统的说明性示例；

图9是结合图1的系统的方面的设备的说明性示例的框图；以及

图10是结合图1的系统的方面的基站的框图。

具体实施方式

公开了声音播放的选择性调整的系统和方法。多扬声器音频播放系统执行播放信号(例如，音乐)的声音播放。在多扬声器音频播放系统的声音播放期间，检测用户与音频接口设备之间的用户-设备交互。例如，用户-设备交互包括用户说出音频接口设备的语音激活关键字(例如，“你好助理”)或用户做出特定手势来唤醒音频接口设备。计算设备基于用户的位置发起声音播放的选择性调整。在特定示例中，选择性调整通过去激活最接近用户位置的扬声器来执行。在另一示例中，波束成形被用于执行选择性调整。声音播放的选择性调整降低在用户的位置处、音频接口设备的位置处或这两处的播放声音。在特定示例中，选择性调整不会降低其他用户的位置处的播放声音。举例来说，如果检测到用户在汽车的驾驶座上，则执行选择性调整，使得多扬声器音频播放系统的播放声音在驾驶座处降低，而不对汽车内的乘客降低。

音频接口设备的操作由于播放声音的选择性调整而得到改善。在特定示例中，音频接口设备在识别用户的话音时经历较少的错误(例如，无错误)，这是因为播放声音不是从接收到用户的话音所在的同一位置接收到的(或以降低的音量接收的)。在另一个示例中，当播放声音在用户的位置降低时，用户能够更好地听到音频接口的输出。

下面参考附图来描述本公开的特定方面。在描述中，共同的特征由共同的附图标记表示。如本文所使用的，各种术语仅用于描述特定实现方式的目的，并不意图限制实现方式。例如，单数形式“一”、“一个”和“该”也意图包括复数形式，除非上下文另有明确指示。此外，本文描述的一些特征在一些实现方式中是单数的而在其他实现方式中是复数的。举例说明，图1描绘了包括一个或多个处理器(图1中的“处理器”130)的设备102，这表明在一些实现方式中，设备102包括单个处理器130，而在其他实现方式中，设备102包括多个处理器130。为了在本文中便于参考，除非正在描述的是与多个特征相关的方面，通常将这样的特征作为“一个或多个”特征引入并且随后以单数形式提及。

还可以理解的是，术语“某些包括”、“某物包括”和“包括……的”可以与“某些包含”、“某物包含”或“包含……的”互换使用。另外，应当理解的是，术语“其中”可以与“这里”互换使用。如本文所使用的，“示例性”可以指示示例、实现方式和/或方面，并且不应被解释为限制或指示偏好或优选的实现方式。如本文所使用的，用于修饰元素(诸如结构、组件、操作等)的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一个元素的任何优先级或顺序，而只是将该元素与另一个具有相同名称(但使用了序数术语)的元素区分开来。如本文所使用的，术语“集合”是指一个或多个特定元素，而术语“多个”是指特定元素的倍数(例如，两个或更多个)。

如本文所使用的，“耦接”可以包括“通信耦接”、“电耦接”或“物理耦接”，并且还可以(或替代地)包括它们的任何组合。两个设备(或组件)可以直接地或经由一个或多个其他设备、组件、电线、总线、网络(例如，有线网络、无线网络、或其组合)等间接地耦接(例如通信耦接、电耦接或物理耦接)。作为说明性的、非限制性示例，电耦接的两个设备(或组件)可以是包括在同一设备中或在不同设备中的，并且可以是经由电子器件、一个或多个连接器或电感耦接被连接起来的。在一些实现方式中，诸如以电通信方式通信地耦接的两个设备(或组件)可以直接地或间接地(诸如经由一个或多个电线、总线、网络等)发送和接收电信号(数字信号或模拟信号)。如本文所使用的，“直接地耦接”可以包括耦接(例如，通信耦接、电耦接或物理耦接)而没有介入组件的两个设备。

在本公开中，诸如“确定”、“计算”、“估计”、“移位”、“调整”等的术语可以被用来描述一个或多个操作是如何执行的。应当注意的是，这样的术语不应被解释为限制性的，而是可以利用其他技术来执行类似的操作。另外，如本文所提及的，“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如，“生成”、“计算”、“估计”或“确定”参数(或信号)可以指主动地生成、估计、计算或确定该参数(或信号)，也可以指使用，选择或访问已经诸如由另一个组件或设备生成的参数(或信号)。

参考图1，公开了可操作以执行声音播放的选择性调整的系统的特定说明性方面，并且将其大体上标记为100。系统100包括耦接到用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合的设备102。系统100还包括音频接口设备104、摄像头122、麦克风124或其组合。多扬声器音频播放系统136包括扬声器控制器108(例如，具有波束成形能力的扬声器系统)和多个扬声器120。在图1中作为说明性示例，多扬声器音频播放系统136被图示为包括五个扬声器120A-120E。在其他示例中，多扬声器音频播放系统136可以包括少于五个扬声器或多于五个扬声器。

在图1中，作为说明性示例，设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110、摄像头122、麦克风124和扬声器120被示出为分开的设备。在其他实现方式中，设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110、摄像头122、麦克风124或扬声器120中的两个或更多个是集成到单个设备中的。在特定方面中，设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110、摄像头122、麦克风124或扬声器120中的一个或多个包括或被集成到计算设备、语音助理、物联网(IoT)控制器、物联网设备、汽车、载具、集成式助理应用程序、气候控制系统、照明系统、电气系统、消防喷淋系统、家庭自动化系统、安全系统、电器、播放设备、电视、媒体设备、虚拟现实(VR)耳机、增强现实(AR)耳机、混合现实(MR))耳机、扩展现实(XR)耳机、头戴式显示器(HMD)、音频设备、无线扬声器和语音激活设备或其组合中。

应当注意的是，在下文描述中，由图1的系统100执行的各种功能将被描述为是通过某些组件或模块执行的。然而，组件和模块的这种划分仅用于说明。在替代的方面中，在本文中描述为由特定的组件或模块执行的功能可以被划分到多个组件或模块中。而且，在替代方面中，可以将图1的两个或更多个组件或模块集成到单个组件或模块中。图1中图示的每个组件或模块可以使用硬件(例如，现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、数字信号处理器(DSP)、控制器等)、软件(例如，可通过处理器执行的指令)或它们的任意组合来实现。

音频接口设备104包括扬声器、麦克风或两者。音频接口设备104被配置成从用户112接收音频信号153(例如，经由麦克风)、输出音频信号155(例如，经由扬声器)或两者都进行。在一些示例中，音频接口设备104的一个或多个麦克风捕获对应于用户112的话音的输入声音163并且将体现输入声音163的音频信号153提供给音频接口设备104。在一些示例中，音频接口设备104将音频信号155提供给一个或多个扬声器，并且扬声器生成对应于音频信号155的输出声音165。在音频接口设备104包括一个或多个麦克风的实现方式中，音频接口设备104可以被配置成参与在其中音频接口设备104接收音频信号153(例如，“你好助理，将温度设置为70度”)而不输出任何音频信号的用户交互。在音频接口设备104包括一个或多个扬声器的实现方式中，音频接口设备104可以被配置成参与其中音频接口设备104输出音频信号155(例如，“你今早通勤交通正常”)而不接收到任何音频信号的用户交互。在音频接口设备104包括一个或多个扬声器以及一个或多个麦克风的实现方式中，音频接口设备104可以还被配置成参与其中音频接口设备104接收音频信号153(例如，“你好助理，现在几点了？”)并输出音频信号155(例如，“现在是下午3点”)的用户交互。

用户位置检测器110被配置成确定指示用户112的位置的用户位置数据131。用户位置数据131可以指示用户112的实际位置(例如坐标)、相对位置(例如与另一对象的方向或距离)或两者。在特定示例中，用户位置检测器110被配置成对由音频接口设备104接收的音频信号153的一部分(例如，“你好助理”)执行到达方向分析，以生成指示用户112相对于音频接口设备104的位置的用户位置数据131。在一些示例中，用户位置检测器110被配置成从与用户112相关联的移动设备接收全球定位系统(GPS)坐标并生成指示GPS坐标的用户位置数据131。

用户-设备交互检测器106被配置成响应于检测到用户112与音频接口设备104的用户-设备交互而生成交互指示133。在特定示例中，用户-设备交互检测器106被配置成响应于确定音频信号153的一部分对应于激活命令(例如，“你好助理”)来检测用户-设备交互。在一些示例中，用户-设备交互检测器106被配置成响应于确定由音频接口设备104的摄像头捕获到的一个或多个图像指示用户112执行了激活手势(例如，挥手)来检测用户-设备交互。

扬声器控制器108被配置成执行对应于可以是从设备102接收的或者可以是从另一个源接收的播放信号151(例如，电视音频输出、音乐系统输出等)的声音播放操作145。例如，扬声器控制器108被配置成将对应于播放信号151的输出信号141提供给扬声器120。尽管为了说明的目的而描绘的是将第一输出信号141A提供给第一扬声器120A而将第二输出信号141B提供给第二扬声器120B，但应当理解的是，可以将其他输出信号提供给其他扬声器，如下文进一步描述的。在特定方面中，扬声器控制器108被配置成支持各种空间音频配置，诸如立体声配置、5.1环绕声配置、7.1环绕声配置或其他类型的空间音频配置。在特定示例中，播放信号151被编码成用于特定空间音频配置，并且扬声器控制器108基于播放信号151生成对应于特定音频配置的输出信号141。在另一示例中，播放信号151对应于单声道信号并且扬声器控制器108通过对单声道信号执行音频处理来生成对应于特定空间音频配置的输出信号141。

设备102包括耦接到存储器132的一个或多个处理器130。处理器130包括调整发起器134。在特定方面中，处理器130是包括在集成电路中的。调整发起器134被配置成响应于接收到交互指示133，基于用户位置数据131发起声音播放操作145的选择性调整143。在特定示例中，选择性调整143包括调整扬声器120中的一些(但不是全部)的输出声级(例如，音量)。

在特定方面中，选择性调整143包括去激活较接近用户112的扬声器120中的一个或多个。在特定方面中，选择性调整143包括创建“静音”区。与在静音区外相比，在静音区中声音播放操作145的播放声音被降低(例如，静音)。在特定方面中，使用波束成形技术来创建静音区，诸如通过调整输出信号141中的一个或多个，使得一个或多个扬声器输出的声音在静音区内彼此相消干涉(例如，而不在静音区外导致实质性相消干涉)。

在操作期间，扬声器控制器108发起对应于播放信号151的声音播放操作145。在示例中，播放信号151对应于家庭娱乐系统的输出。举例说明，播放信号151可以对应于用户112和用户114正在观看的电影的音频输出。在声音播放操作145期间，扬声器控制器108生成对应于播放信号151的输出信号141并将输出信号141提供给扬声器120。在特定示例中，扬声器控制器108将输出信号141A、输出信号141B、输出信号141C(未示出)、输出信号141D(未示出)和输出信号141E(未示出)分别提供给扬声器120A、扬声器120B、扬声器120C、扬声器120D和扬声器120E。输出信号141可以基于多扬声器音频播放系统136的配置设置(例如，环绕声配置、声道平衡设置等)、扬声器控制器108的配置设置、扬声器120的配置设置，或其组合。作为说明性示例提供的扬声器控制器108将输出信号141发送到五个扬声器。在其他示例中，扬声器控制器108可以将输出信号141提供给少于五个扬声器或多于五个扬声器。

用户-设备交互检测器106检测用户112和音频接口设备104之间的用户-设备交互。在特定方面中，由用户112执行用户-设备交互，以激活音频接口设备104。在示例中，用户-设备交互检测器106响应于确定在音频接口设备104处接收到的音频信号153(例如，代表输入声音163)的一部分对应于激活音频接口设备104的激活命令(例如，“你好助理”)来检测用户-设备交互。在该示例中，用户-设备交互包括在音频接口设备104处对用户的对应于激活命令的话音(例如，输入声音163)的接收。在另一示例中，用户-设备交互检器106响应于确定由摄像头122捕获的一个或多个图像指示用户112做出了激活音频接口设备104的激活手势(例如，挥手)来检测用户-设备交互。在该示例中，用户-设备交互包括在一个或多个图像中指示的用户手势(例如，激活手势)。

在特定方面中，用户-设备交互基于用户112与音频接口设备104、麦克风124或摄像头122中的一个或多个的接近度。在一些示例中，用户-设备交互检测器106响应于确定在音频接口设备104处接收到的音频信号153(或在麦克风124处接收到的音频信号)的一部分对应于从位于音频接口设备104(或麦克风124)的阈值距离以内的用户接收到的用户的话音来检测用户-设备交互。在另一示例中，用户-设备交互检测器106响应于确定由摄像头122捕获的一个或多个图像指示在音频接口设备104、摄像头122或在两者的阈值距离内检测到用户112来检测用户-设备交互。作为说明性示例提供的音频信号和摄像头图像用于确定用户112与音频接口设备104、麦克风124或摄像头122中的一个或多个的接近度。在其他示例中，用户112的接近度可以基于其他信息(诸如用户112的移动设备的GPS坐标)来确定。用户-设备交互检测器106响应于检测到用户-设备交互，将交互指示133提供给设备102。

响应于接收到交互指示133，调整发起器134检索用户112的用户位置数据131。在一些实现方式中，用户位置检测器110执行类似于参考用户-设备交互检测器106描述的操作的一个或多个操作来确定用户位置数据131。在其他实现方式中，用户位置检测器110以不同于用户-设备交互检测器106的方式确定用户位置数据131。例如，用户-设备交互检测器106可以基于确定一个或多个图像指示在音频接口设备104、摄像头122或在两者的阈值距离内检测到用户112来确定用户112与摄像头122的接近度，而用户位置检测器110可以基于与用户112相关联的用户设备的GPS坐标来确定用户位置数据131。在特定方面中，用户-设备交互检测器106检测用户-设备交互而无需确定用户112与另一对象的接近度，并且用户位置检测器110确定用户位置数据131。

用户位置数据131包括用户112的地理位置(例如，坐标)或相对位置。在特定方面中，用户位置数据131指示用户112相对于音频接口设备104、摄像头122、麦克风124或扬声器120中的一个或多个的方向、距离或两者。在一些示例中，用户位置检测器110对在音频接口设备104的一个或多个麦克风处接收的音频信号153(例如，“你好助理”)执行音频分析(例如，到达方向(DoA)分析)，以确定用户112相对于音频接口设备104的方向、距离或两者。用户位置检测器110基于用户112相对于音频接口设备104的方向、距离或两者来确定用户位置数据131。在特定方面中，用户位置检测器110可以存取扬声器120相对于音频接口设备104的位置。在这个方面，用户位置检测器110基于用户112相对于音频接口设备104的方向、距离或两者，以及扬声器120相对于音频接口设备104的位置来确定用户112相对于扬声器120的用户位置数据131。

调整发起器134响应于接收到交互指示133，基于用户位置数据131发起声音播放操作145的选择性调整143。例如，调整发起器134执行选择性调整143以通过降低输出信号141和用户112的话音(例如，对应于音频信号153的剩余部分)之间的音频干扰的可能性、降低输出信号141和将由音频接口设备104输出的音频信号之间的音频干扰的可能性或两者来改善用户体验155。在特定示例中，用户位置检测器110确定用户位置数据131指示与扬声器120B、扬声器120C和扬声器120E相比，用户112更接近扬声器120A和扬声器120D。用户位置检测器110响应于基于用户位置数据131确定在声音播放操作145期间来自扬声器120的输出可能干扰音频接口设备104的操作而发起选择性调整143。

在一些实现方式中，选择性调整143包括波束成形以创建静音区，这将参考图2A和图2B的示例进一步描述。在其他实现方式中，选择性调整143包括去激活或以其他方式降低来自一个或多个扬声器的声音来创建静音区，诸如参考图5进一步描述的。在一些示例中，选择性调整143降低了对应于音频信号153的一部分(例如，“现在几点？”)的用户112的话音与扬声器120A和扬声器120D中每一个的输出之间的音频干扰。在一些示例中，选择性调整143降低了对应于音频信号155的输出声音165与扬声器120A和扬声器120D中的每一个的输出之间的音频干扰。

在特定方面中，选择性调整143包括基于用户位置数据131生成或更新一个或多个滤波器137。将一个或多个滤波器137施加到输出信号141，以在将经滤波的音频信号提供给扬声器120之前生成一个或多个经滤波的音频信号。在特定示例中，将输出信号141A的经滤波部分提供给扬声器120A之前，将滤波器137A(未示出)施加到输出信号141A的一部分。作为另一示例，在将输出信号141D的滤波部分提供给扬声器120D之前，将滤波器137D(未示出)施加到输出信号141D的一部分。在特定方面中，滤波器137是基于波束成形技术的。

在特定方面中，选择性调整143包括在将音频部分流式传输到多扬声器音频播放系统136之前调整与该音频部分相关联的一个或多个参数。在特定示例中，在将输出信号141A的一部分提供给扬声器120A之前调整与输出信号141A的该部分相关联的一个或多个参数(诸如波束成形权重)，使得由扬声器120A投射的声音导致与由扬声器120B投射的声音、由扬声器120E投射的声音、由扬声器120C投射的声音或其组合的相消干涉。在一些示例中，在将输出信号141A的一部分提供给扬声器120A之前调整与输出信号141A的一部分相关联的增益参数，使得由扬声器120A投射的音量降低。

在一些实现方式中，调整发起器134通过将用户位置数据131提供给扬声器控制器108(诸如经由包括用户位置数据131的请求135(例如，调整请求))，并且扬声器控制器108执行选择性调整143，来发起选择性调整143，而不是在设备102处生成或执行选择性调整。在其他实现方式中，调整发起器134通过基于用户位置数据131生成滤波器137(或参数)并经由请求135将滤波器137(或参数)提供给扬声器控制器108来发起选择性调整143。在这方面中，扬声器控制器108将滤波器137(或参数)施加到输出信号141的部分。在设备102将输出信号141提供给扬声器控制器108的一些实现方式中，调整发起器134通过基于滤波器137(或参数)对一个或多个输出信号141的部分进行滤波(或调整)来发起选择性调整143。举例说明，调整发起器134可以经由请求135将输出信号141中一个或多个信号的经滤波(经调整)的部分和输出信号141中其他信号的未滤波(或未调整)部分提供给扬声器控制器108。因此，从调整发起器134发送到扬声器控制器108的请求135(例如，调整请求)可以指示用户位置数据131、滤波器137、参数、输出信号141中一个或多个信号的经滤波(或经调整)的部分、输出信号141中其他信号的未滤波(或未调整)的部分，或其组合。

扬声器控制器108输出输出信号141中一个或多个信号的经滤波(或经调整)的部分、输出信号141中其他信号的未滤波(或未调整)部分或其组合。在扬声器120A和120D最靠近用户112和音频接口设备104的特定示例中，通过将输出信号141A的经滤波(或经调整)的部分提供给扬声器120A并将输出信号141D的经滤波(或经调整)的部分提供给扬声器120D，以及还将输出信号141B的未滤波(或未调整)的部分提供给扬声器120B、将输出信号141C的未滤波(或未调整)的部分提供给扬声器120C，以及将输出信号141E的未滤波(或未调整)的部分提供给扬声器120E，扬声器控制器108在用户112和音频接口设备104附近创建静音区。

在特定方面中，在选择性调整143之后，音频接口设备104接收对应于用户112的话音(例如，“现在几点？”)的音频信号153(例如，音频信号153的一部分)。响应于声音播放操作145的输出信号141，音频信号153(例如，音频信号153的一部分)降低了来自由扬声器120投射的声音的干扰(例如，无干扰)。在特定方面中，音频接口设备104在选择性调整143之后输出音频信号155。用户112能够听到对应于音频信号155的输出声音165，同时降低了来自对应于由扬声器120输出的输出信号141的声音的干扰(例如，无干扰)。在特定方面中，在选择性调整143之后，用户114和静音区之外的其他用户的收听体验相对不变(例如，完全不改变)。

系统100因此通过减少声音播放操作145对音频接口设备104的操作的干扰而不影响用户114的收听体验来改善用户112的用户体验。例如，在用户114可以继续收听家庭娱乐系统的声音播放的同时，用户112对使用音频接口设备104具有改善的用户体验(例如，具有降低的干扰)。

参考图2A，系统200包括音频接口设备104(例如，条形音箱)的示例，音频接口设备104还包括扬声器120A、扬声器120B和扬声器120C。在其他示例中，音频接口设备104可以包括少于三个扬声器或多于三个扬声器。如图所示，音频接口设备104被配置成结合了参考图1的设备102、用户-设备交互检测器106、扬声器控制器108和用户位置检测器110描述的功能。然而，在其他实现方式中，参考设备102、用户-设备交互检测器106、扬声器控制器108或用户位置检测器110描述的一个或多个操作可以由在音频接口设备104外部的其他设备执行。

在系统200中，音频接口设备104被配置成执行选择性调整143，这导致在扬声器120A和用户112之间创建了静音区204。例如，选择性调整143避免减少扬声器120B和扬声器120C的输出。扬声器120A的输出消除(例如，基于噪声消除技术)了在扬声器120A和用户112之间的区域中扬声器120B和扬声器120C的输出，诸如参考图3C进一步描述的。静音区204降低在用户112的话音(例如，输入声音163)(对应于音频信号153的一部分(例如，“现在几点？”))与扬声器120B和扬声器120C中的每一个的输出之间的音频干扰。例如，选择性调整143包括减小如在用户112、扬声器120A或两者的位置处所感知的扬声器120B和扬声器120C的声音输出，同时避免减小如分别在用户114和用户214的位置所感知的扬声器120B和扬声器120C的声音输出。在该示例中，用户114和用户214的收听体验相对不变(例如，完全不改变)，同时降低了对用户112的话音的干扰。在特定方面中，选择性调整143是响应于在音频信号153的第一部分中检测到激活词(例如，“你好助理”)而发起的，使得可以在将来自声音播放操作145的干扰降低(例如，无干扰)的情况下接收音频信号153的剩余部分(例如，“现在几点？”)。

参考图2B，系统250包括音频接口设备104(例如，语音助理设备)的另一个示例，音频接口设备104包括扬声器120A、扬声器120B、扬声器120C和扬声器120D。在其他示例中，音频接口设备104可以包括少于三个扬声器或多于三个扬声器。选择性调整143包括在扬声器120A与用户112之间创建静音区204。例如，扬声器120A的输出可以在扬声器120A与用户112之间基本上抵消扬声器120B、扬声器120C和扬声器120D中的一个或多个的输出，诸如参考图3C进一步描述的。

系统200和250因此在不影响用户114和用户214的收听体验的情况下通过减少声音播放操作145对音频接口设备104的操作的干扰来改善用户112的用户体验。例如,用户112在与音频接口设备104交互的同时具有改进的用户体验(例如,具有降低的干扰),而不会显著影响用户114和用户214的收听体验。

参考图3A，示出了可以由图1的系统100执行的操作的示例300。在特定方面中，示例300的一个或多个操作是由图1的设备102、处理器130、调整发起器134、扬声器控制器108、音频接口设备104、用户位置检测器110、用户-设备交互检测器106、系统100、或其组合来执行的。

在一个特定示例中，图1的用户-设备交互检测器106执行关键字检测304。举例说明，用户-设备交互检测器106在音频信号153的一部分中检测到激活命令(例如关键字，诸如“你好助理”)，如参考图1所描述的。用户-设备交互检测器106响应于检测到激活命令(例如，“你好助理”)而生成交互指示133。

如参考图1描述的，用户位置检测器110响应于接收到交互指示133来确定用户位置数据131。在特定示例中，用户位置检测器110通过基于音频信号153的包括激活命令的部分执行DOA估计306来确定用户位置数据131。

如参考图1描述的，调整发起器134基于用户位置数据131生成滤波器137。例如，调整发起器134通过使用波束成形技术以基于用户位置数据131生成滤波器137来执行与创建静音区308相关联的操作，使得在已经被滤波器137滤波的音频数据播放时在用户112的位置处创建静音区。在其他示例中，不执行波束成形或者除了执行波束成形以外，调整发起器134生成滤波器137以通过减少或去激活最接近用户位置的扬声器的声音输出来创建静音区。

扬声器控制器108通过将滤波器137施加到输出信号141中一个或多个信号的部分并将输出信号141中一个或多个信号的经滤波部分提供给对应的扬声器用于播放来执行局部闪避(duck)310。如本文所使用的，“闪避”是指降低输出信号141中一个或多个信号在静音区中的声级(例如，音量)。在特定方面中，使用波束成形来执行闪避，如参考图3C进一步描述的。在特定方面中，通过调整增益水平来执行闪避，如参考图4进一步描述的。在特定方面中，通过去激活一个或多个扬声器来执行闪避，如参考图5A至图5B进一步描述的。

参考图3B，示出了可以由图1的系统100执行的操作的示例350。示例350的操作与图3A的示例300的操作不同之处在于用户-设备交互检测器106(或系统100的另一组件)执行音频信号153的空间音频上混302以生成上混信号337。用户-设备交互检测器106基于上混信号337执行关键字检测304。系统100因此对在其中音频源未针对空间音频播放格式化的遗留系统提供支持。

图3C描绘了可以由图1的系统100执行的波束成形的简化视觉示例。例如，扬声器控制器108将图1的输出信号141A的第一部分提供给扬声器120A，并将图1的输出信号141B的第二部分提供给扬声器120B。在特定方面中，输出信号141A的第一部分包括通过将滤波器137A施加到输出信号141A的未滤波部分而生成的输出信号141A的经滤波部分。在特定方面中，输出信号141B的第二部分包括通过将滤波器137B施加到输出信号141B的未滤波部分而生成的输出信号141B的经滤波部分。

在特定方面中，扬声器控制器108或调整发起器134使用音频技术(例如，噪声消除、波束成形或两者)生成滤波器137A、滤波器137B或两者，使得由扬声器120A对经滤波的输出信号141A的第一部分的播放在静音区204中降低(例如，抵消)由扬声器120B通过对经滤波的输出信号141B的播放而产生的声音。

参考图4，在一实现方式中示出了声音播放操作145的选择性调整的示例400，在其中一个或多个扬声器(例如，图2A或图2B的扬声器120A)通过从播放与声音播放操作145相关联的音频平滑过渡到播放输出声音165(例如，通过播出音频信号155向用户112输出语音接口消息)，然后在播放输出声音165之后平滑地过渡回到播放音频，在第一音频信号(例如，输出信号141A)和第二音频信号(例如，音频信号155)之间执行淡入淡出。扬声器控制器108在起升时间412之前发起声音播放操作145。例如，扬声器控制器108基于播放信号151向扬声器120提供输出信号141。起升时间412之前的第一时间段对应于施加到播放信号151以生成输出信号141的增益402(例如，100％)。

调整发起器134在起升时间412处发起声音播放操作145的选择性调整143。例如，在起升时间412和时间414之间的第二时间段期间，对应于播放信号151的声音在静音区204中逐渐降低。在特定方面中，第二时间段对应于将降低增益402施加到输出信号141A和将升高增益404施加到音频信号155用于由扬声器120A输出。例如，逐渐减小图1的输出信号141A的增益402减小了对应于由扬声器120A输出的播放信号151的声级，且逐渐增加施加到音频信号155的增益404增加了对应于由扬声器120A输出的音频信号155的输出声音165的声级。

在特定示例中，除了包括音频接口设备104的语音接口消息之外，音频信号155还包括执行与由扬声器120B投射的声音相消干涉的声音。在另一示例中，在扬声器120A输出音频信号155的同时，扬声器120D输出输出信号141D的、执行与由扬声器120B投射的声音相消干涉的经滤波部分。

调整发起器134在时间414和释放时间416之间的第三时间段期间继续声音播放操作145的选择性调整143。例如，在第三时间段期间，降低对应于由扬声器120A输出的播放信号151的声音(例如，无声音)。在特定方面中，第三时间段对应于将低增益402(例如，0％)施加到播放信号151以及将高增益404(例如，100％)施加到音频信号155用于由扬声器120A输出。

调整发起器134在释放时间416和时间418之间的第四时间段期间逐渐恢复声音播放操作145的选择性调整143。例如，在第四时间段期间，逐渐增加对应于由扬声器120A输出的播放信号151的声音。在特定方面中，第四时间段对应于将递增增益402施加到播放信号151以及将低增益404(例如，0％)施加到音频信号155用于由扬声器120A输出。例如，在音频信号155已由扬声器120A播放之后，逐渐增加图1的输出信号141A的增益402增加对应于由扬声器120A输出的播放信号151的声级。

调整发起器134在时间418完全恢复声音播放操作145的选择性调整143。例如，在时间418之后的第五时间段期间，对应于播放信号151的声音完全恢复。在特定方面中，第五时间段对应于将高增益402(例如，110％)施加到输出信号141A用于由扬声器120A输出。

参考图5A至图5B，示出了可由图1的系统100执行的由选择性调整143引起的静音区的创建的示例。在图5A至图5B中，选择性调整143包括发起闪避504。例如，闪避504包括去激活(例如，关闭其音量)如用户位置数据131、音频接口设备104的位置或两者所指示的最接近用户112的位置附近的扬声器120中的一个或多个。

在图5A中，用户112的位置足够接近扬声器120A，以至于来自扬声器120A的音频播放可能会干扰用户112理解来自音频接口设备104的音频输出(例如，来自音频接口设备的语音接口消息)的能力，而扬声器120B至E距离用户112足够远以至于不太可能干扰用户112理解来自音频接口设备104的音频输出的能力。调整发起器134基于确定如用户位置数据131所指示的用户112的位置是在扬声器120A的位置的阈值内(例如，距离该位置小于阈值距离)，而发起选择性调节143以去激活(例如，关闭其音量)扬声器120A。例如，调整发起器134将指示扬声器120A要被去激活的请求135发送到扬声器控制器108。扬声器控制器108响应于接收到指示扬声器120A的请求135而去激活扬声器120A。

在图5B中，用户112的位置足够接近扬声器120D和扬声器120E，以至于来自扬声器120D和扬声器120E音频播放很可能干扰用户112理解来自音频接口设备104的音频输出(例如，来自音频接口设备104的语音接口消息)的能力，而扬声器120A至C距离用户112足够远，以至于不太可能干扰用户112理解来自音频接口设备104的音频输出的能力。调整发起器134响应于确定用户112的位置在扬声器120D的位置的阈值内并且也在扬声器120E的位置的阈值内而发起选择性调整143以去激活扬声器120D和扬声器120E(例如，关闭其音量)。例如，调整发起器134将指示扬声器120D和扬声器120E要被去激活的请求135发送到扬声器控制器108。扬声器控制器108响应于接收到指示扬声器120D和扬声器120E的请求135而去激活扬声器120D和扬声器120E。

参考图6，示出了一种执行声音播放的选择性调整的方法并总体上标记为600。在特定方面中，方法600的一个或多个操作由图1的调整发起器134、处理器130、设备102、系统100或其组合来执行。

方法600包括，在602处，在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示。例如，图1的调整发起器134在多扬声器音频播放系统136的声音播放操作145期间接收到指示在用户112与音频接口设备104之间检测到用户-设备交互的交互指示133，诸如参考图1所描述的。

方法600还包括，在604处，基于接收到用户-设备交互的指示，发起声音播放操作的选择性调整以基于用户的位置降低播放声音。例如，图1的调整发起器134基于接收到交互指示133而发起声音播放操作145的选择性调整143，以基于用户位置数据131降低播放声音，诸如参考图1至图5中描绘的各种示例中的一个或多个所描述的。

方法600因此在不影响用户114的收听体验的情况下通过声音播放操作145降低了音频接口设备104的操作中的干扰而改善了图1的用户112的用户体验。例如，用户112具有在与音频接口设备104交互的同时基本上不会影响用户114的收听体验的改善的用户体验。

图7是载具700的说明性示例。根据一种实现方式，载具700是自动驾驶汽车。根据其他实现方式，载具700可以是汽车、卡车、摩托车、飞机、水面载具等。载具700包括屏幕720(例如，显示器)、扬声器120、设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合。扬声器120、设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108和用户位置检测器110使用虚线示出，以指示这些组件对载具700的乘员可能不是可见的。设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合可以集成到载具700中或耦接到载具700。

在特定方面中，将设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合耦接到屏幕720，并响应于检测到本文描述的各种事件而提供到屏幕720的输出。例如，用户-设备交互检测器106向屏幕720提供指示检测到用户-设备交互的第一输出。作为另一示例，调整发起器134向屏幕720提供指示正在执行声音播放操作145的选择性调整143的第二输出。

在特定方面中，调整发起器134执行声音播放操作145的选择性调整，以使载具700的一个乘员能够与音频接口设备104(例如，导航设备、自动语音助理或两者)交互，而不干扰载具700的其他乘员的收听体验。载具700可以具有在每个乘员位置处一个的多个麦克风或摄像头，用于检测与音频接口设备104交互(例如，与之交谈)的用户的用户位置。在一些示例中，调整发起器134可以在其余乘员的声音播放基本上不受影响的同时为分开地与音频接口设备104交互的载具700的多个乘员发起闪避或创建静音区。

因此，关于图1至图6描述的技术可以使载具700使得能够进行声音播放操作145的选择性调整，以降低音频接口设备104的操作中的干扰。

图8是语音控制扬声器系统800的说明性示例。语音控制扬声器系统800可以具有无线网络连接性，并且被配置成执行辅助操作。设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合是包括在语音控制扬声器系统800中的。语音控制扬声器系统800还包括扬声器802。在特定方面中，扬声器802对应于图1的扬声器120。在操作期间，响应于接收到口头命令，语音控制扬声器系统800可以执行辅助操作。辅助操作可以包括调整温度、播放音乐、开灯等。在特定方面中，语音控制扬声器系统800对应于音频接口设备104。在特定方面中，语音控制扬声器系统800执行声音播放操作的选择性调整以降低音频接口设备104的操作中的干扰。在特定示例中，语音控制扬声器系统800执行播放信号151(例如，音乐播放)和音频信号155(例如，语音助理音频)的交叉淡入淡出，如参考图4所描述的。

参考图9，描绘了设备的特定说明性实现方式的框图并总体上标记为900。在各种实现方式中，设备900可以具有比图9所示出的更多或更少的组件。在说明性实现方式中，设备900对应于图1的设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110，或其组合。在说明性实现方式中，设备900可以执行参考图1至图8描述的一个或多个操作。

在特定实现方式中，设备900包括处理器906(例如，中央处理单元(CPU))。设备900可以包括一个或多个额外处理器910(例如，一个或多个DSP)。处理器910可以包括音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110、调整发起器134或其组合。在特定方面中，图1的处理器130对应于处理器906、处理器910或其组合。

设备900可以包括存储器952和CODEC 934。存储器952可以包括可由一个或多个额外处理器910(或处理器906)执行以实现参考图1至图8描述的一个或多个操作的指令956。在示例中，存储器952对应于图1的存储器132并且包括存储指令956的计算机可读存储设备。指令956在由一个或多个处理器(例如，作为说明性示例的处理器130、处理器906或处理器910)执行时，使得一个或多个处理器在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示。在由一个或多个处理器执行时，指令956还使得一个或多个处理器基于接收到用户-设备交互的指示，发起声音播放操作的选择性调整，以基于用户的位置降低播放声音。

存储器952可以包括程序数据958。在特定方面中，程序数据958包括或指示滤波器137、播放信号151、交互指示133、用户位置数据131、请求135或其组合。设备900可以包括经由收发器950耦接到天线942的无线控制器940。设备900可以包括耦接到显示控制器926的显示器928。

可以将一个或多个扬声器936和一个或多个麦克风946耦接到CODEC934。在特定方面中，扬声器936包括图1的扬声器120、图8的扬声器802或其组合。在特定方面中，麦克风946包括图1的麦克风124。CODEC 934可以包括数模转换器902和模数转换器904。在特定实现方式中，CODEC 934可接收来自麦克风946的模拟信号，使用模数转换器904将模拟信号转换成数字信号，并将数字信号提供给处理器910。处理器910(例如，话音和音乐编解码器)可以处理数字信号，并且数字信号可以进一步由音频接口设备104、用户-设备交互检测器106、用户位置检测器110、调整发起器134或其组合处理。在特定实现方式中，处理器910(例如，话音和音乐编解码器)可以将数字信号提供给CODEC 934。CODEC 934可以使用数模转换器902将数字信号转换为模拟信号，并且可以将模拟信号提供到扬声器936。设备900可以包括输入设备930。在特定方面中，输入设备930包括图1的摄像头122。

在特定实现方式中，设备900可以是包括在系统级封装或片上系统设备922中的。在特定实现方式中，存储器952、处理器906、处理器910、显示控制器926、CODEC 934、无线控制器940和收发器950是包括在系统级封装或片上系统设备922中的。在特定实现方式中，输入设备930和电源944被耦接到系统级封装或片上系统设备922。此外，在特定实现方式中，如图9所示，显示器928、输入设备930、扬声器936、麦克风946、天线942和电源944在系统级封装或片上系统设备922外部。在特定实现方式中，显示器928、输入设备930、扬声器936、麦克风946、天线942和电源944中的每一个可以被耦接到系统级封装或片上系统设备922的组件(诸如接口或控制器)。

设备900可以包括语音激活设备、音频设备、无线扬声器和语音激活设备、便携式电子设备、汽车、载具、计算设备、通信设备、互联网物联网(IoT)设备、虚拟现实(VR)设备、增强现实(AR)设备、智能扬声器、移动通信设备、智能手机、蜂窝电话、笔记本电脑、计算机、平板电脑、个人数字助理、显示设备、电视、游戏机、音乐播放器、收音机、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、摄像头、导航设备或任何其组合。在特定方面中，处理器906、处理器910或其组合是包括在集成电路中的。

结合所描述的实现方式，一种装置包括用于在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示的部件。例如，用于接收的部件包括图1的用户-设备交互检测器106、设备102、处理器130、调整发起器134、系统100、处理器906、处理器910、一个或多个被配置成接收用户-设备交互的指示的其他电路或组件，或其任何组合。

该装置还包括用于发起声音播放操作的选择性调整以基于用户的位置降低播放声音的部件，该选择性调整基于接收到用户-设备交互的指示而被发起。例如，用于发起选择性调整的部件包括图1的调整发起器134、扬声器控制器108、设备102、处理器130、系统100、处理器906、处理器910、一个或多个被配置成发起声音播放操作的选择性调整的其他电路或组件，或其任意组合。

参考图10，描绘了基站1000(例如，基站设备)的特定说明性示例的框图。在各种实现方式中，基站1000可以具有比图10所示出的组件更多或更少的组件。在说明性示例中，基站1000可以包括设备102、音频接口设备104、用户-设备交互检测器106、扬声器控制器108、用户位置检测器110或其组合。在说明性示例中，基站1000可以根据参考图1至图9描述的方法或系统中的一个或多个操作。

基站1000可以是无线通信系统的一部分。无线通信系统可以包括多个基站和多个无线设备。无线通信系统可以是长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或一些其他无线系统。CDMA系统可以实现宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA)，或CDMA的一些其他版本。

无线设备也可以称为用户设备(UE)、移动台、终端、接入终端、订户单元、站等。无线设备可以包括蜂窝电话、智能手机、平板电脑、无线调制解调器、个人数字助理(PDA)、手持设备、笔记本电脑、智能本、上网本、平板电脑、无绳电话、无线本地环路(WLL)站、蓝牙设备等。无线设备可以包括或对应于图9的设备900。

各种功能可以由基站1000中的一个或多个组件(和/或在未示出的其他组件中)执行，诸如发送和接收消息和数据(例如，音频数据)。在特定示例中，基站1000包括处理器1006(例如，CPU)。基站1000可以包括转码器1010。转码器1010可以包括音频CODEC 1008。例如，转码器1010可以包括被配置成执行音频CODEC 1008的操作的一个或多个组件(例如，电路)。作为另一示例,转码器1010可以被配置成执行一个或多个计算机可读指令以执行音频CODEC1008的操作。虽然音频CODEC1008被示为转码器1010的组件,但在其他示例中,音频CODEC的一个或多个组件音频CODEC1008可以包括在处理器1006、另一个处理组件或其组合中。例如，解码器1038(例如，声码器解码器)可以是包括在接收器数据处理器1064中的。作为另一个示例，编码器1036(例如，声码器编码器)可以是包括在发送数据处理器1082中的。

转码器1010可以用于在两个或更多个网络之间对消息和数据进行转码。转码器1010可以被配置成将消息和音频数据从第一格式(例如，数字格式)转换成第二格式。为了说明，解码器1038可以解码具有第一格式的经编码信号，并且编码器1036可以将经解码信号编码成具有第二格式的经编码信号。另外地或替代地，转码器1010可以被配置成执行数据速率适配。例如，转码器1010可以降频转换数据速率或升频转换数据速率而不改变音频数据格式。为了说明，转码器1010可以将每秒64千比特(Kbit/s)的信号降频转换为16Kbit/s的信号。音频CODEC 1008可以包括编码器1036和解码器1038。在特定方面中，音频CODEC1008包括调整发起器134。

基站1000可以包括存储器1032。存储器1032(诸如计算机可读存储设备)可以包括指令。指令可以包括可由处理器1006、转码器1010或其组合执行以执行参考图1至图9的方法和系统描述的一个或多个操作的一个或多个指令。基站1000可以包括耦接到天线阵列的多个发送器和接收器(例如，收发器)，诸如第一收发器1052和第二收发器1054。天线阵列可以包括第一天线1042和第二天线1044。天线阵列可以被配置成与一个或多个无线设备(诸如图9的设备900)无线通信。例如，第二天线1044可以从无线设备接收数据流1014(例如，比特流)。数据流1014可以包括消息、数据(例如，编码的话音数据)或其组合。

基站1000可以包括网络连接1060，诸如回程连接。网络连接1060可以被配置成与核心网络或无线通信网络的一个或多个基站通信。例如，基站1000可以经由网络连接1060接收来自核心网的第二数据流(例如，消息或音频数据)。基站1000可以处理第二数据流以生成消息或音频数据并经由天线阵列中的一个或多个天线将提供消息或音频数据提供给一个或多个无线设备，或者经由网络连接1060提供给另一个基站。在特定实现方式中，网络连接1060可以是广域网(WAN)连接，作为说明性的非限制性示例。在一些实现方式中，核心网络可以包括或对应于公用交换电话网络(PSTN)、分组骨干网络或两者。

基站1000可以包括被耦接到网络连接1060和处理器1006的媒体网关1070。媒体网关1070可以被配置成在不同电信技术的媒体流之间转换。例如，媒体网关1070可以在不同的传输协议、不同的编码方案或两者之间进行转换。为了说明，媒体网关1070可以从PCM信号转换成实时传输协议(RTP)信号，作为说明性、非限制性示例。媒体网关1070可以在分组交换网络(例如，网际协议语音(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络(诸如LTE、WiMAX和UMB等))、电路交换网络(例如PSTN)和混合网络(例如，第二代(2G)无线网络(诸如GSM、GPRS和EDGE)、第三代(3G)无线网络(诸如WCDMA、EV-DO和HSPA)等))之间转换数据。

另外，媒体网关1070可以包括转码器(诸如转码器1010)，并且可以被配置成在编解码器不兼容时转码数据。例如，媒体网关1070可以在适应性多速率(AMR)编解码器和G.911编解码器之间转码，作为说明性、非限制性示例。媒体网关1070可以包括路由器和多个物理接口。在一些实现方式中，媒体网关1070还可以包括控制器(未示出)。在特定实现方式中，媒体网关控制器可以在媒体网关1070外部、在基站1000外部或在两者外部。媒体网关控制器可以控制和协调多个媒体网关的操作。媒体网关1070可以接收来自媒体网关控制器的控制信号，并且可以起到在不同传输技术之间桥接的作用，并且可以将服务添加到最终用户能力和连接。

基站1000可以包括耦接到收发器1052、1054、接收器数据处理器1064和处理器1006的解调器1062，并且接收器数据处理器1064可以耦接到处理器1006。解调器1062可以被配置成解调从收发器1052、1054接收到的调制信号并将解调数据提供给接收器数据处理器1064。接收器数据处理器1064可以被配置成从解调数据中提取消息或音频数据并将消息或音频数据发送到处理器1006。

基站1000可以包括发送数据处理器1082和传输多输入多输出(MIMO)处理器1084。发送数据处理器1082可以耦接到处理器1006和发送MIMO处理器1084。发送MIMO处理器1084可以耦接到收发器1052、1054和处理器1006。在一些实现方式中，发送MIMO处理器1084可以耦接到媒体网关1070。发送数据处理器1082可以被配置成接收来自处理器1006的消息或音频数据，作为说明性的非限制性示例，并基于编码方案(诸如CDMA或正交频分复用(OFDM))来编码消息或音频数据，作为说明性、非限制性示例。发送数据处理器1082可以将编码数据提供给发送MIMO处理器1084。

可以使用CDMA或OFDM技术将编码数据与其他数据(诸如导频数据)复用以生成复用数据。然后复用数据可以由发送数据处理器1082基于特定调制方案(例如，二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-ary相移键控(“M-PSK”)、M-ary正交幅度调制(“M-QAM”)等)调制以生成调制符号。在特定实现方式中，编码数据和其他数据可以使用不同的调制方案来调制。每个数据流的数据速率、编码和调制可以通过由处理器1006执行的指令确定。

发送MIMO处理器1084可以被配置成接收来自发送数据处理器1082的调制符号，并且可以进一步处理调制符号并可以对数据执行波束成形。例如，发送MIMO处理器1084可以将波束成形权重施加到调制符号。波束成形权重可以对应于发送调制符号的天线阵列中的一个或多个天线。

在操作期间，基站1000的第二天线1044可以接收数据流1014。第二收发器1054可以从第二天线1044接收数据流1014，并且可以将数据流1014提供给解调器1062。解调器1062可以解调数据流1014的调制信号，并将解调数据提供给接收器数据处理器1064。接收器数据处理器1064可以从解调数据中提取音频数据并将所提取的音频数据提供给处理器1006。

处理器1006可以将音频数据提供给转码器1010以用于转码。转码器1010的解码器1038可以将音频数据从第一格式解码为解码音频数据，并且编码器1036可以将解码音频数据编码为第二格式。在一些实现方式中，编码器1036可以使用比从无线设备接收到的数据速率更高的(例如，升频转换)或更低的(例如，降频转换)数据速率来编码音频数据。在其他实现方式中，音频数据可以未经转码。尽管转码(例如，解码和编码)被示出为由转码器1010执行，但是转码操作(例如，解码和编码)可以由基站1000的多个组件执行。例如，解码可以由接收器数据处理器1064执行，且编码可以由发送数据处理器1082执行。在其他实现方式中，处理器1006可以将音频数据提供给媒体网关1070以用于转换成另一传输协议、编码方案或两者。媒体网关1070可以经由网络连接1060将经转换的数据提供给另一个基站或核心网。

调整发起器134可以接收交互指示133和用户位置数据131。调整发起器134可以发起选择性调整143。例如，调整发起器134可以生成滤波器137。在特定示例中，编码器1036可以基于滤波器137生成编码音频数据。在编码器1036处生成的编码音频数据(诸如转码数据)可以经由处理器1006提供给发送数据处理器1082或网络连接1060。

来自转码器1010的经转码的音频数据可以被提供给发送数据处理器1082以用于根据调制方案(诸如OFDM)编码以生成调制符号。发送数据处理器1082可以将调制符号提供给发送MIMO处理器1084以用于进一步处理和波束成形。发送MIMO处理器1084可以施加波束成形权重并且可以经由第一收发器1052将调制符号提供给天线阵列的一个或多个天线(诸如第一天线1042)。因此，基站1000可以将对应于从无线设备接收到的数据流1014的转码数据流1016提供给另一个无线设备。转码数据流1016可以具有与数据流1014不同的编码格式、数据速率或两者。在其他实现方式中，可以将转码数据流1016提供给网络连接1060以用于传输到另一个基站或核心网络。

基站1000可以包括存储指令的计算机可读存储设备(例如，存储器1032)，当由处理器(例如，处理器1006或转码器1010)执行时，使得处理器在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示。指令在由一个或多个处理器执行时，还使得一个或多个处理器基于接收到的用户-设备交互的指示，发起声音播放操作的选择性调整，以基于用户的位置减少播放声音。

本领域技术人员将进一步理解，结合本文公开的实现方式描述的各种说明性逻辑块、配置、模块、电路和算法步骤可以实现为电子硬件、由处理器执行的计算机软件、或两者的组合。各种说明性组件、块、配置、模块、电路和步骤已在上面根据它们的功能大体上进行了描述。这种功能是实现为硬件还是处理器可执行指令取决于特定应用和外加在整个系统上的设计约束。熟练的技术人员可以针对每个特定应用以不同的方式实现所描述的功能，这样的实现决策不应被解释为导致背离本公开的范围。

结合本文所公开的实现方式描述的方法或算法的步骤可以直接实施在硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘、光盘只读存储器(CD-ROM)或本领域已知的任何其他形式的非瞬态存储介质。示例性存储介质耦接到处理器，使得处理器可以对于存储介质读取或写入信息。在替代方案中，存储介质可以集成到处理器中。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。在替代方案中，处理器和存储介质可以作为离散组件驻留在计算设备或用户终端中。

提供本公开的方面的先前描述以使本领域技术人员能够制造或使用本公开的方面。对这些方面的各种修改对于本领域技术人员来说将是显而易见的，并且本文所定义的原理可以应用于其他方面而不背离本公开的范围。因此，本公开不意图限于本文所示的方面，而是应被赋予与由所附权利要求限定的原理和新颖特征相符合的尽可能宽的范围。

Claims

1.一种用于管理声音播放的设备，所述设备包括：

一个或多个处理器，被配置成：

在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示；以及

基于接收到所述用户-设备交互的指示，发起所述声音播放操作的选择性调整，以基于所述用户的位置降低所述多扬声器音频播放系统的播放声音。

2.如权利要求1所述的设备，其中，所述音频接口设备包括语音激活设备。

3.如权利要求1所述的设备，其中，所述声音播放操作的所述选择性调整包括降低所述多扬声器音频播放系统的一个或多个第一扬声器的播放声音，以及避免降低所述多扬声器音频播放系统的一个或多个第二扬声器的播放声音。

4.如权利要求3所述的设备，其中，降低所述一个或多个第一扬声器的播放声音包括去激活所述一个或多个第一扬声器。

5.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置成：

检测所述用户相对于所述音频接口设备的位置；以及

基于所述用户相对于所述音频接口设备的位置，选择所述多扬声器音频播放系统的一个或多个第一扬声器，其中所述声音播放操作的所述选择性调整包括降低所述多扬声器音频播放系统的所述一个或多个第一扬声器的播放声音，以及避免降低所述多扬声器音频播放系统的一个或多个第二扬声器的播放声音。

6.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置成基于音频信号在所述音频接口设备处的到达方向来检测所述用户相对于所述音频接口设备的位置，并且其中所述音频信号对应于所述用户的话音。

7.如权利要求6所述的设备，其中，所述用户-设备交互包括在所述音频接口设备处接收到所述用户的话音。

8.如权利要求1所述的设备，其中，所述一个或多个处理器还被配置成基于由摄像头捕获的所述用户的图像来检测所述用户的位置。

9.如权利要求8所述的设备，其中，所述用户-设备交互包括所述图像中指示的用户手势。

10.如权利要求1所述的设备，其中，所述一个或多个处理器被配置成在将音频的一部分流式传输到所述多扬声器音频播放系统之前，通过调整与音频的一部分相关联的一个或多个参数来执行所述声音播放操作的所述选择性调整。

11.如权利要求1所述的设备，其中，所述一个或多个处理器被配置成通过将调整请求发送到所述多扬声器音频播放系统以执行所述声音播放操作的所述选择性调整来发起所述声音播放操作的所述选择性调整。

12.如权利要求11所述的设备，其中，所述调整请求指示所述用户的位置。

13.如权利要求1所述的设备，其中，所述多扬声器音频播放系统包括具有波束成形能力的扬声器系统或条形音箱。

14.如权利要求1所述的设备，其中，所述音频接口设备包括麦克风、扬声器或两者。

15.如权利要求1所述的设备，其中，家庭自动化系统包括所述音频接口设备和所述多扬声器音频播放系统。

16.如权利要求1所述的装置，其中，所述一个或多个处理器是包括在集成电路中的。

17.如权利要求1所述的设备，其中，所述一个或多个处理器是包括在载具中的。

18.如权利要求1所述的设备，其中，所述一个或多个处理器在音频设备中实现，并且其中所述音频设备包括具有集成式助理应用程序的无线扬声器和语音激活设备。

19.如权利要求1所述的设备，还包括：

天线；以及

收发器，所述收发器耦接到天线，并被配置成接收来自所述音频接口设备的指示、将控制信号发送到所述多扬声器音频播放系统或两者。

20.如权利要求19所述的设备，其中，所述一个或多个处理器、所述天线和所述收发器被集成到移动设备中。

21.如权利要求19所述的设备，其中，所述一个或多个处理器、所述天线和所述收发器被集成到基站中。

22.一种声音播放的方法，所述方法包括：

在多扬声器音频播放系统的声音播放操作期间在设备处接收用户与音频接口设备之间的用户-设备交互的指示；以及

基于接收到所述用户-设备交互的指示，在所述设备处发起所述声音播放操作的选择性调整，以基于所述用户的位置降低播放声音。

23.如权利要求22所述的方法，其中，所述声音播放操作的所述选择性调整降低在所述音频接口设备的位置处、在所述用户的位置处或在两者处的播放声音，并且避免降低在第二用户的位置处的播放声音。

24.如权利要求23所述的方法，还包括：

基于所述用户的位置生成一个或多个滤波器，所述一个或多个滤波器被配置成经由波束成形降低在所述音频接口设备的位置处、在所述用户的位置处或在两者处的播放声音；以及

在所述声音播放操作期间将所述一个或多个滤波器发送到所述多扬声器音频播放系统。

25.如权利要求23所述的方法，还包括：

将一个或多个滤波器施加到一个或多个音频信号以生成一个或多个滤波音频信号；以及

将所述一个或多个滤波音频信号发送到所述多扬声器音频播放系统的一个或多个第一扬声器，以经由波束成形降低在所述音频接口设备的位置处、在所述用户的位置处或在两者处的播放声音。

26.如权利要求23所述的方法，其中，所述声音播放操作的所述选择性调整降低所述多扬声器音频播放系统的一个或多个第一扬声器的播放声音，并且避免降低所述多扬声器音频播放系统的一个或多个第二扬声器的播放声音。

27.一种存储指令的计算机可读存储设备，当所述指令由一个或多个处理器执行时，使得所述一个或多个处理器：

基于接收到所述用户-设备交互的指示，发起所述声音播放操作的选择性调整，以基于所述用户的位置降低播放声音。

28.如权利要求27所述的计算机可读存储设备，其中，所述指令在由所述一个或多个处理器执行时，还使得所述一个或多个处理器基于音频信号在所述音频接口设备的到达方向来检测所述用户相对于所述音频接口设备的位置，其中所述声音播放操作的所述选择性调整包括降低在所述音频接口设备的位置处、在用户位置处或在两者处的播放声音，并且避免降低在第二用户的位置处的播放声音。

29.一种装置，包括：

用于在多扬声器音频播放系统的声音播放操作期间接收用户与音频接口设备之间的用户-设备交互的指示的部件；以及

用于发起所述声音播放操作的选择性调整以基于所述用户的位置降低播放声音的部件，所述选择性调整基于接收到所述用户-设备交互的指示而被发起。

30.如权利要求29所述的装置，其中，用于接收的部件和用于发起的部件被集成到家庭自动化系统、语音激活设备、无线扬声器和语音激活设备、便携式电子设备、汽车、载具、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站或其组合中。