CN116547751A

CN116547751A - 针对遍布式聆听插入强制间隙

Info

Publication number: CN116547751A
Application number: CN202180081473.7A
Authority: CN
Inventors: C·G·海恩斯; B·J·索斯威尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-12-03
Filing date: 2021-12-02
Publication date: 2023-08-04

Abstract

衰减或“间隙”可以在至少第一时间间隔期间被插入到内容流的至少第一和第二音频回放信号的至少第一频率范围中以生成至少第一和第二修改音频回放信号。对应的音频设备回放声音可以由至少第一和第二音频设备提供。至少一个麦克风可以检测至少第一音频设备回放声音和第二音频设备回放声音并且可以生成对应的麦克风信号。可以至少在第一频率范围中从麦克风信号中提取音频数据，以产生提取的音频数据。可以至少部分地基于提取的音频数据来估计远场音频环境脉冲响应和/或音频环境噪声。

Description

针对遍布式聆听插入强制间隙

相关申请的交叉引用

本申请要求2021年5月4日提交的美国临时申请No.63/201561和2020年12月8日提交的美国临时申请No.63/120887的优先权，所有这些申请都通过引用整体并入本文。

技术领域

本公开涉及音频处理系统和方法。

背景技术

音频设备和系统被广泛部署。虽然用于估计音频环境脉冲响应和音频环境噪声的现有系统和方法在一些情况下可以提供令人满意的结果，但是期望改进的系统和方法。

符号和命名法

贯穿本公开，包括在权利要求中，术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”被同义地使用以表示由单个扬声器馈送驱动的任何发声换能器(或换能器集合)。典型的一组耳机包括两个扬声器。扬声器可以被实现为包括多个换能器(例如，低音扬声器和高音扬声器)，它们可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(一个或多个)扬声器馈送可以在耦合到不同换能器的不同电路系统分支中经历不同的处理。

贯穿本公开，包括在权利要求中，表述“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)在广义上用于表示直接对信号或数据执行操作，或对信号或数据的处理版本(例如，对在对其执行操作之前已经过初步滤波或预处理的信号版本)执行操作。

贯穿本公开，包括在权利要求中，表述“系统”在广义上用于表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入生成X个输出信号的系统，其中子系统生成M个输入并且其它X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，术语“处理器”在广义上用于表示系统或设备可编程或以其它方式可配置(例如，使用软件或固件)以对数据(例如，音频、或视频或其它图像数据)执行操作。处理器的示例包括现场可编程门阵列(或其它可配置集成电路或芯片组)、被编程和/或以其它方式被配置为对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、和可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦合”或“被耦合”用于表示直接或间接连接。因此，如果第一设备耦合到第二设备，那么该连接可以是通过直接连接，或通过经由其它设备和连接的间接连接。

如本文所使用的，“智能设备”是一种电子设备，通常被配置用于经由诸如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与可以在某种程度上交互和/或自主操作的一个或多个其它设备(或网络)通信。几种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板电话和平板电脑、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”也可以指表现出普适计算(诸如人工智能)的一些性质的设备。

在本文中，我们使用表述“智能音频设备”来表示智能设备，它既可以是单用途的音频设备，也可以是多用途的音频设备(例如，实现虚拟助理功能的至少一些方面的音频设备)。单用途的音频设备是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)并且大部分或主要被设计为实现单一目的设备(例如，电视(TV))。例如，虽然TV通常可以播放(并且被认为能够播放)节目素材中的音频，但在大多数情况下，现代TV运行某种操作系统，应用在该操作系统上本地运行，包括看电视的应用。在这个意义上，具有(一个或多个)扬声器和(一个或多个)麦克风的单用途音频设备经常被配置为运行本地应用和/或服务以直接使用(一个或多个)扬声器和(一个或多个)麦克风。一些单用途的音频设备可以被配置为分组在一起以实现在区(zone)或用户配置的区域上播放音频。

一种常见类型的多用途音频设备是实现虚拟助理功能的至少一些方面的音频设备，但是虚拟助理功能的其它方面可以由一个或多个其它设备(诸如多用途音频设备被配置用于与之通信的一个或多个服务器)实现。这种多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于在某种意义上是支持云的或以其它方式未完全实现在虚拟助理自身之中或之上的应用的能力。换句话说，虚拟助理功能的至少一些方面，例如语音识别功能，可以(至少部分地)由虚拟助理可以经由诸如互联网的网络与之通信的一个或多个服务器或其它设备来实现。虚拟助理有时可以一起工作，例如，以离散和有条件定义的方式。例如，两个或更多个虚拟助理可以在其中一个(例如，最有信心听到唤醒词的那个)响应唤醒词的意义上一起工作。在一些实施方式中，连接的虚拟助理可以形成可由一个主应用管理的一种星座，主应用可以是(或实现)虚拟助理。

在本文中，“唤醒词”在广义上用于表示任何声音(例如，由人说出的词语，或一些其它声音)，其中智能音频设备被配置为响应于检测到(“听到”)声音(使用至少一个包含在智能音频设备中或耦合到智能音频设备的麦克风，或至少一个其它麦克风)而唤醒。在这种上下文中，“唤醒”表示设备进入等待(换句话说，正在聆听)声音命令的状态。在一些情况下，本文中可称为“唤醒词”的东西可以包括多于一个词语，例如，短语。

在本文中，表述“唤醒词检测器”表示被配置为持续搜索实时声音(例如，语音)特征与训练模型之间的对齐的设备(或包括用于配置设备的指令的软件)。通常，只要唤醒词检测器确定已检测到唤醒词的概率超过预定义的阈值，就会触发唤醒词事件。例如，阈值可以是预先确定的阈值，其被调整以在错误接受率和错误拒绝率之间给出合理的折衷。在唤醒词事件之后，设备可能进入如下状态(其可以被称为“唤醒”状态或“专注”状态)：在该状态下它会聆听命令并将接收到的命令传递给更大、计算更密集的识别器。

如本文所使用的，术语“节目流”和“内容流”是指一个或多个音频信号的集合，并且在一些情况下是指视频信号，至少其部分旨在一起被听到。示例包括音乐选集、电影音轨、电影、电视节目、电视节目的音频部分、播客、实时语音呼叫、来自智能助理的合成语音响应等。在一些情况下，内容流可以包括音频信号的至少一部分的多个版本，例如，多于一种语言的相同对话。在这种情况下，一次仅旨在再现音频数据或其部分的一个版本(例如，与一种语言对应的版本)。

发明内容

本公开的至少一些方面可以经由一种或多种音频处理方法来实现。在一些情况下，(一个或多个)方法可以至少部分地由控制系统和/或经由存储在一个或多个非暂态介质上的指令(例如，软件)来实现。一些方法可以涉及由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第一音频回放信号的第一频率范围中，以生成用于音频环境的第一音频设备的第一修改音频回放信号。第一间隙可以是或者可以导致第一频率范围内的第一音频回放信号的衰减。

一些这样的方法可以涉及由控制系统使第一音频设备回放第一修改音频回放信号，以生成第一音频设备回放声音。一些这样的方法可以涉及由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第二音频回放信号的第一频率范围中，以生成用于音频环境的第二音频设备的第二修改音频回放信号。一些这样的方法可以涉及由控制系统使第二音频设备回放第二修改音频回放信号，以生成第二音频设备回放声音。

一些这样的方法可以涉及由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音并且生成与至少第一音频设备回放声音和第二音频设备回放声音对应的麦克风信号。一些这样的方法可以涉及由控制系统在至少第一频率范围中从麦克风信号中提取音频数据，以产生提取的音频数据。一些这样的方法可以涉及由控制系统至少部分地基于提取的音频数据来估计远场(far-field)音频环境脉冲响应或音频环境噪声中的至少一个。

一些这样的方法还可以涉及使目标音频设备回放内容流的未修改音频回放信号，以生成目标音频设备回放声音。一些这样的方法还可以涉及由控制系统至少部分地基于提取的音频数据来估计目标音频设备可听度或目标音频设备位置中的至少一个。在一些此类示例中，未修改音频回放信号不包括第一间隙。在一些此类示例中，未修改音频回放信号可以不包括插入到任何频率范围内的间隙。根据一些此类示例，麦克风信号也可以对应于目标音频设备回放声音。

根据一些示例，生成第一修改音频回放信号可以涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第一音频回放信号的第二至第N频率范围内，其中N是大于2的整数。在一些此类示例中，生成第二修改音频回放信号可以涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第二音频回放信号的第二至第N频率范围内。

一些方法可以涉及由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第三至第M音频回放信号的第一频率范围中，以生成用于音频环境的第三至第M音频设备的第三至第M修改音频回放信号，其中M是大于三的整数。一些这样的方法可以涉及由控制系统使第三至第M音频设备回放第三至第M修改音频回放信号的对应实例，以生成第三至第M音频设备回放声音。在一些此类示例中，生成麦克风信号可以涉及由控制系统使音频环境的至少一个麦克风检测第三至第M音频设备回放声音。在一些此类示例中，生成第一至第M修改音频回放信号可以涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第一至第M音频回放信号的第二至第N频率范围内。

在一些示例中，至少第一间隙可以被感知掩蔽。根据一些示例，使得第一间隙被插入可以涉及传输插入第一间隙的指令。在其它示例中，使得第一间隙被插入可以涉及插入第一间隙。

在一些示例中，至少第一频率范围可以对应于频带。在一些此类示例中，频带可以是在梅尔(mel)标度上等间隔的多个频带之一。但是，在一些情况下，至少第一频率范围可以与频率区间(frequency bin)对应。

根据一些示例，使第一音频设备回放第一修改音频回放信号可以涉及向第一音频设备传输指令以回放第一修改音频回放信号。在一些示例中，第一修改音频回放信号和第二修改音频回放信号可以至少部分相关。

本文描述的操作、功能和/或方法中的一些或所有可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。此类非暂态介质可以包括诸如本文所述的那些存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，在本公开中描述的主题的一些创新方面可以经由一个或多个其上存储有软件的非暂态介质来实现。

本公开的至少一些方面可以经由装置来实现。例如，一个或多个设备可以被配置用于至少部分地执行本文公开的方法。在一些实施方式中，装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件或其组合。

本说明书中描述的主题的一个或多个实施方式的细节在附图和下面的描述中阐述。其它特征、方面和优点将从描述、附图和权利要求中变得清楚。注意的是，以下各图的相对尺寸可能未按比例绘制。

附图说明

各附图中相同的参考数字和名称指示相同的要素。

图1A示出了用于估计音频环境中的背景噪声的系统示例。

图1B示出了音频环境的示例。

图1C是示出能够实现本发明的各个方面的装置的部件的示例的框图。

图2A是修改音频回放信号的频谱图示例。

图2B是示出频域中的间隙示例的图表。

图2C是示出时域中的间隙示例的图表。

图2D是修改音频回放信号的示例，包括针对音频环境的多个音频设备编排的间隙。

图3A是示出用于创建间隙的滤波器响应和用于测量在测量会话期间使用的麦克风信号的频率区间的滤波器响应的示例的图表。

图3B、3C、3D、3E、3F、3G、3H、3I和3J是示出间隙分配策略示例的图表。

图4、5A和5B是示出根据一些实施方式多个音频设备如何协调测量会话的示例的流程图。

图6示出了参与测量会话并共享参考数据的两个被编排音频设备的示例。

图7示出了与音频环境中的音频设备对应的可听度图示例。

图8A示出了音频环境的另一个示例。

图8B示出了音频环境的另一个示例。

图8C是概述可以由诸如图1C中所示的装置执行的方法的一个示例的流程图。

图9呈现了用于被编排的间隙插入的系统的一个示例的框图。

图10是概述所公开方法的另一个示例的流程图。

具体实施方式

为了实现媒体和娱乐内容的引人注目的空间回放，应评估并考虑可用扬声器的物理布局和相对能力。类似地，为了提供高质量的语音驱动交互(与虚拟助理和远程谈话者)，用户既需要被听到，又需要听到经由扩音器再现的对话。预计随着更多协作设备被添加到音频环境中，对用户的组合效用将增加，因为设备将更普遍地处于方便的语音范围内。由于可以利用媒体呈现的空间性，更多数量的扬声器允许更好的沉浸感。

设备之间的充分的协调和合作可能会允许实现这些机会和体验。关于每个音频设备的声学信息是这种协调与合作的关键组成部分。这样的声学信息可以包括每个扩音器从音频环境中的不同位置的可听度，以及音频环境中的噪声量。

一些先前的映射和校准智能音频设备星座的方法需要专门的校准过程，从而从音频设备播放已知刺激(经常一次播放一个音频设备)，同时一个或多个麦克风记录。虽然可以通过创造性的声音设计使这一处理吸引特定的用户群体，但随着设备的添加、移除甚至简单地重新定位，对于反复重新执行该处理的需要阻碍了广泛采用。将此类过程强加给用户会干扰设备的正常操作，并可能使一些用户感到沮丧。一种更基本但也流行的方法是经由软件应用(“应用”)和/或用户指示音频设备在音频环境中的物理位置的引导处理进行手动的用户干预。这种方法对用户采用带来了进一步的障碍，并且与专用校准过程相比，可以向系统提供相对较少的信息。

校准和映射算法通常需要音频环境中每个音频设备的一些基本声学信息。已经提出了许多这样的方法，使用一系列不同的基本声学测量和正在测量的声学性质。用于此类算法的从麦克风信号导出的声学性质示例包括：

o设备之间的物理距离的估计(声学测距)；

o设备之间的角度的估计(到达方向(DoA))；

o设备之间的脉冲响应的估计(例如，通过扫频正弦波刺激或其它测量信号)；以及

o背景噪声的估计。

但是，现有的校准和映射算法通常无法实现以响应音频环境的声学场景的变化，诸如音频环境内的人的移动、音频环境内的音频设备的重新定位等。

已经提出通过尝试将回放内容与麦克风输出信号相关联并从麦克风输出中减去麦克风捕获的回放内容的估计(称为“回声”)来解决从麦克风输出信号估计背景噪声(指示背景噪声和回放内容这两者)的问题。麦克风捕获声音时生成的麦克风输出信号的内容指示从(一个或多个)扬声器发出的回放内容X和背景噪声N，可以表示为WX+N，其中W是由发出指示回放内容的声音的(一个或多个)扬声器、麦克风和其中声音从(一个或多个)扬声器传播到麦克风的环境(例如，房间)确定的传递函数。例如，在学术上提出的用于估计噪声N的方法(将参考图1A进行描述)中，线性滤波器W'适于促进回声(由麦克风捕获的回放内容)WX的估计W'X，以便从麦克风输出信号中减去。即使系统中存在非线性，由于计算成本，滤波器W'的非线性实施方式也很少被实现。

图1A示出了用于估计音频环境中的背景噪声的系统的示例。在这个示例中，图1A是用于实现上面提到的用于估计(一个或多个)扬声器在其中发出指示回放内容的声音的音频环境中的背景噪声的常规方法(有时称为回声消除)的系统的图。回放信号X被呈现给音频环境E中的扬声器系统S(例如，单个扬声器)。麦克风M位于同一音频环境E中。响应于回放信号X，扬声器系统S发出声音，该声音到达麦克风M，具有环境噪声N和用户讲话L。麦克风输出信号是Y＝WX+N+L，其中W表示传递函数，它是扬声器系统S、回放环境E和麦克风M的组合响应。

由图1A系统实现的一般方法是使用各种自适应滤波器方法中的任何一种从Y和X自适应地推断传递函数W。如图1A中所指示的，线性滤波器W'被自适应地确定为传递函数W'的近似。由麦克风信号M指示的回放信号内容(“回声”)被估计为W'X，并且从Y中减去W'X以产生噪声N和用户讲话L的估计，Y'＝WX-W'X+N+L。对噪声补偿应用感兴趣的是，如果估计中存在正偏差，那么与Y'成比例地调整X的水平产生反馈回路。Y'的增加进而增加了X的水平，这在N和L的估计(Y')中引入向上的偏差，这进而增加了X的水平，依此类推。这种形式的解决方案将在很大程度上依赖于自适应滤波器W'从Y中减去W'X以从麦克风信号M中去除大量回声WX的能力。

为了保持图1A系统稳定，通常要求对信号Y'进行进一步滤波。由于该领域的大多数噪声补偿实施例都表现出乏善可陈的性能，因此大多数解决方案可能通常会向下偏置噪声估计并引入积极的时间平滑以便保持系统稳定。这是以减少和非常缓慢的补偿为代价的。

声称实现上面提到的噪声估计的学术方法的系统(参考图1A描述的类型)的常规实施方式通常忽略了所实现过程中出现的问题，包括以下一些或全部：

·虽然解决方案的学术仿真指示回声减少超过40dB，但由于非线性、背景噪声的存在以及回声路径W的非平稳性，实际实施方式一般实现的回声减少远低于40dB。这意味着背景噪声的任何测量都因残余回声而偏差；

·有时环境噪声和特定回放内容造成此类系统中的“泄漏”(例如，当回放内容由于嗡嗡声、嘎嘎声和失真而激发回放系统的非线性区域时)。在这些情况下，麦克风输出信号包含大量残留回声，这些残留回声将被错误地解释为背景噪声。在此类情况下，随着残余误差信号变大，滤波器W'的自适应也回变得不稳定。而且，当麦克风信号受到高水平噪声的影响时，滤波器W'的自适应会变得不稳定；以及

·生成噪声估计(Y')所需的计算复杂度高，该噪声估计(Y')对于执行在宽频率范围(例如，覆盖典型音乐的回放的频率范围)上运行的噪声补偿媒体回放(NCMP)是有用的。

用于补偿环境噪声状况的噪声补偿(例如，扬声器回放内容的自动调平)是众所周知且期望的特征，但之前并未以最优方式实现。使用麦克风测量环境噪声状况也测量扬声器回放内容，这对实现噪声补偿所需的噪声估计(例如，在线噪声估计)提出了重大挑战。

因为音频环境中的人通常可以位于任何给定房间的临界声学距离之外，所以从类似距离的其它设备引入的回声可能仍然表示显著的回声影响。即使复杂的多通道回声消除可用，并以某种方式达到所需的性能，为消除器提供远程回声参考的后勤工作也会具有不可接受的带宽和复杂性成本。

一些公开的实施方式提供了经由对包括人、设备和音频状况(例如，噪声和/或回声)的声学空间的持久的(例如，连续的或至少正在进行的)表征来持续地校准音频设备的星座的方法。在一些公开的示例中，即使正在经由音频环境的音频设备回放媒体，此类过程也会继续。

如本文所使用的，回放信号中的“间隙”表示回放信号的时间(或时间间隔)，在该时间处(或中)回放内容丢失(或具有小于预定阈值的水平)。例如，“间隙”可以是在时间间隔期间回放内容在频率范围内的衰减。在一些公开的实施方式中，可以在内容流的音频回放信号的一个或多个频率范围中插入间隙以产生修改音频回放信号并且可以在音频环境中再现或“回放”修改音频回放信号。在一些此类实施方式中，可以在N个时间间隔期间将N个间隙插入到音频回放信号的N个频率范围中。

根据一些此类实施方式，M个音频设备可以编排它们在时间和频率上的间隙，从而允许在间隙频率和时间间隔中准确检测远场(针对每个设备)。这些“编排的间隙”是本公开的重要方面。在一些示例中，M可以是与音频环境的所有音频设备对应的数字。在一些情况下，M可以是与音频环境中除目标音频设备之外的所有音频设备对应的数字，目标音频设备是其回放的音频被音频环境的M个被编排设备中的一个或多个麦克风(例如，音频环境的M个被编排音频设备的一个或多个麦克风)采样以例如评估目标音频设备的相对可听度、位置、非线性和/或其它特性的音频设备。在一些示例中，目标音频设备可以再现不包括插入到任何频率范围中的间隙的未修改音频回放信号。在其它示例中，M可以是与音频环境的音频设备的子集(例如，多个参与的非目标音频设备)对应的数字。

期望的是，编排的间隙对音频环境中的聆听者具有低感知影响(例如，可忽略的感知影响)。因此，在一些示例中，可以选择间隙参数以最小化感知影响。

在一些示例中，当修改音频回放信号正在音频环境中被回放时，目标设备可以再现不包括插入到任何频率范围中的间隙的未修改音频回放信号。在此类示例中，可以从正在再现修改音频回放信号的M个音频设备的角度来估计目标设备的相对可听度和/或位置。

图1B示出了音频环境的示例。与本文提供的其它图一样，图1B中所示的要素的类型和数量仅作为示例提供。其它实施方式可以包括更多、更少和/或不同类型和数量的要素。

根据这个示例，音频环境100包括主要居住空间101a和与主要居住空间101a相邻的房间101b。在此，墙壁102和门111将主要居住空间101a与房间101b隔开。在这个示例中，主要居住空间101a与房间101b之间的声学分离量取决于门111是打开还是关闭，以及如果打开，那么门11打开的程度。

在与图1B对应的时间，智能电视(TV)103a位于音频环境100内。根据这个示例，智能电视103a包括左扩音器103b和右扩音器103c。

在这个示例中，在与图1B对应的时间，智能音频设备104、105、106、107、108和109也位于音频环境100内。根据这个示例，智能音频设备104-109中的每一个包括至少一个麦克风和至少一个扩音器。但是，在这种情况下，智能音频设备104-109包括各种尺寸并具有各种能力的扩音器。

根据这个示例，至少一个声学事件正在音频环境100中发生。在这个示例中，一个声学事件是由说话人110引起的，他正在说出语音命令112。

在这个示例中，另一个声学事件至少部分地由可变要素103引起。在此，可变要素103是音频环境100的门。根据这个示例，随着门103打开，来自环境外部的声音105可以在音频环境100内部被更清楚地感知。而且，门103的改变的角度改变了音频环境100内的一些回声路径。根据这个示例，要素104表示由门103的变化的位置引起的音频环境100的脉冲响应的可变要素。

图1C是示出能够实现本公开的各个方面的装置的组件的示例的框图。与本文提供的其它图一样，图1C中所示的要素的类型和数量仅作为示例提供。其它实施方式可以包括更多、更少和/或不同类型和数量的要素。根据一些示例，装置150可以被配置用于执行本文公开的方法中的至少一些。在一些实施方式中，装置150可以是或者可以包括音频系统的一个或多个组件。例如，在一些实施方式中，装置150可以是音频设备，诸如智能音频设备。在图1B中所示的示例中，智能电视103a和智能音频设备104-109是装置150的实例。根据一些示例，图1B的音频环境100可以包括编排设备，诸如本文中可以称为智能家居集线器的设备。智能家居集线器(或其它编排设备)可以是装置150的实例。在其它示例中，装置150可以是移动设备(诸如蜂窝电话)、膝上型计算机、平板设备、电视或另一种类型的设备。

根据一些替代实施方式，装置150可以是或者可以包括服务器。在一些此类示例中，装置150可以是或可以包括编码器。因而，在一些情况下，装置150可以是被配置为在诸如家庭音频环境之类的音频环境中使用的设备，而在其它情况下，装置150可以是被配置为在“云”中使用的设备，例如，服务器。

在这个示例中，装置150包括接口系统155和控制系统160。在一些实施方式中，接口系统155可以被配置用于与音频环境的一个或多个其它设备通信。在一些示例中，音频环境可以是家庭音频环境。在其它示例中，音频环境可以是另一种类型的环境，诸如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中，接口系统155可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置150正在执行的一个或多个软件应用有关。

在一些实施方式中，接口系统155可以被配置用于接收或提供内容流。内容流可以包括音频数据。音频数据可以包括但不限于音频信号。在一些情况下，音频数据可以包括空间数据，诸如通道数据和/或空间元数据。例如，元数据可以已经由本文中可称为“编码器”的东西提供。在一些示例中，内容流可以包括视频数据和与视频数据对应的音频数据。

接口系统155可以包括一个或多个网络接口和/或一个或多个外部设备接口(诸如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统155可以包括一个或多个无线接口。接口系统155可以包括用于实现用户接口的一个或多个设备，诸如一个或多个麦克风、一个或多个扬声器、显示器系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统155可以包括控制系统160和存储器系统(诸如图1C中所示的可选的存储器系统165)之间的一个或多个接口。但是，在一些情况下，控制系统160可以包括存储器系统。在一些实施方式中，接口系统155可以被配置用于从环境中的一个或多个麦克风接收输入。

在一些实施方式中，控制系统160可以被配置用于至少部分地执行本文公开的方法。控制系统160例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管逻辑、和/或分立硬件组件。

在一些实施方式中，控制系统160可以驻留在多于一个设备中。例如，在一些实施方式中，控制系统160的一部分可以驻留在本文描述的环境之一内的设备中，而控制系统160的另一部分可以驻留在该环境之外的设备(诸如服务器、移动设备(例如，智能电话或平板计算机)等)中。在其它示例中，控制系统160的一部分可以驻留在本文描述的环境之一内的设备中，而控制系统160的另一部分可以驻留在环境的一个或多个其它设备中。例如，控制系统功能可以分布在环境的多个智能音频设备上，或者可以由编排设备(诸如本文中可称为智能家居集线器)和环境的一个或多个其它设备共享。在其它示例中，控制系统160的一部分可以驻留在实现基于云的服务的设备(诸如服务器)中，而控制系统160的另一部分可以驻留在实现基于云的服务的另一个设备(诸如另一个服务器、存储器设备等)中。在一些示例中，接口系统155也可以驻留在多于一个设备中。

本文描述的方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。此类非暂态介质可以包括存储器设备，诸如本文所述的那些，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如驻留在图1C中所示的可选的存储器系统165和/或控制系统160中。因而，本公开中描述的主题的各种创新方面可以在其上存储有软件的一个或多个非暂态介质中实现。例如，软件可以包括用于控制至少一个设备以执行本文公开的方法中的一些或全部的指令。例如，软件可以由诸如图1C的控制系统160之类的控制系统的一个或多个组件执行。

在一些示例中，装置150可以包括图1C中所示的可选的麦克风系统170。可选的麦克风系统170可以包括一个或多个麦克风。根据一些示例，可选的麦克风系统170可以包括麦克风的阵列。在一些情况下，麦克风的阵列可以被配置用于接收侧波束赋形，例如，根据来自控制系统160的指令。在一些示例中，麦克风的阵列可以被配置为例如根据来自控制系统160的指令来确定到达方向(DoA)和/或到达时间(ToA)信息。可替代地或附加地，控制系统160可以被配置为例如根据从麦克风系统170接收的麦克风信号来确定到达方向(DoA)和/或到达时间(ToA)信息。

在一些实施方式中，麦克风中的一个或多个可以是另一个设备(诸如扬声器系统的扬声器、智能音频设备等)的部分或与之相关联。在一些示例中，装置150可以不包括麦克风系统170。但是，在一些此类实施方式中，装置150却可以被配置为经由接口系统160接收音频环境中的一个或多个麦克风的麦克风数据。在一些此类实施方式中，装置150的基于云的实施方式可以被配置为经由接口系统160从音频环境中的一个或多个麦克风接收麦克风数据或与麦克风数据对应的数据。

根据一些实施方式，装置150可以包括图1C中所示的可选的扩音器系统175。可选的扩音器系统175可以包括一个或多个扩音器，其在本文中也可称为“扬声器”，或更一般地称为“音频再现换能器”。在一些示例中(例如，基于云的实施方式)，装置150可以不包括扩音器系统175。

在一些实施方式中，装置150可以包括可选的传感器系统180，如图1C中所示。可选的传感器系统180可以包括一个或多个触摸传感器、手势传感器、运动检测器等。根据一些实施方式，可选的传感器系统180可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，可选的传感器系统180的一个或多个相机可以驻留在智能音频设备中，智能音频设备可以是单用途音频设备或虚拟助理。在一些此类示例中，可选的传感器系统180的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中，装置150可以不包括传感器系统180。但是，在一些此类实施方式中，装置150却可以被配置为经由接口系统160接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置150可以包括图1C中所示的可选的显示器系统185。可选的显示器系统185可以包括一个或多个显示器，诸如一个或多个发光二极管(LED)显示器。在一些情况下，可选的显示器系统185可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中，可选的显示器系统185可以包括智能音频设备的一个或多个显示器。在其它示例中，可选的显示器系统185可以包括电视显示器、膝上型显示器、移动设备显示器或其它类型的显示器。在其中装置150包括显示器系统185的一些示例中，传感器系统180可以包括靠近显示器系统185的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些此类实施方式，控制系统160可以被配置用于控制显示器系统185呈现一个或多个图形用户界面(GUI)。

根据一些此类示例，装置150可以是或者可以包括智能音频设备。在一些此类实施方式中，装置150可以是或者可以包括唤醒词检测器。例如，装置150可以是或可以包括虚拟助理。

如上所述，在一些实施方式中，一个或多个“间隙”(在本文中也称为“强制间隙”或“参数化的强制间隙”)可以被插入到内容流的音频回放信号的一个或多个频率范围中以产生修改音频回放信号。可以在音频环境中再现或“回放”修改音频回放信号。在一些此类实施方式中，可以在N个时间间隔期间将N个间隙插入到音频回放信号的N个频率范围中。根据一些这样的实施方式，M个音频设备可以在时间和频率上编排其间隙，从而允许在间隙频率和时间间隔中准确检测远场(针对每个设备)。

在一些示例中，在回放信号中插入一系列强制间隙，每个强制间隙位于回放信号的不同频带(或一组频带)中，以在间隙出现的时间间隔期间和间隙被插入的(一个或多个)频带中发生的意义上允许遍布式聆听者监视在每个强制间隙“中”发生的非回放声音。图2A是修改音频回放信号的频谱图的示例。在这个示例中，根据一个示例，修改音频回放信号是通过将间隙插入音频回放信号而创建的。更具体而言，为了生成图2A的频谱图，对音频回放信号执行所公开的方法以在其频带中引入强制间隙(例如，图2A中所示的间隙G1、G2和G3)，从而生成修改音频回放信号。在图2A中所示的频谱图中，沿着横轴的位置指示时间并且沿着纵轴的位置指示修改音频回放信号内容在某个时刻的频率。每个小区域(在这个示例中，每个这样的区域以具有垂直和水平坐标的点为中心)中的点的密度指示修改音频回放信号的内容在对应频率和时刻的能量：较密集的区域指示内容具有较大能量，而较不密集的区域指示具有较低能量的内容。因此，间隙G1出现在比间隙G2或G3出现的时间(换句话说，间隙G2或G3出现的时间间隔期间)早的时间(换句话说，该时间间隔期间)，并且间隙G1已经被插入到比插入间隙G2或G3的频带高的频带中。

根据一些公开的方法将强制间隙引入回放信号不同于设备暂停内容回放流的单工设备操作(例如，为了更好地听到用户和用户的环境)。根据一些公开的方法将强制间隙引入回放信号可以被优化以显著减少(或消除)在回放期间由引入的间隙导致的伪像的可感知性，优选地使得强制间隙对用户没有或具有最小的可感知影响，但使得回放环境中麦克风的输出信号指示强制间隙(例如，因此可以利用间隙来实现遍布式聆听(pervasivelistening)方法)。通过使用已根据一些公开的方法引入的强制间隙，即使不使用声学回声消除器，遍布式聆听系统也可以监视非回放声音(例如，指示回放环境中的背景活动和/或噪声的声音。

参考图2B和2C，我们接下来描述可以被插入到音频回放信号的频带中的参数化的强制间隙的示例，以及用于选择这种强制间隙的参数的准则。图2B是示出频域中的间隙的示例的曲线图。图2C是示出时域中的间隙的示例的图表。在这些示例中，参数化的强制间隙是使用带衰减G对回放内容的衰减，带衰减G在时间和频率上的分布类似于图2B和2C中所示的分布。在此，通过将衰减G应用于由中心频率f₀(在图2B中指示)和带宽B(也在图2B中指示)定义的频率范围(“带”)上的回放信号来强制间隙，衰减作为频带中每个频率处(例如，在频带内的每个频率区间中)的时间的函数变化，具有类似于图2C中所示的分布。可以控制衰减G的最大值(作为跨带的频率的函数)从0dB(在带的最低频率处)增加到中心频率f₀处的最大衰减(抑制深度)Z(如图2B中所指示的)，并降低(随着频率增加到中心频率以上)到0dB(在带的最高频率处)。

在这个示例中，图2B的曲线图指示带衰减G的分布，作为频率(即，频率区间)的函数，被应用于音频信号的频率分量以强制带中信号的音频内容的间隙。音频信号可以是回放信号(例如，多声道回放信号的声道)，并且音频内容可以是回放内容。

根据这个示例，图2C的曲线图示出了频带衰减G的分布，作为时间的函数，被应用于中心频率f₀处的频率分量以强制带中信号的音频内容的图2B中指示的间隙。对于频带中的每个其它频率分量，作为时间的函数的带增益可以具有与图2C中所示相似的分布，但是图2C的抑制深度Z可以由内插的抑制深度kZ代替，其中k在这个示例中是范围从0到1(作为频率的函数)的因子，使得kZ具有图2B中所示的分布。在一些示例中，对于每个频率分量，还可以从0dB到抑制深度kZ(例如，k＝1，如图2C中所示，在中心频率处)内插衰减G，例如以减少因引入间隙而产生的音乐伪像。图2C中示出了后一种插值的三个区域(时间间隔)t1、t2和t3。

因此，当针对特定频带(例如，以中心频率f₀为中心的带，如图2B中所示)发生间隙强制操作时，在这个示例中，衰减G被应用于带中的每个频率分量(例如，被应用于带内的每个区间)遵循如图2C中所示的轨迹。从0dB开始，它在t1秒内下降到深度kZdB，并在那里保持t2秒，最后在t3秒内回升到0dB。在一些实施方式中，总时间t1+t2+t3的选择可以考虑使用无论什么频率变换来分析麦克风馈送的时间分辨率，以及不太打扰用户的合理的持续时间。下面的表1中示出了用于单设备实施方式的t1、t2和t3的一些示例。

一些公开的方法涉及根据预定的、固定的带结构来插入强制间隙，该带结构覆盖音频回放信号的整个频谱，并且包括B_count个带(其中B_count是数字，例如，B_count＝49)。为了在任何带中强制间隙，在此类示例中在带中应用带衰减。具体而言，对于第j个带，衰减Gj可以被应用于由该带定义的频率区域。

下面的表1示出了用于每个带的参数t1、t2、t3、深度Z的示例值，以及用于单设备实施方式的带数量B_count的示例。

表1

在确定带的数量和每个带的宽度时，在感知影响与间隙的有用性之间存在权衡：在全频谱的所有频带中，例如，响应于背景噪声或回放环境状态的改变，具有间隙的较窄带更好，因为它们通常具有较小的感知影响，而具有间隙的较宽带对于实现噪声估计(和其它遍布式聆听方法)和减少收敛到新噪声估计(或由遍布式聆听监视的其它值)所需的时间(“收敛”时间)更好。如果一次只能强制有限数量的间隙，那么在大量的小带中顺序地强制间隙比在少量的大带中顺序地强制间隙需要更长的时间，从而导致相对更长的收敛时间。较大的带(具有间隙)同时提供大量有关背景噪声(或由遍布式聆听监视的其它值)的信息，但一般具有较大的感知影响。

在本发明人的早期工作中，在单设备上下文中造成间隙，其中回声影响主要(或完全)是近场。近场回声在很大程度上受音频从扬声器到麦克风的直接路径的影响。这个性质对于几乎所有紧凑型双工音频设备(诸如智能音频设备)都是成立的，但具有较大外壳和显著声学解耦的设备除外。通过在回放中引入短的、被感知掩蔽的间隙，诸如表1中所示的间隙，音频设备可以通过音频设备自己的回声获得音频设备被部署在其中的声学空间的一瞥。

但是，当其它音频设备也在同一音频环境中播放内容时，本发明人发现单个音频设备的间隙由于远场回声损坏而变得不那么有用。远场回声损坏经常会降低本地回声消除的性能，从而显著恶化整体系统性能。由于各种原因，远场回声损坏难以去除。一个原因是获得参考信号可能要求增加网络带宽并增加附加延迟估计的复杂性。而且，随着噪声条件的增加和响应时间更长(更多的混响和时间扩散)，估计远场脉冲响应变得更加困难。此外，远场回波损坏通常与近场回波和其它远场回波源相关，从而进一步挑战远场脉冲响应估计。

本发明人还发现，如果音频环境中的多个音频设备在时间和频率上编排它们的间隙，那么当多个音频设备再现修改音频回放信号时，可以获得远场的更清晰感知(相对于每个音频设备)。本发明人还发现，如果目标音频设备在多个音频设备再现修改音频回放信号时回放未修改音频回放信号，那么即使正在播放媒体内容，也可以从多个音频设备中的每一个的角度估计目标设备的相对可听度和位置。

而且，也许与直觉相反，本发明人已经发现，打破以前用于单设备实施方式的指南(例如，保持间隙打开的时间比表1中指示的时间更长)导致实施方式适合多个设备经由编排的间隙进行协作测量。

例如，在一些编排的间隙实施方式中，t2可以比表1中指示的更长，以便适应音频环境中多个分布式设备之间的各种声学路径长度(声学延迟)，声学路径长度可以是米的数量级(与单个设备上固定的麦克风-扬声器声学路径长度相反，后者最多相距数十厘米)。在一些示例中，默认的t2值例如可以比表1中指示的80毫秒值大25毫秒，以便允许编排的音频设备之间高达8米的分离。在一些编排的间隙实施方式中，默认的t2值可以比表1中指示的80毫秒值更长，这是出于另一个原因：在编排的间隙实施方式中，t2优选地更长，以便适应被编排音频设备的定时失准，以便确保经过足够长的时间，在此期间所有被编排音频设备都达到Z衰减的值。在一些示例中，可以将附加的5毫秒添加到t2的默认值以适应定时失准。因此，在一些编排的间隙实施方式中，t2的默认值可以是110毫秒，最小值是70毫秒，最大值是150毫秒。

在一些编排的间隙实施方式中，t1和/或t3也可以与表1中指示的值不同。在一些示例中，因为时间问题和物理距离差异，t1和/或t3可以由于聆听者无法感知设备进入或退出其衰减期的不同时间而被调整。至少部分地由于空间掩蔽(由多个设备从不同位置回放音频引起)，聆听者感知被编排音频设备进入或退出其衰减期的不同时间的能力往往会低于在单一设备场景中。因此，与表1中所示的单设备示例相比，在一些编排的间隙实施方式中，t1和t3的最小值可以减小，而t1和t3的最大值可以增加。根据一些此类示例，t1和t3的最小值可以减小到2、3或4毫秒并且t1和t3的最大值可以增加到20、25或30毫秒。

使用编排的间隙的测量的示例

图2D示出了用于音频环境中的多个音频设备的包括编排的间隙的修改音频播放信号的示例。在这个实施方式中，音频环境的多个智能设备编排间隙以便估计彼此的相对可听度。在这个示例中，在时间间隔期间进行与一个间隙对应的一个测量会话，并且测量会话仅包括图1B的主要起居空间100a中的设备。根据这个示例，先前的可听度数据已经示出位于房间101b中的智能音频设备109已经被分类为对于其它音频设备来说几乎听不见并且已经被放置在分离的区中。

在图2D中所示的示例中，编排的间隙是使用带衰减G_k对回放内容的衰减，其中k表示被测量的频带的中心频率。图2D中示出的要素如下：

曲线图203是用于图1B的智能音频设备103的以dB为单位的G_k的图；

曲线图204是用于图1B的智能音频设备104的以dB为单位的G_k的图；

曲线图205是用于图1B的智能音频设备105的以dB为单位的G_k的图；

曲线图206是用于图1B的智能音频设备106的以dB为单位的G_k的图；

曲线图207是用于图1B的智能音频设备107的以dB为单位的G_k的图；

曲线图208是用于图1B的智能音频设备108的以dB为单位的G_k的图；以及

曲线图209是用于图1B的智能音频设备109的以dB为单位的G_k的图。

如本文所使用的，术语“会话”(在本文中也称为“测量会话”)是指在其期间执行频率范围的测量的时间段。在测量会话期间，可以指定具有相关联的带宽的一组频率，以及一组参与的音频设备的。

可以可选地将一个音频设备提名为测量会话的“目标”音频设备。如果目标音频设备涉及测量会话，那么根据一些示例，目标音频设备将被允许忽略强制间隙并且将在测量会话期间播放未修改音频回放信号。根据一些此类示例，其它参与的音频设备将聆听目标设备回放声音，包括在被测量的频率范围内的目标设备回放声音。

如本文所使用的，术语“可听度”是指设备可以听到另一个设备的扬声器输出的程度。下面提供了可听度的一些示例。

根据图2D中所示的示例，在时间t1，编排设备发起与作为目标音频设备的智能音频设备103的测量会话，选择一个或多个要测量的区间中心频率，包括频率k。在一些示例中，编排设备可以是充当领导者的智能音频设备(例如，如下文参考图4所描述的那样确定)。在其它示例中，编排设备可以是另一个编排设备，诸如智能家居集线器。这个测量会话从时间t1运行到时间t2。其它参与的智能音频设备，智能音频设备104-108，将在它们的输出中应用间隙并将再现修改音频回放信号，而智能音频设备103将播放未修改音频回放信号。

正在再现包括编排的间隙的修改音频回放信号的音频环境100的智能音频设备的子集(智能音频设备104-108)是可以被称为M个音频设备的一个示例。根据这个示例，智能音频设备109也将播放未修改音频回放信号。因此，智能音频设备109不是M个音频设备之一。但是，因为智能音频设备109对于音频环境的其它智能音频设备是不可听的，所以智能音频设备109在这个示例中不是目标音频设备，尽管智能音频设备109和目标音频设备(这个示例中为智能音频设备103)都将回放未修改音频回放信号。

在测量会话期间，期望编排的间隙对音频环境中的聆听者应当具有低感知影响(例如，可忽略的感知影响)。因此，在一些示例中，可以选择间隙参数以最小化感知影响。下面参考图3B-3J描述了一些示例。

在此时间期间(从时间t1到时间t2的测量会话)，智能音频设备104-108将从目标音频设备(智能音频设备103)接收参考音频区间，用于这个测量会话的时频数据。在这个示例中，参考音频区间对应于智能音频设备103用作回声消除的本地参考的回放信号。出于可听度测量以及回声消除的目的，智能音频设备103可以访问这些参考音频区间。

根据这个示例，在时间t2，第一测量会话结束并且编排设备发起新的测量会话，这次选择一个或多个不包括频率k的区间中心频率。在图2D中所示的示例中，在时段t2到t3期间，对于频率k没有应用间隙，因此曲线图示出了用于所有设备的单位增益。在一些此类示例中，编排设备可以使一系列间隙被插入到多个频率范围中的每一个中，用于不包括频率k的区间中心频率的一系列测量会话。例如，为了第二至第N后续测量会话的目的，编排设备可以在第二至第N时间间隔期间将第二至第N间隙插入到音频回放信号的第二至第N频率范围内，而智能音频设备103仍然是目标音频设备。

在一些此类示例中，编排设备然后可以选择另一个目标音频设备，例如，智能音频设备104。编排设备可以指示智能音频设备103是正在回放具有编排的间隙的修改音频回放信号的M个智能音频设备之一。编排设备可以指示新的目标音频设备再现未修改音频回放信号。根据一些此类示例，在编排设备已经使得针对新的目标音频设备发生N个测量会话之后，编排设备可以选择另一个目标音频设备。在一些此类示例中，编排设备可以继续使测量会话发生，直到已经针对音频环境中的每个参与的音频设备执行了测量会话。

在图2D中所示的示例中，不同类型的测量会话发生在时间t3和t4之间。根据这个示例，在时间t3，响应于用户输入(例如，对充当编排设备的智能音频设备的语音命令)，编排设备发起新会话以便完全校准音频环境100的扩音器设置。一般而言，用户可能相对更能容忍在“设置”或“重新校准”测量会话期间具有相对较高感知影响的编排的间隙，诸如发生在时间t3和t4之间。因此，在这个示例中，选择了一大组连续的频率用于测量，包括k。根据这个示例，智能音频设备106在这个测量会话期间被选为第一目标音频设备。因而，在从时间t3到t4的测量会话的第一阶段期间，除智能音频设备106之外的所有智能音频设备都将应用间隙。

间隙带宽

图3A是示出用于创建间隙的滤波器响应的示例和用于测量在测量会话期间使用的麦克风信号的频率区域的滤波器响应的曲线图。根据这个示例，图3A的要素如下：

要素301表示用于在输出信号中创建间隙的滤波器的量值响应；

要素302表示用于测量与由要素301引起的间隙对应的频率区域的滤波器的量值响应；

要素303和304表示301的-3dB点，频率为f1和f2；以及

要素305和306表示302的-3dB点，频率为f3和f4。

间隙响应301的带宽(BW_gap)可以通过取-3dB点303与304之间的差来找到：BW_gap＝f2–f1且BW_measure(测量响应302的带宽)＝f4–f3。

根据一个示例，测量的质量可以如下表示：

因为测量响应的带宽通常是固定的，因此可以通过增加间隙滤波器响应的带宽(例如，加宽带宽)来调整测量的质量。但是，引入的间隙的带宽与其可感知性成正比。因此，间隙滤波器响应的带宽一般应当根据测量的质量和间隙的可感知性来确定。表2中示出了质量值的一些示例：

表2

虽然表2指示“最小”和“最大”值，但这些值仅适用于这个示例。其它实施方式可以涉及比1.5更低的质量值和/或比3更高的质量值。

间隙分配策略

间隙可以由以下各项定义：

·频谱的底层划分，具有中心频率和测量带宽；

·这些最小测量带宽在被称为“带化(banding)”的结构中的聚合；

·持续时间、衰减深度以及包含符合商定的频谱划分的一个或多个连续频率；以及

·其它时间行为，诸如在间隙的开始和结束处使衰减深度倾斜。

根据一些实施方式，可以根据旨在在尽可能短的时间内测量和观察尽可能多的可听频谱、同时满足适用的可感知性约束的策略来选择间隙。

图3B、3C、3D、3E、3F、3G、3H、3I和3J是示出间隙分配策略的示例的曲线图。在这些示例中，时间由沿着横轴的距离表示并且频率由沿着纵轴的距离表示。这些曲线图提供了示例来说明由各种间隙分配策略产生的模式，以及它们测量完整音频频谱所花的时间。在这些示例中，每个编排的间隙测量会话的长度是10秒。与其它公开的实施方式一样，这些曲线图仅作为示例提供。其它实施方式可以包括更多、更少和/或不同类型、数量和/或要素序列。例如，在其它实施方式中，每个编排的间隙测量会话可以长于或短于10秒。在这些示例中，图3B-3J中表示的时间/频率空间的无阴影区域310(在本文中可称为“块(tile)”)表示在指示的时间-频率周期(10秒)处的间隙。中度阴影区域315表示已经被测量至少一次的频率块。浅色阴影区域320尚未测量。

假设手头的任务要求参与的音频设备插入编排的间隙以“聆听直通房间”(例如，评估音频环境中的噪声、回声等)，那么测量会话完成时间将如图3B-3J中所指示的。如果任务要求每个音频设备依次成为目标，并被其它音频设备聆听，那么需要乘以参与该过程的音频设备的数量。例如，如果每个音频设备依次成为目标，那么图3B中示为测量会话完成时间的三分二十秒(3m20s)将意味着7个音频设备的系统将在7*3m20s＝23m20s之后被完全映射。当在频率/频带之间循环，并且同时强制多个间隙时，在这些示例中，间隙将在频率上尽可能远地间隔开，以提高覆盖频谱时的效率。

图3B和3C是示出根据一种间隙分配策略的编排的间隙的序列示例的曲线图。在这些示例中，间隙分配策略涉及在每个连续测量会话期间一次间隙化N个全部频带(每个频带包括至少一个频率区间，并且在大多数情况下包括多个频率区间)。在图3B N＝1和图3C N＝3中，后者意味着图3C的示例涉及在同一时间间隔内插入三个间隙。在这些示例中，使用的带化结构是20个带的梅尔(Mel)间隔布置。根据一些此类示例，在测量完所有20个频带之后，序列可以重新开始。虽然3m20s是达到完整测量的合理时间，但在300Hz–8kHz的关键音频区域中打出的间隙非常宽，并且大量时间用于在这个区域外部的测量。由于300Hz-8kHz频率范围中相对较宽的间隙，这种特殊策略将非常容易被用户感知。

图3D和3E是示出根据另一种间隙分配策略的编排的间隙的序列的示例的曲线图。在这些示例中，间隙分配策略涉及修改图3B和3C中所示的带化结构以映射到近似300Hz至8kHz的“优化的”频率区域。总体分配策略在其它方面与图3B和3C所表示的策略没有变化，但是由于第20个频带现在被忽略，因此序列结束得稍微早一些。此处被强制的间隙的带宽仍将是可感知的。但是，其好处是优化的频率区域的测量非常快速，尤其是当间隙被同时强制到多个频带中时。

图3F、3G和3H是示出根据另一种间隙分配策略的编排的间隙的序列的示例的曲线图。在这些示例中，间隙分配策略涉及“强制区间间隙”方法，其中间隙被强制到单个频率区间中而不是整个频带上。图3F、3G和3H中的水平线划定了图3D和3E中所示的带化结构。从涉及19个频带的间隙分配策略改变为涉及170个频带的间隙分配策略显著增加了测量优化的频谱所需的时间，在图3F中所示的示例中，单个测量会话现在需要超过25分钟才能完成，其中N＝1。

图3F、3G和3H所表示的间隙分配策略的主要优点是过程的可感知性显著降低。选择N＝3(如图3G中所示)或N＝5将使图3F示例的测量会话时间减少1/N，如图3F和3G的图中所示，并且可感知性仍然可管理。

但是，图3F、3G和3H所表示的间隙分配策略仍然存在两个重大缺陷。一是带化结构的对数性质被忽略了：基于人类感知的真实情况，较高频率下间隙的带宽过于保守。另一个缺点是按顺序跨步通过频率将在移动到下一个带之前完全测量每个带。通过缺失数据的插补，以及带化过程上求平均，即使带没有被完全测量，算法仍然可以以一定的置信度运行。

图3I和3J是示出根据另一种间隙分配策略的编排的间隙的序列示例的曲线图。在这些示例中，间隙的带宽随频率增加，但比图3I和3J中水平线表示的底层带化结构的速率更保守。随着频率增加间隙的带宽减少整体测量会话时间，而不会对插入的间隙的可感知性产生负面影响。第二个改进是对于每个被强制的间隙，图3I和3J表示的间隙分配策略涉及在连续频带内选择频率区间(这在图3I中更为明显)。根据这些示例，通过记住/跟踪每个带内先前测量的区间，当再次访问该带时测量该带内的下一个相继区间。这个过程不影响测量完整频谱所花费的时间，但会迅速减少测量至少一次每个带的至少一部分所花费的时间。由图3I和3J表示的间隙分配策略也具有比上述间隙分配策略更不易辨别的模式和结构，进一步降低了可感知性影响。

图4、5A和5B是示出根据一些实施方式的多个音频设备如何协调测量会话的示例的流程图。与本文描述的其它方法的方框一样，图4-5B中所示的方框不一定按指示的次序执行。例如，在一些实施方式中，图4的方框401的操作可以在方框400的操作之前执行。而且，此类方法可以包括比所示出和/或描述的方框更多或更少的方框。

根据这些示例，智能音频设备是编排设备(其在本文中也可称为“领导者”)并且一次只有一个设备可以是编排设备。在其它示例中，编排设备可以是本文中所称的智能家居集线器。编排设备可以是上面参考图1C描述的装置150的实例。

图4描绘了根据这个示例的由所有参与的音频设备执行的方框。在这个示例中，方框400涉及获得所有其它参与的音频设备的列表。根据一些此类示例，方框400可以涉及获得每个参与的音频设备的声学区、组等的指示。方框400的列表可以例如通过经由网络数据包聚合来自其它音频设备的信息来创建：其它音频设备可以例如广播它们参与测量会话的意图。随着音频设备被添加和/或从音频环境中移除，方框400的列表可以被更新。在一些此类示例中，方框400的列表可以根据各种试探法来更新，以便仅关于最重要的设备(例如，当前在图1B的主要起居空间101a内的音频设备)保持列表最新。

在图4中所示的示例中，链接404指示方框400的列表传递到方框401，协商领导过程。方框401的这个协商过程可以采用不同的形式，这取决于特定的实施方式。在最简单的实施例中，最低或最高设备ID代码(或其它唯一设备标识符)的字母数字排序可以确定领导者，而无需设备之间的多轮通信，假设所有设备都可以实现相同的方案。在更复杂的实施方式中，设备可以彼此协商以确定哪个设备最适合作为领导者。例如，出于促进测量会话的目的，方便的是让聚合编排的信息的设备也成为领导者。正常运行时间最长的设备、计算能力最强的设备和/或连接到主电源的设备可以是领导者的良好候选。总的来说，在多个设备之间安排这样的共识是具有挑战性的问题，但是这个问题有许多现有的和令人满意的协议和解决方案(例如，Paxos协议)。将理解的是，存在许多这样的协议并且将是合适的。

然后所有参与的音频设备继续执行方框403，这意味着链接406在这个示例中是无条件链接。下面参考图5B描述方框403。如果设备是领导者，那么它将执行方框402。在这个示例中，链接405涉及对领导的检查。下面参考图5A描述领导过程。来自这个领导过程的输出，包括但不限于到其它音频设备的消息，由图4的链接407指示。

图5A示出了由编排设备或领导者执行的过程的示例。方框501涉及选择要测量的目标设备和选择间隙分配策略，例如，测量会话期间要使用的间隙的开始和结束时间以及间隙在频率上的位置和尺寸。在一些示例中，方框501可以涉及选择时间t1、t2和/或t3，如上文参考图2C所述。不同的应用可以激发上述选择的不同策略。例如，在一些示例中，可以部分地基于“紧迫性(urgency)”的测量来选择要测量的目标设备，例如，偏爱最近没有被测量的设备和频带。在一些情况下，特定的目标设备对于基于特定的应用或用例进行测量可以更重要。例如，空间呈现中用于“左”和“右”声道的扬声器的位置一般对于测量可以是重要的。

根据这个示例，在编排设备做出方框501的选择之后，图5A的过程继续到方框502。在这个示例中，方框502涉及将在方框501中确定的信息发送到其它参与的音频设备。在一些示例中，方框502可以涉及经由无线通信向其它参与的音频设备发送信息，例如，通过本地Wi-Fi网络、经由蓝牙等。在一些示例中，方框502可以涉及向其它参与音频设备发送间隙分配策略的细节，例如，测量会话期间要使用的间隙的开始和结束时间以及间隙在频率上的位置和尺寸。在其它示例中，其它参与的音频设备可以已经存储了关于多个间隙分配策略中的每一个的信息。在一些此类示例中，方框502可以涉及发送存储的间隙分配策略的指示以选择例如间隙分配策略1、间隙分配策略2等。在一些示例中，方框502可以涉及发送“会话开始”指示，例如，如下面参考图5B所述。

根据这个示例，在编排设备执行方框502之后，图5A的过程继续到方框503，其中编排设备等待当前测量会话结束。在这个示例中，在方框503中，编排设备等待所有其它参与的音频设备已经结束它们的会话的确认。

在这个示例中，在编排设备已经在方框503中从所有其它参与的音频设备接收到确认之后，图5A的过程继续到方框500，其中向编排设备提供关于测量会话的信息。此类信息可以影响未来测量会话的选择和定时。在一些实施例中，方框500涉及接受在测量会话期间从所有其它参与的音频设备获得的测量。接收到的测量的类型可以取决于特定的实施方式。根据一些示例，接收到的测量可以是或者可以包括麦克风信号。可替代地或附加地，在一些示例中，接收到的测量可以是或者可以包括从麦克风信号中提取的音频数据。在一些实施方式中，编排设备可以对接收到的测量执行(或使得执行)一个或多个操作。例如，编排设备可以至少部分地基于提取的音频数据来估计(或使得估计)目标音频设备的可听度或目标音频设备的位置。一些实施方式可以涉及至少部分地基于提取的音频数据来估计远场音频环境脉冲响应和/或音频环境噪声。

在图5A中所示的示例中，在执行方框500之后，过程将返回到方框501。在一些此类示例中，该过程将在执行方框500之后的预定时间段返回到方框501。在一些情况下，该过程可以响应于用户输入而返回到方框501。

图5B示出了由编排设备以外的参与的音频设备执行的过程的示例。在此，方框510涉及其它参与的音频设备中的每一个向编排设备发送传输(例如，网络数据包)，用信号通知每个设备参与一个或多个测量会话的意图。在一些实施例中，方框510还可以涉及将一个或多个先前的测量会话的结果发送给领导者。

在这个示例中，方框515在方框510之后。根据这个示例，方框515涉及等待新测量会话将开始的通知，例如，如经由“会话开始”数据包所指示的。

根据这个示例，方框520涉及根据由编排设备提供的信息应用间隙分配策略，例如，连同在方框515中等待的“会话开始”数据包。在这个示例中，方框520涉及应用间隙分配策略以生成修改音频回放信号，修改音频回放信号将在测量会话期间由参与的音频设备(除目标音频设备外，如果有的话)回放。根据这个示例，方框520涉及经由音频设备麦克风检测音频设备回放声音并在测量会话期间生成对应的麦克风。如链接522所表明的，在一些情况下，可以重复方框520，直到由编排设备指示的所有测量会话都完成(例如，根据从编排设备接收到的“停止”指示(例如，停止数据包)，或在预定的持续时间之后)。在一些情况下，可以针对多个目标音频设备中的每一个重复方框520。

最后，方框525涉及停止插入在测量会话期间应用的间隙。在这个示例中，在方框525之后图5B的过程返回到方框510。在一些此类示例中，该过程将在执行方框525之后的预定时间段返回到方框510。在一些情况下，该过程可以响应于用户输入而返回到方框510。

在一些实施方式中，频率区域、持续时间和设定序列中的目标设备的排序可以通过仅基于唯一设备ID/名称的简单算法来确定。例如，目标设备的排序可以以某种商定的词汇/字母数字次序出现，并且频率和间隙持续时间可以基于所有设备共用的当前时间。这种简化的实施例具有较低的系统复杂性，但可能无法适应系统的更多动态需求。

通过间隙揭示的麦克风信号的示例测量

在编排的间隙测量会话期间测得的子带信号与房间中的噪声对应，如果指定了目标设备，那么加上来自目标设备的直接刺激。在本节中，我们示出了从这些子带信号中确定的声学性质和相关信息的示例，以进一步用于映射、校准、噪声抑制和/或回声衰减应用。

测距

根据一些示例，在编排的间隙测量会话期间测得的子带信号可以被用于估计音频设备之间的近似距离，例如，基于估计的直接混响比。例如，如果目标音频设备可以通告输出声压级(SPL)，并且如果测量音频设备的扬声器到麦克风的距离已知，那么可以基于1/r²定律估计近似距离。

DoA

在一些示例中，在编排的间隙测量会话期间测得的子带信号可以被用于估计由音频环境中的一个或多个人(例如，的讲话)和/或一个或多个音频设备发出的声音的到达方向(DoA)和/或到达时间(ToA)。在一些此类示例中，可以估计与一个或多个人和/或一个或多个音频设备的当前位置对应的声学区。下面参考图8A等描述一些示例。

背景噪声

根据一些示例，背景噪声可以根据在编排的间隙测量会话期间测得的子带信号来估计，甚至在音频环境中的扩音器正在再现音乐或其它音频数据的时间。根据一些此类示例，可以通过对每个数据帧中发现的能量运行最小跟随器(在时间窗口期间提取信号的最小值的滤波器)来估计背景噪声，例如，根据以下表达式：

在上述表达式中，K表示应用中的频率区间或频带的总数，并且k表示当前测量轮次中考虑的频率区间或频带。在足够的测量轮次之后，BackGroundNoise将包含对完整频谱的估计。

参考共享

如果在测量会话期间所有参与的音频设备都在聆听并且一个音频设备正在播放，那么所有音频设备都将在测量会话期间收到相对干净的回放内容记录。如在前面的标题中所讨论的，可以从这样的麦克风信号中导出许多声学性质。如果将用于这个回放信号的“参考”信号与麦克风信号一起处理，那么可以导出另一类声学性质。参考信号(在本文中也可以被称为“参考区间”，指示与参考信号对应的频率区间)可以是例如由目标设备在测量会话的过程中播放的音频信息的副本。在一些示例中，参考信号可以由目标设备用于回声抑制。

在一些示例中，测量会话可以基于窄范围的频率。因而，可能要求小于参考信息的全带宽来产生此类声学性质。如果要求小于参考信息的全带宽，那么这使得通过网络连接提供这样的参考数据更容易实现。例如，带宽为50Hz的典型频率区域对应于原始信号的：

100％*(50/24000)*2～＝0.5％

(假设采样率为48kHz并假设使用复频率区间的表示)。此外，可以向所有其它参与的音频设备呈现相同的参考信息，从而在广播消息时进一步利用相关联的网络效率。

非线性

根据涉及用于一个或多个目标音频设备的编排的间隙测量会话的一些示例，可以检测所回放音频数据中非线性的存在。一些此类示例可以涉及获得在一定范围的回放水平下的可听度估计并确定可听度估计是否是线性的。

图6示出了两个被编排音频设备参与测量会话并共享参考数据的示例。与本文提供的其它图一样，图6中所示的要素的类型和数量仅作为示例提供。其它实施方式可以包括更多、更少和/或不同类型和数量的要素。

对于音频设备601a，图6中的图号后缀有“a”，对于音频设备601b，后缀有“b”。图6的要素包括：

600：参与测量会话的两个音频设备的系统；

601a：参与测量会话的音频设备，它是图1C的装置150的实例并且实现图1C中所示的控制系统160的实例；

601b：参与测量会话的另一个音频设备，它是装置150的另一个实例，它实现图1C中所示的控制系统160的实例并且在这个示例中是目标设备；

602：产生音频内容(例如，音乐、电影配乐或播客)的媒体回放引擎；

603：间隙插入模块；

604：网络连接模块，用于通过Wi-Fi、蓝牙或其它无线协议收发网络数据包；

605：声学性质计算块，被配置为接受麦克风信号和参考信号，并产生本公开中描述的任何声学性质；

606a：附接到音频设备601a的一个或多个扩音器；

606b：附接到音频设备601b的一个或多个扩音器；

607a：由扩音器606a产生的回放声音，与插入间隙的(修改的)音频内容对应；

607b：由扩音器606b产生的回放声音，与未修改的(无间隙的)音频内容对应，因为音频设备601b在这个示例中是目标设备；

608a：附接到音频设备601a的一个或多个麦克风，检测607a和607b；

608b：附接到音频设备601b的一个或多个麦克风，检测607a和607b；

609：从音频设备601b传输到音频设备601a的网络数据包，至少包含与当前测量会话相关的参考音频；

610：由媒体播放引擎602产生的媒体信号；

611：加上附加修改(一个或多个间隙)的媒体信号610；

612：从609的网络数据包中提取的参考信号，相当于614；

613：与用于当前测量会话的测量区域对应的麦克风信号；以及

614：参考信号。

在图6中，测量会话是活动的。音频设备601b充当目标设备并且被允许在测量会话期间播放(一个或多个)测量区域(由音频设备601a插入媒体内容的(一个或多个)间隙)中的媒体内容。音频设备601a也参与测量会话。在这个示例中，音频设备601a已由被编排设备的控制系统指示将一个或多个合适的间隙(使用间隙插入模块603)插入到传出媒体信号610a中。

在回放时，在这个示例中，音频设备601b从回放媒体610b中提取参考信号614b，参考信号614b对应于与当前测量会话相关的相同频率测量区域。参考信号614b可以例如被插入到网络数据包中并且作为609通过本地网络被发送(广播)到所有其它参与的音频设备。参考信号614b可以在测量会话处于活动状态时逐渐流式传输，或者可替代地可以在测量会话结束时作为一个较大的传输来发送。其它参与的音频设备接收这个参考信号614b，并且还用它们的麦克风提取对应的麦克风信号613(608)。目标设备(音频设备601b)也记录麦克风信号，并接收参考信号，但是跳过了609的网络传输，因为信息存在于同一设备上。

在图6中所示的示例中，信号613和612/614被呈现给声学性质方框605，声学性质方框605被配置为同时使用两个信号来计算声学性质。应当注意的是，定时和同步的各方面可以根据具体实施例的实施方式细节而变化，并且可以使用网络数据包时间戳以及参考信号和麦克风信号的互相关来适当地对准数据以用于进一步分析。

可听度和脉冲响应

根据一些示例(例如，在诸如图6中所示的实施方式中)，在测量会话期间，参考信号r和麦克风信号m都可以被记录并且在P个音频帧的周期上紧密地时间对准。我们可以表示：

在上述表达式中，表示维度(大小)n的复数空间，r(t)和m(t)表示长度n的复数向量，并且n表示用于给定测量会话的复数频率区间的数量。因而，m(t)表示子带域麦克风信号。我们还可以表示：

在上述表达式中，表示所有整数的集合，并且t表示1-P范围内的任何整数，含1、P。

在这个公式中，可以解决经典的通道识别问题，尝试估计从r预测信号m的线性传递函数H。这个问题的现有解决方案包括自适应有限脉冲响应(FIR)滤波器、离线(非因果)Wiener滤波器和许多其它统计信号处理方法。传递函数H的量值可以被称为可听度，这是有用的声学性质，在一些应用中可以被用于基于设备“相互可听”的程度来对彼此相关的设备进行排名。根据一些示例，可以在音频设备回放水平的范围内确定传递函数H的量值，以便确定回放的音频数据是否指示音频设备非线性，例如，如上所述。

图7示出了与音频环境中的音频设备对应的可听度曲线图的示例。在这种情况下，图7描绘了针对定位在典型开放式起居环境周围不同位置的一组7个音频设备运行多个测量会话的实验结果。图7中所示的横轴表示频率(Hz)，并且纵轴表示以dB为单位的H的总体水平，在本公开中也称为“可听度”。当名为“DOLBY-OBSIDIAN/厨房”的一个特定音频设备是目标音频设备时，图7中显示的所有声学测量(作为聚合)与编排的测量会话对应。每个音频设备的可听度都被示为粗体虚线，指示作为频率的函数的音频设备可听度，以及具有相同模式但未以粗体表示的虚线，指示平均音频设备可听度水平。从这个图中，可以看出“厨房”音频设备与其它各种音频设备在整体可听度或水平方面的差异。此外，在图7中可以观察到不同频率的可听度不同，揭示了这个示例中的声学性质测量可能达到的细节水平。表示“自身可听度”的线是线701a和701b，测量厨房音频设备自身的回声水平，它们合适地是最响亮的。距离“厨房”最近的音频设备“厨房2”平均仅更安静2dB，并且对于一些音频频率偶尔会比“厨房”音频设备更响亮。位于远处房间的音频设备被测得具有非常低的可听度，平均比自身可听度低45dB。位于同一房间内不同位置的其余音频设备记录中间某处的可听度测量。

包括多个智能音频设备的编排系统可以被配置为确定何时检测到来自用户的讲话。例如，在播放媒体内容时，可以在与编排间隙相关联的频带中检测讲话，即使回声消除未被使用或不充分。

图8A示出了音频环境的另一个示例。图8A是包括系统的音频环境(在这个示例中是起居空间)的示意图，该系统包括用于音频交互的智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)、麦克风1.5和可控灯(1.2)的集合。在一些情况下，麦克风1.5中的一个或多个可以是设备1.1、灯1.2或扬声器1.3之一的一部分或与其相关联。可替代地或附加地，麦克风1.5中的一个或多个可以附接到环境的另一个部分，例如，附接到墙壁、天花板、家具、电器或环境的另一个设备。在示例中，每个智能音频设备1.1包括(和/或被配置用于与之通信)至少一个麦克风1.5。图8A的系统可以被配置为实现本公开的一个或多个实施例。使用各种方法，可以从图8A的麦克风1.5共同获得信息并提供给被配置为提供说话的用户的位置估计的设备(例如，分类器)。

在起居空间(例如，图8A的起居空间)中，存在一组自然活动区，人们可以在其中执行任务或活动，或者跨越阈值。在一些示例中，这些区域在本文中可以被称为用户区，可以由用户定义，而无需指定几何位置的坐标或其它标记。在图8A中所示的示例中，用户区可以包括：

1.厨房水槽和食物准备区(在起居空间的左上区域)；

2.冰箱门(在水槽和食物准备区的右侧)；

3.用餐区(在起居空间的左下区域)；

4.起居空间的开放区域(水槽和食物准备区和用餐区的右侧)；

5.电视沙发(在开放区域的右侧)；

6.电视本身；

7.桌子；以及

8.门区或入口通道(在起居空间的右上区域)。

根据一些实施例，估计归因于用户的声音(例如，讲话或噪声)在何处出现或起源的系统可以对估计具有某个确定的置信度(或多个假设)。例如，如果用户碰巧靠近系统环境的区之间的边界，那么用户位置的不确定估计可以包括用户在每个区中的确定的置信度。

图8B示出了音频环境的另一个示例。在图8B中，环境809(声学空间)包括说出直接讲话802的用户(801)，以及包括一组智能音频设备(803和805)、用于音频输出的扬声器和麦克风的系统的示例。该系统可以根据本公开的实施例来配置。用户801(本文有时称为说话者)说出的讲话可以在编排的时频间隙中被系统的(一个或多个)要素识别。

更具体而言，图8B系统的要素包括：

802：直接本地语音(由用户801产生)；

803：语音助理设备(耦合到一个或多个扩音器)。设备803比设备805更靠近用户801，因此设备803有时被称为“近”设备，而设备805被称为“远”设备；

804：近设备803中(或耦合到近设备803)的多个麦克风；

805：语音助理设备(耦合到一个或多个扩音器)；

806：远设备805中(或耦合到远设备805)的多个麦克风；

807：家用电器(例如，电灯)；以及

808：家用电器807中(或耦合到家用电器807)的多个麦克风。在一些示例中，每个麦克风808可以被配置用于与被配置为实现分类器的设备(在一些情况下其可以是设备803或805中的至少一个)通信。

图8B系统还可以包括至少一个分类器。例如，设备803(或设备805)可以包括分类器。可替代地或附加地，分类器可以由可被配置用于与设备803和/或805通信的另一个设备来实现。在一些示例中，分类器可以由另一个本地设备(例如，环境809内的设备)实现，而在其它示例中，分类器可以由位于环境809外部的远程设备(例如，服务器)实现。

在一些实施方式中，控制系统(例如，图1C的控制系统160)可以被配置用于实现分类器，例如，诸如本文公开的那些。可替代地或附加地，控制系统160可以被配置用于至少部分地基于来自分类器的输出来确定用户当前所在的用户区的估计。

图8C是概述可以由诸如图1C中所示的装置执行的方法的一个示例的流程图。与本文描述的其它方法一样，方法830的方框不一定按指示的次序执行。而且，此类方法可以包括比所示出和/或描述的方框更多或更少的方框。在这个实施方式中，方法830涉及估计用户在环境中的位置。

在这个示例中，方框835涉及从环境中的多个麦克风中的每个麦克风接收输出信号。在这种情况下，多个麦克风中的每一个驻留在环境的麦克风位置中。根据这个示例，输出信号与在回放内容中的编排的间隙期间测得的用户的当前话语对应。例如，方框835可以涉及控制系统(诸如图1C的控制系统160)经由接口系统(诸如图1C的接口系统155)从环境中的多个麦克风中的每个麦克风接收输出信号。

在一些示例中，环境中的麦克风中的至少一些可以提供相对于一个或多个其它麦克风提供的输出信号异步的输出信号。例如，多个麦克风中的第一麦克风可以根据第一样本时钟对音频数据进行采样，而多个麦克风中的第二麦克风可以根据第二样本时钟对音频数据进行采样。在一些情况下，环境中的至少一个麦克风可以被包括在智能音频设备中或被配置为与智能音频设备通信。

根据这个示例，方框840涉及从每个麦克风的输出信号确定多个当前声学特征。在这个示例中，“当前声学特征”是从方框835的“当前话语”中导出的声学特征。在一些实施方式中，方框840可以涉及从一个或多个其它设备接收多个当前声学特征。例如，方框840可以涉及从由一个或多个其它设备实现的一个或多个讲话检测器接收多个当前声学特征中的至少一些。可替代地或附加地，在一些实施方式中，方框840可以涉及从输出信号确定多个当前声学特征。

无论声学特征是由单个设备还是多个设备确定的，都可以异步地确定声学特征。如果声学特征由多个设备确定，那么声学特征一般将被异步地确定，除非设备被配置为协调确定声学特征的过程。如果声学特征由单个设备确定，那么在一些实施方式中，声学特征仍然可以被异步地确定，因为单个设备可以在不同时间接收每个麦克风的输出信号。在一些示例中，声学特征可以被异步地确定，因为环境中的麦克风中的至少一些可以提供相对于一个或多个其它麦克风提供的输出信号异步的输出信号。

在一些示例中，声学特征可以包括与在输出回放信号中的编排的间隙期间测得的讲话对应的讲话置信度度量。

可替代地或附加地，声学特征可以包括以下一项或多项：

·针对人类讲话加权的频带中的带功率。例如，声学特征可以仅基于特定频带(例如，400Hz-1.5kHz)。在这个示例中，可以忽略更高和更低的频率。

·每个带或每个区间的语音活动检测器对与回放内容中编排的间隙对应的频带或区间的置信度。

·声学特征可以至少部分地基于长期噪声估计，以便忽略信噪比差的麦克风。

·峰度作为讲话峰值的测量。峰度可以是长混响尾巴拖尾的指示器。

根据这个示例，方框845涉及将分类器应用于多个当前声学特征。在一些此类示例中，应用分类器可以涉及应用在从用户在环境中的多个用户区中做出的多个先前话语导出的先前确定的声学特征上训练的模型。本文提供了各种示例。

在一些示例中，用户区可以包括水槽区、食物准备区、冰箱区、就餐区、沙发区、电视区、卧室区和/或门口区。根据一些示例，用户区中的一个或多个可以是预先确定的用户区。在一些此类示例中，一个或多个预先确定的用户区在训练过程期间可以已经由用户可选择。

在一些实施方式中，应用分类器可以涉及应用在先前话语上训练的高斯混合模型。根据一些此类实施方式，应用分类器可以涉及应用在归一化的讲话置信度、归一化的平均接收水平或先前话语的最大接收水平中的一个或多个上训练的高斯混合模型。但是，在替代实施方式中，应用分类器可以基于不同的模型，诸如本文公开的其它模型之一。在一些情况下，可以使用标记有用户区的训练数据来训练模型。但是，在一些示例中，应用分类器涉及应用使用未标记用户区的未标记训练数据训练的模型。

在一些示例中，先前话语可能已经是或可能已经包括讲话话语。根据一些此类示例，先前话语和当前话语可以是同一讲话的话语。

在这个示例中，方框850涉及至少部分地基于来自分类器的输出来确定用户当前所在的用户区的估计。在一些此类示例中，可以在不参考多个麦克风的几何位置的情况下确定估计。例如，可以在不参考各个麦克风的坐标的情况下确定估计。在一些示例中，可以在不估计用户的几何位置的情况下确定估计。但是，在替代实施方式中，位置估计可以涉及估计一个或多个人和/或一个或多个音频设备在音频环境中的几何位置，例如，参考坐标系。

方法830的一些实施方式可以涉及根据估计的用户区选择至少一个扬声器。一些此类实施方式可以涉及控制至少一个所选择的扬声器向估计的用户区提供声音。可替代地或附加地，方法830的一些实施方式可以涉及根据估计的用户区选择至少一个麦克风。一些此类实施方式可以涉及将由至少一个所选择的麦克风输出的信号提供给智能音频设备。

图9呈现了用于编排的间隙插入的系统的一个示例的框图。图9的系统包括音频设备901a，音频设备901a是图1C的装置150的实例，并且包括被配置为实现噪声估计子系统(噪声估计器)64、噪声补偿增益应用子系统(噪声补偿子系统)62以及强制间隙应用子系统(强制间隙应用器)70的控制系统160a。在这个示例中，音频设备901b-901n也存在于回放环境E中。在这个实施方式中，音频设备901b-901n中的每一个都是图1C的装置150的实例，并且每个都包括被配置为实现噪声估计子系统64、噪声补偿子系统62和强制间隙应用子系统70的实例的控制系统。

根据这个示例，图9的系统还包括编排设备905，编排设备905也是图1C的装置150的实例。在一些示例中，编排设备905可以是回放环境的音频设备，诸如智能音频设备。在一些此类示例中，编排设备905可以经由音频设备901a-901n之一来实现。在其它示例中，编排设备905可以是另一种类型的设备，诸如本文称为智能家居集线器的设备。根据这个示例，编排设备905包括控制系统，该控制系统被配置为从音频设备901a-901n接收噪声估计910a-910n并且向音频设备901a-901n提供紧迫性信号915a-915n以控制强制间隙应用器70的每个相应实例。在这个实施方式中，强制间隙应用器70的每个实例被配置为基于紧迫性信号915a-915n来确定是否插入间隙，以及如果要插入，那么插入什么类型的间隙。

根据这个示例，音频设备901a-901n还被配置为向编排设备905提供当前间隙数据920a-920n，指示音频设备901a-901n中的每一个正在实现什么间隙(如果有的话)。在一些示例中，当前间隙数据920a-920n可以指示音频设备正在应用的一系列间隙和对应的时间(例如，每个间隙或所有间隙的起始时间和时间间隔)。在一些实施方式中，编排设备905的控制系统可以被配置为维护指示例如最近间隙数据、哪些音频设备已经接收到最近的紧迫性信号等的数据结构。在图9的系统中，强制间隙应用子系统70的每个实例响应于紧迫性信号915a-915n而操作，使得编排设备905基于回放信号中的间隙的需要来控制强制间隙插入。

根据一些示例，紧迫性信号915a-915n可以指示一系列紧迫性值集合[U₀，U₁，...U_N]，其中N是子系统70可以在其中插入强制间隙的(回放信号的整个频率范围的频带的)频带的预定数量(例如，在每个带中插入一个强制间隙)，并且U_i是子系统70可以在其中插入强制间隙的第“i”个带的紧迫性值。每个紧迫性值集合(与时间对应)的紧迫性值可以根据任何公开的用于确定紧迫性的实施例来生成，并且可以指示(在该时间)在N个带中(由子系统70)插入强制间隙的紧迫性。

在一些实施方式中，紧迫性信号915a-915n可以指示固定的(时间不变的)紧迫性值集合[U₀，U₁，...U_N]，其由定义N个频带中的每一个的间隙插入概率的概率分布确定。根据一些示例，概率分布是用伪随机机制实现的，因此结果(子系统70的每个实例的响应)在所有接收方音频设备901a-901n上是确定性的(相同的)。因此，响应于这种固定的紧迫性值集合，子系统70可以被配置为在具有较低紧迫性值(即，由伪随机概率分布确定的较低概率值)的那些带中插入较少的强制间隙(平均而言)，并在具有较高紧迫性值(即，较高概率值)的那些带中插入较多的强制间隙(平均而言)。在一些实施方式中，紧迫性信号915a-915n可以指示一系列紧迫性值集合[U₀，U₁，...U_N]，例如，针对该序列中的每个不同时间的不同紧迫性值集合。每个这样的不同紧迫性值集合可以由针对不同时间中的每个时间的不同伪随机概率分布来确定。

我们接下来描述用于确定紧迫性值或指示紧迫性值的信号(U)的方法(其可以在所公开的遍布式聆听方法的许多不同实施例中的任何一个中实现)。

频带的紧迫性值指示需要在带中强制间隙。我们给出了用于确定紧迫性值U_k的三种策略，其中U_k表示在带k中强制间隙插入的紧迫性，并且U表示包含用于B_count个频带的集合的所有带的紧迫性值的向量：

U＝[U₀，U_l，U₂，…].

第一种策略(本文有时称为方法1)确定固定的紧迫性值。这个方法最简单，简单地允许紧迫性向量U成为预先确定的固定量。当与固定的感知自由度量一起使用时，这可以被用于实现随时间随机插入强制间隙的系统。一些此类方法不要求由遍布式聆听应用提供的时间相关的紧迫性值。因此：

U＝[u₀，u₁，u₂，…，u_X]

其中X＝B_count，并且每个值u_k(对于从k＝1到k＝B_count范围内的k)表示用于“k”带的预定的、固定的紧迫性值。将所有u_k设置为1.0将在所有频带中表达同等程度的紧迫性。

第二种策略(有时在本文中称为方法2)确定取决于自从先前间隙出现起经过的时间的紧迫性值。在一些实施方式中，紧迫性随时间逐渐增加，并且一旦强制或现有间隙引起遍布式聆听结果的更新(例如，背景噪声估计更新)，就返回到低值。

因此，每个频带(带k)中的紧迫性值U_k可以与自从带k中(遍布式聆听者)感知到间隙起的持续时间(例如，秒数)对应。在一些示例中，每个频带中的紧迫性值U_k可以确定如下：

U_k(t)＝min(t-t_g，U_max)

其中t_g表示看到带k的最后一个间隙的时间，并且U_max表示将紧迫性限制为最大尺寸的调谐参数。应当注意的是，t_g可以基于回放内容中最初存在的间隙进行更新。例如，在噪声补偿中，回放环境中的当前噪声状况可以确定什么被认为是输出回放信号中的间隙。即，相比于环境更嘈杂的情况，当环境安静时回放信号必须更安静才能出现间隙。同样，当实现依赖于在回放环境中出现或不出现用户的讲话话语的遍布式聆听方法时，通常由人类的讲话语占用的频带的紧迫性通常更重要。

第三种策略(本文有时称为方法3)确定基于事件的紧迫性值。在这个上下文中，“基于事件”表示依赖于回放环境外部的某个事件或活动(或对信息的需求)，或者被检测或推断为已在回放环境中发生。由遍布式聆听子系统确定的紧迫性会随着新用户行为的开始或回放环境状况的改变而突然变化。例如，这种改变会使得一个或多个被配置用于遍布式聆听的设备迫切需要观察背景活动以便做出决定，或快速调整回放体验以适应新的状况，或实现一般紧迫性或期望密度和每个带中的间隙之间的时间的改变。下面的表3提供了上下文和场景的多个示例以及对应的基于事件的紧迫性的改变：

/>

表3

第四种策略(有时在本文中称为方法4)使用方法1、2和3中的两种或更多种的组合来确定紧迫性值。例如，方法1、2和3中的每一种都可以组合成联合策略，由以下类型的通用公式表示：

U_k(t)＝u_k*min(t-t_g，U_max)*V_k

其中u_k表示控制每个频带的相对重要性的固定无单位加权因子，V_k表示响应于要求快速更改紧迫性的上下文或用户行为的改变而调制的标量值，并且t_g和U_max定义如上。在一些示例中，值V_k预期在正常操作下保持在值1.0。

在多设备上下文的一些示例中，音频环境的智能音频设备的强制间隙应用器可以以编排的方式协作以实现对环境噪声N的准确估计。在一些此类实施方式中，确定在时间和频率上何处引入强制间隙可以由分离的编排设备(诸如本文别处所称的智能家居集线器)实现的编排设备905来实现。在一些替代实施方式中，可以由充当领导者的智能音频设备之一(例如，充当编排设备905的智能音频设备)来确定在时间和频率上何处引入强制间隙。

在一些实施方式中，编排设备905可以包括控制系统，该控制系统被配置为接收噪声估计910a-910n并且向音频设备901a-901n提供可以至少部分地基于噪声估计910a–910n的间隙命令。在一些此类示例中，编排设备905可以提供间隙命令而不是紧迫性信号。根据一些此类实施方式，强制间隙应用器70不需要基于紧迫性信号来确定是否插入间隙，以及如果插入，那么插入什么类型的间隙，而是可以改为根据间隙命令简单地行动。

在一些此类实施方式中，间隙命令可以指示要插入的一个或多个特定间隙的特性(例如，频率范围或B_count、Z、t1、t2和/或t3)以及用于插入一个或多个特定间隙的(一个或多个)时间。例如，间隙命令可以指示一系列间隙和对应的时间间隔，诸如图3B-3J中所示和上文所述的那些之一。在一些示例中，间隙命令可以指示数据结构，接收音频设备可以从该数据结构访问要插入的间隙序列和对应的时间间隔的特性。数据结构可以例如先前已经提供给接收音频设备。在一些此类示例中，编排设备905可以包括控制系统，该控制系统被配置为进行紧迫性计算以确定何时发送间隙命令以及发送什么类型的间隙命令。

根据一些示例，紧迫性信号可以至少部分地由音频设备901a-901n中的一个或多个的噪声估计元件64估计并且可以被传输到编排设备905。在一些示例中，可以至少部分地由来自音频设备901a-901n中的一个或多个的这些紧迫性信号的聚合来确定在特定频率区域和时间位置上编排强制间隙的决定。例如，根据紧迫性做出选择的所公开的算法可以改为使用跨多个音频设备的紧迫性信号计算的最大紧迫性，例如，紧迫性＝maximum(紧迫性A，紧迫性B，紧迫性C，...)，其中紧迫性A/B/C被理解为实现噪声补偿的三个分离的示例设备的紧迫性信号。

噪声补偿系统(例如，图9的系统)可以在微弱或不存在的回声消除下运行(例如，当按照美国临时专利申请No.62/663,302中的描述实现时，该申请通过引用并入本文)，但是会受到内容相关响应时间的影响，尤其是在音乐、电视和电影内容的情况下。噪声补偿系统响应回放环境中背景噪声分布的改变所花费的时间对于用户体验来说可以非常重要，有时甚至比实际噪声估计的准确性更重要。当回放内容提供很少或没有间隙来瞥见背景噪声时，即使噪声状况改变，噪声估计也可以保持不变。虽然在噪声估计谱中内插和插补缺失值通常是有帮助的，但噪声估计谱的大区域仍然有可能变得锁定和陈旧。

图9系统的一些实施例可以可操作为(在回放信号中)提供足够频繁地出现(例如，在强制间隙应用器70的输出的所关注的每个频带中)的强制间隙，背景噪声估计(通过噪声估计器64)可以足够频繁地更新以响应回放环境E中背景噪声N的轮廓的典型改变。在一些示例中，子系统70可以被配置为在从噪声补偿子系统62输出的经补偿的音频回放信号(具有K个通道，其中K是正整数)中引入强制间隙。在此，噪声估计器64可以被配置为搜索经补偿的音频回放信号的每个通道中的间隙(包括由子系统70插入的强制间隙)，并且生成针对其中间隙发生的频带(和时间间隔)的噪声估计。在这个示例中，音频设备901a的噪声估计器64被配置为向噪声补偿子系统62提供噪声估计910a。根据一些示例，音频设备901a的噪声估计器64还可以被配置为使用关于检测到的间隙的所得信息来生成(并提供给编排设备905)估计的紧迫性信号，其紧迫性值跟踪在经补偿的音频回放信号的频带中插入强制间隙的紧迫性。

在这个示例中，噪声估计器64被配置为接受麦克风馈送Mic(回放环境E中麦克风M的输出)和经补偿的音频回放信号的参考(回放环境E中扬声器系统S的输入)。根据这个示例，在子系统64中生成的噪声估计被提供给噪声补偿子系统62，噪声补偿子系统62将补偿增益应用到输入回放信号23(来自内容源22)以将其每个频带调平到期望的回放水平。在这个示例中，经噪声补偿的音频回放信号(来自子系统62的输出)和每个带的紧迫性度量(由从编排设备905输出的紧迫性信号指示)被提供给强制间隙应用器70，强制间隙应用器70强制经补偿的回放信号中的间隙(优选地根据优化过程)。各自指示经噪声补偿的回放信号(从强制间隙应用器70输出)的不同通道的内容的(一个或多个)扬声器馈送被提供给扬声器系统S的每个扬声器。

虽然图9系统的一些实施方式可以执行回声消除作为其执行的噪声估计的要素，但是图9系统的其它实施方式不执行回声消除。因而，图9中未具体示出用于实现回声消除的要素。

在图9中，没有示出信号的时域到频域(和/或频域到时域)变换，但是噪声补偿增益的应用(在子系统62中)、用于间隙强制的内容的分析(在编排设备905、噪声估计器64和/或强制间隙应用器70中)和强制间隙的插入(通过强制间隙应用器70)可以为了方便在同一变换域中实现，所得到的输出音频在回放之前被重新合成为PCM(时域)音频或进一步编码以供传输。根据一些示例，每个参与设备使用本文别处描述的方法来协调这种间隙的强制。在一些此类示例中，引入的间隙可以是完全相同的。在一些示例中，引入的间隙可以是同步的。

通过使用存在于每个参与设备上的强制间隙应用器70，插入间隙，可以增加经补偿的回放信号(从图9系统的噪声补偿子系统62输出)的每个通道中的间隙数量(相对于在不使用强制间隙应用器70的情况下会出现的间隙数量)，以便显著降低对图9系统实现的任何回声消除器的要求，并且在一些情况下甚至完全消除对回声消除的需要。

在一些公开的实施方式中，可以在强制间隙应用器70和扬声器系统S之间实现简单的后处理电路系统，诸如时域峰限制或扬声器保护。但是，具有提升和压缩扬声器馈送的能力的后处理有可能取消或降低由强制间隙应用器插入的强制间隙的质量，因此这些类型的后处理优选地在强制间隙应用器70之前的信号处理路径中的点处实现。

图10是概述所公开方法的另一个示例的流程图。与本文描述的其它方法一样，方法1000的方框不一定按指示的次序执行。而且，此类方法可以包括比所示出和/或描述的方框更多或更少的方框。在这个示例中，方法1000是音频处理方法。

方法1000可以由装置或系统(诸如图1C中所示和上文描述的装置150)执行。在一些示例中，方法1000的方框可以由音频环境内的一个或多个设备执行，例如，由诸如音频系统控制器(例如，本文称为智能家居集线器)的编排设备或由音频系统的另一个组件(诸如智能扬声器、电视、电视控制模块、膝上型计算机、移动设备(诸如蜂窝电话)等)执行。在一些实施方式中，音频环境可以包括家庭环境的一个或多个房间。在其它示例中，音频环境可以是另一种类型的环境，诸如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。但是，在替代实施方式中，方法1000的至少一些方框可以由实现基于云的服务的设备(诸如服务器)执行。

在这个实施方式中，方框1005涉及由控制系统使第一间隙在内容流的第一时间间隔期间被插入到内容流的第一音频回放信号的第一频率范围中，以生成用于音频环境的第一音频设备的第一修改音频回放信号。在这个示例中，第一间隙与第一频率范围中的第一音频回放信号的衰减对应。在这个示例中，方框1010涉及由控制系统使第一音频设备回放第一修改音频回放信号，以生成第一音频设备回放声音。

在这个示例中，方框1015涉及由控制系统使第一间隙在内容流的第一时间间隔期间被插入到内容流的第二音频回放信号的第一频率范围中，以生成用于音频环境的第二个音频设备的第二修改音频回放信号。根据这个示例，方框1020涉及由控制系统使第二音频设备回放第二修改音频回放信号，以生成第二音频设备回放声音。

根据这个实施方式，方框1025涉及由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音并且生成与至少第一音频设备回放声音和第二音频设备回放声音对应的麦克风信号。在这个示例中，方框1030涉及由控制系统从至少第一频率范围中的麦克风信号中提取音频数据，以产生提取的音频数据。根据这个实施方式，方框1035涉及由控制系统至少部分地基于提取的音频数据来估计远场音频环境脉冲响应或音频环境噪声中的至少一个。

在一些实施方式中，方法1000可以涉及使目标音频设备回放内容流的未修改音频回放信号，以生成目标音频设备回放声音。一些此类实施方式可以涉及由控制系统至少部分地基于提取的音频数据来估计目标音频设备可听度或目标音频设备位置中的至少一个。在一些此类示例中，未修改音频回放信号不包括第一间隙。在一些情况下，未修改音频回放信号不包括被插入任何频率范围中的间隙。在一些此类示例中，麦克风信号还与目标音频设备回放声音对应。

根据一些实施方式，生成第一修改音频回放信号可以涉及由控制系统使第二至第N间隙在内容流的第二至第N时间间隔期间被插入到第一音频回放信号的第二至第N频率范围中。在一些此类示例中，生成第二修改音频回放信号可以涉及由控制系统使第二至第N间隙在内容流的第二至第N时间间隔期间被插入到第二音频回放信号的第二至第N频率范围中。根据一些示例，至少第一间隙(在一些情况下所有间隙)可以被感知掩蔽。

在一些实施方式中，方法1000可以涉及由控制系统使第一间隙在内容流的第一时间间隔期间被插入到内容流的第三至第M音频回放信号的第一频率范围中，以生成用于音频环境的第三至第M音频设备的第三至第M修改音频回放信号。一些此类示例可以涉及由控制系统使第三至第M音频设备回放第三至第M修改音频回放信号的对应实例，以生成第三至第M音频设备回放声音，其中生成麦克风信号涉及由控制系统使音频环境的至少一个麦克风检测第三至第M音频设备回放声音。在一些此类示例中，生成第一至第M修改音频回放信号涉及由控制系统使第二至第N间隙在内容流的第二至第N时间间隔期间被插入到第一至第N音频回放信号的第二至第N频率范围中。

在一些示例中，至少第一频率范围可以与频带对应。在一些此类示例中，频带可以是在梅尔标度上等间隔的多个频带之一。但是，在一些情况下，至少第一频率范围可以与频率区间对应。

在一些实施方式中，方法1000可以涉及使参考区间被从第一设备发送到第二设备。在一些示例中，第一设备可以是目标设备。例如，参考区间可以与第一频率范围内的目标设备的输出对应。

根据一些示例，使第一间隙被插入可以涉及传输插入第一间隙的指令。在一些替代实施方式中，使第一间隙被插入可以涉及插入第一间隙。

在一些实施方式中，使第一音频设备回放第一修改音频回放信号可以涉及向第一音频设备传输回放第一修改音频回放信号的指令。根据一些示例，第一修改音频回放信号和第二修改音频回放信号可以至少部分地相关。

本公开的一些方面包括被配置(例如，编程)为执行所公开方法的一个或多个示例的系统或设备，以及存储用于实现所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，盘)。例如，一些公开的系统可以是或包括可编程的通用处理器、数字信号处理器或微处理器，用软件或固件编程和/或以其它方式被配置为对数据执行多种操作中的任何一种，包括所公开方法的实施例或其步骤。这样的通用处理器可以是或包括计算机系统，该计算机系统包括输入设备、存储器和处理子系统，该处理子系统被编程(和/或以其它方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。

一些实施例可以被实现为可配置的(例如，可编程的)数字信号处理器(DSP)，其被配置(例如，编程的或以其它方式配置)为对(一个或多个)音频信号执行所需的处理，包括所公开的方法的一个或多个示例的执行。可替代地，所公开系统(或其要素)的实施例可以被实现为通用处理器(例如，个人计算机(PC)或其它计算机系统或微处理器，其可以包括输入设备和存储器)，其用软件或固件编程和/或以其它方式配置以执行多种操作中的任何一种，包括所公开方法的一个或多个示例。可替代地，本发明系统的一些实施例的要素可以被实现为配置(例如，编程)为执行所公开方法的一个或多个示例的通用处理器或DSP，并且该系统还包括其它要素(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置为执行所公开方法的一个或多个示例的通用处理器可以耦合到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，盘或其它有形存储介质)，其存储用于执行(例如，可执行的代码以执行)所公开的方法或其步骤的一个或多个示例的代码。

虽然本文已经描述了本公开的具体实施例和本公开的应用，但是对于本领域的普通技术人员来说显而易见的是，在不脱离所描述的公开的范围的情况下，可以对本文描述的实施例和应用进行许多变化并在本文要求保护。应当理解的是，虽然已经示出和描述了本公开的某些形式，但是本公开不限于所描述和示出的特定实施例或所描述的特定方法。

Claims

1.一种音频处理方法，包括：

由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第一音频回放信号的第一频率范围中，以生成用于音频环境的第一音频设备的第一修改音频回放信号，第一间隙包括第一频率范围内的第一音频回放信号的衰减；

由控制系统使第一音频设备回放第一修改音频回放信号，以生成第一音频设备回放声音；

由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第二音频回放信号的第一频率范围内，以生成用于音频环境的第二音频设备的第二修改音频回放信号；

由控制系统使第二音频设备回放第二修改音频回放信号，以生成第二音频设备回放声音；

由控制系统使音频环境的至少一个麦克风检测至少第一音频设备回放声音和第二音频设备回放声音并且生成与至少第一音频设备回放声音和第二音频设备回放声音对应的麦克风信号；

由控制系统在至少第一频率范围中从麦克风信号中提取音频数据，以产生提取的音频数据；以及

由控制系统至少部分地基于提取的音频数据来估计远场音频环境脉冲响应或音频环境噪声中的至少一个。

2.如权利要求1所述的音频处理方法，还包括：

使目标音频设备回放内容流的未修改音频回放信号，以生成目标音频设备回放声音；以及

由控制系统至少部分地基于提取的音频数据来估计目标音频设备可听度或目标音频设备位置中的至少一个，其中：

未修改音频回放信号不包括第一间隙；并且

麦克风信号也与目标音频设备回放声音对应。

3.如权利要求2所述的音频处理方法，其中所述未修改音频回放信号不包括插入到任何频率范围中的间隙。

4.如权利要求1-3中的任一项所述的音频处理方法，其中：

生成第一修改音频回放信号涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第一音频回放信号的第二至第N频率范围中；以及

生成第二修改音频回放信号涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第二音频回放信号的第二至第N频率范围中。

5.如权利要求1-3中的任一项所述的音频处理方法，还包括：

由控制系统使得在内容流的第一时间间隔期间第一间隙被插入到内容流的第三至第M音频回放信号的第一频率范围中，以生成用于音频环境的第三至第M音频设备的第三至第M修改音频回放信号；以及

由控制系统使第三至第M音频设备回放第三至第M修改音频回放信号的对应实例，以生成第三至第M音频设备回放声音，其中生成麦克风信号涉及由控制系统使得音频环境的所述至少一个麦克风检测第三至第M音频设备回放声音。

6.如权利要求5所述的音频处理方法，其中生成第一至第M修改音频回放信号涉及由控制系统使得在内容流的第二至第N时间间隔期间第二至第N间隙被插入到第一至第M音频回放信号的第二至第N频率范围中。

7.如权利要求1-6中的任一项所述的音频处理方法，其中至少第一间隙被感知掩蔽。

8.如权利要求1-7中的任一项所述的音频处理方法，其中至少第一频率范围与频带对应。

9.如权利要求8所述的音频处理方法，其中所述频带是在梅尔标度上等间隔的多个频带之一。

10.如权利要求1-11中的任一项所述的音频处理方法，其中至少第一频率范围与频率区间对应。

11.如权利要求1-10中的任一项所述的音频处理方法，还包括使参考区间从第一设备发送到第二设备，所述参考区间与第一频率范围中的目标设备的输出对应。

12.如权利要求1-11中的任一项所述的音频处理方法，其中使得第一间隙被插入包括传输插入第一间隙的指令或插入第一间隙。

13.如权利要求1-12中的任一项所述的音频处理方法，其中使第一音频设备回放第一修改音频回放信号包括向第一音频设备传输回放第一修改音频回放信号的指令。

14.如权利要求1-13中的任一项所述的音频处理方法，其中第一修改音频回放信号和第二修改音频回放信号至少部分地相关。

15.一种装置，被配置为执行如权利要求1-14中的任一项所述的音频处理方法。

16.一种系统，被配置为执行如权利要求1-14中的任一项所述的音频处理方法。

17.一种或多种存储有软件的非暂态介质，所述软件包括用于控制一个或多个设备执行如权利要求1-14中的任一项所述的音频处理方法的指令。