CN116806431A

CN116806431A - 通过相互设备可听性在用户位置处的可听性

Info

Publication number: CN116806431A
Application number: CN202180089842.7A
Authority: CN
Inventors: M·R·P·托马斯; D·阿特亚加; C·G·海因斯; D·斯卡伊尼; B·J·索斯韦尔; A·布鲁尼; O·M·汤森德
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2020-12-03
Filing date: 2021-12-02
Publication date: 2023-09-26
Also published as: CN116830599A

Abstract

一些方法涉及：使音频环境中的多个音频设备再现音频数据，所述多个音频设备中的每个音频设备包括至少一个扩音器和至少一个麦克风；确定包括所述多个音频设备中的每个音频设备的音频设备位置的音频设备位置数据；以及从所述多个音频设备中的每个音频设备获得麦克风数据。一些方法涉及：确定所述多个音频设备中的每个音频设备相对于所述多个音频设备中的每个其他音频设备的相互可听性；确定所述音频环境中的人的用户位置；确定所述多个音频设备中的每个音频设备在所述用户位置处的用户位置可听性；以及至少部分地基于所述用户位置可听性来控制音频设备回放的一个或多个方面。

Description

通过相互设备可听性在用户位置处的可听性

相关申请的交叉引用

本申请要求以下优先权：

2020年12月3日提交的美国临时申请号63/121,007；

2021年9月28日提交的美国临时申请号63/261,769；

2021年7月26日提交的西班牙专利申请号P202130724；

2020年12月3日提交的美国临时申请号63/120,887；

2021年5月4日提交的美国临时申请号63/201,561；

2020年12月3日提交的西班牙专利申请号P202031212；

2021年5月20日提交的西班牙专利申请号P202130458；

2021年3月2日提交的美国临时申请号63/155,369；

2021年7月21日提交的美国临时申请号63/203,403；

2021年7月22日提交的美国临时申请号63/224,778；

每个申请特此通过援引以其全文并入。

技术领域

本公开涉及用于确定用户位置处的可听性并且用于根据所述用户位置处的可听性处理音频以进行回放的设备、系统和方法。

背景技术

音频设备被广泛地部署在许多家庭、车辆和其他环境中。尽管用于控制音频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

贯穿本公开，包括在权利要求书中，术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

贯穿本公开，包括在权利要求中，在广义上使用“对(on)”信号或数据执行操作的表达(例如，对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)为对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

如本文所使用的，“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备，其通常被配置用于经由如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出如人工智能等普适计算的一些性质的设备。

在本文中，使用表达“智能音频设备”来表示智能设备，其是单一用途音频设备或多用途音频设备(例如，智能扬声器或实施虚拟助理功能的至少一些方面的其他音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，电视(TV))。例如，尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数实例中，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说，具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在一定区或用户配置区域上播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备(例如，智能扬声器)，尽管虚拟助理功能的其他方面可以由如一个或多个服务器等一个或多个其他设备来实施，多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说，虚拟助理功能的至少一些方面(例如，言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以经由网络(如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以在其中之一(例如，最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中，连接的虚拟助理可以形成一种星座，所述星座可以由一个主应用程序管理，所述主应用程序可以是(或实施)虚拟助理。

如本文所使用的，术语“节目流”和“内容流”是指一个或多个音频信号的集合，并且在一些实例中是指视频信号的集合，所述信号集合的至少部分是旨在要一起听到的。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、现场语音通话、来自智能助理的合成语音响应等。在一些实例中，内容流可以包括音频信号的至少一部分的多个版本，例如，超过一种语言的同一对话。在这样的实例中，一次旨在再现音频数据或其部分的仅一个版本(例如，与单一语言相对应的版本)。

发明内容

本公开的至少一些方面可以经由方法来实施。一些这样的方法可以涉及由控制系统使音频环境中的多个音频设备再现音频数据。所述多个音频设备中的每个音频设备可以包括至少一个扩音器和至少一个麦克风。一些这样的方法可以涉及由所述控制系统确定包括所述多个音频设备中的每个音频设备的音频设备位置的音频设备位置数据。一些这样的方法可以涉及由所述控制系统从所述多个音频设备中的每个音频设备获得麦克风数据。所述麦克风数据可以至少部分地与由所述音频环境中的其他音频设备的扩音器再现的声音相对应。

一些这样的方法可以涉及由所述控制系统确定所述多个音频设备中的每个音频设备相对于所述多个音频设备中的每个其他音频设备的相互可听性。一些这样的方法可以涉及由所述控制系统确定所述音频环境中的人的用户位置。一些这样的方法可以涉及由所述控制系统确定所述多个音频设备中的每个音频设备在所述用户位置处的用户位置可听性。

一些这样的方法可以涉及至少部分地基于所述用户位置可听性来控制音频设备回放的一个或多个方面。在一些示例中，音频设备回放的一个或多个方面可以包括调平和/或均衡。

在一些实施方式中，确定所述音频设备位置数据可以涉及音频设备自动定位过程。在一些这样的实施方式中，所述音频设备自动定位过程可以涉及获得所述多个音频设备中的每个音频设备的到达方向数据。替代性地或另外地，在一些示例中，所述音频设备自动定位过程可以涉及获得所述多个音频设备中的每个音频设备的到达时间数据。根据一些实施方式，确定所述用户位置可以至少部分地基于与所述人的一个或多个话语相对应的到达方向数据和/或到达时间数据。

在一些示例中，确定每个音频设备的所述相互可听性可以涉及确定相互可听性矩阵。在一些这样的示例中，确定所述相互可听性矩阵可以涉及将相对于满刻度的分贝映射到声压级的分贝的过程。根据一些实施方式，所述相互可听性矩阵可以包括所述多个音频设备中的每个音频设备之间的所测量的传递函数。在一些示例中，所述相互可听性矩阵可以包括多个频带中的每个频带的值。

一些方法可以涉及通过对所测量的可听性数据应用插值法来确定插值相互可听性矩阵。在一些示例中，确定所述插值相互可听性矩阵可以涉及应用部分地基于距离衰变常数的衰变定律模型。在一些示例中，所述距离衰变常数可以包括每设备参数和/或音频环境参数。在一些实例中，所述衰变定律模型可以是基于频带的。根据一些示例，所述衰变定律模型可以包括临界距离参数。

一些方法可以涉及根据所述相互可听性矩阵和所述衰变定律模型的值来估计所述多个音频设备中的每个音频设备的输出增益。在一些示例中，估计每个音频设备的所述输出增益可以涉及确定所述相互可听性矩阵和所述衰变定律模型的值函数的最小二乘解。一些方法可以涉及根据每个音频设备的所述输出增益、所述用户位置和每个音频设备位置的函数来确定所述插值相互可听性矩阵的值。在一些示例中，所述插值相互可听性矩阵的所述值可以与每个音频设备的所述用户位置可听性相对应。

一些方法可以涉及使所述插值相互可听性矩阵的频带值均衡。一些方法可以涉及将延迟补偿矢量应用于所述插值相互可听性矩阵。

根据一些实施方式，所述音频环境可以包括至少一个具有至少一个扩音器但不具有麦克风的仅输出音频设备。在一些这样的示例中，所述方法可以涉及确定所述至少一个仅输出音频设备在所述多个音频设备中的每个音频设备的所述音频设备位置处的可听性。

在一些实施方式中，所述音频环境可以包括一个或多个具有至少一个麦克风但不具有扩音器的仅输入音频设备。在一些这样的示例中，所述方法可以涉及确定所述音频环境中的每个配备扩音器的音频设备在所述一个或多个仅输入音频设备中的每一个的位置处的可听性。

在一些示例中，所述方法可以涉及由所述控制系统使所述多个音频设备中的每个音频设备将一个或多个频率范围间隙插入到由每个音频设备的一个或多个扩音器再现的音频数据中。

根据一些示例，使所述多个音频设备再现音频数据可以涉及使所述多个音频设备中的每个音频设备在所述音频环境中的所有其他音频设备不回放音频时回放音频。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备等存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以经由在其上存储有软件的一个或多个非暂态介质来实施。

本公开的至少一些方面可以经由装置来实施。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中，装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。在一些示例中，所述装置可以是音频设备，如本文公开的音频设备之一。然而，在一些实施方式中，所述装置可以是另一类型的设备，如移动设备、膝上型计算机、服务器等。在一些实施方式中，所述装置可以是编排设备(如本文中被称为智能家居中枢的编排设备)，或经由另一类型的编排设备。

在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。

图2描绘了音频环境，所述音频环境在该示例中是生活空间。

图3A、图3B和图3C是表示三种类型的所公开的实施方式的框图。

图4示出了热图的示例。

图5是示出了一个实施方式的示例的框图。

图6是概述了可以由如图1、图2和图5中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。

图7是示出了根据另一实施方式的系统的示例的框图。

图8是概述了可以由如图1、图2和图7中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。

图9示出了热图的另一示例。

图10示出了另一音频环境的平面图的示例，所述音频环境在该实例中是生活空间。

图11示出了环境中的四个音频设备之间的几何关系的示例。

图12示出了位于图11的音频环境内的音频发射器。

图13示出了位于图11的音频环境内的音频接收器。

图14是概述了可以由如图1中示出的装置等装置的控制系统执行的方法的一个示例的流程图。

图15是概述了用于基于DOA数据来自动地估计设备位置和取向的方法的示例的流程图。

图16是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的一个示例的流程图。

图17是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。

图18A示出了音频环境的示例。

图18B示出了确定收听者角取向数据的附加示例。

图18C示出了确定收听者角取向数据的附加示例。

图18D示出了根据参考图18C描述的方法来确定对音频设备坐标的适当旋转的一个示例。

图19是概述了定位方法的一个示例的流程图。

图20是概述了定位方法的另一示例的流程图。

图21A示出了音频环境的示例。

图21B是已修改的音频回放信号的频谱图的示例。

图22A是示出了频域中的间隙的示例的曲线图。

图22B是示出了时域中的间隙的示例的曲线图。

图22C示出了包括音频环境的多个音频设备的编排间隙的已修改的音频回放信号的示例。

图23A是示出了用于创建间隙的滤波器响应以及用于测量在测量会话期间使用的麦克风信号的频率区域的滤波器响应的示例的曲线图。

图23B、图23C、图23D、图23E、图23F、图23G、图23H、图23I和图23J是示出了间隙分配策略的示例的曲线图。

图24、图25A和图25B是根据一些实施方式的示出了多个音频设备如何协调测量会话的示例的流程图。

具体实施方式

图1是示出了能够实施本公开的各个方面的装置的部件的示例的框图。根据一些示例，装置100可以是或者可以包括被配置用于执行本文公开的方法中的至少一些方法的智能音频设备。在其他实施方式中，装置100可以是或者可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一设备，如膝上型计算机、蜂窝电话、平板设备、智能家居中枢等。在一些这样的实施方式中，装置100可以是或者可以包括服务器。在一些实施方式中，装置100可以被配置为实施在本文中可以被称为“编排设备”或“音频会话管理器”的设备。

在该示例中，装置100包括接口系统105和控制系统110。在一些实施方式中，接口系统105可以被配置用于与正在执行或被配置用于执行软件应用程序的一个或多个设备进行通信。这样的软件应用程序在本文中有时可以被称为“应用程序”或简称为“app”。在一些实施方式中，接口系统105可以被配置用于交换与应用程序有关的控制信息和相关联的数据。在一些实施方式中，接口系统105可以被配置用于与音频环境的一个或多个其他设备进行通信。在一些示例中，音频环境可以是家庭音频环境。在其他示例中，音频环境可以是另一类型的环境，如办公室环境、车辆环境、公园或其他户外环境等。在一些实施方式中，接口系统105可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置100被配置用于与其通信的一个或多个应用程序有关。

在一些实施方式中，接口系统105可以被配置用于接收音频节目流。音频节目流可以包括被安排由环境的至少一些扬声器再现的音频信号。音频节目流可以包括如声道数据和/或空间元数据等空间数据。在一些实施方式中，接口系统105可以被配置用于从环境中的一个或多个麦克风接收输入。

接口系统105可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统105可以包括一个或多个无线接口。接口系统105可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统105可以包括控制系统110与存储器系统(如图1中示出的可选存储器系统115)之间的一个或多个接口。然而，在一些实例中，控制系统110可以包括存储器系统。

例如，控制系统110可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑和/或离散硬件部件。

在一些实施方式中，控制系统110可以驻留在超过一个设备中。例如，控制系统110的一部分可以驻留在本文中描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境之外的如服务器、移动设备(例如，智能电话或平板计算机)等设备中。在其他示例中，控制系统110的一部分可以驻留在本文中描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境的一个或多个其他设备中。例如，控制系统功能可以跨环境的多个智能音频设备分布，或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中，接口系统105还可以驻留在多于一个设备中。

在一些实施方式中，控制系统110可以被配置用于至少部分地执行本文公开的方法。本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这样的非暂态介质可以包括如本文描述的存储器设备等存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。例如，一个或多个非暂态介质可以驻留在图1中所示出的可选存储器系统115和/或控制系统110中。因此，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，软件可以包括用于控制至少一个设备来处理音频数据的指令。例如，软件可以是可由控制系统(如图1的控制系统110)的一个或多个部件执行的。

在一些示例中，装置100可以包括图1中示出的可选麦克风系统120。可选麦克风系统120可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中，装置100可以不包括麦克风系统120。然而，在一些这样的实施方式中，装置100仍然可以被配置为经由接口系统110接收音频环境中的一个或多个麦克风的麦克风数据。

根据一些实施方式，装置100可以包括图1中示出的可选扩音器系统125。可选扩音器系统125可以包括一个或多个扩音器，所述扩音器在本文中也可以被称为“扬声器”。在一些示例中，可选扩音器系统125的至少一些扩音器可以任意地定位。例如，可选扩音器系统125的至少一些扬声器可以放置在不与任何标准规定的扩音器布局相对应的位置，如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4、杜比9.1、滨崎22.2等。在一些这样的示例中，可选扬声器系统125的至少一些扩音器可以放置在对空间方便的位置(例如，在有空间容纳扩音器的位置)，但不在任何标准规定的扩音器布局中。在一些示例中，装置100可以不包括扩音器系统125。

在一些实施方式中，装置100可以包括图1中示出的可选传感器系统129。可选传感器系统129可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式，可选传感器系统129可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，可选传感器系统129的一个或多个相机可以驻留在智能音频设备中，所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，可选传感器系统129的一个或多个相机可以驻留在TV、移动电话或智能扬声器中。在一些示例中，装置100可以不包括传感器系统129。然而，在一些这样的实施方式中，装置100仍然可以被配置为经由接口系统110接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置100可以包括图1中示出的可选显示系统135。可选显示系统135可以包括一个或多个显示器，如一个或多个发光二极管(LED)显示器。在一些实例中，可选显示系统135可以包括一个或多个有机发光二极管(OLED)显示器。在装置100包括显示系统135的一些示例中，传感器系统129可以包括接近显示系统135的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统110可以被配置用于控制显示系统135来呈现一个或多个图形用户界面(GUI)。

根据一些这样的示例，装置100可以是或者可以包括智能音频设备。在一些这样的实施方式中，装置100可以是或者可以包括唤醒词检测器。例如，装置100可以是或者可以包括虚拟助理。

采用如杜比5.1等典范扩音器布局的传统系统，假设扩音器已被放置在预定位置中并且收听者正坐在面向前声舞台(例如，面向中心扬声器)的最佳听音位置。智能扬声器(其中一些可以并入有多个驱动单元和麦克风阵列，还有包括电视和条形音箱的现有音频设备)以及新的支持麦克风和扩音器的连接设备(如灯泡和微波炉)的出现产生了问题，其中，几十个麦克风和扩音器需要相对于彼此进行定位以便实现编排。音频设备可能不再被认为位于典范布局中。在一些实例中，音频环境中的音频设备可以以不规则和/或不对称的方式随机地位于或至少可以分布在环境内。

灵活渲染是用于在任意数量的任意放置的扩音器上渲染空间音频的技术。随着智能音频设备(例如，智能扬声器)以及可以不根据任何标准典范扩音器布局定位的其他音频设备在家中的广泛部署，实施音频数据的灵活渲染和如此渲染的音频数据的回放可能是有利的。

已开发了多种技术来实施灵活渲染，包括质心振幅平移(CMAP)和灵活虚拟化(FV)。这两种技术都将渲染问题看做是成本函数最小化之一，其中，成本函数至少包括对渲染器试图实现的期望空间印象进行建模的第一项以及为激活扬声器分派成本的第二项。在于2021年2月4日公开并且名称为“MANAGING PLAYBACK OF MULTIPLE STREAMS OF AUDIOOVER MULTIPLE SPEAKERS[管理多个音频流在多个扬声器上的回放]”(见第25页第8行至第31页第27行)的国际公开号WO 2021/021707 A1中描述了CMAP、FV和其组合的详细示例，该国际公开特此通过援引并入。

被配置为根据灵活渲染方法进行操作的智能音频设备的编排系统让用户能够灵活地将音频设备放置在音频环境中的任意位置处同时仍然以令人满意的方式回放音频数据。在一些这样的示例中，这样的智能音频设备的系统可以被配置为自组织(例如，经由自动定位过程)并自动校准。在一些示例中，音频设备校准可以被概念化为具有多个层。一个层可以是几何映射，这涉及发现音频设备、用户以及可能附加噪声源和传统音频设备(如电视和/或条形音箱)的物理位置和取向，为此，在本文公开了各种方法。重要的是，为灵活渲染器提供准确的几何映射信息，以便正确地渲染声音场景。

本受让人已产生了多种扩音器定位技术，所述技术在其设计的用例中是极好的解决方案。本文中详细描述了一些这样的方法。本申请中公开的一些实施例允许基于以下项来定位音频设备集合：1)音频环境中的每一对音频设备之间的DOA，以及2)为数据类型1)的输入设计的非线性优化问题的最小化。本申请中公开的其他实施例允许基于以下项来定位智能音频设备集合：1)系统中的每一对音频设备之间的DOA，2)每一对设备之间的TOA，以及3)为数据类型1)和2)的输入设计的非线性优化问题的最小化。本文中还公开了自动地确定音频环境中的人的位置和取向的一些示例。下文描述了一些这样的方法的细节。

第二校准层可以涉及扩音器输出的调平和均衡，以便考虑各种因素，如扩音器的制造变化、音频环境中的扩音器位置和取向的影响、以及音频环境声学。在一些传统示例中，特别是对于条形音箱和音频/视频接收器(AVR)，用户可以可选地应用手动增益和均衡(EQ)曲线，或在收听位置插入专用参考麦克风以进行校准。然而，已知愿意做出这番努力的人口的比例是非常小的。因此，将期望智能设备的编排系统被配置用于自动回放水平和EQ校准而不使用参考麦克风，在本文中可以被称为可听性映射的过程。在一些示例中，几何映射和可听性映射可以形成声学映射的两个主要分量。

一些所公开的实施方式将可听性映射视为使用在音频设备与音频环境中的音频设备和一个或多个人的估计物理位置(以及在一些实例中取向)之间测量的相互可听性的稀疏插值问题。可以参考音频环境的特定示例更好地理解这样的实施方式的上下文。

图2描绘了音频环境，所述音频环境在该示例中是生活空间。与本文提供的其他图一样，图2中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。在其他示例中，音频环境可以是另一类型的环境，如办公室环境、车辆环境、公园或其他户外环境等。在该示例中，图2的元素包括以下项：

201：还可以被称为“用户”或“收听者”的人；

202：包括一个或多个扩音器和一个或多个麦克风的智能扬声器；

203：包括一个或多个扩音器和一个或多个麦克风的智能扬声器；

204：包括一个或多个扩音器和一个或多个麦克风的智能扬声器；

205：包括一个或多个扩音器和一个或多个麦克风的智能扬声器；

206：可以是噪声源的声源，所述声源位于人201和智能扬声器202至206所在的音频环境的同一房间并且具有已知位置。在一些示例中，声源206可以是如无线电等传统设备，所述传统设备并非包括智能扬声器202至206的音频系统的一部分。在一些实例中，声源206的音量可能不可由人201连续地调整并且可能不可由编排设备调整。例如，声源206的音量可能仅可通过手动过程调整，例如，经由通/断开关或通过选择功率或速度水平(例如，风扇或空调的功率或速度水平)；以及

207：可以是噪声源的声源，所述声源并未位于人201和智能扬声器202至206所在的音频环境的同一房间。在一些示例中，声源207可能不具有已知位置。在一些实例中，声源207可以是漫射的。

以下讨论涉及几个基本假设。例如，假设音频设备(如图2的智能设备102至105)的位置的估计以及收听者位置(如人101的位置)的估计是可用的。另外地，假设音频设备之间的相互可听性的度量是已知的。在一些示例中，相互可听性的这种度量可以是多个频带中的接收到的水平的形式。下文描述了一些示例。在其他示例中，相互可听性的度量可以是宽带度量，如包括仅一个频带的度量。

读者可能质疑消费者设备中的麦克风是否提供统一响应，因为不匹配的麦克风增益将增加一层模糊性。然而，大多数智能扬声器包括微机电系统(MEMS)麦克风，所述微机电系统麦克风非常匹配(最坏情况下为±3dB，但通常在±1dB内)并且具有一组有限的声学过载点，使得从数字dBFS(相对于满刻度的分贝)到dBSPL(声压级的分贝)的绝对映射可以由型号和/或设备描述符来确定。这样，可以假设MEMS麦克风为相互可听性测量提供经过良好校准的声学参考。

图3A、图3B和图3C是表示三种类型的所公开的实施方式的框图。图3A表示涉及基于音频设备之间的相互可听性、它们的物理位置、以及用户的位置来估计音频环境中的所有音频设备(例如，智能扬声器202至205的位置)在用户位置(例如，图2的人201的位置)处的可听性(在该示例中，以dBSPL为单位)的实施方式。这样的实施方式不需要在用户位置处使用参考麦克风。在一些这样的示例中，可听性可以通过扩音器驱动信号的数字水平(在该示例中，以dBFS为单位)进行归一化，以产生每个音频设备与用户之间的传递函数。根据一些示例，由图3A表示的实施方式基本上是稀疏插值问题：给定在已知位置处的一组音频设备之间测量的带状水平，应用模型以估计在收听者位置处接收的水平。

在图3A中示出的示例中，全矩阵空间可听性插值器被示出为接收设备几何形状信息(音频设备位置信息)、相互可听性矩阵(其示例在下文进行描述)和用户位置信息，并且输出插值传递函数。在该示例中，插值传递函数是从dBFS到dBSPL，这对于调平和均衡如智能设备等音频设备可能是有用的。在一些示例中，可以存在与仅输入或仅输出设备相对应的可听性矩阵中的一些空行或列。下文在下面的“全矩阵相互可听性实施方式”讨论中阐述了与图3A的示例相对应的实施细节。

图3B表示涉及基于音频设备处的不受控制点源的可听性、音频设备的物理位置、不受控制点源的位置和用户的位置来估计不受控制点源(如图2的声源206)在用户位置处的可听性(在该示例中，以dBSPL为单位)的实施方式。在一些示例中，不受控制点源可以是与音频设备和人位于同一房间的噪声源。在图3B中示出的示例中，点源空间可听性插值器被示出为接收设备几何形状信息(音频设备位置信息)、可听性矩阵(其示例在下文进行描述)和声源位置信息，并且输出插值可听性信息。

图3C表示涉及基于音频设备中的每一个处的声源的可听性、音频设备的物理位置和用户的位置来估计漫射和/或未定位和不受控制源(如图2的声源207)在用户位置处的可听性(在该示例中，以dBSPL为单位)的实施方式。在该实施方式中，假设声源的位置是未知的。在图3C中示出的示例中，朴素的空间可听性插值器被示出为接收设备几何形状信息(音频设备位置信息)和可听性矩阵(其示例在下文进行描述)，并且输出插值可听性信息。在一些示例中，图3B和图3C中引用的插值可听性信息可以指示以dBSPL为单位的插值可听性，这对于估计来自声源(例如，来自噪声源)的接收到的水平可以是有用的。通过对噪声源的接收到的水平进行插值，可以比参考由单个麦克风检测到的噪声可以实现的更准确地应用噪声补偿(例如，增加存在噪声的频带中的内容增益的过程)。

全矩阵相互可听性实施方式

表1指示以下讨论中的等式的项所表示的内容。

表1

令L为音频设备的总数，每个音频设备包含M_i个麦克风，并且令K为由音频设备报告的频谱带的总数。根据该示例，确定相互可听性矩阵包含线性单元中的所有频带中的所有设备之间的所测量的传递函数。

存在用于确定H的多个示例。然而，所公开的实施方式对于用于确定H的方法是不可知的。

确定H的一些示例可以涉及由音频设备中的每一个针对受控制源(如扫描正弦、噪声源、或策划的节目素材)依次执行的“一次性”校准的多次迭代。在一些这样的示例中，确定H可以涉及使单个智能音频设备发出声音而其他智能音频设备“收听”声音的顺序过程。

例如，参考图2，一个这样的过程可以涉及：(a)使音频设备202发出声音并从音频设备203至205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(b)使音频设备203发出声音并从音频设备202、204和205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(c)使音频设备204发出声音并从音频设备202、203和205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(d)使音频设备205发出声音并从音频设备202、203和204的麦克风阵列接收与所发出的声音相对应的麦克风数据。取决于特定实施方式，所发出的声音可以相同或可以不同。

下文详细描述的一些“连续的”校准方法涉及测量低于可听阈值的传递函数。这些示例涉及频谱打孔(在本文还被称为形成“间隙”)。

根据一些实施方式，包括多个麦克风的音频设备可以估计被平均以产生每个设备的单个可听性矩阵的多个可听性矩阵(例如，每个麦克风一个矩阵)。在一些示例中，可以检测并移除可能由出故障麦克风导致的异常数据。

如上所述，还假设音频设备在2D或3D坐标中的空间位置x_i是可用的。在下文描述了用于基于到达时间(TOA)、到达方向(DOA)和DOA与TOA的组合来确定设备位置的一些示例。在其他示例中，音频设备的空间位置x_i可以通过例如使用测量带进行的手动测量来确定。

此外，还假设用户的位置x_u是已知的，并且在一些情况下，用户的位置和取向两者也可以是已知的。在下文详细地描述用于确定收听者位置和收听者取向的一些方法。根据一些示例，设备位置X＝[x₁x₂...x_L]^T可能已被平移，使得x_u位于坐标系的原点处。

根据一些实施方式，目标是通过对所测量的数据应用合适的插值法来估计插值相互可听性矩阵B。在一个示例中，可以选择以下形式的衰变定律模型：

在该示例中，x_i表示发射设备的位置，x_j表示接收设备的位置，表示频带k中的未知线性输出增益，并且/>表示距离衰变常数。最小二乘解

产生第i个发射设备的估计参数用户位置处的线性单元中的估计可听性因此可以表示如下：

在一些实施例中，可以被约束为全局房间参数/>并且在一些示例中可以另外地被约束为位于特定值范围内。

图4示出了热图的示例。在该示例中，热图400表示从声源(o)到房间中具有图4中指示的x维度和y维度的任何点的一个频带的估计传递函数。所述估计传递函数基于4个接收器(x)对声源的测量的插值。插值水平由热图400针对房间内的任何用户位置x_u进行描绘。

在另一示例中，距离衰减模型可以包括临界距离参数，使得插值法采用以下形式：

在该示例中，表示临界距离，在一些示例中，所述临界距离可以被求解为全局房间参数d_c和/或可以被约束为位于固定值范围内。

图5是示出了一个实施方式的示例的框图。与本文提供的其他图一样，图5中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。在该示例中，全矩阵空间可听性插值器505、延迟补偿块510、均衡和增益补偿块515和灵活渲染器块520由上文参考图1描述的装置100的控制系统110的实例实施。在一些实施方式中，装置100可以是用于音频环境的编排设备。根据一些示例，装置100可以是音频环境的音频设备之一。在一些实例中，全矩阵空间可听性插值器505、延迟补偿块510、均衡和增益补偿块515和灵活渲染器块520可以经由存储在一个或多个非暂态介质上的指令(例如，软件)来实施。

在一些示例中，全矩阵空间可听性插值器505可以被配置为计算如上文描述的收听者位置处的估计可听性。根据该示例，均衡和增益补偿块515被配置为基于从全矩阵空间可听性插值器505接收的插值可听性507的频带来确定均衡和补偿增益矩阵517(在表1中示出为/>)。在一些实例中，可以使用标准化技术来确定均衡和补偿增益矩阵517。例如，可以跨频带使用户位置处的估计水平平滑化，并且可以计算均衡(EQ)增益，使得结果与目标曲线相匹配。在一些实施方式中，目标曲线可以是频谱平坦的。在其他示例中，目标曲线可以向高频平缓地滚降以避免过度补偿。在一些实例中，EQ频带然后可以映射到与特定参数均衡器的能力相对应的一组不同频带中。在一些示例中，该组不同频带可以是本文中其他地方提到的77个CQMF频带。在其他示例中，该组不同频带可以包括不同数量的频带，例如，20个临界频带或少至两个频带(高和低)。灵活渲染器的一些实施方式可以使用20个临界频带。

在该示例中，应用补偿增益和EQ的过程被拆分，使得补偿增益提供粗略的总体水平匹配并且EQ在多个频带中提供更精细的控制。根据一些替代性实施方式，补偿增益和EQ可以实施为单个过程。

在该示例中，灵活渲染器块520被配置为根据节目内容530的对应空间信息(例如，位置元数据)来渲染节目内容530的音频数据。取决于特定实施方式，灵活渲染器块520可以被配置为实施CMAP、FV、CMAP与FV的组合、或另一类型的灵活渲染。根据该示例，灵活渲染器块520被配置为使用均衡和补偿增益矩阵517，以便确保每个扩音器被用户在相同水平以相同均衡听到。可以将由灵活渲染器块520输出的扩音器信号525提供给音频系统的音频设备。

根据该实施方式，延迟补偿块510被配置为根据音频设备几何形状信息和用户位置信息来确定延迟补偿信息512(其在一些示例中可以是或包括被示出为表1中的的延迟补偿矢量)。延迟补偿信息512基于声音行进用户位置与每个扩音器的位置之间的距离所需的时间。根据该示例，灵活渲染器块520被配置为应用延迟补偿信息512，以确保从所有扩音器回放的对应声音到达用户的时间是恒定的。

图6是概述了可以由如图1、图2和图5中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文描述的其他方法一样，不必以所指示的顺序来执行方法600的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法600的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1、图3和图4中示出的和上文描述的控制系统110，或者其他公开的控制系统示例之一。根据一些示例，方法600的框可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来实施。

在该实施方式中，框605涉及由控制系统使音频环境中的多个音频设备再现音频数据。在该示例中，所述多个音频设备中的每个音频设备包括至少一个扩音器和至少一个麦克风。然而，在一些这样的示例中，音频环境可以包括至少一个具有至少一个扩音器但不具有麦克风的仅输出音频设备。替代性地或另外地，在一些这样的示例中，音频环境可以包括一个或多个具有至少一个麦克风但不具有扩音器的仅输入音频设备。下文描述了方法600在这样的上下文中的一些示例。

根据该示例，框610涉及由控制系统确定包括所述多个音频设备中的每个音频设备的音频设备位置的音频设备位置数据。在一些示例中，框610可以涉及通过参考存储于存储器中(例如，图1的存储器系统115中)的先前获得的音频设备位置数据来确定音频设备位置数据。在一些实例中，框610可以涉及经由音频设备自动定位过程确定音频设备位置数据。音频设备自动定位过程可以涉及执行一个或多个音频设备自动定位方法，如本文其他地方引用的基于DOA的和/或基于TOA的音频设备自动定位方法。

根据该实施方式，框615涉及由控制系统从多个音频设备中的每个音频设备获得麦克风数据。在该示例中，麦克风数据至少部分地与由音频环境中的其他音频设备的扩音器再现的声音相对应。

在一些示例中，使所述多个音频设备再现音频数据可以涉及使所述多个音频设备中的每个音频设备在所述音频环境中的所有其他音频设备不回放音频时回放音频。例如，参考图2，一个这样的过程可以涉及：(a)使音频设备202发出声音并从音频设备203至205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(b)使音频设备203发出声音并从音频设备202、204和205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(c)使音频设备204发出声音并从音频设备202、203和205的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(d)使音频设备205发出声音并从音频设备202、203和204的麦克风阵列接收与所发出的声音相对应的麦克风数据。取决于特定实施方式，所发出的声音可以相同或可以不同。

框615的其他示例可以涉及在每个音频设备回放内容的同时获得麦克风数据。一些这样的示例可以涉及频谱打孔(在本文还被称为形成“间隙”)。因此，一些这样的示例可以涉及由所述控制系统使所述多个音频设备中的每个音频设备将一个或多个频率范围间隙插入到由每个音频设备的一个或多个扩音器再现的音频数据中。

在该示例中，框620涉及由所述控制系统确定所述多个音频设备中的每个音频设备相对于所述多个音频设备中的每个其他音频设备的相互可听性。在一些实施方式中，框620可以涉及确定相互可听性矩阵，例如，如上文所描述的。在一些示例中，确定所述相互可听性矩阵可以涉及将相对于满刻度的分贝映射到声压级的分贝的过程。在一些实施方式中，所述相互可听性矩阵可以包括所述多个音频设备中的每个音频设备之间的所测量的传递函数。在一些示例中，所述相互可听性矩阵可以包括多个频带中的每个频带的值。

根据该实施方式，框625涉及由所述控制系统确定所述音频环境中的人的用户位置。在一些示例中，确定所述用户位置可以至少部分地基于与所述人的一个或多个话语相对应的到达方向数据或到达时间数据中的至少一个。在下文描述了确定音频环境中的人的用户位置的一些详细示例。

在该示例中，框630涉及由所述控制系统确定所述多个音频设备中的每个音频设备在所述用户位置处的用户位置可听性。根据该实施方式，框635涉及至少部分地基于所述用户位置可听性来控制音频设备回放的一个或多个方面。在一些示例中，音频设备回放的一个或多个方面可以包括调平和/或均衡，例如，如上文参考图5所描述的。

根据一些示例，框620(或方法600的另一框)可以涉及通过对所测量的可听性数据应用插值法来确定插值相互可听性矩阵。在一些示例中，确定所述插值相互可听性矩阵可以涉及应用部分地基于距离衰变常数的衰变定律模型。在一些示例中，所述距离衰变常数可以包括每设备参数和/或音频环境参数。在一些实例中，所述衰变定律模型可以是基于频带的。根据一些示例，所述衰变定律模型可以包括临界距离参数。

在一些示例中，方法600可以涉及根据所述相互可听性矩阵和所述衰变定律模型的值估计所述多个音频设备中的每个音频设备的输出增益。在一些实例中，估计每个音频设备的所述输出增益可以涉及确定所述相互可听性矩阵和所述衰变定律模型的值函数的最小二乘解。在一些示例中，方法600可以涉及根据每个音频设备的所述输出增益、所述用户位置和每个音频设备位置的函数确定所述插值相互可听性矩阵的值。在一些示例中，所述插值相互可听性矩阵的值可以与每个音频设备的所述用户位置可听性相对应。

根据一些示例，方法600可以涉及使所述插值相互可听性矩阵的频带值均衡。在一些示例中，方法600可以涉及将延迟补偿矢量应用于所述插值相互可听性矩阵。

如上所述，在一些实施方式中，所述音频环境可以包括至少一个具有至少一个扩音器但不具有麦克风的仅输出音频设备。在一些这样的示例中，方法600可以涉及确定所述至少一个仅输出音频设备在所述多个音频设备中的每个音频设备的所述音频设备位置处的可听性。

如上所述，在一些实施方式中，所述音频环境可以包括一个或多个具有至少一个麦克风但不具有扩音器的仅输入音频设备。在一些这样的示例中，方法600可以涉及确定所述音频环境中的每个配备扩音器的音频设备在所述一个或多个仅输入音频设备中的每一个的位置处的可听性。

点噪声源案例实施方式

本章节公开了与图3B相对应的实施方式。如本章节中所使用的，“点噪声源”是指位置x_n可用但源信号不可用的噪声源，其一个示例是当图2的声源206是噪声源时。代替(或除了)确定与音频环境中的多个音频设备中的每一个的相互可听性相对应的相互可听性矩阵，“点噪声源案例”的实施方式涉及确定多个音频设备位置中的每一个处的这种点源的可听性。一些这样的示例涉及确定噪声可听性矩阵所述噪声可听性矩阵测量多个音频设备位置中的每一个处的这种点源的接收水平，而不是如在上文描述的全矩阵空间可听性示例中的传递函数。

在一些实施例中，可以实时地(例如，在于音频环境中回放音频的时间期间)进行A的估计。根据一些实施方式，A的估计可以是补偿点源(或已知位置的其他声源)的噪声的过程的一部分。

图7是示出了根据另一实施方式的系统的示例的框图。与本文提供的其他图一样，图7中示出的元件的类型、数量和布置仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型、数量和/或布置的元件。根据该示例，控制系统100A至110L与音频设备701A至701L(其中，L是两个或更多个)相对应，并且是上文参考图1描述的装置100的控制系统110的实例。在这里，控制系统100A至110L实施多声道声学回波消除器705A至705L。

在该示例中，点源空间可听性插值器710和噪声补偿块715由装置720的控制系统110M实施，所述控制系统是上文参考图1描述的装置100的另一实例。在一些示例中，装置720在本文中可以被称为编排设备或智能家居中枢。然而，在替代性示例中，装置720可以是音频设备。在一些实例中，装置720的功能可以由音频设备701A至701L之一实施。在一些实例中，多声道声学回波消除器705A至705L、点源空间可听性插值器710和/或噪声补偿块715可以经由存储在一个或多个非暂态介质上的指令(例如，软件)来实施。

在该示例中，声源725在音频环境中产生声音730。根据该示例，声音730将被视为噪声。在该实例中，声源725不在任何控制系统110A至110M的控制下操作。在该示例中，声源725的位置是控制系统110M已知的(换句话说，提供给所述控制系统和/或存储在所述控制系统可访问的存储器中)。

根据该示例，多声道声学回波消除器705A接收来自音频设备701A的一个或多个麦克风的麦克风信号702A以及与由音频设备701A回放的音频相对应的局部回波参考703A。此处，多声道声学回波消除器705A被配置为产生残余麦克风信号707A(其还可以被称为回波消除的麦克风信号)并且将残余麦克风信号707A提供给装置720。在该示例中，假设残余麦克风信号707A主要与在音频设备701A的位置处接收的声音730相对应。

类似地，多声道声学回波消除器705L接收来自音频设备701L的一个或多个麦克风的麦克风信号702L以及与由音频设备701L回放的音频相对应的局部回波参考703L。多声道声学回波消除器705L被配置为将残余麦克风信号707L输出到装置720。在该示例中，假设残余麦克风信号707L主要与在音频设备701L的位置处接收的声音730相对应。在一些示例中，多声道声学回波消除器705A至705L可以被配置用于K个频带中的每一个中的回波消除。

在该示例中，点源空间可听性插值器710接收残余麦克风信号707A至707L以及音频设备几何形状(音频设备701A至701L中的每一个的位置数据)和源位置数据。根据该示例，点源空间可听性插值器710被配置用于确定指示声音730在音频设备701A至701L的位置中的每一个处的接收水平的噪声可听性信息。在一些示例中，噪声可听性信息可以包括K个频带中的每一个的噪声可听性数据，并且在一些实例中可以是上文引用的噪声可听性矩阵

在一些实施方式中，点源空间可听性插值器710(或控制系统110M的另一块)可以被配置为基于用户位置数据和声音730在音频设备701A至701L的位置中的每一个处的接收水平来估计指示音频环境中的用户位置处的声音730的水平的噪声可听性信息712。在一些实例中，估计噪声可听性信息712可以涉及例如通过应用距离衰减模型以估计用户位置处的噪声水平矢量进行的插值过程(如上文描述的插值过程)。

根据该示例，噪声补偿块715被配置为基于用户位置处的估计噪声水平712来确定噪声补偿增益717。在该示例中，噪声补偿增益717是可以根据频带而不同的多频带噪声补偿增益(例如，上文引用的噪声补偿增益)。例如，噪声补偿增益可以在与用户位置处的声音730的较高估计水平相对应的频带中较高。在一些示例中，将噪声补偿增益717提供给音频设备701A至701L，使得音频设备701A至701L可以根据噪声补偿增益717控制音频数据的回放。如由虚线717A和717L所建议的，在一些实例中，噪声补偿块715可以被配置为确定特定于音频设备701A至701L中的每一个的噪声补偿增益。

图8是概述了可以由如图1、图2和图7中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文描述的其他方法一样，不必以所指示的顺序来执行方法800的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。方法800的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1、图3和图7中示出的和上文描述的控制系统，或者其他公开的控制系统示例之一。根据一些示例，方法800的框可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来实施。

在该实施方式中，框805涉及由控制系统从音频环境中的多个麦克风中的每一个接收残余麦克风信号。在该示例中，残余麦克风信号与在多个音频设备位置中的每一个处接收的来自噪声源的声音相对应。在上文参考图7所描述的示例中，框805涉及控制系统110M从多声道声学回波消除器705A至705L接收残余麦克风信号707A至707L。然而，在一些替代性实施方式中，框805至825中的一个或多个(以及在一些实例中所有框805至825)可以由如音频设备控制系统110A至110L之一等另一控制系统执行。

根据该示例，框810涉及由控制系统获得与所述多个音频设备位置中的每一个相对应的音频设备位置数据、与噪声源的位置相对应的噪声源位置数据、以及与人在所述音频环境中的位置相对应的用户位置数据。在一些示例中，框810可以涉及通过参考存储在存储器中(例如，图1的存储器系统115中)的先前获得的音频设备位置数据来确定音频设备位置数据、噪声源位置数据和/或用户位置数据。在一些实例中，框810可以涉及经由自动定位过程确定音频设备位置数据、噪声源位置数据和/或用户位置数据。自动定位过程可以涉及执行一个或多个自动定位方法，如本文中其他地方引用的自动定位方法。

根据该实施方式，框815涉及基于残余麦克风信号来估计音频设备位置数据、噪声源位置数据和用户位置数据、来自用户位置处的噪声源的声音的噪声水平。在上文参考图7所描述的示例中，框815可以涉及点源空间可听性插值器710(或控制系统110M的另一块)基于用户位置数据和声音730在音频设备701A至701L的位置中的每一个处的接收水平来估计音频环境中的用户位置处的声音730的噪声水平712。在一些实例中，框815可以涉及例如通过应用距离衰减模型以估计用户位置处的噪声水平矢量进行的插值过程(如上文描述的插值过程)。

在该示例中，框820涉及基于来自用户位置处的噪声源的声音的估计噪声水平来确定音频设备中的每一个的噪声补偿增益。在上文参考图7所描述的示例中，框820可以涉及噪声补偿块715基于用户位置处的估计噪声水平712来确定噪声补偿增益717。在一些示例中，噪声补偿增益可以是可以根据频带而不同的多频带噪声补偿增益(例如，上文引用的噪声补偿增益)。

根据该实施方式，框825涉及将噪声补偿增益提供给音频设备中的每一个。在上文参考图7所描述的示例中，框825可以涉及装置720将噪声补偿增益717A至717L提供给音频设备701A至701L中的每一个。

漫射或未定位的噪声源实施方式

定位如噪声源等声源可能并非总是可能的，特别是当声源不位于同一房间中或声源被检测声音的(多个)麦克风阵列高度遮挡时。在这样的实例中，估计用户位置处的噪声水平可以被视为具有几个已知噪声水平值(例如，音频环境中的多个音频设备中的每一个的每个麦克风或麦克风阵列处的噪声水平值)的稀疏插值问题。

这样的插值可以表示为一般函数所述一般函数表示将2D空间中的已知点(由/>项表示)插值到插值标量值(由/>表示)。一个示例涉及选择三个节点的子集(与音频环境中的三个音频设备的麦克风或麦克风阵列相对应)以形成节点三角形并且通过二元线性插值来求解三角形内的可听性。对于任何给定节点i，可以将第k频带中的接收水平表示为/>求解未知数，

三角形内的任意点处的插值可听性成为

其他示例可以涉及重心插值或三次三角形插值，例如，如在特此通过援引并入的Amidror,Isaac,“Scattered data interpolation methods for electronic imagingsystems:a survey,”in Journal of Electronic Imaging Vol.11,No.2,April 2002,pp.157–176[Amidror,Isaac,“电子成像系统的散射数据插值方法：调查”，电子成像杂质,第11卷，第2期，2002年4月，第157至176页]中所描述的。这样的插值方法可适用于上文参考图7和图8描述的噪声补偿方法，例如，通过将图7的点源空间可听性插值器710替换为根据本章节中描述的任何插值方法实施的朴素空间插值器并且通过省略在图8的框810中获得噪声源位置数据的过程。本章节中描述的插值方法不会产生球面距离衰减，但确实在收听区域内提供似合理的水平插值。

图9示出了热图的另一示例。在该示例中，热图900表示从具有未知位置的声源(o)到房间中具有图9中指示的x维度和y维度的任何点的一个频带的估计传递函数。所述估计传递函数基于5个接收器(x)对声源的测量的插值。插值水平由热图900针对房间内的任何用户位置x_u进行描绘。

图10示出了另一音频环境的平面图的示例，所述音频环境在该实例中是生活空间。与本文提供的其他图一样，图10中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。

根据该示例，环境1000包括在左上方处的客厅1010、在下方中央处的厨房1015、以及在右下方的卧室1022。跨生活空间分布的方框和圆圈表示一组扩音器1005a至1005h，该组扩音器中的至少一些扩音器在一些实施方式中可以是智能扬声器，放置在对空间方便的位置，但不遵循任何标准规定的布局(任意地放置)。在一些示例中，电视1030可以被配置为至少部分地实施一个或多个所公开的实施例。在该示例中，环境1000包括分布在整个环境中的相机1011a至1011e。在一些实施方式中，环境1000中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，可选传感器系统130的一个或多个相机可以驻留在电视1030中或所述电视上、移动电话中或智能扬声器(如扩音器1005b、1005d、1005e或1005h中的一个或多个)中。尽管在本公开中呈现的环境1000的每个描绘中都未示出相机1011a至1011e，但在一些实施方式中，每个环境1000仍然可以包括一个或多个相机。

音频设备的自动定位

本受让人已为电影院和家庭产生了多种扬声器定位技术，所述技术在其设计的用例中是极好的解决方案。一些这样的方法基于从声源与和每个扩音器大约共同定位的(多个)麦克风之间的脉冲响应得到的飞行时间。虽然也可以估计记录和回放链中的系统时延，但需要时钟之间的样本同步性并且需要已知的测试刺激来估计脉冲响应。

源定位在该上下文中的最近示例已通过要求设备内麦克风同步性而不要求设备间同步性放宽了限制。另外地，一些这样的方法放弃了对通过低带宽消息传递如经由检测直接(非反射)声音的到达时间(TOA，还被称为“飞行时间”)或经由检测直接声音的主导到达方向(DOA)在传感器之间传递音频的需要。每种方法具有一些潜在优点和潜在缺点。例如，一些先前部署的TOA方法可以确定设备几何形状直到围绕三个轴之一的未知平移、旋转和反射。如果每个设备仅有一个麦克风，则单独设备的旋转也是未知的。一些先前部署的DOA方法可以确定设备几何形状直到未知平移、旋转和缩放。虽然一些这样的方法可以在理想条件下产生令人满意的结果，但这样的方法对测量误差的稳健性尚未得到证明。

本申请中公开的一些实施例允许基于以下项来定位智能音频设备集合：1)音频环境中的每一对音频设备之间的DOA，以及2)为数据类型1)的输入设计的非线性优化问题的最小化。本申请中公开的其他实施例允许基于以下项来定位智能音频设备集合：1)系统中的每一对音频设备之间的DOA，2)每一对设备之间的TOA，以及3)为数据类型1)和2)的输入设计的非线性优化问题的最小化。

图11示出了环境中的四个音频设备之间的几何关系的示例。在该示例中，音频环境1100是包括电视1101以及音频设备1105a、1105b、1105c和1105d的房间。根据该示例，音频设备1105a至1105d分别在音频环境1100的位置1至4中。与本文公开的其他示例一样，图11中示出的元件的类型、数量、位置和取向仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件，例如，更多或更少音频设备、在不同位置中的音频设备、具有不同能力的音频设备等。

在该实施方式中，音频设备1105a至1105d中的每一个是包括麦克风系统和扬声器系统的智能扬声器，所述扬声器系统包括至少一个扬声器。在一些实施方式中，每个麦克风系统包括至少三个麦克风的阵列。根据一些实施方式，电视1101可以包括扬声器系统和/或麦克风系统。在一些这样的实施方式中，自动定位方法可以用于自动地定位电视1101或电视1101的一部分(例如，电视扩音器、电视收发器等)，例如，如下文参考音频设备1105a至1105d所描述的。

本公开中描述的一些实施例允许基于每一对音频设备之间的到达方向(DOA)、每一对设备之间的音频信号的到达时间(TOA)或者每一对设备之间的音频信号的DOA和TOA两者进行一组音频设备(如图11中示出的音频设备1105a至1105d)的自动定位。在一些实例中，如在图11中示出的示例中，用至少一个驱动单元和一个麦克风阵列启用音频设备中的每一个，麦克风阵列能够提供传入声音的到达方向。根据该示例，双头箭头1110ab表示由音频设备1105a发射并由音频设备1105b接收的声音，以及由音频设备1105b发射并由音频设备1105a接收的声音。类似地，双头箭头1110ac、1110ad、1110bc、1110bd和1110cd分别表示由音频设备1105a和音频设备1105c发射并接收的声音、由音频设备1105a和音频设备1105d发射并接收的声音、由音频设备1105b和音频设备1105c发射并接收的声音、由音频设备1105b和音频设备1105d发射并接收的声音、以及由音频设备1105c和音频设备1105d发射并接收的声音。

在该示例中，音频设备1105a至1105d中的每一个具有可以以各种方式定义的由箭头1115a至1115d表示的取向。例如，具有单个扩音器的音频设备的取向可以与单个扩音器所面对的方向相对应。在一些示例中，具有面对不同方向的多个扩音器的音频设备的取向可以由扩音器之一所面对的方向指示。在其他示例中，具有面对不同方向的多个扩音器的音频设备的取向可以由与音频输出在多个扩音器中的每一个所面对的不同方向上的总和相对应的矢量的方向指示。在图11中示出的示例中，参考笛卡尔坐标系定义箭头1115a至1115d的取向。在其他示例中，可以参考另一类型的坐标系(如球面或柱面坐标系)定义箭头1115a至1115d的取向。

在该示例中，电视1101包括被配置为接收电磁波的电磁界面1103。在一些示例中，电磁界面1103可以被配置为发射和接收电磁波。根据一些实施方式，音频设备1105a至1105d中的至少两个可以包括被配置为收发器的天线系统。天线系统可以被配置为发射和接收电磁波。在一些示例中，天线系统包括具有至少三个天线的天线阵列。本公开中描述的一些实施例允许至少部分地基于在设备之间发射的电磁波的DOA进行一组设备(如图11中示出的音频设备1105a至1105d和/或电视1101)的自动定位。因此，双头箭头1110ab、1110ac、1110ad、1110bc、1110bd和1110cd还可以表示在音频设备1105a至1105d之间发射的电磁波。

根据一些示例，设备(如音频设备)的天线系统可以与设备的扩音器共同定位，例如，邻近扩音器。在一些这样的示例中，天线系统取向可以与扩音器取向相对应。替代性地或另外地，设备的天线系统可以相对于设备的一个或多个扩音器具有已知或预定取向。

在该示例中，音频设备1105a至1105d被配置用于彼此无线通信并且与其他设备无线通信。在一些示例中，音频设备1105a至1105d可以包括被配置用于经由因特网在音频设备1105a至1105d与其他设备之间进行通信的网络接口。在一些实施方式中，本文公开的自动定位过程可以由音频设备1105a至1105d之一的控制系统执行。在其他示例中，自动定位过程可以由音频环境1100的另一设备(如有时可以被称为智能家居中枢的设备)执行，该另一设备被配置用于与音频设备1105a至1105d进行无线通信。在其他示例中，自动定位过程可以至少部分地通过在音频环境1100外部的设备(如服务器)例如基于从音频设备1105a至1105d中的一个或多个和/或智能家居中枢接收的信息来执行。

图12示出了位于图11的音频环境内的音频发射器。一些实施方式提供一个或多个音频发射器(如图12的人1205)的自动定位。在该示例中，人1205在位置5处。此处，由人1205发出并由音频设备1105a接收的声音是由单头箭头1210a表示的。类似地，由人1205发出并由音频设备1105b、1105c和1105d接收的声音是由单头箭头1210b、1210c和1210d表示的。音频发射器可以基于如由音频设备1105a至1105d和/或电视1101捕获的音频发射器声音的DOA、基于如由音频设备1105a至1105d和/或电视1101测量的音频发射器声音的TOA差、或基于DOA和TOA差两者来定位。

替代性地或另外地，一些实施方式可以提供一个或多个电磁波发射器的自动定位。本公开中描述的一些实施例允许至少部分地基于由一个或多个电磁波发射器发射的电磁波的DOA进行对一个或多个电磁波发射器的自动定位。如果电磁波发射器在位置5处，则由电磁波发射器发射并由音频设备1105a、1105b、1105c和1105d接收的电磁波还可以由单头箭头1210a、1210b、1210c和1210c表示。

图13示出了位于图11的音频环境内的音频接收器。在该示例中，启用智能手机1305的麦克风，但智能手机1305的扬声器当前不发出声音。一些实施例提供当智能手机1305不发出声音时对一个或多个无源音频接收器(如图13的智能手机1305)的自动定位。此处，由音频设备1105a发出并由智能手机1305接收的声音是由单头箭头1310a表示的。类似地，由音频设备1105b、1105c和1105d发出并由智能手机1305接收的声音是由单头箭头1310b、1310c和1310d表示的。

如果音频接收器配备有麦克风阵列并且被配置为确定接收到的声音的DOA，则音频接收器可以至少部分地基于由音频设备1105a至1105d发出并由音频接收器捕获的声音的DOA来定位。在一些示例中，音频接收器可以至少部分地基于如由音频接收器捕获的智能音频设备的TOA差来定位，而不管音频接收器是否配备有麦克风阵列。还有其他实施例可以允许通过组合上文描述的方法仅基于DOA或基于DOA和TOA来进行对一组智能音频设备、一个或多个音频发射器和一个或多个接收器的自动定位。

到达方向定位

图14是概述了可以由如图1中示出的装置等装置的控制系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1400的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

方法1400是音频设备定位过程的示例。在该示例中，方法1400涉及确定两个或更多个智能音频设备的位置和取向，所述智能音频设备中的每一个包括扩音器系统和麦克风阵列。根据该示例，方法1400涉及根据DOA估计至少部分地基于由每个智能音频设备发出并且由每个其他智能音频设备捕获的音频来确定智能音频设备的位置和取向。在该示例中，方法1400的初始框依赖于每个智能音频设备的控制系统能够例如通过使用麦克风阵列的单独麦克风振膜之间的到达时间差从由该智能音频设备的麦克风阵列获得的输入音频提取DOA。

在该示例中，框1405涉及获得由音频环境的每个智能音频设备发出并由音频环境的每个其他智能音频设备捕获的音频。在一些这样的示例中，框1405可以涉及使每个智能音频设备发出声音，所述声音在一些实例中可以是具有预定持续时间、频率内容等的声音。这个预定类型的声音在本文中可以被称为结构化源信号。在一些实施方式中，智能音频设备可以是或可以包括图11的音频设备1105a至1105d。

在一些这样的示例中，框1405可以涉及使单个智能音频设备发出声音而其他智能音频设备“收听”声音的顺序过程。例如，参考图11，框1405可以涉及：(a)使音频设备1105a发出声音并从音频设备1105b至1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(b)使音频设备1105b发出声音并从音频设备1105a、1105c和1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(c)使音频设备1105c发出声音并从音频设备1105a、1105b和1105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后(d)使音频设备1105d发出声音并从音频设备1105a、1105b和1105c的麦克风阵列接收与所发出的声音相对应的麦克风数据。取决于特定实施方式，所发出的声音可以相同或可以不同。

在其他示例中，框1405可以涉及使所有智能音频设备发出声音而其他智能音频设备“收听”声音的同步过程。例如，框1405可以涉及同时执行以下步骤：(1)使音频设备1105a发出第一声音并从音频设备1105b至1105d的麦克风阵列接收与所发出的第一声音相对应的麦克风数据；(2)使音频设备1105b发出不同于第一声音的第二声音并从音频设备1105a、1105c和1105d的麦克风阵列接收与所发出的第二声音相对应的麦克风数据；(3)使音频设备1105c发出不同于第一声音和第二声音的第三声音并从音频设备1105a、1105b和1105d的麦克风阵列接收与所发出的第三声音相对应的麦克风数据；(4)使音频设备1105d发出不同于第一声音、第二声音和第三声音的第四声音并从音频设备1105a、1105b和1105c的麦克风阵列接收与所发出的第四声音相对应的麦克风数据。

在一些示例中，框1405可以用于确定音频环境中的音频设备的相互可听性。本文中公开了一些详细示例。

在该示例中，框1410涉及对经由麦克风获得的音频信号进行预处理的过程。例如，框1410可以涉及应用一个或多个滤波器、噪声或回波抑制过程等。在下文描述了一些附加预处理示例。

根据该示例，框1415涉及从由框1410产生的经预处理的音频信号确定DOA候选。例如，如果框1405涉及发射和接收结构化源信号，则框1415可以涉及用于产生脉冲响应和/或“伪范围”的一个或多个解卷积方法，根据所述解卷积方法，主要峰值的到达时间差可以连同智能音频设备的已知麦克风阵列几何形状用于估计DOA候选。

然而，并非方法1400的所有实施方式都涉及基于预定声音的发射来获得麦克风信号。因此，框1415的一些示例包括应用于任意音频信号的“盲目”方法，如可控响应功率、接收器侧波束成形、或其他类似方法，根据所述“盲目”方法，可以通过峰值拾取来提取一个或多个DOA。下文描述了一些示例。将理解，虽然可以经由盲目方法或使用结构化源信号确定DOA数据，但在大多数实例中，可以仅使用结构化源信号来确定TOA数据。此外，通常可以使用结构化源信号获得更准确的DOA信息。

根据该示例，框1420涉及选择与由其他智能音频设备中的每一个发出的声音相对应的一个DOA。在许多实例中，麦克风阵列可以检测直接到达以及由同一音频设备发射的反射声音两者。框1420可以涉及选择最有可能与直接发射的声音相对应的音频信号。在下文描述了确定DOA候选和从两个或更多个候选DOA选择DOA的一些附加示例。

在该示例中，框1425涉及接收由框1420的每个智能音频设备的实施方式产生的DOA信息(换句话说，接收与从每个智能音频设备发射到音频环境中的每个其他智能音频设备的声音相对应的DOA集)并且基于DOA信息来执行定位方法(例如，经由控制系统实施定位算法)。在一些所公开的实施方式中，框1425涉及最小化可能受制于一些约束和/或权重的成本函数，例如，如下文参考图15所描述的。在一些这样的示例中，成本函数接收从每个智能音频设备到每个其他智能设备的DOA值作为输入数据，并且返回智能音频设备中的每一个的估计位置和估计取向作为输出。在图14中示出的示例中，框1430表示在框1425中产生的估计智能音频设备位置和估计智能音频设备取向。

图15是概述了用于基于DOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。例如，方法1500可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1500的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

根据该示例，在框1505中获得DOA数据。根据一些实施方式，框1505可以涉及获得声学DOA数据，例如，如上文参考图14的框1405至1420所描述的。替代性地或另外地，框1505可以涉及获得与由环境中的多个设备中的每一个发射并接收的电磁波相对应的DOA数据。

在该示例中，定位算法接收在框1505中从每个智能设备到音频环境中的每个其他智能设备获得的DOA数据以及为音频环境指定的任何配置参数1510作为输入。在一些示例中，可选约束1525可以应用于DOA数据。例如，可以由控制系统从存储器获得配置参数1510、最小化权重1515、可选约束1525和种子布局1530，所述控制系统是用于实施成本函数1520和非线性搜索算法1535的执行软件。例如，配置参数1510可以包括与最大房间尺寸、扩音器布局约束、设置全局平移(例如，2个参数)、全局旋转(1个参数)和全局比例(1个参数)的外部输入等相对应的数据。

根据该示例，将配置参数1510提供给成本函数1520和非线性搜索算法1535。在一些示例中，将配置参数1510提供给可选约束1525。在该示例中，成本函数1520考虑所测量的DOA与通过优化器的定位解决方案估计的DOA之间的差。

在一些实施例中，可选约束1525对可能的音频设备位置和/或取向施加限制，如施加音频设备彼此间的距离最小的条件。替代性地或另外地，可选约束1525可以对方便引入的虚拟最小化变量施加限制，例如，如下文所描述的。

在该示例中，还将最小化权重1515提供给非线性搜索算法1535。下文描述了一些示例。

根据一些实施方式，非线性搜索算法1535是可以找到以下形式的连续优化问题的局部解的算法：

min C(x)

x∈Cⁿ

使得 g_L≤g(x)≤g_U

并且 x_L≤x≤x_U

在前述表达式中，C(x)：Rⁿ-＞R表示成本函数1520，并且g(x)：Rⁿ-＞R^m表示与可选约束1525相对应的约束函数。在这些示例中，矢量g_L和g_U表示约束的下限和上限，并且矢量x_L和x_U表示变量x的边界。

非线性搜索算法1535可以根据特定实施方式来变化。非线性搜索算法1535的示例包括梯度下降法、布罗伊登-弗莱彻-戈尔德法-山诺(BFGS)方法、内点优化(IPOPT)方法等。虽然一些非线性搜索算法仅需要成本函数和约束的值，但一些其他方法还可能需要成本函数和约束的第一导数(梯度、雅可比)，并且一些其他方法也可能需要相同函数的二阶导数(Hessians)。如果需要导数，则可以明确地提供所述导数，或可以使用自动或数值微分技术自动地计算所述导数。

一些非线性搜索算法需要种子点信息来开始最小化，如图15中提供给非线性搜索算法1535的种子布局1530所建议的。在一些示例中，可以提供种子点信息作为由具有对应位置和取向的相同数量的智能音频设备(换句话说，数量与获得DOA数据的智能音频设备的实际数量相同)构成的布局。位置和取向可以是任意的，并且不需要是智能音频设备的实际或近似位置和取向。在一些示例中，种子点信息可以指示沿着音频环境的轴或另一任意线的智能音频设备位置、沿着音频环境内的圆圈、矩形或其他几何形状的智能音频设备位置等。在一些示例中，种子点信息可以指示可以是预定智能音频设备取向或随机智能音频设备取向的任意智能音频设备取向。

在一些实施例中，成本函数1520可以用复平面变量公式化如下：

其中，星号指示复共轭，竖杠指示绝对值，并且其中：

·z_nm＝exp(iDOA_nm)表示给出如从设备n测量的智能设备m的到达方向的复平面值，其中，i表示虚数单位；

·x_n＝x_nx+ix_ny表示对智能设备n的x和y位置进行编码的复平面值；

·z_n＝exp(iα_n)表示对智能设备n的取向角度α_n进行编码的复合值；

·表示给予DOA_nm测量的权重；

·N表示获得DOA数据的智能音频设备的数量；以及

·x＝(x₁，...，x_N)和z＝(z₁，...，z_N)分别表示所有N智能音频设备的复合位置和复合取向的矢量。

根据该示例，最小化的结果是设备位置数据1540指示智能设备的2D位置xx(表示每设备2个实数未知数)并且设备取向数据1545指示智能设备的取向矢量z_k(表示每设备2个附加实数变量)。从取向矢量来看，仅智能设备α_k的取向角度与问题有关(每设备1个实数未知数)。因此，在该示例中，每智能设备存在3个相关未知数。

在一些示例中，结果评估框1550涉及计算成本函数在结果位置和取向处的残差。相对较低的残差指示相对更精确的设备定位值。根据一些实施方式，结果评估框1550可以涉及反馈过程。例如，一些这样的示例可以实施涉及比较给定DOA候选组合的残差与另一DOA候选组合的残差的反馈过程，例如，如在下文的DOA稳健性措施讨论中所解释的。

如上所述，在一些实施方式中，框1505可以涉及获得声学DOA数据，如上文参考涉及确定DOA候选和选择DOA候选的图14的框1405至1420所描述的。因此，图15包括从结果评估框1550到框1505的虚线，用于表示可选反馈过程的一个流程。此外，图14包括从框1430(其在一些示例中可以涉及结果评估)到DOA候选选择框1420的虚线，用于表示另一可选反馈过程的流程。

在一些实施例中，非线性搜索算法1535可以不接受复值变量。在这样的情况下，每个复值变量可以被一对实数变量取代。

在一些实施方式中，可以存在关于每个DOA测量的可用性或可靠性的附加先验信息。在一些这样的示例中，扩音器可以仅使用所有可能的DOA元素的子集来定位。例如，丢失的DOA元素可以用成本函数中的对应零权重来掩蔽。在一些这样的示例中，权重w_nm可以是零或一，例如，对于丢失或被视为不足够可靠的这些测量是零并且对于可靠测量是一。在一些其他实施例中，权重w_nm可以具有从零到一的连续值，作为DOA测量的可靠性的函数。在没有先验信息可用的这些实施例中，权重w_nm可以被简单地设置为一。

在一些实施方式中，可以添加条件|z_k|＝1(每个智能音频设备一个条件)作为约束以确保指示智能音频设备的取向的矢量的归一化。在其他示例中，可以不需要这些附加约束，并且可以使指示智能音频设备的取向的矢量不归一化。其他实施方式可以添加对智能音频设备的接近度的约束条件，例如，指示|x_n-x_m|≥D，其中，D是智能音频设备之间的最小距离。

上述成本函数的最小化不完全地确定智能音频设备的绝对位置和取向。根据该示例，成本函数在全局旋转(1个独立参数)、全局平移(2个独立参数)和全局重新缩放(1个独立参数)下保持不变，从而同时影响所有智能设备位置和取向。该全局旋转、平移和重新缩放无法从成本函数的最小化中确定。通过对称性变换进行相关的不同布局在该框架中是完全不可区分的，并且被称为属于同一等价类别。因此，配置参数应提供允许唯一地定义表示整个等价类别的智能音频设备布局的标准。在一些实施例中，可能有利的是，选择标准使得该智能音频设备布局定义与在参考收听位置附近的收听者的参考系接近的参考系。下文提供这种标准的示例。在一些其他示例中，标准可以是纯数学的并且与现实的参考系断开连接。

对称性消歧标准可以包括：固定全局平移对称性的参考位置(例如，智能音频设备1应在坐标原点处)；固定二维旋转对称性的参考取向(例如，智能设备1应被定向为朝向指定为前面的音频环境的区域，如电视1101在图11至图13中的位置)；以及固定全局缩放对称性的参考距离(例如，智能设备2应在距智能设备1的单位距离处)。总共地，在该示例中存在无法从最小化问题中确定并且应作为外部输入来提供的4个参数。因此，在该示例中，存在可以从最小化问题中确定的3N-4个未知数。

如上文所描述的，在一些示例中，除了该组智能音频设备之外，还可以存在配备有麦克风阵列的一个或多个无源音频接收器、和/或一个或多个音频发射器。在这样的情况下，定位过程可以使用基于DOA估计从由每个智能音频设备和每个发射器发射并由每个其他智能音频设备和每个无源接收器捕获的音频确定智能音频设备位置和取向、发射器位置以及无源接收器位置和取向的技术。

在一些这样的示例中，定位过程可以以与上文所描述类似的方式继续进行。在一些实例中，定位过程可以基于上文描述的相同成本函数，在下文为了方便读者而示出所述成本函数：

然而，如果定位过程涉及并非音频接收器的无源音频接收器和/或音频发射器，则需要以稍微不同的方式来解释前述等式的变量。现在，N表示设备总数，包括N_smart个智能音频设备、N_rec个无源音频接收器和N_emit个发射器，使得N＝N_smart+N_rec+N_emit。在一些示例中，权重可以具有稀疏结构以掩盖由于仅无源接收器或发射器设备(或不具有接收器的其他音频源，如人类)导致的丢失数据，使得如果设备n是不具有接收器的音频发射器，则对于所有m，/>并且如果设备m是音频接收器，则对于所有n，/>对于智能音频设备和无源接收器两者，可以确定位置和角度两者，然而对于仅音频发射器，可以获得位置。未知数总数是3N_smart+3N_rec+2N_emit-4。

组合到达时间和到达方向定位

在以下讨论中，将强调上文描述的基于DOA的定位过程与本章节的DOA和TOA组合定位之间的差异。可以假设未明确给出的这些细节与上文描述的基于DOA的定位过程中的细节相同。

图16是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的一个示例的流程图。例如，方法1600可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1600的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

根据该示例，在框1605至1620中获得DOA数据。根据一些实施方式，框1605至1620可以涉及从多个智能音频设备获得声学DOA数据，例如，如上文参考图14的框1405至1420所描述的。在一些替代性实施方式中，框1605至1620可以涉及获得与由环境中的多个设备中的每一个发射并接收的电磁波相对应的DOA数据。

在该示例中，然而，框1605还涉及获得TOA数据。根据该示例，TOA数据包括由音频环境中的每个智能音频设备(例如，音频环境中的每一对智能音频设备)发出并接收的音频的所测量TOA。在涉及发出结构化源信号的一些实施例中，用于提取TOA数据的音频可以与用于提取DOA数据的音频相同。在其他实施例中，用于提取TOA数据的音频可以不同于用于提取DOA数据的音频。

根据该示例，框1616涉及检测音频数据中的TOA候选，并且框1618涉及从TOA候选中选择每个智能音频设备对的单个TOA。下文描述了一些示例。

各种技术可以用于获得TOA数据。一种方法是使用房间校准音频序列，如扫频(例如，对数正弦音调)或最大长度序列(MLS)。可选地，前述序列可以在频带限制到接近的超声音频频率范围(例如，18kHz至24kHz)的情况下使用。在该音频频率范围内，最标准的音频设备能够发出并记录声音，但这样的信号无法被人类感知到，因为它超出了正常的人类听力能力。一些替代性实施方式可以涉及从主要音频信号(如直接序列扩展频谱信号)中的隐藏信号中恢复TOA元素。

考虑到从每个智能音频设备到每个其他智能音频设备的DOA数据集以及来自每一对智能音频设备的TOA数据集，图16的定位方法1625可以基于最小化可能受制于一些约束的特定成本函数。在该示例中，图16的定位方法1625接收上文描述的DOA和TOA值作为输入数据，并且输出与智能音频设备相对应的估计位置数据和取向数据630。在一些示例中，定位方法1625还可以输出智能音频设备的回放和记录时延，例如直到无法从最小化问题确定的一些全局对称性。下文描述了一些示例。

图17是概述了用于基于DOA数据和TOA数据来自动地估计设备位置和取向的方法的另一示例的流程图。例如，方法1700可以通过经由如图1中示出的装置等装置的控制系统实施定位算法来执行。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1700的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

除了下文所描述的，在一些示例中，框1705、1710、1715、1720、1725、1730、1735、1740、1745和1750可以如上文参考图15的框1505、1510、1515、1520、1525、1530、1535、1540、1545和1550所描述。然而，在该示例中，相对于图15的成本函数1520和非线性优化方法1535修改成本函数1720和非线性优化方法1735，以便对DOA数据和TOA数据两者进行操作。在一些示例中，可以获得框1708的TOA数据，如上文参考图16所描述的。与图15的过程相比较的另一差异是：在该示例中，非线性优化方法1735还输出与智能音频设备相对应的记录和回放时延数据1747，例如，如下文所描述的。因此，在一些实施方式中，结果评估框1750可以涉及评估DOA数据和/或TOA数据两者。在一些这样的示例中，框1750的操作可以包括涉及DOA数据和/或TOA数据的反馈过程。例如，一些这样的示例可以实施涉及比较给定TOA/DOA候选组合的残差与另一TOA/DOA候选组合的残差的反馈过程，例如，如在下文的TOA/DOA稳健性措施讨论中所解释的。

在一些示例中，结果评估框1750涉及计算成本函数在结果位置和取向处的残差。相对较低的残差通常指示相对更精确的设备定位值。根据一些实施方式，结果评估框1750可以涉及反馈过程。例如，一些这样的示例可以实施涉及比较给定TOA/DOA候选组合的残差与另一TOA/DOA候选组合的残差的反馈过程，例如，如在下文的TOA和DOA稳健性措施讨论中所解释的。

因此，图16包括从框630(其在一些示例中可以涉及结果评估)到DOA候选选择框1620和TOA候选选择框1618的虚线，用于表示可选反馈过程的流程。在一些实施方式中，框1705可以涉及获得声学DOA数据，如上文参考涉及确定DOA候选和选择DOA候选的图16的框1605至1620所描述的。在一些示例中，框1708可以涉及获得声学TOA数据，如上文参考涉及确定TOA候选和选择TOA候选的图16的框1605至1618所描述的。尽管图17中未示出，但一些可选反馈过程可以涉及从结果评估框1750恢复到框1705和/或框1708。

根据该示例，定位算法通过最小化可能受制于一些约束的成本函数继续进行，并且可以如下所描述。在该示例中，定位算法接收DOA数据1705和TOA数据1708以及为收听环境指定的配置参数1710和可能一些可选约束1725作为输入。在该示例中，成本函数考虑到所测量的DOA与估计的DOA之间的差以及所测量的TOA与估计的TOA之间的差。在一些实施例中，约束1725对可能的设备位置、取向和/或时延施加限制，如施加音频设备彼此间的距离最小的条件和/或施加一些设备时延应为零的条件。

在一些实施方式中，成本函数可以公式化如下：

C(x，z，l，k)＝W_DOAC_DOA(xz)+W_TOAC_TOA(x，l，k)

在前述等式中，l＝(l₁，...，l_N)和k＝(k₁，...，k_N)分别表示每个设备的回放和记录设备的矢量，并且其中，W_DOA和W_TOA分别表示DOA和TOA最小化部分的全局权重(还被称为前因子)，反映了两个项中的每个项的相对重要性。在一些这样的示例中，TOA成本函数可以公式化为：

其中，

·TOA_nm表示从智能设备m行进到智能设备n的信号的所测量到达时间；

·表示给予TOA_nm测量的权重；以及

·c表示声音的速度。

每个智能音频设备最多有5个实数未知数：设备位置x_n(每设备2个实数未知数)、设备取向α_n(每设备1个实数未知数)以及记录和回放时延l_n和k_n(每设备2个附加未知数)。从这些来看，仅设备位置和时延与成本函数的TOA部分有关。在一些实施方式中，如果时延之间存在先验的已知限制或联系，则有效未知数数量可以减少。

在一些示例中，可以存在例如关于每个TOA测量的可用性或可靠性的附加先验信息。在这些示例中的一些示例中，权重可以是零或一，例如，对于不可用(或被视为不足够可靠)的这些测量是零并且对于可靠测量是一。这样，可以仅利用所有可能的DOA和/或TOA元素的子集来估计设备定位。在一些其他实施方式中，权重可以具有从零到一的连续值，例如，作为TOA测量的可靠性的函数。在没有先验可靠性信息可用的一些示例中，权重可以被简单地设置为一。

根据一些实施方式，可以对时延的可能值和/或不同时延本身之间的关系施加一个或多个附加约束。

在一些示例中，可以以标准长度单位(如米)测量音频设备的位置，并且可以以标准时间单位(如秒)指示时延和到达时间。然而，通常情况是，当最小化过程中使用的不同变量的变化规模为同一等级时非线性优化方法效果更好。因此，一些实施方式可以涉及重新缩放位置测量，使得智能设备位置的变化范围在-1与1之间，并且重新缩放时延和到达时间，使得这些值的范围也在-1与1之间。

上述成本函数的最小化并不完全确定智能音频设备的绝对位置和取向或者时延。TOA信息给出了绝对距离尺度，这意味着成本函数在尺度变换下不再不变，但在全局旋转和全局平移下仍保持不变。另外地，时延受制于附加全局对称性：如果相同的全局量同时添加到所有回放和记录时延，则成本函数保持不变。这些全局变换无法从成本函数的最小化中确定。类似地，配置参数应提供允许唯一地定义表示整个等价类别的设备布局的标准。

在一些示例中，对称性消歧标准可以包括以下项：固定全局平移对称性的参考位置(例如，智能设备1应在坐标原点处)；固定二维旋转对称性的参考取向(例如，智能设备1应定向为朝向前面)；和参考时延(例如，设备1的记录时延应是零)。总共地，在该示例中，存在无法从最小化问题中确定并且应作为外部输入来提供的4个参数。因此，存在可以从最小化问题中确定的5N-4个未知数。

在一些实施方式中，除了该组智能音频设备之外，还可以存在可能未配备有正常工作的麦克风阵列和/或一个或多个音频发射器的一个或多个无源音频接收器。包括作为最小化变量的时延允许一些所公开的方法定位其发射和接收时间不精确已知的接收器和发射器。在一些这样的实施方式中，可以实施上文描述的TOA成本函数。为了方便读者，下文再次示出该成本函数：

如上文参考DOA成本函数所描述的，如果成本函数用于涉及无源接收器和/或发射器的定位估计，则需要以稍微不同的方式来解释成本函数变量。现在，N表示设备总数，包括N_smart个智能音频设备、N_rec个无源音频接收器和N_emit个发射器，使得N＝N_smart+N_rec+N_emit。权重可以具有稀疏结构以掩盖由于仅无源接收器或发射器导致的丢失数据，例如，使得如果设备n是音频发射器，则对于所有m，/>并且如果设备m是音频接收器，则对于所有n，/>根据一些实施方式，对于智能音频设备，必须确定位置、取向以及记录和回放时延；对于无源接收器，必须确定位置、取向和记录时延；并且对于音频发射器，必须确定位置和回放时延。根据一些这样的示例，未知数的总数因此是5N_smart+4N_rec+3N_enit-4。

全局平移和旋转的消歧

仅DOA问题以及TOA和DOA组合问题的解决方案都受制于全局平移和旋转模糊性。在一些示例中，平移模糊性可以通过将仅发射器源视为收听者并且平移所有设备使得收听者位于原点处来解决。

旋转模糊性可以通过对解决方案施加约束来解决。例如，一些多扩音器环境可以包括电视(TV)扩音器和被定位以进行TV观看的长沙发。在将扩音器定位在环境中之后，一些方法可以涉及找到结合收听者与TV观看方向的矢量。一些这样的方法然后可以涉及使TV从其扩音器发出声音和/或提示用户走向TV并对用户的言语进行定位。一些实施方式可以涉及渲染围绕环境平移的音频对象。用户可以提供指示音频对象何时处于环境内的一个或多个预定位置(如环境的前面、在环境的TV位置处等)的用户输入(例如，说“停止”)。一些实施方式涉及配备有惯性测量单元的手机应用程序，所述惯性测量单元提示用户将手机指向两个定义的方向：第一个指向特定设备(例如具有发光LED的设备)的方向，第二个指向用户期望的观看方向，如环境的前面、在环境的TV位置处等。现在将参考图18A至图18D描述一些详细的消歧示例。

图18A示出了音频环境的示例。根据一些示例，由所公开的定位方法之一输出的音频设备位置数据可以包括参考音频设备坐标系1807对音频设备1至5中的每一个的音频设备位置的估计。在该实施方式中，音频设备坐标系1807是以音频设备2的麦克风的位置作为其原点的笛卡尔坐标系。此处，音频设备坐标系1807的x轴与音频设备2的麦克风位置和音频设备1的麦克风位置之间的线1803相对应。

在该示例中，该示例，收听者位置是通过提示被示出为坐在长沙发1103上的收听者1805(例如，经由来自环境1800a中的一个或多个扩音器的音频提示)说出一个或多个话语1827并且根据到达时间(TOA)数据估计收听者位置来确定的。TOA数据与由环境中的多个麦克风获得的麦克风数据相对应。在该示例中，麦克风数据与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对一个或多个话语1827的检测相对应。

替代性地或另外地，收听者位置可以根据由音频设备1至5中的至少一些(例如，2个、3个、4个或全部5个)音频设备的麦克风提供的DOA数据来估计。根据一些这样的示例，可以根据与DOA数据相对应的线1809a、1809b等的交点来确定收听者位置。

根据该示例，收听者位置与收听者坐标系1820的原点相对应。在该示例中，收听者角取向数据由收听者坐标系1820的y’轴指示，所述y’轴与收听者的头1810(和/或收听者的鼻子1825)和电视1101的条形音箱1830之间的线1813a相对应。在图18A中示出的示例中，线1813a平行于y’轴。因此，角表示y轴与y’轴之间的角。因此，尽管音频设备坐标系1807的原点示出为与图18A中的音频设备2相对应，但一些实施方式涉及在音频设备坐标围绕收听者坐标系1820的原点旋转角/>之前，将音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位。该共同定位可以通过从音频设备坐标系1807到收听者坐标系1820的坐标变换来执行。

在一些示例中，条形音箱1830和/或电视1101的位置可以通过使条形音箱发出声音并且根据DOA和/或TOA数据估计条形音箱的位置来确定，这可以与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测相对应。替代性地或另外地，条形音箱1830和/或电视1101的位置可以通过提示用户走向TV并通过DOA和/或TOA数据定位用户的言语来确定，这可以与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测相对应。一些这样的方法可以涉及应用成本函数，例如，如上文所描述的。一些这样的方法可以涉及三角测量。这样的示例在条形音箱1830和/或电视1101没有相关联的麦克风的情况下可以是有益的。

在条形音箱1830和/或电视1101确实具有相关联的麦克风的一些其他示例中，条形音箱1830和/或电视1101的位置可以根据TOA和/或DOA方法(如本文公开的方法)来确定。根据一些这样的方法，麦克风可以与条形音箱1830共同定位。

根据一些实施方式，条形音箱1830和/或电视1101可以具有相关联的相机1811。控制系统可以被配置为捕获收听者的头1810(和/或收听者的鼻子1825)的图像。在一些这样的示例中，控制系统可以被配置为确定收听者的头1810(和/或收听者的鼻子1825)与相机1811之间的线1813a。收听者角取向数据可以与线1813a相对应。替代性地或另外地，控制系统可以被配置为确定线1813a与音频设备坐标系的y轴之间的角

图18B示出了确定收听者角取向数据的附加示例。根据该示例，已经确定了收听者位置。此处，控制系统控制环境1800b的扩音器以将音频对象1835渲染到环境1800b内的各种位置。在一些这样的示例中，控制系统可以使扩音器渲染音频对象1835，使得音频对象1835似乎围绕收听者1805旋转，例如，通过渲染音频对象1835使得音频对象1835似乎围绕收听者坐标系1820的原点旋转。在该示例中，弯曲箭头1840示出了音频对象1835在其围绕收听者1805旋转时的轨迹的一部分。

根据一些这样的示例，收听者1805可以提供指示音频对象1835何时在收听者1805所面对的方向上的用户输入(例如，说“停止”)。在一些这样的示例中，控制系统可以被配置为确定收听者位置与音频对象1835的位置之间的线1813b。在该示例中，线1813b与收听者坐标系的y’轴相对应，这指示收听者1805所面对的方向。在替代性实施方式中，收听者1805可以提供指示音频对象1835何时在环境的前面、在环境的TV位置处、在音频设备位置处等的用户输入。

图18C示出了确定收听者角取向数据的附加示例。根据该示例，已经确定了收听者位置。此处，收听者1805正在使用手持设备1845通过将手持设备1845指向电视1101或条形音箱1830来提供关于收听者1805的观看方向的输入。在该示例中，手持设备1845的虚线轮廓和收听者的手臂指示在收听者1805将手持设备1845指向电视1101或条形音箱1830的时间之前的时间，收听者1805将手持设备1845指向音频设备2。在其他示例中，收听者1805可以已经将手持设备1845指向另一个音频设备，如音频设备1。根据该示例，手持设备1845被配置为确定音频设备2与电视1101或条形音箱1830之间的角α，所述角近似于音频设备2与收听者1805的观看方向之间的角。

在一些示例中，手持设备1845可以是包括惯性传感器系统和被配置用于与控制环境1800c的音频设备的控制系统通信的无线接口的蜂窝电话。在一些示例中，手持设备1845可以运行被配置为进行以下操作的应用程序或“app”：例如通过提供用户提示(例如，经由图形用户界面)、通过接收指示手持设备1845指向期望方向的输入、通过保存对应的惯性传感器数据和/或将对应的惯性传感器数据发射到控制环境1800c的音频设备的控制系统等来控制手持设备1845执行必要功能。

根据该示例，控制系统(其可以是手持设备1845的控制系统、环境1800c的智能音频设备的控制系统或控制环境1800c的音频设备的控制系统)被配置为根据惯性传感器数据(例如，根据陀螺仪数据)确定线1813c和1850的取向。在该示例中，线1813c平行于轴y’，并且可以用于确定收听者角取向。根据一些示例，控制系统可以根据音频设备2与收听者1805的观看方向之间的角α来确定音频设备坐标围绕收听者坐标系1820的原点的适当旋转。

图18D示出了根据参考图18C描述的方法来确定对音频设备坐标的适当旋转的一个示例。在该示例中，音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位。在确定收听者位置之后，使音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位是可能的。将音频设备坐标系1807的原点与收听者坐标系1820的原点共同定位可以涉及将音频设备位置从音频设备坐标系1807变换到收听者坐标系1820。如上文参考图18C所描述的已经确定了角α。因此，角α与音频设备2在收听者坐标系1820中的期望取向相对应。在该示例中，角β与音频设备2在音频设备坐标系1807中的取向相对应。在该示例中为β-α的角指示用于将音频设备坐标系1807的y轴与收听者坐标系1820的y’轴对齐所必需的旋转。

DOA稳健性措施

如上文参考图14所述，在使用应用于任意信号的“盲目”方法(包括可控响应功率、波束成形或其他类似方法)的一些示例中，可以添加稳健性措施以提高准确性和稳定性。一些实施方式包括波束成形器可控响应的时间积分以滤除暂态并且仅检测持久峰值，而且平均掉这些持久DOA中的随机误差和波动。其他示例可以仅使用有限的频带作为输入，所述频带可以根据房间或信号类型进行调整以达到更好的性能。

对于使用‘监督’方法(涉及使用结构化源信号和去卷积方法来产生脉冲响应)的示例，可以实施预处理措施以增强DOA峰值的准确性和突显度。在一些示例中，这样的预处理可以包括在每个麦克风声道上的脉冲响应的起始处开始的某个时间宽度的振幅窗的截断。这样的示例可以并入有脉冲响应起始检测器，使得可以独立地找到每个声道起始。

在一些示例中，基于如上文描述的‘盲目’或‘监督’方法，可以添加更进一步的处理以提高DOA准确性。重要的是要注意，基于峰值检测的DOA选择(例如，在可控响应功率(SRP)或脉冲响应分析期间)对环境声学敏感，由于将抑制接收和发射能量的反射和设备遮挡，环境声学可能导致非主路径信号的捕获。这些发生可能降低设备对DOA的准确性，并且将误差引入优化器的定位解决方案。因此，谨慎的做法是将预定阈值内的所有峰值视为地面实况DOA的候选。预定阈值的一个示例是要求峰值大于平均可控响应功率(SRP)。对于所有检测到的峰值，突显度阈值化和移除低于平均信号水平的候选已被证明是简单然而有效的初始滤波技术。如本文所使用的，“突显度”是局部峰值与其相邻局部最小值相比有多大的度量，这不同于仅基于功率的阈值化。突显度阈值的一个示例是要求峰值与其相邻局部最小值之间的功率差处于或高于阈值。保留可行候选提高了设备对将在其组中包含可用DOA(在与地面实况的可接受误差容差内)的机会，尽管存在所述设备对在信号被强反射/遮挡毁坏的情况下将不包含可用DOA的机会。在一些示例中，可以实施选择算法以便进行以下项之一：1)选择每设备对的最佳可用DOA候选；2)确定没有一个候选是可用的并且因此用成本函数加权矩阵使该对的优化贡献为零；或3)选择最佳推断的候选，但在难以对最佳候选携带的误差量进行消歧的情况下将非二进制加权应用于DOA贡献。

在用最佳推断的候选进行初始优化之后，在一些示例中，定位解决方案可以用于计算每个DOA的残差成本贡献。对残差成本的异常值分析可以提供对定位解决方案影响最大的DOA对的证据，其中，极端异常值将这些DOA标记为可能不正确或次优的。根据前述三个选项之一，基于剩余候选的残差成本贡献并且在加权应用于该设备对的贡献的情况下对边远DOA对进行优化的递归运行然后可以用于进行候选处理。这是如上文参考图14至图17所描述的反馈过程的一个示例。根据一些实施方式，可以执行重复优化和处理决策，直到评估所有检测到的候选并且平衡选定DOA的残差成本贡献为止。

基于优化器评估进行候选选择的缺点是它是计算密集的并且对候选遍历顺序敏感。具有较少计算权重的替代性技术涉及确定集合中的候选的所有排列并且对这些候选运行用于设备定位的三角形对齐方法。在2020年3月19日提交并且名称为“Audio DeviceAuto-Location[音频设备自动定位]”的美国临时专利申请第62/992,068号中公开了相关三角形对齐方法，所述美国临时专利申请出于所有目的而特此通过援引并入。定位结果然后可以通过相对于三角测量中使用的DOA候选计算结果所产生的总成本和残差成本来评估。用于剖析这些度量的决策逻辑可以用于确定最佳候选以及要提供给非线性优化问题的它们相应的加权。在候选列表很大因此产生高排列计数的情况下，可以应用过滤和对排列列表的智能遍历。

TOA稳健性措施

如上文参考图16所描述的，使用多个候选TOA解决方案相比于利用单个或最小TOA值的系统增添了稳健性，并且确保误差对找到最优扬声器布局的影响最小。在获得系统的脉冲响应后，在一些示例中，可以通过搜索与直接声音相对应的峰值来恢复TOA矩阵元素中的每个TOA矩阵元素。在理想条件(例如，无噪声、源与直接指向麦克风的接收器和扬声器之间的直接路径中无阻碍)下，该峰值可以容易地被识别为脉冲响应中的最大峰值。然而，在存在噪声的情况下，阻碍、或扬声器与麦克风的不对齐、与直接声音相对应的峰值未必与最大值相对应。此外，在这样的条件下，与直接声音相对应的峰值可能难以与其他反射和/或噪声隔离。在一些实例中，直接声音识别可能是具挑战性的过程。直接声音的不正确识别将使自动定位过程降级(并且在一些实例中可能完全破坏所述自动定位过程)。因此，在直接声音识别过程中可能存在误差的情况下，考虑直接声音的多个候选可以是有效的。在一些这样的实例中，峰值选择过程可以包括两个部分：(1)寻找合适的峰值候选的直接声音搜索算法，以及(2)用于增加拾取正确TOA矩阵元素的概率的峰值候选评估过程。

在一些实施方式中，搜索直接声音候选峰值的过程可以包括用于识别直接声音的相关候选的方法。一些这样的方法可以基于以下步骤：(1)识别一个第一参考峰值(例如，脉冲响应(IR)的绝对值的最大值)，即“第一峰值”；(2)评估该第一峰值周围(前面和后面)的噪声水平；(3)搜索第一峰值前面(并且在一些情况下后面)的高于噪声水平的替代性峰值；(4)根据发现的峰值的对应正确TOA的概率对所述峰值进行排序；以及可选地(5)对接近峰值进行分组(以减少候选数量)。

一旦识别出直接声音候选峰值，一些实施方式便可以涉及多峰值评估步骤。作为直接声音候选峰值搜索的结果，在一些示例中，对于每个TOA矩阵元素将存在根据其估计的概率进行排序的一个或多个候选值。多个TOA矩阵可以通过在不同候选值当中进行选择来形成。为了评估给定TOA矩阵的可能性，可以实施最小化过程(如上文描述的最小化过程)。该过程可以生成最小化的残差，所述残差是TOA和DOA矩阵的内部一致性的良好估计。完美无噪声TOA矩阵将导致零残差，而具有不正确矩阵元素的TOA矩阵将导致大残差。在一些实施方式中，方法将寻找创建具有最小残差的TOA矩阵的候选TOA矩阵元素集。这是上文参考图16和图17描述的评估过程的一个示例，所述评估过程可以涉及结果评估框1750。在一个示例中，评估过程可以涉及执行以下步骤：(1)选择初始TOA矩阵；(2)用最小化过程的残差评估初始矩阵；(3)改变来自TOA候选列表的TOA矩阵的一个矩阵元素；(4)用最小化过程的残差重新评估矩阵；(5)如果残差较小，则接受改变，否则不接受改变；以及(6)迭代进行步骤3至5。在一些示例中，当已评估所有TOA候选时或当已达到预定义最大迭代次数时评估过程可以停止。

定位方法示例

图19是概述了定位方法的一个示例的流程图。与本文描述的其他方法一样，不必以所指示的顺序来执行方法1900的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1900涉及估计音频设备在环境中的位置和取向。方法1900的框可以由一个或多个设备执行，所述一个或多个设备可以是(或可以包括)图1中示出的装置100。

在该示例中，框1905由控制系统获得与由音频环境的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据。例如，控制系统可以是上文参考图1所描述的控制系统110。根据该示例，第一智能音频设备包括第一音频发射器和第一音频接收器，并且DOA数据与由音频环境的至少第二智能音频设备接收的声音相对应。此处，第二智能音频设备包括第二音频发射器和第二音频接收器。在该示例中，DOA数据还与由至少第二智能音频设备发出并由至少第一智能音频设备接收的声音相对应。在一些示例中，第一智能音频设备和第二智能音频设备可以是图11中示出的音频设备1105a至1105d中的两个。

取决于特定实施方式，可以以各种方式获得DOA数据。在一些实例中，确定DOA数据可以涉及上文参考图14和/或在“DOA稳健性措施”章节中描述的DOA相关方法中的一个或多个。一些实施方式可以涉及由控制系统使用波束成形方法、可控功率响应方法、到达时间差方法和/或结构化信号方法获得DOA数据的一个或多个元素。

根据该示例，框1910涉及由控制系统接收配置参数。在该实施方式中，配置参数与音频环境本身、音频环境的一个或多个音频设备、或者音频环境和音频环境的一个或多个音频设备两者相对应。根据一些示例，配置参数可以指示音频环境中的音频设备数量、音频环境的一个或多个尺寸、对音频设备位置或取向的一个或多个约束、和/或旋转、平移或缩放中的至少一个的消歧数据。在一些示例中，配置参数可以包括回放时延数据、记录时延数据和/或用于对时延对称性进行消歧的数据。

在该示例中，框1915涉及由控制系统至少部分地基于DOA数据和配置参数来最小化成本函数，以估计至少第一智能音频设备和第二智能音频设备的位置和取向。

根据一些示例，DOA数据还可以与由音频环境的第三至第N个智能音频设备发出的声音相对应，其中，N与音频环境的智能音频设备的总数相对应。在这样的示例中，DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境的所有其他智能音频设备接收的声音相对应。在这样的实例中，最小化成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。

在一些示例中，DOA数据还可以与由音频环境的一个或多个无源音频接收器接收的声音相对应。一个或多个无源音频接收器中的每一个可以包括麦克风阵列，但可能缺少音频发射器。最小化成本函数还可以提供一个或多个无源音频接收器中的每一个的估计位置和取向。根据一些示例，DOA数据还可以与由音频环境的一个或多个音频发射器发出的声音相对应。一个或多个音频发射器中的每一个可以包括至少一个发声换能器，但可能缺乏麦克风阵列。最小化成本函数还可以提供一个或多个音频发射器中的每一个的估计位置。

在一些示例中，方法1900可以涉及由控制系统接收用于成本函数的种子布局。例如，种子布局可以指定音频环境中的音频发射器和接收器的正确数量以及音频环境中的音频发射器和接收器中的每一个的任意位置和取向。

根据一些示例，方法1900可以涉及由控制系统接收与DOA数据的一个或多个元素相关联的权重因子。例如，所述权重因子可以指示DOA数据的一个或多个元素的可用性和/或可靠性。

在一些示例中，方法1900可以涉及由控制系统接收与由音频环境的至少一个音频设备发出并由音频环境的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中，成本函数可以至少部分地基于TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例，成本函数可以利用重新缩放的位置、重新缩放的时延和/或重新缩放的到达时间来操作。

在一些示例中，成本函数可以包括仅取决于DOA数据的第一项和仅取决于TOA数据的第二项。在一些这样的示例中，第一项可以包括第一权重因子，并且第二项可以包括第二权重因子。根据一些这样的示例，第二项的一个或多个TOA元素可以具有指示一个或多个TOA元素中的每一个的可用性或可靠性的TOA元素权重因子。

图20是概述了定位方法的另一示例的流程图。与本文描述的其他方法一样，不必以所指示的顺序来执行方法2000的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法2000涉及估计设备在环境中的位置和取向。方法2000的框可以由一个或多个设备执行，所述一个或多个设备可以是(或可以包括)图1中示出的装置100。

在该示例中，框2005由控制系统获得与环境的第一设备的至少第一收发器的发射相对应的到达方向(DOA)数据。例如，控制系统可以是上文参考图1所描述的控制系统110。根据该示例，第一收发器包括第一发射器和第一接收器，并且DOA数据与由环境的第二设备的至少第二收发器接收的发射相对应，第二收发器还包括第二发射器和第二接收器。在该示例中，DOA数据还与由至少第一收发器从至少第二收发器接收的发射相对应。根据一些示例，第一收发器和第二收发器可以被配置用于发射和接收电磁波。在一些示例中，第一智能音频设备和第二智能音频设备可以是图11中示出的音频设备1105a至1105d中的两个。

根据该示例，框2010涉及由控制系统接收配置参数。在该实施方式中，配置参数与环境本身、音频环境的一个或多个设备、或者环境和音频环境的一个或多个设备两者相对应。根据一些示例，配置参数可以指示环境中的音频设备数量、环境的一个或多个尺寸、对设备位置或取向的一个或多个约束、和/或旋转、平移或缩放中的至少一个的消歧数据。在一些示例中，配置参数可以包括回放时延数据、记录时延数据和/或用于对时延对称性进行消歧的数据。

在该示例中，框2015涉及由控制系统至少部分地基于DOA数据和配置参数来最小化成本函数，以估计至少第一设备和第二设备的位置和取向。

根据一些实施方式，DOA数据还可以与由环境的第三至第N个设备的第三至第N个收发器发出的传输相对应，其中，N与环境的收发器总数相对应，并且其中，DOA数据与由第一至第N个收发器中的每一个从环境的所有其他收发器接收的发射相对应。在一些这样的实施方式中，最小化成本函数还可以涉及估计第三至第N个收发器的位置和取向。

在一些示例中，第一设备和第二设备可以是智能音频设备，并且环境可以是音频环境。在一些这样的示例中，第一发射器和第二发射器可以是音频发射器。在一些这样的示例中，第一接收器和第二接收器可以是音频接收器。根据一些这样的示例，DOA数据还可以与由音频环境的第三至第N个智能音频设备发出的声音相对应，其中，N与音频环境的智能音频设备的总数相对应。在这样的示例中，DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境的所有其他智能音频设备接收的声音相对应。在这样的实例中，最小化成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。替代性地或另外地，在一些示例中，DOA数据可以与由环境中的设备发出并接收的电磁波相对应。

在一些示例中，DOA数据还可以与由环境的一个或多个无源接收器接收的声音相对应。一个或多个无源接收器中的每一个可以包括接收器阵列，但可能缺乏发射器。最小化成本函数还可以提供一个或多个无源接收器中的每一个的估计位置和取向。根据一些示例，DOA数据还可以与来自环境的一个或多个发射器的发射相对应。在一些这样的示例中，一个或多个发射器中的每一个可能缺乏接收器阵列。最小化成本函数还可以提供一个或多个发射器中的每一个的估计位置。

在一些示例中，方法2000可以涉及由控制系统接收用于成本函数的种子布局。例如，种子布局可以指定音频环境中的发射器和接收器的正确数量以及音频环境中的发射器和接收器中的每一个的任意位置和取向。

根据一些示例，方法2000可以涉及由控制系统接收与DOA数据的一个或多个元素相关联的权重因子。例如，所述权重因子可以指示DOA数据的一个或多个元素的可用性和/或可靠性。

在一些示例中，方法2000可以涉及由控制系统接收与由音频环境的至少一个音频设备发出并由音频环境的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中，成本函数可以至少部分地基于TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例，成本函数可以利用重新缩放的位置、重新缩放的时延和/或重新缩放的到达时间来操作。

图21A示出了音频环境的示例。与本文提供的其他图一样，图21A中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。

根据该示例，音频环境2100包括主要生活空间2101a和与主要生活空间2101a相邻的房间2101b。此处，墙壁2102和门2111将主要生活空间2101a与房间2101b分开。在该示例中，主要生活空间2101a与房间2101b之间的声学间距量取决于门2111是打开的还是关闭的以及(如果打开)门211打开的程度。

在与图21A相对应的时间，智能电视(TV)2103a位于音频环境2100内。根据该示例，智能TV 2103a包括左扩音器2103b和右扩音器2103c。

在该示例中，智能音频设备2104、2105、2106、2107、2108和2109在与图21A相对应的时间也位于音频环境2100内。根据该示例，智能音频设备2104至2109中的每一个包括至少一个麦克风和至少一个扩音器。然而，在该实例中，智能音频设备2104至2109包括各种大小并且具有各种能力的扩音器。

根据该示例，至少一个声学事件发生在音频环境2100中。在该示例中，一个声学事件是由正在发出语音命令2112的讲话的人1210引起的。

在该示例中，另一声学事件是至少部分地由可变元件2103引起的。此处，可变元件2103是音频环境2100的门。根据该示例，当门2103打开时，来自环境外部的声音2105可以在音频环境2100内部被更清楚地感知到。此外，门2103的变化角度改变音频环境2100内的一些回波路径。根据该示例，元件2104表示由门2103的变化位置导致的音频环境2100的脉冲响应的可变元件。

强制间隙示例

如上所述，在一些实施方式中，可以将一个或多个“间隙”(本文中还被称为“强制间隙”或“参数化强制间隙”)插入内容流的音频回放信号的一个或多个频率范围中，以产生已修改的音频回放信号。可以在音频环境中再现或“回放”所述已修改的音频回放信号。在一些这样的实施方式中，可以在N个时间间隔期间将N个间隙插入到音频回放信号的N个频率范围中。根据一些这样的实施方式，M个音频设备可以在时间和频率上编排它们的间隙，从而允许在间隙频率和时间间隔中对(每个设备各自的)远场进行准确检测。

在一些示例中，将强制间隙序列插入回放信号中(每个强制间隙在回放信号的不同频带(或频带组)中)，以允许普遍的收听者监测出现“在”每个强制间隙“中”的非回放声音，在某种意义上所述非回放声音出现在出现间隙的时间间隔期间并且出现在插入间隙的(多个)频带中。图21B是已修改的音频回放信号的频谱图的示例。在该示例中，根据一个示例，通过将间隙插入到音频回放信号中来创建已修改的音频回放信号。更具体地，为了生成图21B的频谱图，对音频回放信号执行所公开的方法以在其频带中引入强制间隙(例如，图21B中示出的间隙G1、G2和G3)，从而生成已修改的音频回放信号。在图21B中示出的频谱图中，沿着水平轴的位置指示时间，并且沿着垂直轴的位置指示已修改的音频回放信号的内容在某一时刻的频率。每个小区域中的点密度(每个这样的区域以在该示例中具有垂直和水平坐标的点为中心)指示已修改的音频回放信号的内容在对应频率和时刻处的能量：较密集的区域指示具有较大能量的内容，并且不太密集的区域指示具有较低能量的内容。因此，间隙G1出现的时间(换句话说，在间隙G1出现的时间间隔期间)早于间隙G2或G3出现的时间(换句话，在间隙G2或G3出现的时间间隔期间)，并且已将间隙G1插入比已插入间隙G2或G3的频带高的频带中。

根据一些公开的方法将强制间隙引入到回放信号中不同于设备暂停内容回放流(例如，以便更好地听到用户和用户的环境)的单工设备操作。根据一些公开的方法将强制间隙引入到回放信号中可以被优化以显著减少(或消除)在回放期间由所引入间隙产生的伪像的可感知性，优选地使得强制间隙对用户没有可感知到的影响或可感知到的影响最小，但使得回放环境中的麦克风的输出信号指示强制间隙(例如，因此可以利用间隙来实施普遍的收听方法)。通过使用已根据一些公开的方法引入的强制间隙，普遍的收听系统可以甚至在不使用声学回波消除器的情况下监测非回放声音(例如，指示回放环境中的背景活动和/或噪声的声音)。

参考图22A和图22B，接下来描述可以被插入音频回放信号的频带中的参数化强制间隙的示例以及选择这样的强制间隙的参数的标准。图22A是示出了频域中的间隙的示例的曲线图。图22B是示出了时域中的间隙的示例的曲线图。在这些示例中，参数化强制间隙是使用频带衰减G对回放内容进行的衰减，所述频带衰减在时间和频率两者上的分布曲线与图22A和图22B中示出的分布曲线相似。此处，通过在由中心频率f₀(图22A中所指示的)和带宽B(也在图22A中指示)定义的频率范围(“频带”)上对回放信号应用衰减G来强制间隙，其中，衰减在频带中的每个频率(例如，在频带内的每个频率窗口中)处作为时间的函数发生变化，所述衰减的分布曲线与图22B中示出的分布曲线相似。衰减G的最大值(作为跨频带的频率的函数)可以被控制为从0dB(在频带的最低频率处)增加到在中心频率f₀(如图22A中所指示的)处的最大衰减(抑制深度)Z，并且减小(随着频率增加到高于中心频率)到0dB(在频带的最高频率处)。

在该示例中，图22A的曲线图指示频带衰减G作为频率(即，频率窗口)的函数的分布曲线，对音频信号的频率分量应用所述频带衰减以强制间隙在频带中的信号的音频内容中。音频信号可以是回放信号(例如，多声道回放信号的声道)，并且音频内容可以是回放内容。

根据该示例，图22B的曲线图示出了频带衰减G作为时间的函数的分布曲线，对中心频率f₀处的频率分量应用所述频带衰减以强制图22A中指示的间隙在频带中的信号的音频内容中。对于频带中的每个其他频率分量，作为时间的函数的频带增益可以具有与图22B中示出的分布曲线类似的分布曲线，但图22B的抑制深度Z可以被替换为插值抑制深度kZ，其中，在该示例中，k是范围为从0到1的因子(作为频率的函数)，使得kZ具有图22A中示出的分布曲线。在一些示例中，对于每个频率分量，衰减G还可以从0dB到抑制深度kZ(例如，其中，在中心频率处k＝1，如图22B中所指示的)进行插值(例如，作为时间的函数)，例如，以减少因引入间隙而产生的音乐伪像。在图22B中示出了该后一插值的三个区域(时间间隔)t1、t2和t3。

因此，当针对特定频带(例如，以图22A中示出的中心频率f₀为中心的频带)发生间隙强制操作时，在该示例中，应用于频带中的每个频率分量(例如，频带内的每个窗口)的衰减G遵循如图22B中示出的轨迹。从0dB开始，它在t1秒内下降到深度–kZ dB，保持在那里持续t2秒，并且最终在t3秒内回升到0dB。在一些实施方式中，总时间t1+t2+t3的选择可以考虑到用于分析麦克风馈送的任何频率变换的时间分辨率以及对用户来说不太侵扰的合理持续时间。下文在表2中示出了单一设备实施方式的t1、t2和t3的一些示例。

一些公开的方法涉及根据预定固定条带结构插入强制间隙，所述固定条带结构覆盖音频回放信号的全频谱并且包括B_count个频带(其中，B_count是数量，例如，B_count＝49)。为了强制间隙在频带中的任何频带中，在这样的示例中在频带中应用频带衰减。具体来说，对于第j个频带，可以在由频带定义的频率区域上应用衰减Gj。

在下文，表2示出了每个频带的参数t1、t2、t3、深度Z的示例值以及单一设备实施方式的频带数量B_count的示例。

表2

在确定频带数量和每个频带的宽度时，在感知影响与间隙的有用性之间存在折衷：具有间隙的较窄频带更好，因为它们通常具有较少感知影响，而具有间隙的较宽频带更适合在全频谱的所有频带中例如响应于背景噪声或回放环境状态的改变而实施噪声估计(以及其他普遍的收听方法)并减少收敛到新噪声估计(或通过普遍的收听监测到的其他值)所需要的时间(“收敛”时间)。如果一次可以强制仅有限数量的间隙，则在大量的小频带中顺序地强制间隙比在小量的较大频带中顺序地强制间隙将花费更长时间，从而导致相对较长的收敛时间。较大频带(具有间隙)一次提供关于背景噪声的许多信息(或通过普遍的收听监测到的其他值)，但通常具有更大的感知影响。

在本发明人的早期工作中，在单一设备背景下产生间隙，其中，回波影响主要(或完全)是近场。近场回波很大程度上受音频从扬声器到麦克风的直接路径影响。这种性质适用于几乎所有紧凑型双工音频设备(如智能音频设备)，但具有较大外壳和显著声学解耦的设备除外。通过在回放中引入短、感知掩蔽的间隙，如表2中示出的间隙，音频设备可以窥探声学空间，音频设备通过音频设备自身的回波来部署在所述声学空间中。

然而，当其他音频设备也在同一音频环境中播放内容时，本发明人发现，单个音频设备的间隙由于远场回波损坏而变得不太有用。远场回波损坏频繁地降低局部回波消除的性能，从而显著地恶化整体系统性能。出于各种原因，远场回波损坏难以移除。一个原因是获得参考信号可能需要增加的网络带宽和附加延迟估计的附加复杂性。此外，估计远场脉冲响应随着噪声条件的增加和响应的延长(更多混响和时间上的分散)而更加困难。另外，远场回波损坏通常与近场回波和其他远场回波源相关，这进一步挑战远场脉冲响应估计。

本发明人已发现，如果音频环境中的多个音频设备在时间和频率上编排它们的间隙，则当多个音频设备再现已修改的音频回放信号时可以获得远场的更清晰感知(相对于每个音频设备)。本发明人还发现，如果当多个音频设备再现已修改的音频回放信号时目标音频设备回放未修改的音频回放信号，则即使在播放媒体内容的同时也可以从多个音频设备中的每一个的角度估计目标设备的相对可听性和位置。

此外并且可能与直觉相反，本发明人已发现，打破以前用于单一设备实施方式(例如，使间隙打开比表2中所指示的长的时间段)的准则使得适合于多个设备的实施方式经由编排间隙进行协作测量。

例如，在一些编排间隙实施方式中，t2可以比表2中所指示的长，以便适应音频环境中的多个分布式设备之间的各种声学路径长度(声学延迟)，所述声学路径长度可以在米的数量级(与单个设备上的固定麦克风-扬声器声学路径长度相反，这些分布式设备可能最多相隔几十厘米)。在一些示例中，例如，默认t2值可以比表2中指示的80毫秒值大25毫秒，以便允许编排的音频设备之间的间距最多达到8米。在一些编排间隙实施方式中，出于另一原因，默认t2值可以比表2中指示的80毫秒值长：在编排间隙实施方式中，t2优选地更长，以便适应编排的音频设备的定时不对齐，以便确保经过了足够量的时间，在该时间期间，所有编排的音频设备都达到了Z衰减的值。在一些示例中，可以将附加的5毫秒添加到t2的默认值以适应定时不对齐。因此，在一些编排间隙实施方式中，t2的默认值可以是110毫秒，最小值为70毫秒并且最大值为150毫秒。

在一些编排间隙实施方式中，t1和/或t3还可以不同于表2中所指示的值。在一些示例中，由于定时问题和物理距离差异，收听者不能够感知到设备进入或离开其衰减期的不同时间，因此可以调整t1和/或t3。至少部分地由于空间屏蔽(由多个设备从不同位置回放音频产生的)，收听者感知编排的音频设备进入或离开其衰减期的不同时间的能力往往会低于单一设备场景。因此，在一些编排间隙实施方式中，与表2中示出的单一设备示例相比较，t1和t3的最小值可以减小，并且t1和t3的最大值可以增加。根据一些这样的示例，t1和t3的最小值可以减小到2、3或4毫秒，并且t1和t3的最大值可以增加到20、25或30毫秒。

使用编排间隙的测量示例

图22C示出了包括音频环境的多个音频设备的编排间隙的已修改的音频回放信号的示例。在该实施方式中，音频环境的多个智能设备对间隙进行编排以便估计相对于彼此的可听性。在该示例中，在一定时间间隔期间进行与一个间隙相对应的一个测量会话，并且测量会话仅包括在图21A的主要生活空间2100a中的设备。根据该示例，先前可听性数据已示出了，位于房间2101b中的智能音频设备2109已经被分类为其他音频设备几乎听不到并且已被放置在单独的区中。

在图22C中示出的示例中，编排间隙是使用频带衰减G_k对回放内容进行的衰减，其中，k表示所测量的频带的中心频率。图22C中示出的元素如下：

曲线图2203是图21A的智能音频设备2103以dB为单位的G_k的绘图；

曲线图2204是图21A中的智能音频设备2104以dB为单位的G_k的绘图；

曲线图2205是图21A中的智能音频设备2105以dB为单位的G_k的绘图；

曲线图2206是图21A中的智能音频设备2106以dB为单位的G_k的绘图；

曲线图2207是图21A中的智能音频设备2107以dB为单位的G_k的绘图；

曲线图2208是图21A中的智能音频设备2108以dB为单位的G_k的绘图；以及

曲线图2209是图21A中的智能音频设备2109以dB为单位的G_k的绘图。

如本文所使用的，术语“会话”(在本文中还被称为“测量会话”)是指执行频率范围的测量的时间段。在测量会话期间，可以指定具有相关联带宽的一组频率以及一组参与的音频设备。

一个音频设备可以可选地被指定为用于测量会话的“目标”音频设备。如果测量会话中涉及到目标音频设备，则根据一些示例，目标音频设备将被允许忽略强制间隙并且将在测量会话期间播放未修改的音频回放信号。根据一些这样的示例，其他参与的音频设备将收听目标设备回放声音，包括在所测量的频率范围内的目标设备回放声音。

如本文所使用的，术语“可听性”是指设备可以听到另一设备的扬声器输出的程度。下文提供了可听性的一些示例。

根据图22C中示出的示例，在时间t1处，编排设备发起与作为目标音频设备的智能音频设备2103的测量会话，从而选择要测量的一个或多个窗口中心频率，包括频率k。在一些示例中，编排设备可以是充当领导者(例如，如下文参考图4所描述而确定的)的智能音频设备。在其他示例中，编排设备可以是另一编排设备，如智能家居中枢。该测量会话从时间t1一直持续到时间t2。其他参与的智能音频设备(智能音频设备2104至2108)将在其输出中应用间隙，并且将再现已修改的音频回放信号，而智能音频设备2103将播放未修改的音频回放信号。

音频环境2100的再现包括编排间隙的已修改的音频回放信号的智能音频设备子集(智能音频设备2104至2108)是可以被称为M个音频设备的设备子集的一个示例。根据该示例，智能音频设备2109还将播放未修改的音频回放信号。因此，智能音频设备2109不是M个音频设备之一。然而，由于智能音频设备2109是音频环境的其他智能音频设备听不到的，因此在该示例中智能音频设备2109并非目标音频设备，尽管事实是智能音频设备2109和目标音频设备(在该示例中为智能音频设备2103)都将回放未修改的音频回放信号。

期望编排间隙应在测量会话期间对音频环境中的收听者具有低的感知影响(例如，可忽略的感知影响)。因此，在一些示例中，可以选择间隙参数以最小化感知影响。下文参考图23B至图23J描述了一些示例。

在该时间(从时间t1一直到时间t2的测量会话)期间，智能音频设备2104至2108将从目标音频设备(智能音频设备2103)接收用于该测量会话的时间-频率数据的参考音频窗口。在该示例中，参考音频窗口与智能音频设备2103用来作为用于回波消除的本地参考的回放信号相对应。智能音频设备2103访问这些参考音频窗口以用于可听性测量以及回波消除。

根据该示例，在时间t2处，第一测量会话结束并且编排设备发起新的测量会话，该时间选择不包括频率k的一个或多个窗口中心频率。在图22C中示出的示例中，在时段t2至t3期间未针对频率k应用间隙，因此曲线图示出了所有设备的单位增益。在一些这样的示例中，编排设备可以使一系列间隙插入到多个频率范围中的每一个中以用于不包括频率k的窗口中心频率的测量会话序列。例如，编排设备可以使第二至第N个间隙在第二至第N个时间间隔期间插入到音频回放信号的第二至第N个频率范围中以用于第二至第N个后续测量会话，而智能音频设备2103仍然是目标音频设备。

在一些这样的示例中，编排设备然后可以选择另一目标音频设备，例如，智能音频设备2104。编排设备可以指示智能音频设备2103作为回放具有编排间隙的已修改的音频回放信号的M个智能音频设备之一。编排设备可以指示新的目标音频设备再现未修改的音频回放信号。根据一些这样的示例，在编排设备已使N个测量会话针对新的目标音频设备发生之后，编排设备可以选择另一目标音频设备。在一些这样的示例中，编排设备可以继续使测量会话发生直到已针对音频环境中参与的音频设备中的每一个执行测量会话为止。

在图22C中示出的示例中，不同类型的测量会话发生在时间t3与时间t4之间。根据该示例，在时间t3处，响应于用户输入(例如，给充当编排设备的智能音频设备的语音命令)，编排设备发起新会话以便完全校准音频环境2100的扩音器设置。通常，在如发生在时间t3与时间t4之间的“设置”或“再校准”测量会话期间，用户可以相对更能容忍具有相对较高的感知影响的编排间隙。因此，在该示例中，选择大的连续频率集进行测量，包括k。根据该示例，在该测量会话期间，选择智能音频设备2106作为第一目标音频设备。相应地，在从时间t3到t4的测量会话的第一阶段期间，除智能音频设备2106之外的所有智能音频设备将应用间隙。

间隙带宽

图23A是示出了用于创建间隙的滤波器响应以及用于测量在测量会话期间使用的麦克风信号的频率区域的滤波器响应的示例的曲线图。根据该示例，图23A的元素如下：

元素2301表示用于在输出信号创建间隙的滤波器的量级响应；

元素2302表示用于测量与由元素2301导致的间隙相对应的频率区域的滤波器的量级响应；

元素2303和2304表示在频率f1和f2处2301的-3dB点；以及

元素2305和2306表示在频率f3和f4处2302的-3dB点。

间隙响应2301的带宽(BW_gap)可以通过取-3dB点2303与2304之间的差来找到：BW_gap＝f2–f1，并且BW_measure(测量响应2302的带宽)＝f4–f3。

根据一个示例，测量的质量可以表示如下：

由于测量响应的带宽通常是固定的，因此可以通过增加间隙滤波器响应的带宽(例如，加宽带宽)来调整测量的质量。然而，所引入间隙的带宽与其可感知性成比例。因此，通常应鉴于测量的质量和间隙的可感知性两者来确定间隙滤波器响应的带宽。在表3中示出了质量值的一些示例：

表3

尽管表3指示“最小”和“最大”值，但这些值仅用于本示例。其他实施方式可以涉及低于1.5的质量值和/或高于3的质量值。

间隙分配策略

间隙可以由以下项定义：

·使用中心频率和测量带宽对频谱的基本划分；

·结构中的这些最小测量带宽的聚合被称为“条带”；

·持续时间、衰减深度、以及包含符合频谱的商定划分的一个或多个连续频率；以及

·其他时间行为，如在间隙的开始和结束处使衰减深度斜升。

根据一些实施方式，可以根据将旨在在尽可能短的时间内测量并观察尽可能多的可听频谱的策略来选择间隙，同时满足适用的可感知性约束。

图23B、图23C、图23D、图23E、图23F、图23G、图23H、图23I和图23J是示出了间隙分配策略的示例的曲线图。在这些示例中，时间由沿着水平轴的距离表示，并且频率由沿着垂直轴的距离表示。这些曲线图提供图示由各种间隙分配策略产生的图案以及测量完整音频频谱所花费的时间的示例。在这些示例中，每个编排间隙测量会话的长度是10秒。与其他所公开的实施方式一样，这些曲线图仅仅作为示例提供。其他实施方式可以包括元件的更多、更少和/或不同类型、数量和/或序列。例如，在其他实施方式中，每个编排间隙测量会话可以长于或短于10秒。在这些示例中，图23B至图23J中表示的时间/频率空间的无阴影区域2310(其在本文中可以被称为“瓦片”)表示所指示的(10秒的)时间-频率周期处的间隙。中等阴影区域2315表示已经测量了至少一次的频率瓦片。轻阴影区域2320尚未被测量。

假设手头的任务要求参与的音频设备插入编排间隙以“在整个房间中进行收听”(例如，评估音频环境中的噪声、回波等)，则测量会话完成时间将如图23B至图23J中所指示的。如果任务要求每个音频设备依次成为目标，并由其他音频设备收听，则需要将时间乘以参与所述过程的音频设备的数量。例如，如果每个音频设备依次成为目标，则图23B中被示出为测量会话完成时间的三分钟二十秒(3m20s)将意味着7个音频设备的系统将在7*3m20s＝23m20s之后被完全映射。当循环经过频率/频带并且一次强制多个间隙时，在这些示例中，为了覆盖频谱时的效率，间隙在频率中将间隔得尽可能远。

图23B和图23C是示出了根据一个间隙分配策略的编排间隙序列的示例的曲线图。在这些示例中，间隙分配策略涉及在每个连续的测量会话期间的时间使N个完整频带(每个频带包括至少一个频率窗口，并且在大多数情况下包括多个频率窗口)具有间隙。在图23B中，N＝1，并且在图23C中，N＝3，后一种情况意味着图23C的示例涉及在同一时间间隔期间插入三个间隙。在这些示例中，所使用的条带结构是20频带的梅尔间隔布置。根据一些这样的示例，在已测量所有20个频带之后，序列可以重新开始。尽管3m20s是达到完全测量的合理时间，但在300Hz至8kHz的临界音频区域中打穿的间隙是非常宽的，并且很多时间都被用于在该区域外部进行测量。由于300Hz至8kHz的频率范围中的间隙相对较宽，因此用户将非常容易感知到该特定策略。

图23D和图23E是示出了根据另一间隙分配策略的编排间隙序列的示例的曲线图。在这些示例中，间隙分配策略涉及修改图23B和图23C中示出的条带结构以映射到大约300Hz至8kHz的“优化”频率区域。在其他方面，总体分配策略与由图23B和图23C表示的策略相比没有变化，尽管序列结束得稍微较早，因为第20个频带现在被忽略。此处，被强制的间隙的带宽仍将是可感知的。然而，益处是对优化的频率区域进行非常快速的测量，特别是在间隙一次被强制到多个频带中的情况下。

图23F、图23G和图23H是示出了根据另一间隙分配策略的编排间隙序列的示例的曲线图。在这些示例中，间隙分配策略涉及“强制窗口间隙”方法，其中，间隙被强制到单个频率窗口中而不是完整频带上。图23F、图23G和图23H中的水平线描绘了图23D和图23E中示出的条带结构。从涉及19个频带的间隙分配策略改变到涉及170个窗口的间隙分配策略显著地增加了测量优化频谱所花费的时间，其中，在图23F中示出的示例(其中，N＝1)中，单个测量会话现在花费超过25分钟来完成。

由图23F、图23G和图23H表示的间隙分配策略的主要优点是过程的显著降低的可感知性。选择N＝3(如图23G中所示出的)或N＝5将使图23F示例的测量会话时间减少1/N，如图23F和图23G的绘图中所示出的，并且可感知性仍是可管理的。

然而，由图23F、图23G和图23H表示的间隙分配策略仍存在两个显著缺点。一个缺点是忽略了条带结构的对数性质：基于人类感知的真实情况，间隙在较高频率下的带宽过于保守。另一个缺点是按顺序步进通过频率将在移动到下一频带上之前完全地测量每个频带。通过对丢失数据进行插补以及通过条带过程进行平均，即使尚未充分地测量条带，算法仍可以以某一置信度发挥作用。

图23I和图23J是示出了根据另一间隙分配策略的编排间隙序列的示例的曲线图。在这些示例中，间隙的带宽随频率增加，但其速率比由图23I和图23J中的水平线表示的基本条带结构更保守。随频率增加间隙的带宽会减少总体测量会话时间而不会负面地影响所插入间隙的可感知性。第二个改进是，对于所强制的每个间隙，由图23I和图23J表示的间隙分配策略涉及选择在连续频带内的频率窗口(这在图23I中更为明显)。根据这些示例，通过记住/记录每个频带内先前测量的窗口，当重新访问该频带时测量该频带内的下一个连续窗口。该过程不影响测量完整频谱所花费的时间，但迅速地减少至少一次测量每个频带的至少一部分所花费的时间。由图23I和图23J表示的间隙分配策略还具有比上述间隙分配策略更难辨认的图案和结构，从而进一步降低感知性影响。

图24、图25A和图25B是根据一些实施方式的示出了多个音频设备如何协调测量会话的示例的流程图。不必以所指示的顺序来执行图24至图25B中示出的框(与本文中描述的其他方法的框一样)。例如，在一些实施方式中，可以在框2400的操作之前执行图24的框2401的操作。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

根据这些示例，智能音频设备是编排设备(其在本文中还可以被称为“领导者”)，并且一次仅一个设备可以是编排设备。在其他示例中，编排设备可以在本文中被称为智能家居中枢。编排设备可以是上文参考图1描述的装置100的实例。

图24描绘了根据该示例由所有参与的音频设备执行的框。在该示例中，框2400涉及获得所有其他参与的音频设备的列表。根据一些这样的示例，框2400可以涉及获得每个参与的音频设备的声学区、组等的指示。例如，可以通过经由网络数据包聚合来自其他音频设备的信息来创建框2400的列表：例如，其他音频设备可以广播它们参与测量会话的意图。当添加和/或从音频环境移除音频设备时，可以更新框2400的列表。在一些这样的示例中，可以根据各种启发法更新框2400的列表，以便使最新列表保持仅关于最重要的设备(例如，当前在图21A的主要生活空间2101a内的音频设备)。

在图24中示出的示例中，链接2404指示将框2400的列表传递到框2401，即协商领导过程。取决于特定实施方式，框2401的该协商领导过程可以采取不同的形式。在最简单的实施例中，假设所有设备可以实施相同的方案，最低或最高设备ID代码(或其他唯一设备标识符)的字母数字排序可以在不具有设备之间的多个通信轮次的情况下确定领导者。在更复杂的实施方式中，设备可以彼此协商以确定哪个设备最适合作为领导者。例如，可能方便的是，使聚合编排信息的设备也作为领导者以用于促进测量会话。具有最高正常运行时间的设备、具有最大计算能力的设备和/或连接到主电源的设备可以是领导的良好候选。通常，在多个设备上安排这种共识是具有挑战性的问题，但为具有许多现有的并且令人满意的协议和解决方案(例如，Paxos协议)的问题。将理解，存在许多这样的协议并且将是合适的。

所有参与的音频设备然后继续执行框2403，这意味着链接2406在该示例中是无条件链接。下文参考图25B描述了框2403。如果设备是领导者，则其将执行框2402。在该示例中，链接2405涉及对领导的检查。下文参考图25A描述领导过程。来自该领导过程的输出(包括但不限于到其他音频设备的消息)由图24的链接2407指示。

图25A示出了由编排设备或领导者执行的过程的示例。框501涉及选择要测量的目标设备并且选择间隙分配策略，例如，在测量会话期间要使用的间隙的开始和结束时间以及频率中的间隙的位置和大小。在一些示例中，框2501可以涉及选择时间t1、t2和/或t3，如上文参考图22B所描述的。不同应用可以激励用于前述选择的不同策略。例如，在一些示例中，可以部分基于“紧迫性”测量来选择要测量的目标设备，例如，有利于最近未测量的设备和频带。在一些实例中，特定目标设备对基于特定应用或用例进行测量可能是更重要的。例如，在空间呈现中用于“左”和“右”声道的扬声器的位置对于测量通常可能是重要的。

根据该示例，在编排设备已做出框2501的选择之后，图25A的过程继续到框2502。在该示例中，框2502涉及将在框2501中确定的信息发送到其他参与的音频设备。在一些示例中，框2502可以涉及经由无线通信(例如，通过本地Wi-Fi网络、经由蓝牙等)将信息发送到其他参与的音频设备。在一些示例中，框2502可以涉及将间隙分配策略的细节发送到其他参与的音频设备，例如，在测量会话期间要使用的间隙的开始和结束时间、以及频率中的间隙的位置和大小。在其他示例中，其他参与的音频设备可以存储关于多个间隙分配策略中的每一个的信息。在一些这样的示例中，框2502可以涉及发送要选择的所存储间隙分配策略(例如，间隙分配策略1、间隙分配策略2等)的指示。在一些示例中，框2502可以涉及发送“会话开始”指示，例如，如下文参考图25B所描述的。

根据该示例，在编排设备已执行框2502之后，图25A的过程继续到框2503，其中，编排设备等待当前测量会话结束。在该示例中，在框2503中，编排设备等待确认所有其他参与的音频设备已结束了它们的会话。

在该示例中，在编排设备在框2503中已接收到来自所有其他参与的音频设备的确认之后，图25A的过程继续到框2500，其中，向编排设备提供关于测量会话的信息。这样的信息可能影响未来测量会话的选择和定时。在一些实施例中，框2500涉及接受在测量会话期间从所有其他参与的音频设备获得的测量。接收到的测量的类型可以取决于特定实施方式。根据一些示例，接收到的测量可以是或可以包括麦克风信号。替代性地或另外地，在一些示例中，接收到的测量可以是或可以包括从麦克风信号提取的音频数据。在一些实施方式中，编排设备可以对接收到的测量执行(使其执行)一个或多个操作。例如，编排设备可以至少部分地基于所提取的音频数据来估计(或使其估计)目标音频设备可听性或目标音频设备位置。一些实施方式可以涉及至少部分地基于所提取的音频数据来估计远场音频环境脉冲响应和/或音频环境噪声。

在图25A中示出的示例中，过程将在执行框2500之后返回到框2501。在一些这样的示例中，过程将在执行框2500之后的预定时间段返回到框2501。在一些实例中，过程可以响应于用户输入而返回到框2501。

图25B示出了由除编排设备以外的参与的音频设备执行的过程的示例。此处，框2510涉及其他参与的音频设备中的每一个将发射(例如，网络数据包)发送到编排设备，该发射用信号通知每个设备参与一个或多个测量会话的意图。在一些实施例中，框2510还可以涉及将一个或多个先前测量会话的结果发送给领导者。

在该示例中，框2515跟在框2510后面。根据该示例，框2515涉及等待测量会话将开始的通知，例如，如经由“会话开始”数据包所指示的。

根据该示例，框2520涉及根据由编排设备提供的信息例如以及在框2515中等待的“会话开始”数据包应用间隙分配策略。在该示例中，框2520涉及应用间隙分配策略以生成在测量会话期间将由参与的音频设备(除了目标音频设备，如果存在的话)回放的已修改的音频回放信号。根据该示例，框2520涉及经由音频设备麦克风检测音频设备回放声音并且在测量会话期间生成对应的麦克风。如链接2522所建议的，在一些实例中，可以重复框2520，直到由编排设备指示的所有测量会话完成(例如，根据从编排设备接收的“停止”指示(例如，停止数据包)，或在预定持续时间之后)。在一些实例中，可以针对多个目标音频设备中的每一个重复框2520。

最终，框2525涉及停止插入在测量会话期间应用的间隙。在该示例中，在框2525之后，图25B的过程返回到框2510。在一些这样的示例中，过程将在执行框2525之后的预定时间段返回到框2510。在一些实例中，过程可以响应于用户输入而返回到框2510。

在一些实施方式中，可以通过仅基于唯一设备ID/名称的简单算法来确定设置序列中的目标设备的频率区域、持续时间和排序。例如，目标设备的排序可以采用一些商定的词汇/字母数字顺序，并且频率和间隙持续时间可以基于对所有设备公共的一天中的目前时间。这样的简化实施例具有较低系统复杂性，但可能不适应系统的更多动态需求。

对通过间隙显露的麦克风信号的示例测量

在编排间隙测量会话的持续时间内测量的子频带信号与房间中的噪声以及来自目标设备的直接刺激(如果已经指定的话)相对应。在本章节中，示出了从这些子频带信号确定的声学性质和相关信息的示例，以进一步用于映射、校准、噪声抑制和/或回波衰减应用。

测距

根据一些示例，在编排间隙测量会话期间测量的子频带信号可以用于例如基于估计的直接混响比来估计音频设备之间的近似距离。例如，如果目标音频设备可以公布输出声压级(SPL)并且如果测量音频设备的扬声器与麦克风的距离是已知的，则可以基于1/r²定律来估计近似距离。

DoA

在一些示例中，在编排间隙测量会话期间测量的子频带信号可以用于估计由音频环境中的一个或多个人(例如，所述人的言语)和/或一个或多个音频设备发出的声音的到达方向(DoA)和/或到达时间(ToA)。在一些这样的示例中，可以估计与一个或多个人和/或一个或多个音频设备的当前位置相对应的声学区。参考图8A及以下内容描述了一些示例。

可听性和脉冲响应

根据一些示例(例如，在如图6中示出的实施方式中)，在测量会话期间，可以记录并且在P个音频帧的周期内紧密地时间对齐参考信号r和麦克风信号m两者。可以表示：

在前述表达式中，表示维度(大小)n的复数空间，r(t)和m(t)表示长度n的复向量，并且n表示用于给定测量会话的复频率窗口的数量。因此，m(t)表示子频带域麦克风信号。还可以表示：

在前述表达式中，表示所有整数的集合，并且t表示在范围1至P(包括1和P)中的任何整数。

在该公式中，可以解决经典的声道识别问题，从而尝试估计从r预测信号m的线性传递函数H。该问题的现有解决方案包括自适应有限脉冲响应(FIR)滤波器、离线(非因果)维纳滤波器和许多其他统计信号处理方法。传递函数H的量级可以被称为可听性，即在一些应用中可以用于基于彼此相关的设备“相互可听”的程度来对所述设备进行排序的有用声学性质。根据一些示例，可以在音频设备回放水平的范围内确定传递函数H的量级，以便确定所回放的音频数据是否指示音频设备非线性，例如，如上文所描述的。

本公开的一些方面包括一种被配置(例如，被编程)成执行所公开方法的一个或多个示例的系统或设备，以及一种存储用于实施所公开方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，磁盘)。例如，一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据执行各种操作中的任一个，包括所公开方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。

一些实施例可以被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，所述数字信号处理器被配置(例如，被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理，包括对所公开方法的一个或多个示例的执行。替代性地，所公开系统(或其元件)的实施例可以被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器用软件或固件编程为和/或以其他方式被配置成执行各种操作中的任一个，包括所公开方法的一个或多个示例。替代性地，本发明系统的一些实施例的元件被实施为被配置(例如，被编程)成执行所公开方法的一个或多个示例的通用处理器或DSP，并且所述系统还包括其他元件(例如，一个或多个扩音器和/或一个或多个麦克风)。被配置成执行所公开方法的一个或多个示例的通用处理器可以耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，所述计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如，可执行以执行所公开方法或其步骤的一个或多个示例的编码器)。

虽然在本文中已经描述了具体实施例和应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离在本文描述的并要求保护的范围的情况下，可以对本文描述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了某些形式，但是本公开的范围不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种音频处理方法，包括：

由控制系统使音频环境中的多个音频设备再现音频数据，所述多个音频设备中的每个音频设备包括至少一个扩音器和至少一个麦克风；

由所述控制系统确定包括所述多个音频设备中的每个音频设备的音频设备位置的音频设备位置数据；

由所述控制系统从所述多个音频设备中的每个音频设备获得麦克风数据，所述麦克风数据至少部分地与由所述音频环境中的其他音频设备的扩音器再现的声音相对应；

由所述控制系统确定所述多个音频设备中的每个音频设备相对于所述多个音频设备中的每个其他音频设备的相互可听性；

由所述控制系统确定所述音频环境中的人的用户位置；

由所述控制系统确定所述多个音频设备中的每个音频设备在所述用户位置处的用户位置可听性；以及

至少部分地基于所述用户位置可听性来控制音频设备回放的一个或多个方面。

2.如权利要求1所述的方法，其中，确定所述音频设备位置数据涉及音频设备自动定位过程。

3.如权利要求2所述的方法，其中，所述音频设备自动定位过程涉及获得所述多个音频设备中的每个音频设备的到达方向数据。

4.如权利要求2或权利要求3所述的方法，其中，所述音频设备自动定位过程涉及获得所述多个音频设备中的每个音频设备的到达时间数据。

5.如权利要求1至4中任一项所述的方法，其中，确定所述用户位置至少部分地基于与所述人的一个或多个话语相对应的到达方向数据或到达时间数据中的至少一个。

6.如权利要求1至5中任一项所述的方法，其中，音频设备回放的所述一个或多个方面包括调平或均衡中的一项或多项。

7.如权利要求1至6中任一项所述的方法，其中，确定每个音频设备的所述相互可听性涉及确定相互可听性矩阵。

8.如权利要求7所述的方法，其中，确定所述相互可听性矩阵涉及将相对于满刻度的分贝映射到声压级的分贝的过程。

9.如权利要求7或权利要求8所述的方法，其中，所述相互可听性矩阵包括所述多个音频设备中的每个音频设备之间的所测量的传递函数。

10.如权利要求7至9中任一项所述的方法，其中，所述相互可听性矩阵包括多个频带中的每个频带的值。

11.如权利要求7至10中任一项所述的方法，进一步包括通过对所测量的可听性数据应用插值法来确定插值相互可听性矩阵。

12.如权利要求11所述的方法，其中，确定所述插值相互可听性矩阵涉及应用部分地基于距离衰变常数的衰变定律模型。

13.如权利要求12所述的方法，其中，所述距离衰变常数包括每设备参数或音频环境参数中的至少一个。

14.如权利要求12或权利要求13所述的方法，其中，所述衰变定律模型是基于频带的。

15.如权利要求12至14中任一项所述的方法，进一步包括根据所述相互可听性矩阵和所述衰变定律模型的值来估计所述多个音频设备中的每个音频设备的输出增益。

16.如权利要求15所述的方法，其中，估计每个音频设备的所述输出增益涉及确定所述相互可听性矩阵和所述衰变定律模型的值函数的最小二乘解。

17.如权利要求15或权利要求16所述的方法，进一步包括根据每个音频设备的所述输出增益、所述用户位置和每个音频设备位置的函数来确定所述插值相互可听性矩阵的值。

18.如权利要求17所述的方法，其中，所述插值相互可听性矩阵的所述值与每个音频设备的所述用户位置可听性相对应。

19.如权利要求12至18中任一项所述的方法，其中，所述衰变定律模型包括临界距离参数。

20.如权利要求11至19中任一项所述的方法，进一步包括使所述插值相互可听性矩阵的频带值均衡。

21.如权利要求11至20中任一项所述的方法，进一步包括将延迟补偿矢量应用于所述插值相互可听性矩阵。

22.如权利要求1至21中任一项所述的方法，其中，所述音频环境包括至少一个具有至少一个扩音器但不具有麦克风的仅输出音频设备，所述方法进一步包括确定所述至少一个仅输出音频设备在所述多个音频设备中的每个音频设备的所述音频设备位置处的可听性。

23.如权利要求1至22中任一项所述的方法，其中，所述音频环境包括一个或多个具有至少一个麦克风但不具有扩音器的仅输入音频设备，所述方法进一步包括确定所述音频环境中的每个配备扩音器的音频设备在所述一个或多个仅输入音频设备中的每一个的位置处的可听性。

24.如权利要求1至23中任一项所述的方法，进一步包括由所述控制系统使所述多个音频设备中的每个音频设备将一个或多个频率范围间隙插入到由每个音频设备的一个或多个扩音器再现的音频数据中。

25.如权利要求1至23中任一项所述的方法，其中，使所述多个音频设备再现音频数据涉及使所述多个音频设备中的每个音频设备在所述音频环境中的所有其他音频设备不回放音频时回放音频。

26.一种装置，所述装置被配置为执行如权利要求1至25中任一项所述的方法。

27.一种系统，所述系统被配置为执行如权利要求1至25中任一项所述的方法。

28.一个或多个非暂态介质，其上存储有软件，所述软件包括用于控制一个或多个设备执行如权利要求1至25中任一项所述的方法的指令。