CN116547991A

CN116547991A - 音频设备的自动定位

Info

Publication number: CN116547991A
Application number: CN202180080941.9A
Authority: CN
Inventors: D·阿特亚加; D·斯卡伊尼; M·R·P·托马斯; A·布鲁尼; O·M·汤森德
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2020-12-03
Filing date: 2021-12-02
Publication date: 2023-08-04

Abstract

一种方法可以涉及：接收与由所述音频环境中的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据，所述第一智能音频设备包括第一音频发射器和第一音频接收器，所述DOA数据与由所述音频环境中的至少第二智能音频设备接收到的声音相对应，所述第二智能音频设备包括第二音频发射器和第二音频接收器，所述DOA数据与由至少所述第二智能音频设备发出并由至少所述第一智能音频设备接收到的声音相对应；接收一个或多个配置参数，所述一个或多个配置参数对应于所述音频环境、对应于一个或多个音频设备、或对应于这两者；以及至少部分地基于所述DOA数据和所述(多个)配置参数来最小化成本函数，以估计至少所述第一智能音频设备和所述第二智能音频设备的位置和取向。

Description

音频设备的自动定位

相关申请的交叉引用

本申请要求于2020年12月3日提交的西班牙专利申请号P202031212、于2021年5月20日提交的西班牙专利申请号P202130458、于2021年3月2日提交的美国临时申请号63/155,369、2021年7月21日提交的美国临时申请号63/203,403、以及于2021年7月22日提交的美国临时申请号63/224,778的优先权，所有这些专利申请均通过引用以其全文并入本文。

技术领域

本公开涉及用于自动定位音频设备的系统和方法。

背景技术

音频设备，包括但不限于智能音频设备，已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于定位音频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

在本公开全文中，包括在权利要求书中，术语“喇叭(speaker)”、“扬声器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送来驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

在本公开全文中，包括在权利要求中，在广义上使用“对”信号或数据执行操作的表述(例如，对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

在本公开全文中，包括在权利要求中，在广义上使用表述“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成M个输入，并且其他X-M个输入是从外部源接收到的)也可以被称为解码器系统。

在本公开全文中，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)为对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置的集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程的通用处理器或计算机、以及可编程的微处理器芯片或芯片组。

在本公开全文中，包括在权利要求中，术语“耦接(couples)”或“耦接(coupled)”用于意指直接或间接连接。因此，如果第一设备耦接到第二设备，则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接来实现。

如本文所使用的，“智能设备”是可以在某种程度上交互地和/或自主地操作的电子设备，其通常被配置用于经由比如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板计算机、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以是指展现出比如人工智能等普适计算的一些性质的设备。

在本文中，使用表述“智能音频设备”来表示智能设备，其是单一用途音频设备或多用途音频设备(例如，实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，电视(TV))。例如，尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数实例中，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在所述操作系统上本地运行。从这个意义上说，具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在某区或用户配置区域上播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备，尽管虚拟助理功能的其他方面可以由比如一个或多个服务器等一个或多个其他设备来实施，多用途音频设备被配置用于与所述一个或多个服务器通信。这样的多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且可选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换言之，虚拟助理功能的至少一些方面(例如，言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以经由网络(比如因特网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以在其中之一(例如，最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中，连接的虚拟助理可以形成一种星座，所述星座可以由一个主应用程序管理，所述主应用程序可以是(或实施)虚拟助理。

在本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或其他声音)，其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风，或至少一个其他麦克风)而唤醒。在该上下文中，“唤醒”表示其中设备进入等待(换言之，正在收听)声音命令的状态。在一些实例中，本文中所谓的“唤醒词”可以包括超过一个词，例如，短语。

在本文中，表达“唤醒词检测器”表示被配置为连续搜索实时声音(例如，言语)特征与训练模型之间的对齐的设备(或表示包括用于将设备配置为连续搜索实时声音特征与训练模型之间的对齐的指令的软件)。通常，每当唤醒词检测器确定已检测到唤醒词的概率超过预定义阈值，就会触发唤醒词事件。例如，所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后，设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态)，在所述状态下设备会收听命令并且将接收到的命令传递给更大、计算更密集的识别器。

如本文所使用的，术语“节目流”和“内容流”是指一个或多个音频信号的集合，并且在一些实例中是指视频信号的集合，所述集合的至少一部分旨在一起被听到。示例包括音乐选集、电影原声、电影、电视节目、电视节目的音频部分、播客、实时语音通话、来自智能助理的合成语音响应等。在一些实例中，内容流可以包括音频信号的至少一部分的多个版本，例如，超过一种语言的同一对话。在这样的实例中，一次旨在再现音频数据或其部分的仅一个版本(例如，与单一语言相对应的版本)。

发明内容

本公开的至少一些方面可以经由方法来实施。一些这样的方法可以涉及音频设备定位。例如，一些方法可以涉及定位音频环境中的音频设备。一些这样的方法可以涉及：通过控制系统获得与由所述音频环境中的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据。在一些实施方式中，所述第一智能音频设备可以包括第一音频发射器和第一音频接收器。在一些示例中，所述DOA数据可以与由所述音频环境中的至少第二智能音频设备接收的声音相对应。在一些实例中，所述第二智能音频设备可以包括第二音频发射器和第二音频接收器。在一些示例中，所述DOA数据还可以与由至少所述第二智能音频设备发出并由至少所述第一智能音频设备接收的声音相对应。

一些这样的方法可以涉及通过所述控制系统接收配置参数。在一些示例中，所述配置参数可以对应于所述音频环境和/或可以对应于所述音频环境中的一个或多个音频设备。一些这样的方法可以涉及：通过所述控制系统，至少部分地基于所述DOA数据和所述配置参数来最小化成本函数，以估计至少所述第一智能音频设备和所述第二智能音频设备的位置和/或取向。

根据一些示例，所述DOA数据还可以与由所述音频环境中的一个或多个无源音频接收器接收的声音相对应。在一些示例中，所述一个或多个无源音频接收器中的每一个都可以包括麦克风阵列，但在一些实例中可以没有音频发射机。在一些这样的示例中，最小化所述成本函数还可以提供所述一个或多个无源音频接收器中每一个的估计位置和取向。

在一些示例中，所述DOA数据还可以与由所述音频环境中的一个或多个音频发射机发出的声音相对应。在一些实例中，所述一个或多个音频发射机中的每一个都可以包括至少一个发声换能器，但在一些实例中可以没有麦克风阵列。在一些这样的示例中，最小化所述成本函数还可以提供所述一个或多个音频发射机中每一个的估计位置。

在一些实施方式中，所述DOA数据还可以与由所述音频环境中的第三至第N个智能音频设备发出的声音相对应，N对应于所述音频环境中智能音频设备的总数量。在一些示例中，所述DOA数据还可以与由所述第一至第N个智能音频设备中的每一个从所述音频环境中的所有其他智能音频设备接收的声音相对应。在一些这样的示例中，最小化所述成本函数可以涉及估计所述第三至第N个智能音频设备的位置和/或取向。

根据一些示例，所述配置参数可以包括所述音频环境中音频设备的数量、所述音频环境的一个或多个维度、和/或音频设备位置和/或取向的一个或多个约束。在一些实例中，所述配置参数可以包括旋转、平移和/或缩放的消歧数据。

一些方法可以涉及通过所述控制系统接收所述成本函数的种子布局。在一些示例中，所述种子布局可以指定所述音频环境中音频发射器和音频接收器的正确数量、以及所述音频环境中所述音频发射器和所述音频接收器中的每一个的任意位置和取向。

一些方法可以涉及通过所述控制系统接收与所述DOA数据的一个或多个元素相关联的权重因子。所述权重因子可以例如指示所述DOA数据的所述一个或多个元素的可用性和/或可靠性。

一些方法可以涉及：通过所述控制系统，使用波束成形方法、可控功率响应方法、到达时间差方法、结构化信号方法、或其组合来获得所述DOA数据的一个或多个元素。

一些方法可以涉及通过所述控制系统接收与由所述音频环境中的至少一个音频设备发出并由所述音频环境中的至少一个其他音频设备接收的声音相对应的到达时间(TOA)数据。在一些这样的示例中，所述成本函数可以至少部分地基于所述TOA数据。一些这样的方法可以涉及估计至少一个回放时延和/或估计至少一个记录时延。在一些示例中，所述成本函数可以用重新调整的位置、重新调整的时延和/或重新调整的到达时间进行操作。

根据一些示例，所述成本函数可以包括仅取决于所述DOA数据的第一项。在一些这样的示例中，所述成本函数可以包括仅取决于所述TOA数据的第二项。在一些这样的示例中，所述第一项可以包括第一权重因子，并且所述第二项可以包括第二权重因子。在一些实例中，所述第二项中的一个或多个TOA元素可以具有指示所述一个或多个TOA元素中每一个的可用性和/或可靠性的TOA元素权重因子。

在一些示例中，所述配置参数可以包括回放时延数据、记录时延数据、消歧时延对称性数据、旋转消歧数据、平移消歧数据、缩放消歧数据、和/或其一个或多个组合。

本公开的一些其他方面可以经由方法来实施。一些这样的方法可以涉及设备定位。例如，一些方法可以涉及定位音频环境中的设备。一些这样的方法可以涉及：通过控制系统获得与所述环境中第一设备的至少第一收发器的传输相对应的到达方向(DOA)数据。在一些示例中，所述第一收发器可以包括第一发射器和第一接收器。在一些实例中，所述DOA数据可以与由所述环境中第二设备的至少第二收发器接收的传输相对应。在一些示例中，所述第二收发器可以包括第二发射器和第二接收器。在一些实例中，所述DOA数据可以与由至少所述第一收发器从至少所述第二收发器接收的传输相对应。

在一些示例中，所述第一设备和所述第二设备可以是音频设备，并且所述环境可以是音频环境。根据一些这样的示例，所述第一发射器和所述第二发射器可以是音频发射器。在一些这样的示例中，所述第一接收器和所述第二接收器可以是音频接收器。在一些实施方式中，所述第一收发器和所述第二收发器可以被配置用于发射和接收电磁波。

一些这样的方法可以涉及通过所述控制系统接收配置参数。在一些实例中，所述配置参数可以对应于所述环境和/或可以对应于所述环境中的一个或多个设备。一些这样的方法可以涉及：通过所述控制系统，至少部分地基于所述DOA数据和所述配置参数来最小化成本函数，以估计至少所述第一设备和所述第二设备的位置和/或取向。

在一些示例中，所述DOA数据还可以与由所述环境中的一个或多个无源接收器接收的传输相对应。所述一个或多个无源接收器中的每一个都可以例如包括接收器阵列，但可以没有发射器。在一些这样的示例中，最小化所述成本函数还可以提供所述一个或多个无源接收器中每一个的估计位置和/或取向。

根据一些示例，所述DOA数据还可以与来自所述环境中的一个或多个发射器的传输相对应。在一些实例中，所述一个或多个发射器中的每一个都可以没有接收器阵列。在一些这样的示例中，最小化所述成本函数还可以提供所述一个或多个发射器中每一个的估计位置。

在一些示例中，所述DOA数据还可以与由所述环境中第三至第N个设备的第三至第N个收发器发出的传输相对应，N对应于所述环境中收发器的总数量。在一些这样的示例中，所述DOA数据还可以与由所述第一至第N个收发器中的每一个从所述环境中的所有其他收发器接收的传输相对应。在一些这样的示例中，最小化所述成本函数可以涉及估计所述第三至第N个收发器的位置和/或取向。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。

本公开的至少一些方面可以经由装置来实施。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中，装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。在一些示例中，所述装置可以是上文引用的音频设备之一。然而，在一些实施方式中，所述装置可以是另一种类型的设备，比如移动设备、膝上型计算机、服务器等。

在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1示出了环境中四个音频设备之间的几何关系的示例。

图2示出了位于图1的音频环境内的音频发射机。

图3示出了位于图1的音频环境内的音频接收器。

图4是概述了可以由比如图10中所示装置的装置的控制系统执行的方法的一个示例的流程图。

图5是概述了用于基于DOA数据来自动估计设备位置和取向的方法的另一示例的流程图。

图6是概述了用于基于DOA数据和TOA数据来自动估计设备位置和取向的方法的一个示例的流程图。

图7是概述了用于基于DOA数据和TOA数据来自动估计设备位置和取向的方法的另一示例的流程图。

图8A示出了音频环境的示例。

图8B示出了确定收听者角取向数据的附加示例。

图8C示出了确定收听者角取向数据的附加示例。

图8D示出了根据参考图8C描述的方法来确定音频设备坐标的适当旋转的一个示例。

图9A是概述了定位方法的一个示例的流程图。

图9B是概述了定位方法的另一示例的流程图。

图10是示出了能够实施本公开的各个方面的装置的部件的示例的框图。

图11示出了音频环境的平面图的示例，所述音频环境在该示例中是生活空间。

在各个附图中，相似的附图标记和名称指示相似的元件。

具体实施方式

除了包括电视和条形音箱的现有音频设备以及比如电灯泡和微波炉等新的支持麦克风和扬声器的联网设备之外，并入多个驱动单元和麦克风阵列的智能扬声器的出现产生了以下问题，其中数十个麦克风和扬声器需要相对于彼此定位以实现编排。不能假设音频设备采用典型布局(比如离散杜比5.1扬声器布局)。在一些实例中，环境中的音频设备可以随机定位，或者至少可以以不规则和/或不对称的方式分布在环境内。

此外，不能假设音频设备是均匀的或同步的。如本文所使用的，如果音频设备根据相同的采样时钟或同步采样时钟检测或发出声音，则音频设备可以被称为“同步的”或“同步化的”。例如，环境内的第一音频设备的第一同步麦克风可以根据第一采样时钟对音频数据进行数字采样，并且环境内的第二同步音频设备的第二麦克风可以根据第一采样时钟对音频数据进行数字采样。替代性地或另外地，环境内的第一音频设备的第一同步扬声器可以根据扬声器设置时钟发出声音，并且环境内的第二音频设备的第二同步扬声器可以根据扬声器设置时钟发出声音。

用于自动扬声器定位的一些先前公开的方法需要同步麦克风和/或扬声器。例如，用于设备定位的一些先前存在的工具依赖于系统中的所有麦克风之间的采样同步，这需要已知的测试刺激以及在传感器之间传递全带宽音频数据。

本受让人已经给出了用于电影院和家庭的若干种扬声器定位技术，这些技术是针对其进行设计的用例的极好解决方案。一些这样的方法基于从声源和与每个扬声器大约共同定位的(多个)麦克风之间的脉冲响应得到的飞行时间。尽管还可以估计记录和回放链中的系统时延，但是需要时钟之间的采样同步并且需要从中估计脉冲响应的已知测试刺激。

该上下文中的源定位的最新示例已经通过要求设备内麦克风同步但不要求设备间同步来释放约束。另外，一些这样的方法不需要通过低宽带消息传递、比如经由检测直接(非反射)声音的到达时间(time of arrival,TOA，也称为“飞行时间”)或经由检测直接声音的主要到达方向(dominant direction of arrival,DOA)而在传感器之间传递音频。每种方法存在一些潜在优点和潜在缺点。例如，一些之前部署的TOA方法可以根据关于三个轴线之一的未知平移、旋转和反射来确定设备几何形状。如果每个设备仅有一个麦克风，则单独设备的旋转也是未知的。一些之前部署的DOA方法可以根据未知平移、旋转和缩放来确定设备几何形状。尽管一些这样的方法在理想条件下可以给出满意结果，但是尚未证明这些方法对测量误差的稳健性。

本申请中公开的一些实施例允许：基于1)音频环境中每对音频设备之间的DOA、和2)针对数据类型1)的输入而设计的对非线性优化问题的最小化，对智能音频设备的集合进行定位。本申请中公开的其他实施例允许：基于1)系统中每对音频设备之间的DOA、2)每对设备之间的TOA和3)针对数据类型1)和2)的输入而设计的对非线性优化问题的最小化，对智能音频设备的集合进行定位。

图1示出了环境中四个音频设备之间的几何关系的示例。在该示例中，音频环境100是包括电视101以及音频设备105a、105b、105c和105d的房间。根据该示例，音频设备105a至105d分别在音频环境100的位置1至位置4中。与本文所公开的其他示例一样，图1中示出的元件的类型、数量、位置和取向仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件，例如，更多或更少的音频设备、在不同位置的音频设备、具有不同能力的音频设备等。

在该实施方式中，每个音频设备105a至105d是包括麦克风系统的智能扬声器和包括至少一个扬声器的扬声器系统。在一些实施方式中，每个麦克风系统包括至少三个麦克风的阵列。根据一些实施方式，电视101可以包括扬声器系统和/或麦克风系统。在一些这样的实施方式中，可以使用自动定位方法来自动定位电视101、或电视101的一部分(例如，电视扬声器、电视收发器等)，例如，如下文参考音频设备105a至105d所述。

本公开中描述的一些实施例允许基于每对音频设备之间的到达方向(DOA)、每对设备之间的音频信号的到达时间(TOA)、或每对设备之间的音频信号的DOA和TOA两者来自动定位一组音频设备，比如图1中所示的音频设备105a至105d。在一些实例中，如图1中所示的示例，每个音频设备都用至少一个驱动单元和一个麦克风阵列来启用，所述麦克风阵列能够提供传入声音的到达方向。根据该示例，双头箭头110ab表示由音频设备105a发射并由音频设备105b接收的声音、以及由音频设备105b发射并由音频设备105a接收的声音。类似地，双头箭头110ac、110ad、110bc、110bd和110cd分别表示由音频设备105a和音频设备105c发射和接收的声音、由音频设备105a和音频设备105d发射和接收的声音、由音频设备105b和音频设备105c发射和接收的声音、由音频设备105b和音频设备105d发射和接收的声音、以及由音频设备105c和音频设备105d发射和接收的声音。

在该示例中，每个音频设备105a至105d的取向(由箭头115a至115d表示)可以以各种方式定义。例如，具有单个扬声器的音频设备的取向可以对应于单个扬声器所面对的方向。在一些示例中，具有面向不同方向的多个扬声器的音频设备的取向可以由其中一个扬声器所面对的方向来指示。在其他示例中，具有面向不同方向的多个扬声器的音频设备的取向可以由与多个扬声器中的每一个所面对的不同方向的音频输出之和相对应的向量的方向来指示。在图1所示的示例中，箭头115a至115d的取向参考笛卡尔坐标系来定义。在其他示例中，箭头115a至115d的取向可以参考另一种类型的坐标系来定义，比如参考球形或圆柱形坐标系来定义。

在该示例中，电视101包括电磁接口103，所述电磁接口被配置为接收电磁波。在一些示例中，电磁接口103可以被配置为发射和接收电磁波。根据一些实施方式，至少两个音频设备105a至105d可以包括被配置为收发器的天线系统。天线系统可以被配置为发射和接收电磁波。在一些示例中，天线系统包括具有至少三个天线的天线阵列。本公开中描述的一些实施例允许至少部分地基于设备之间发射的电磁波的DOA来自动定位一组设备，比如图1所示的音频设备105a至105d和/或电视101。因此，双头箭头110ab、110ac、110ad、110bc、110bd和110cd还可以表示音频设备105a至105d之间发射的电磁波。

根据一些示例，设备(比如音频设备)的天线系统可以与该设备的扬声器共同定位，例如，与扬声器相邻。在一些这样的示例中，天线系统的取向可以与扬声器的取向一致。可替代地或另外，设备的天线系统可以具有相对于设备的一个或多个扬声器是已知的或预先确定的取向。

在该示例中，音频设备105a至105d被配置用于彼此之间以及与其他设备进行无线通信。在一些示例中，音频设备105a至105d可以包括网络接口，所述网络接口被配置用于音频设备105a至105d与其他设备之间经由因特网进行通信。在一些实施方式中，本文公开的自动定位过程可以由音频设备105a至105d之一的控制系统执行。在其他示例中，自动定位过程可以由音频环境100中的另一设备(比如有时可以被称为智能家居中枢)执行，所述另一设备被配置用于与音频设备105a至105d进行无线通信。在其他示例中，自动定位过程可以至少部分地由音频环境100之外的设备(比如服务器)例如基于从一个或多个音频设备105a至105d和/或智能家居中枢接收到的信息来执行。

图2示出了位于图1的音频环境内的音频发射机。一些实施方式提供了对一个或多个音频发射机的自动定位，比如对图2的人205的自动定位。在该示例中，人205在位置5处。这里，由人205发出并由音频设备105a接收的声音由单头箭头210a表示。类似地，由人205发出并由音频设备105b、105c和105d接收到的声音由单头箭头210b、210c和210d表示。音频发射机可以基于由音频设备105a至105d和/或电视101捕获的音频发射机声音的DOA、基于由音频设备105a至105d和/或电视101测量的音频发射机声音的TOA差异、或基于DOA和TOA差异两者来进行定位。

可替代地或另外，一些实施方式可以提供对一个或多个电磁波发射机的自动定位。本公开中描述的一些实施例允许至少部分地基于由一个或多个电磁波发射机发射的电磁波的DOA来自动定位所述一个或多个电磁波发射机。如果电磁波发射机在位置5处，则由电磁波发射机发射并由音频设备105a、105b、105c和105d接收到的电磁波也可以由单头箭头210a、210b、210c和210c表示。

图3示出了位于图1的音频环境内的音频接收器。在该示例中，智能电话305的麦克风被启用，但智能电话305的扬声器当前没有发出声音。一些实施例提供对一个或多个无源音频接收器的自动定位，比如，所述一个或多个无源音频接收器是图3的智能电话305，此时智能电话305没有发出声音。这里，由音频设备105a发出并由智能电话305接收到的声音由单头箭头310a表示。类似地，由音频设备105b、105c和105d发出并由智能电话305接收到的声音由单头箭头310b、310c和310d表示。

如果音频接收器配备有麦克风阵列并且被配置为确定所接收声音的DOA，则音频接收器可以至少部分地基于由音频设备105a至105d发出并由音频接收器捕获的声音的DOA来进行定位。在一些示例中，音频接收器可以至少部分地基于由音频接收器捕获的智能音频设备的TOA差异进行定位，而不管音频接收器是否配备有麦克风阵列。通过组合上述方法，另外的其他实施例可以允许仅基于DOA或基于DOA和TOA来自动定位一组智能音频设备、一个或多个音频发射机和一个或多个接收器。

到达方向定位

图4是概述了可以由比如图10所示的装置等装置的控制系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法400的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

方法400是音频设备定位过程的示例。在该示例中，方法400涉及确定两个或更多个智能音频设备的位置和取向，其中的每个智能音频设备包括扬声器系统和麦克风阵列。根据该示例，方法400涉及根据DOA估计、至少部分地基于由每个智能音频设备发出并由每个其他智能音频设备捕获的音频来确定智能音频设备的位置和取向。在该示例中，方法400的初始框依赖于每个智能音频设备的控制系统能够从由该智能音频设备的麦克风阵列获得的输入音频中提取DOA，例如，通过使用麦克风阵列的各个麦克风胶囊之间的到达时间差。

在该示例中，框405涉及获得由音频环境中的每个智能音频设备发出并由所述音频环境中的每个其他智能音频设备捕获的音频。在一些这样的示例中，框405可以涉及促使每个智能音频设备发出声音，在一些实例中，所述声音可以是具有预定持续时间、频率内容等的声音。该预定类型的声音在本文中可以被称为结构化源信号。在一些实施方式中，智能音频设备可以是或可以包括图1的音频设备105a至105d。

在一些这样的示例中，框405可以涉及促使单个智能音频设备发出声音而其他智能音频设备“聆听”所述声音的顺序过程。例如，参考图1，框405可以涉及：(a)促使音频设备105a发出声音并从音频设备105b至105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后，(b)促使音频设备105b发出声音并从音频设备105a、105c和105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后，(c)促使音频设备105c发出声音并从音频设备105a、105b和105d的麦克风阵列接收与所发出的声音相对应的麦克风数据；然后，(d)促使音频设备105d发出声音并从音频设备105a、105b和105c的麦克风阵列接收与所发出的声音相对应的麦克风数据。取决于特定的实施方式，所发出的声音可以相同或可以不同。

在其他示例中，框405可以涉及促使所有智能音频设备发出声音而其他智能音频设备“倾听”所述声音的同步过程。例如，框405可以涉及同时执行以下步骤：(1)促使音频设备105a发出第一声音并从音频设备105b至105d的麦克风阵列接收与所发出的第一声音相对应的麦克风数据；(2)促使音频设备105b发出不同于第一声音的第二声音并从音频设备105a、105c和105d的麦克风阵列接收与所发出的第二声音相对应的麦克风数据；(3)促使音频设备105c发出不同于第一声音和第二声音的第三声音并从音频设备105a、105b和105d的麦克风阵列接收与所发出的第三声音相对应的麦克风数据；(4)促使音频设备105d发出不同于第一声音、第二声音和第三声音的第四声音并从音频设备105a、105b和105c的麦克风阵列接收与所发出的第四声音相对应的麦克风数据。

在该示例中，框410涉及对经由麦克风获得的音频信号进行预处理的过程。框410可以例如涉及应用一个或多个滤波器、噪声或回声抑制过程等。下面描述一些附加的预处理示例。

根据该示例，框415涉及从框410产生的经预处理的音频信号中确定DOA候选。例如，如果框405涉及发射和接收结构化源信号，则框415可以涉及一种或多种去卷积方法以产生脉冲响应和/或“伪范围(pseudo range)”，从中主要峰值的到达时间差可以与智能音频设备的已知麦克风阵列几何结构结合使用以估计DOA候选。

然而，并非方法400的所有实施方式都涉及基于发出的预定声音来获得麦克风信号。因此，框415的一些示例包括应用于任意音频信号的“盲”方法，比如可控(steered)响应功率方法、接收方波束成形方法或其他类似的方法，可以通过峰值拾取从中提取出一个或多个DOA。下文描述了一些示例。将理解的是，虽然DOA数据可以经由盲方法或使用结构化源信号来确定，但是在大多数情况下，TOA数据可以只使用结构化源信号来确定。此外，一般来说，使用结构化源信号获得的DOA信息可能更准确。

根据该示例，框420涉及选择与由其他智能音频设备中的每一个发出的声音相对应的一个DOA。在许多情况下，麦克风阵列既可以检测直接到达的声音也可以检测由同一音频设备发射的反射声音。框420可以涉及选择最有可能与直接发射的声音相对应的音频信号。下面描述确定DOA候选和从两个或更多个候选DOA中选择一个DOA的一些附加示例。

在该示例中，框425涉及接收从每个智能音频设备实施框420所产生的DOA信息(换言之，接收与从音频环境中每个智能音频设备传输到每个其他智能音频设备的声音相对应的一组DOA)，并基于所述DOA信息执行定位方法(例如，经由控制系统实施定位算法)。在一些公开的实施方式中，框425涉及最小化成本函数，可能受限于一些约束和/或权重，例如，如下面参考图5所述。在一些这样的示例中，成本函数接收从每个智能音频设备到每个其他智能设备的DOA值作为输入数据，并返回每个智能音频设备的估计位置和估计取向作为输出。在图4所示的示例中，框430表示在框425中产生的经估计的智能音频设备位置和经估计的智能音频设备取向。

图5是概述了用于基于DOA数据来自动估计设备位置和取向的方法的另一示例的流程图。方法500可以例如经由比如图10所示的装置等装置的控制系统通过实施定位算法来执行。与本文所描述的其他方法一样，方法500的框不必以所指示的顺序执行。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

根据该示例，在框505中获得DOA数据。根据一些实施方式，框505可以涉及获得声学DOA数据，例如，如上文参考图4的框405至420所述。可替代地或另外，框505可以涉及获得与由环境中多个设备中的每一个发射和接收到的电磁波相对应的DOA数据。

在该示例中，定位算法接收在框505中获得的从音频环境中每个智能设备到每个其他智能设备的DOA数据、以及被指定用于所述音频环境的任何配置参数510作为输入。在一些示例中，可以向DOA数据施加可选约束525。例如，可以由正在执行用于实施成本函数520和非线性搜索算法535的软件的控制系统从存储器获得配置参数510、最小化权重515、可选约束525和种子布局530。配置参数510可以例如包括与最大房间尺寸、扬声器布局约束、用于设置全局平移(例如，2个参数)、全局旋转(1个参数)和全局缩放(1个参数)的外部输入相对应的数据等。

根据该示例，配置参数510被提供给成本函数520和非线性搜索算法535。在一些示例中，配置参数510被提供给可选约束525。在该示例中，成本函数520考虑到了所测量的DOA与通过优化器的定位方案所估计的DOA之间的差异。

在一些实施例中，可选约束525对可能的音频设备位置和/或取向施加限制，比如施加音频设备彼此相距最小距离的条件。可替代地或另外，可选约束525可以对方便引入的虚拟最小化变量施加限制，例如，如下文所述。

在该示例中，最小化权重515也被提供给非线性搜索算法535。下文描述了一些示例。

根据一些实施方式，非线性搜索算法535是一种能够找到如下形式的连续优化问题的局部解决方案的算法：

min C(x)

x∈Cⁿ

使得g_L≤g(x)≤g_U

并且x_L≤x≤x_U

在上述表述中，C(x):Rⁿ->R表示成本函数520，并且g(x):Rⁿ->R^m表示对应于可选约束525的约束函数。在这些示例中，向量g_L和g_U表示约束的下界和上界，并且向量x_L和x_U表示变量x的边界。

非线性搜索算法535可以根据特定的实施方式而变化。非线性搜索算法535的示例包括梯度下降(gradient descent)方法、柏萝登-弗莱彻-戈德福布-生纳(Broyden–Fletcher–Goldfarb–Shanno,BFGS)方法、内点优化(interior point optimization,IPOPT)方法等。虽然一些非线性搜索算法只需要成本函数的值和约束，但是其他一些方法还可能需要成本函数的一阶导数(梯度、雅可比)和约束，并且其他一些方法还可能需要同一函数的二阶导数(海森)。如果需要导数，则可以明确提供所述导数，或者可以使用自动或数值微分技术来自动计算所述导数。

一些非线性搜索算法需要种子点信息来开始最小化，如图5中提供给非线性搜索算法535的种子布局530所建议的。在一些示例中，种子点信息可以被提供为由相同数量的具有对应位置和取向的智能音频设备(换言之，数量与获得DOA数据的智能音频设备的实际数量相同)组成的布局。位置和取向可以是任意的，并且不需要是智能音频设备的实际或近似位置和取向。在一些示例中，种子点信息可以指示沿音频环境的轴线或另一条任意线的智能音频设备位置、沿音频环境内的圆形、矩形或其他几何形状的智能音频设备位置等。在一些示例中，种子点信息可以指示任意的智能音频设备取向，其可以是预定的智能音频设备取向或随机的智能音频设备取向。

在一些实施例中，成本函数520可以用复平面变量表述如下：

其中，星号指示复共轭，竖杠指示绝对值，并且其中：

·Z_nm＝exp(i DOA_nm)表示给出从设备n测量的智能设备m的到达方向的复平面值，其中，i表示虚数单位；

·x_n＝x_nx+ix_ny表示编码智能设备n的x位置和y位置的复平面值；

·z_n＝exp(iα_n)表示编码智能设备n的取向角度α_n的复值；

·表示赋予DOA_nm测量的权重；

·N表示获得DOA数据的智能音频设备的数量；并且

·x＝(x₁,…,x_N)和z＝(z₁,…,z_N)分别表示所有N个智能音频设备的复位置和复取向的向量。

根据该示例，最小化的结果是设备位置数据540和设备取向数据545，所述设备位置数据指示智能设备的2D位置x_k(表示每个设备有2个实未知数)，所述设备取向数据指示智能设备的取向向量z_k(表示每个设备有2个额外的实变量)。从取向向量来看，只有智能设备的取向角度α_k与问题相关(每个设备有1个实未知数)。因此，在该示例中，每个智能设备具有3个相关的未知数。

在一些示例中，结果评估框550涉及计算成本函数在结果位置和取向上的残差。相对较低的残差指示相对更精确的设备定位值。根据一些实施方式，结果评估框550可以涉及反馈过程。例如，一些这样的示例可以实施涉及将给定的DOA候选组合的残差与另一DOA候选组合进行比较的反馈过程，例如，如在下面的DOA稳健性度量讨论中解释的。

如上所述，在一些实施方式中，框505可以涉及如上文参考图4的框405至420所述的那样获得声学DOA数据，这涉及确定DOA候选和选择DOA候选。因此，图5包括从结果评估框550到框505的一条虚线，以表示可选反馈过程的一个流程。此外，图4包括从框430(在一些示例中可以涉及结果评估)到DOA候选选择框420的虚线，以表示另一可选反馈过程的流程。

在一些实施例中，非线性搜索算法535可能不接受复值变量。在这种情况下，每个复值变量都可以由一对实变量来代替。

在一些实施方式中，可能具有关于每个DOA测量的可用性或可靠性的额外先前信息。在一些这样的示例中，扬声器可以只使用所有可能的DOA元素的子集进行定位。缺失的DOA元素可以例如用成本函数中对应的零权重来遮盖。在一些这样的示例中，权重w_nm可以是零或一，例如，对于缺失或被认为不够可靠的这些测量，其权重为零，而对于可靠的测量，其权重为一。在一些其他实施例中，作为DOA测量的可靠性的函数，权重w_nm可以具有从零到一的连续值。在没有可用的先前信息的这些实施例中，权重w_nm可以简单地设置为一。

在一些实施方式中，条件|z_k|＝1(每个智能音频设备一个条件)可以作为约束添加，以确保指示智能音频设备取向的向量的规范化。在其他示例中，可能不需要这些附加约束，并且指示智能音频设备取向的向量可能未被规范化。其他实施方式可以将智能音频设备的接近度的条件作为约束添加，例如，指示|x_n-x_m|≥D，其中，D是智能音频设备之间的最小距离。

上述成本函数的最小化并不能完全确定智能音频设备的绝对位置和取向。根据该示例，成本函数在全局旋转(1个独立参数)、全局平移(2个独立参数)和全局重新缩放(1个独立参数)下保持不变，同时影响所有智能设备的位置和取向。这种全局的旋转、平移和重新缩放不能从成本函数的最小化来确定。在这个框架中，通过对称性变换相关的不同布局是完全无法区分的，并被认为属于同一等价类。因此，配置参数应该提供标准，以允许唯一地定义表示整个等价类的智能音频设备布局。在一些实施例中，可能有利的是，选择标准以使得该智能音频设备布局定义一个参考系，该参考系接近于靠近参考收听位置的收听者的参考系。下面提供这种标准的示例。在一些其他示例中，所述标准可能是纯数学的，且与现实的参考系脱节。

对称性消歧标准可以包括：参考位置，固定全局平移对称性(例如，智能音频设备1应该在坐标原点处)；参考取向，固定二维旋转对称性(例如，智能设备1应该被定位为朝向音频环境中被指定为正面的区域，比如图1至图3中电视101所处的区域)；以及参考距离，固定全局缩放对称性(例如，智能设备2应该与智能设备1相距一个单位距离)。在该示例中，总共有4个参数无法从最小化问题中确定，并且应该被提供作为外部输入。因此，在该示例中，有3N-4个未知数可以从最小化问题中确定。

如上所述，在一些示例中，除了这组智能音频设备外，还可以具有一个或多个无源音频接收器和/或一个或多个音频发射机，所述一个或多个无源音频接收器配备有麦克风阵列。在这种情况下，定位过程可以使用一种技术以基于DOA估计从由每个智能音频设备和每个发射机发出并由每个其他智能音频设备和每个无源接收器捕获的音频中确定智能音频设备的位置和取向、发射机的位置以及无源接收器的位置和取向。

在一些这样的示例中，定位过程可以以与上述类似的方式进行。在一些实例中，定位过程可以基于上述相同的成本函数，为方便读者，所述成本函数显示如下：

然而，如果定位过程涉及非音频接收器的无源音频接收器和/或音频发射机，则需要以略微不同的方式来解释前述等式中的变量。现在，N表示设备的总数量，包括N_智能个智能音频设备、N_接收个无源音频接收器和N_发射个发射机，因此N＝N_智能+N_接收+N_发射。在一些示例中，权重可以具有稀疏结构以遮盖由于无源接收器或仅有发射机的设备(或其他没有接收器的音源，比如人类)而导致的缺失数据，使得如果设备n是没有接收器的音频发射机，则对于所有的m，/>并且如果设备m是音频接收器，则对于所有的n，/>对于智能音频设备和无源接收器两者，其位置和角度两者均可以确定，而对于音频发射机，仅可以获得其位置。未知数的总数量是3N_智能+3N_接收+2N_发射-4。

到达时间和到达方向组合定位

在下面的讨论中，将着重介绍上述基于DOA的定位过程与该部分的DOA和TOA组合定位之间的差异。没有明确给出的这些细节可以假定为与上述基于DOA的定位过程中的细节相同。

图6是概述了用于基于DOA数据和TOA数据来自动估计设备位置和取向的方法的一个示例的流程图。方法600可以例如经由如图10所示的装置等装置的控制系统通过实施定位算法来执行。与本文所描述的其他方法一样，方法600的框不必以所指示的顺序执行。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

根据该示例，在框605至620中获得DOA数据。根据一些实施方式，框605至620可以涉及从多个智能音频设备获得声学DOA数据，例如，如上文参考图4的框405至420所述。在一些替代性实施方式中，框605至620可以涉及获得与由环境中多个设备中的每一个设备发射和接收到的电磁波相对应的DOA数据。

然而，在该示例中，框605还涉及获得TOA数据。根据该示例，TOA数据包括由音频环境中的每个智能音频设备(例如，音频环境中的每一对智能音频设备)发出和接收到的音频的测量TOA。在涉及发射结构化源信号的一些实施例中，用于提取TOA数据的音频可以与用于提取DOA数据的音频相同。在其他实施例中，用于提取TOA数据的音频可以与用于提取DOA数据的音频不同。

根据该示例，框616涉及检测音频数据中的TOA候选，并且框618涉及从所述TOA候选当中为每个智能音频设备对选择单一的TOA。下文描述了一些示例。

可以使用各种技术来获得TOA数据。一种方法是使用房间校准音频序列，比如扫频(例如，对数正弦音)或最大长度序列(MLS)。可选地，可以使用上述任一序列将频带限制在接近的超声波音频频率范围(例如，18kHz至24kHz)。在该音频频率范围内，大多数标准的音频设备能够发出和记录声音，但这样的信号无法被人类感知，因为它超出了人类正常的听觉能力范围。一些替代性的实施方式可以涉及从主音频信号中的隐藏信号恢复TOA元素，比如直接序列扩频信号。

给定从每个智能音频设备到每个其他智能音频设备的DOA数据集、以及来自每对智能音频设备的TOA数据集，图6的定位方法625可以基于最小化某个成本函数，可能受限于一些约束。在该示例中，图6的定位方法625接收上述DOA和TOA值作为输入数据，并输出与智能音频设备相对应的估计位置数据和取向数据630。在一些示例中，定位方法625还可以输出智能音频设备的回放时延和记录时延，例如，达到不能从最小化问题确定的一些全局对称性。下文描述了一些示例。

图7是概述了用于基于DOA数据和TOA数据来自动估计设备位置和取向的方法的另一示例的流程图。方法700可以例如经由比如图10所示的装置等装置的控制系统通过实施定位算法来执行。与本文所描述的其他方法一样，方法700的框不必以所指示的顺序执行。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。

除下文所述外，在一些示例中，框705、710、715、720、725、730、735、740、745和750可以如上面参考图5的框505、510、515、520、525、530、535、540、545和550所述。然而，在该示例中，相对于图5的成本函数520和非线性优化方法535，成本函数720和非线性优化方法735被修改，以便对DOA数据和TOA数据两者进行操作。在一些示例中，框708中的TOA数据可以如上面参考图6所述的那样获得。与图5的过程相比，另一个区别是，在该示例中，非线性优化方法735还输出与智能音频设备相对应的记录和回放时延数据747，例如，如下所述。因此，在一些实施方式中，结果评估框750可以涉及估计DOA数据和/或TOA数据两者。在一些这样的示例中，框750的操作可以包括涉及DOA数据和/或TOA数据的反馈过程。例如，一些这样的示例可以实施涉及将给定的TOA/DOA候选组合的残差与另一TOA/DOA候选组合进行比较的反馈过程，例如，如在下面的TOA/DOA稳健性度量讨论中解释的。

在一些示例中，结果评估框750涉及计算成本函数在结果位置和取向上的残差。相对较低的残差通常指示相对更精确的设备定位值。根据一些实施方式，结果评估框750可以涉及反馈过程。例如，一些这样的示例可以实施涉及将给定的TOA/DOA候选组合的残差与另一TOA/DOA候选组合进行比较的反馈过程，例如，如在下面的TOA和DOA稳健性度量讨论中解释的。

因此，图6包括从框630(在一些示例中可以涉及结果评估)到DOA候选选择框620和到TOA候选选择框618的虚线，以表示可选反馈过程的流程。在一些实施方式中，框705可以涉及如上文参考图6的框605至620所述的那样获得声学DOA数据，这涉及确定DOA候选和选择DOA候选。在一些示例中，框708可以涉及如上文参考图6的框605至618所述的那样获得声学TOA数据，这涉及确定TOA候选和选择TOA候选。虽然未在图7中示出，但一些可选反馈过程可以涉及从结果评估框750恢复到框705和/或框708。

根据该示例，定位算法通过最小化成本函数来进行，可能受到一些约束，并且可以描述如下。在该示例中，定位算法接收DOA数据705和TOA数据708、以及被指定用于收听环境的配置参数710和可能的一些可选约束725作为输入。在该示例中，成本函数考虑到了测量的DOA与估计的DOA之间的差异、以及测量TOA与估计TOA之间的差异。在一些实施例中，约束725对可能的设备位置、取向和/或时延施加限制，比如施加音频设备彼此相距最小距离的条件和/或施加一些设备时延应为零的条件。

在一些实施方式中，成本函数可以表述如下：

C(x，z，l，k)＝W_DOAC_DOA(x，z)+W_TOAC_TOA(x，l，k)在上述等式中，l＝(l₁,…,l_N)和k＝(k₁,…,k_N)分别表示每个设备的回放设备和记录设备的向量，并且其中，W_DOA和W_TOA分别表示DOA最小化部分和TOA最小化部分的全局权重(也称为前因子)，反映了两个项中每一个的相对重要性。在一些这样的示例中，TOA成本函数可以表述如下：

其中，

·TOA_nm表示所测量的信号从智能设备m行进到智能设备n的到达时间；

·表示赋予TOA_nm测量的权重；并且

·c表示声音的速度。

每个智能音频设备都存在多达5个实未知数：设备位置x_n(每个设备有2个实未知数)、设备取向α_n(每个设备有1个实未知数)、以及记录时延和回放时延l_n和k_n(每个设备有2个额外的未知数)。其中，只有设备位置和时延与成本函数的TOA部分相关。如果时延之间存在先前已知的限制或联系，则在一些实施方式中可以减少有效未知数的数量。

在一些示例中，可能具有例如关于每个TOA测量的可用性或可靠性的额外先前信息。在一些这样的示例中，权重可以是零或一，例如，对于不可用(或被认为不够可靠)的这些测量，其权重为零，而对于可靠的测量，其权重为一。这样，就可以只用所有可能的DOA元素和/或TOA元素的子集来估计设备定位。在一些其他实施方式中，权重可以具有从零到一的连续值，例如，作为TOA测量的可靠性的函数。在没有可用的先前可靠性信息的一些示例中，权重可以简单地设置为一。

根据一些实施方式，可以对时延的可能值和/或不同时延之间的关系设置一个或多个附加约束。

在一些示例中，音频设备的位置可以以标准的长度单位(比如米)测量，并且时延和到达时间可以以标准的时间单位(比如秒)指示。然而，通常的情况是，当最小化过程中使用的不同变量的变化尺度为同阶时，非线性优化方法的效果更好。因此，一些实施方式可以涉及重新调整位置测量以使得智能设备位置的变化范围介于-1到1之间，并重新调整时延和到达时间以使得这些值也介于-1到1之间。

上述成本函数的最小化并不能完全确定智能音频设备的绝对位置和取向、或时延。TOA信息给出了绝对距离尺度，这意味着成本函数在尺度变换下不再是不变的，但在全局旋转和全局平移下仍然保持不变。另外，时延受限于额外的全局对称性：如果对所有的回放时延和记录时延同时添加同一全局量，则成本函数保持不变。这些全局变换不能从成本函数的最小化来确定。类似地，配置参数应该提供标准，以允许唯一地定义表示整个等价类的设备布局。

在一些示例中，对称性消歧标准可以包括以下各项：参考位置，固定全局平移对称性(例如，智能设备1应该在坐标原点处)；参考取向，固定二维旋转对称性(例如，智能设备1应该被定位为朝向正面)；以及参考时延(例如，设备1的记录时延应为零)。在该示例中，总共有4个参数无法从最小化问题中确定，并且应该作为外部输入被提供。因此，有5N-4个未知数可以从最小化问题中确定。

在一些实施方式中，除了这组智能音频设备外，还可以具有一个或多个无源音频接收器和/或一个或多个音频发射机，所述一个或多个无源音频接收器可以未被配备有效的麦克风阵列。将时延包括为最小化变量允许一些公开的方法能够对无法精确知道发射时间和接收时间的接收器和发射机进行定位。在一些这样的实施方式中，可以实施上述的TOA成本函数。为方便读者，该成本函数再次示出如下：

如上文参考DOA成本函数所描述的，如果成本函数用于涉及无源接收器和/或发射机的定位估计，则需要以略微不同的方式来解释成本函数的变量。现在，N表示设备的总数量，包括N_智能个智能音频设备、N_接收个无源音频接收器和N_发射个发射机，因此N＝N_智能+N_接收+N_发射。权重可以具有稀疏结构以遮盖由于例如无源接收器或仅发射机而导致的缺失数据，使得如果设备n是音频发射机，则对于所有的m，/>并且如果设备m是音频接收器，则对于所有的n，/>根据一些实施方式，对于智能音频设备，必须确定其位置、取向、以及记录时延和回放时延；对于无源接收器，必须确定其位置、取向和记录时延；并且对于音频发射机，必须确定其位置和回放时延。根据一些这样的示例，未知数的总数量因此是5N_智能+4N_接收+3N_发射-4。

全局平移和旋转的消歧

仅DOA的问题和TOA与DOA组合问题的解决方案都受到全局平移和旋转的模糊性的影响。在一些示例中，平移的模糊性可以通过将仅有发射机的源视为收听者并平移所有设备以使得收听者位于原点处来解决。

旋转的模糊性可以通过对解决方案施加额外的约束来解决。例如，一些多扬声器环境可以包括电视(TV)扬声器和为观看TV而安置的沙发。在对环境中的扬声器进行定位后，一些方法可以涉及寻找将收听者联接至TV观看方向的向量。然后，一些这样的方法可以涉及使TV从其扬声器发出声音和/或提示用户走到TV前并定位用户的语音。一些实施方式可以涉及渲染围绕环境移动的音频对象。用户可以提供用户输入(例如，说“停止”)，所述用户输入指示音频对象何时处于环境内的一个或多个预定位置，比如环境的前方、环境中TV的位置处等。一些实施方式涉及配备有惯性测量单元的手机app，其提示用户将手机指向两个定义的方向：第一个方向是特定设备的方向，例如，LED点亮的设备的方向；第二个方向是用户的期望观看方向，比如环境的前方、环境中TV的位置处等。现在将参考图8A至图8D来描述一些详细的消歧示例。

图8A示出了音频环境的示例。根据一些示例，通过所公开的定位方法之一输出的音频设备位置数据可以包括参考音频设备坐标系807对每个音频设备1至5的音频设备位置的估计。在本实施方式中，音频设备坐标系807是笛卡尔坐标系，其以音频设备2的麦克风的位置作为原点。这里，音频设备坐标系807的x轴与音频设备2的麦克风位置到音频设备1的麦克风位置之间的线803一致。

在该示例中，该示例，通过(例如，经由来自环境800a中一个或多个扬声器的音频提示)提示被显示为坐在沙发103上的收听者805发出一个或多个话语827并根据到达时间(TOA)数据估计收听者位置来确定收听者位置。TOA数据与由环境中的多个麦克风获得的麦克风数据相对应。在该示例中，麦克风数据与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风检测到的一个或多个话语827一致。

可替代地或另外，可以根据由音频设备1至5中的至少一些(例如，2个、3个、4个或全部5个)音频设备的麦克风所提供的DOA数据来估计收听者位置。根据一些这样的示例，可以根据与DOA数据对应的线809a、809b等的交叉点来确定收听者位置。

根据该示例，收听者位置与收听者坐标系820的原点一致。在该示例中，收听者角取向数据由收听者坐标系820的y’轴指示，所述y’轴与收听者的头部810(和/或收听者的鼻部825)到电视101的条形音箱830之间的线813a一致。在图8A所示的示例中，线813a与y’轴平行。因此，角Θ表示y轴与y’轴之间的角。在该示例中，图12的框1225可以涉及使音频设备坐标围绕收听者坐标系统820的原点旋转角度Θ。因此，尽管音频设备坐标系807的原点在图8A中被示出为与音频设备2一致，但一些实施方式涉及在使音频设备坐标围绕收听者坐标系820的原点旋转角度Θ之前将音频设备坐标系807的原点与收听者坐标系820的原点共同定位。该共同定位可以通过从音频设备坐标系807到收听者坐标系820的坐标变换来执行。

在一些示例中，条形音箱830和/或电视101的位置可以通过使条形音箱发出声音并根据DOA数据和/或TOA数据估计条形音箱的位置来确定，所述声音可以与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风检测到的声音相对应。可替代地或另外，条形音箱830和/或电视101的位置可以通过提示用户走到TV前并通过DOA数据和/或TOA数据定位用户的语音来确定，所述语音可以与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风检测到的声音相对应。一些这样的方法可以涉及应用例如如上所述的成本函数。一些这样的方法可以涉及三角测量。这样的示例在条形音箱830和/或电视101没有相关联的麦克风的情况下可以是有益的。

在条形音箱830和/或电视101具有相关联的麦克风的一些其他示例中，条形音箱830和/或电视101的位置可以根据TOA方法和/或DOA方法(比如本文公开的方法)来确定。根据一些这样的方法，麦克风可以与条形音箱830共同定位。

根据一些实施方式，条形音箱830和/或电视101可以具有相关联的相机811。控制系统可以被配置为捕获收听者的头部810(和/或收听者的鼻部825)的图像。在一些这样的示例中，控制系统可以被配置为确定收听者的头部810(和/或收听者的鼻部825)到相机811之间的线813a。收听者角取向数据可以与线813a一致。可替代地或另外，控制系统可以被配置为确定线813a与音频设备坐标系的y轴之间的角度Θ。

图8B示出了确定收听者角取向数据的附加示例。根据该示例，在图12的框1215中已经确定了收听者位置。这里，控制系统正在控制环境800b内的扬声器，以将音频对象835渲染到环境800b内的各个位置。在一些这样的示例中，控制系统可以使扬声器渲染音频对象835，使得音频对象835似乎围绕收听者805旋转，例如，通过渲染音频对象835使得音频对象835似乎围绕收听者坐标系820的原点旋转。在该示例中，弯曲的箭头840示出了音频对象835围绕收听者805旋转时的轨迹的一部分。

根据一些这样的示例，收听者805可以提供用户输入(例如，说“停止”)，所述用户输入指示音频对象835何时处于收听者805所面对的方向。在一些这样的示例中，控制系统可以被配置为确定收听者位置与音频对象835的位置之间的线813b。在该示例中，线813b与收听者坐标系的y’轴一致，其指示收听者805所面对的方向。在替代性实施方式中，收听者805可以提供用户输入，所述用户输入指示音频对象835何时处于环境的前方、何时处于环境中TV的位置处、何时处于音频设备位置处等。

图8C示出了确定收听者角取向数据的附加示例。根据该示例，在图12的框1215中已经确定了收听者位置。这里，收听者805正在使用手持设备845，以便通过将手持设备845指向电视101或条形音箱830来提供关于收听者805的观看方向的输入。在该示例中，手持设备845和收听者手臂的虚线轮廓指示：在收听者805将手持设备845指向电视101或条形音箱830的时间之前，收听者805将手持设备845指向音频设备2。在其他示例中，收听者805可能已经将手持设备845指向另一个音频设备，比如音频设备1。根据该示例，手持设备845被配置为确定音频设备2与电视101或条形音箱830之间的角度α，所述角度近似于音频设备2与收听者805的观看方向之间的角度。

在一些示例中，手持设备845可以是包括惯性传感器系统和被配置用于与控制环境800c的音频设备的控制系统通信的无线接口的蜂窝电话。在一些示例中，手持设备845可以运行应用程序或“app”，该应用程序或“app”被配置为例如通过提供用户提示(例如，经由图形用户界面)、通过接收指示手持设备845指向期望方向的输入、通过保存对应的惯性传感器数据和/或将对应的惯性传感器数据传输到控制环境800c的音频设备的控制系统等，控制手持设备845执行必要功能。

根据该示例，控制系统(其可以是手持设备845的控制系统、环境800c中智能音频设备的控制系统、或正在控制环境800c中的音频设备的控制系统)被配置为根据惯性传感器数据(例如根据陀螺仪数据)来确定线813c和850的取向。在该示例中，线813c与轴y’平行，并且可以用于确定收听者角取向。根据一些示例，控制系统可以根据音频设备2与收听者805的观看方向之间的角度α，确定音频设备坐标围绕收听者坐标系820的原点的适当旋转。

图8D示出了根据参考图8C描述的方法来确定音频设备坐标的适当旋转的一个示例。在该示例中，音频设备坐标系807的原点与收听者坐标系820的原点共同定位。在确定了收听者位置之后，就可以将音频设备坐标系统807和收听者坐标系统820的原点共同定位。将音频设备坐标系807和收听者坐标系820的原点共同定位可以涉及将音频设备位置从音频设备坐标系807变换到收听者坐标系820。角度α已经如上文参考图8C所述的那样进行了确定。因此，角度α与音频设备2在收听者坐标系820中的期望取向一致。在该示例中，角度β与音频设备2在音频设备坐标系807中的取向一致。角度Θ在该示例中是β-α，指示将音频设备坐标系807的y轴与收听者坐标系820的y’轴对齐所必要的旋转。

DOA稳健性度量

如上文参考图4所述，在一些示例中，使用适用于任意信号的“盲”方法，包括可控响应功率方法、波束成形方法或其他类似的方法，可以添加稳健性度量以提高准确性和稳定性。一些实施方式包括对波束成形器的可控响应进行时间整合，以过滤掉瞬态、只检测持续峰值并平均化这些持续DOA中的随机误差和波动。其他示例可能仅使用有限的频段作为输入，其可以根据房间或信号类型进行调整以获得更好的性能。

例如，使用涉及使用结构化源信号的‘监督’方法、以及去卷积方法来产生脉冲响应，可以实施预处理措施来增强DOA峰值的准确性和突出度。在一些示例中，这种预处理可以包括从每个麦克风通道上的脉冲响应起始点开始，用具有一定时间宽度的幅度窗口进行截断。这样的示例可以包含脉冲响应起始点检测器，使得可以独立地找到每个通道的起始点。

在一些示例中，基于如上所述的‘盲’或‘监督’方法，仍然可以添加进一步处理以提高DOA的准确性。重要的是，基于峰值检测的DOA选择(例如，在可控响应功率(Steered-Response Power,SRP)或脉冲响应分析期间)对环境声学很敏感，由于反射和设备遮挡会抑制接收能量和发射能量两者，因此可能会引起对非主要路径信号的捕获。这些情况的出现会降低设备对DOA的准确性，并在优化器的定位解决方案中引入误差。因此，谨慎的做法是将预定阈值内的所有峰值视为地面真实DOA的候选。预定阈值的一个示例是要求峰值大于平均可控响应功率(SRP)。对于所有检测到的峰值，突出度阈值化(prominencethresholding)和去除低于平均信号水平的候选已被证明是简单而有效的初始滤波技术。如本文所使用的，“突出度”是局部峰值与其相邻局部最小值相比有多大的度量，这与仅基于功率的阈值化不同。突出度阈值的一个示例是要求峰值与其相邻局部最小值之间的功率差等于或高于阈值。保留可行的候选提高了设备对在其集合中包含可用DOA的机会(在地面事实的可接受容差范围内)，尽管在信号被强反射/遮挡破坏的情况下，该设备对有可能不包含可用DOA。在一些示例中，可以实施选择算法，以完成下列各项之一：1)选择每个设备对的最佳可用的DOA候选；2)判断所述候选都不是可用的，并因此用成本函数加权矩阵使该对的优化贡献无效；或3)选择推断的最佳候选，但在难以对最佳候选所承载的误差量进行消歧的情况下对DOA贡献应用非二元加权。

在用推断的最佳候选进行初始优化之后，在一些示例中，可以使用定位解决方案来计算每个DOA的残余成本贡献。残余成本的异常值分析可以提供对定位解决方案影响最大的DOA对的证据，其中极端的异常值将这些DOA标记为可能不正确或次优。然后，基于残余成本贡献、剩余候选、以及对该设备对的贡献应用的加权对异常的DOA对进行的递归运行优化可以用于根据上述三个选项之一来进行候选处理。这是比如上文参考图4至图7所述的反馈过程的一个示例。根据一些实施方式，可以重复执行优化和处理决策，直到所有检测到的候选都被评估并且所选DOA的残余成本贡献达到平衡。

基于优化器评估进行候选选择的缺点是计算量密集且对候选遍历顺序敏感。计算量较小的一种替代性技术涉及确定集合中候选的所有排列并在这些候选上运行用于设备定位的三角形对齐方法。在2020年3月19日提交的题为“Audio Device Auto-Location[音频设备自动定位]”的美国临时专利申请号62/992,068中公开了相关的三角形对齐方法，所述申请出于所有目的通过引用并入本文。然后，可以通过计算结果相对于三角测量中使用的DOA候选所产生的总成本和残余成本来评估定位结果。解析这些指标的决策逻辑可以用于确定最佳候选及其各自的加权，以提供给非线性优化问题。在候选列表较大、因此会产生较高的排列计数的情况下，可以应用对整个排列列表的滤波和智能遍历。

TOA稳健性度量

如上文参考图6所述，与利用单一或最小TOA值的系统相比，使用多个候选TOA解决方案增加了稳健性，并确保误差对寻找最佳扬声器布局产生的影响最小。在已获得系统的脉冲响应后，在一些示例中，可以通过搜索与直接声音相对应的峰值来恢复每一个TOA矩阵元素。在理想的条件下(例如，没有噪声，源与接收器之间的直接路径没有障碍物，并且扬声器直接指向麦克风)，这个峰值可以很容易地识别为脉冲响应中的最大峰值。然而，在存在噪声、障碍物、或扬声器和麦克风未对准的情况下，与直接声音相对应的峰值就不一定对应于最大的值。此外，在这样的条件下，与直接声音相对应的峰值可能难以与其他反射声和/或噪声隔离。在一些实例中，直接声音识别可能是一个具有挑战性的过程。对直接声音的不正确识别将会降低自动定位过程的性能(且在一些情况下可能会完全破坏自动定位过程)。因此，在直接声音识别过程中有可能出现误差的情况下，考虑直接声音的多个候选可以是有效的。在一些这样的实例中，峰值选择过程可以包括两部分：(1)直接声音搜索算法，寻找合适的峰值候选；以及(2)峰值候选评估过程，以增加挑选出正确TOA矩阵元素的概率。

在一些实施方式中，搜索直接声音候选峰值的过程可以包括识别直接声音的相关候选的方法。一些这样的方法可以基于以下步骤：(1)识别一个第一参考峰值(例如，脉冲响应(impulse response,IR)绝对值的最大值)，即，“第一峰值”；(2)评估该第一峰值周围(之前和之后)的噪声水平；(3)搜索该第一峰值之前(且在一些情况下为之后)的、高于噪声水平的替代峰值；(4)对峰值进行排序，所述峰值是根据其与正确的TOA相对应的概率而找到的；以及可选地(5)对接近的峰值进行分组(以减少候选的数量)。

一旦识别出直接声音候选峰值，则一些实施方式可以涉及多峰值评估步骤。作为直接声音候选峰值搜索的结果，在一些示例中，每个TOA矩阵元素将具有根据其估计概率进行排序的一个或多个候选值。通过在不同的候选值中进行选择，可以形成多个TOA矩阵。为了评估一个给定TOA矩阵的可能性，可以实施最小化过程(比如上述的最小化过程)。该过程可以生成最小化的残差，这些残差是对TOA矩阵和DOA矩阵的内部相干性的良好估计。完美的无噪声TOA矩阵将产生零残差，而具有错误矩阵元素的TOA矩阵将导致较大的残差。在一些实施方式中，该方法将寻找创建具有最小残差的TOA矩阵的候选TOA矩阵元素的集合。这是上文参考图6和图7描述的评估过程的一个示例，所述评估过程可以涉及结果评估框750。在一个示例中，评估过程可以涉及执行以下步骤：(1)选择初始TOA矩阵；(2)用最小化过程的残差来评估初始矩阵；(3)从TOA候选列表中更改TOA矩阵的一个矩阵元素；(4)用最小化过程的残差来重新评估矩阵；(5)如果残差较小，则接受更改，否则不接受更改；以及(6)迭代步骤3至5。在一些示例中，当所有TOA候选都被评估后或者当已经达到预定义的最大迭代次数后，评估过程可以停止。

定位方法示例

图9A是概述了定位方法的一个示例的流程图。与本文所描述的其他方法一样，方法900的框不必以所指示的顺序执行。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法900涉及估计环境中音频设备的位置和取向。方法900的框可以由一个或多个设备执行，所述设备可以是(或可以包括)图10所示的装置1000。

在该示例中，框905涉及：通过控制系统获得与由所述音频环境中的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据。所述控制系统可以例如是下面参考图10描述的控制系统1010。根据该示例，第一智能音频设备包括第一音频发射器和第一音频接收器，并且DOA数据与由音频环境中的至少第二智能音频设备接收到的声音相对应。这里，第二智能音频设备包括第二音频发射器和第二音频接收器。在该示例中，DOA数据还与由至少第二智能音频设备发出并由至少第一智能音频设备接收到的声音相对应。在一些示例中，第一智能音频设备和第二智能音频设备可以是图1所示的音频设备105a至105d中的两个智能音频设备。

DOA数据可以通过各种方式获得，取决于特定实施方式。在一些实例中，确定DOA数据可以涉及在上文参考图4和/或在“DOA稳健性度量”部分中描述的DOA相关方法中的一种或多种方法。一些实施方式可以涉及：通过所述控制系统，使用波束成形方法、可控功率响应方法、到达时间差方法、和/或结构化信号方法来获得所述DOA数据的一个或多个元素。

根据该示例，框910涉及通过控制系统接收配置参数。在该实施方式中，所述配置参数对应于音频环境本身、对应于音频环境中的一个或多个音频设备、或者既对应于所述音频环境又对应于所述音频环境中的所述一个或多个音频设备。根据一些示例，所述配置参数可以指示所述音频环境中音频设备的数量、所述音频环境的一个或多个维度、音频设备位置或取向的一个或多个约束、和/或针对旋转、平移或缩放中的至少一者的消歧数据。在一些示例中，所述配置参数可以包括回放时延数据、记录时延数据和/或用于消歧时延对称性的数据。

在该示例中，框915涉及：通过控制系统，至少部分地基于DOA数据和配置参数来最小化成本函数，以估计至少第一智能音频设备和第二智能音频设备的位置和取向。

根据一些示例，DOA数据还可以与由音频环境中的第三至第N个智能音频设备发出的声音相对应，其中，N对应于所述音频环境中智能音频设备的总数量。在这样的示例中，所述DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境中的所有其他智能音频设备接收到的声音相对应。在这样的实例中，最小化所述成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。

在一些示例中，所述DOA数据还可以与由音频环境中的一个或多个无源音频接收器接收到的声音相对应。所述一个或多个无源音频接收器中的每一个都可以包括麦克风阵列，但可以没有音频发射机。最小化所述成本函数还可以提供所述一个或多个无源音频接收器中每一个的估计位置和取向。根据一些示例，所述DOA数据还可以与由音频环境中的一个或多个音频发射机发出的声音相对应。所述一个或多个音频发射机中的每一个都可以包括至少一个发声换能器，但可以没有麦克风阵列。最小化所述成本函数还可以提供所述一个或多个音频发射机中每一个的估计位置。

在一些示例中，方法900可以涉及通过所述控制系统接收所述成本函数的种子布局。所述种子布局可以例如指定所述音频环境中音频发射器和音频接收器的正确数量、以及所述音频环境中所述音频发射器和所述音频接收器中的每一个的任意位置和取向。

根据一些示例，方法900可以涉及通过所述控制系统接收与所述DOA数据的一个或多个元素相关联的权重因子。所述权重因子可以例如指示所述DOA数据的所述一个或多个元素的可用性和/或可靠性。

在一些示例中，方法900可以涉及通过所述控制系统接收与由所述音频环境中的至少一个音频设备发出并由所述音频环境中的至少一个其他音频设备接收到的声音相对应的到达时间(TOA)数据。在一些这样的示例中，所述成本函数可以至少部分地基于所述TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例，所述成本函数可以用重新调整的位置、重新调整的时延和/或重新调整的到达时间进行操作。

在一些示例中，所述成本函数可以包括仅取决于所述DOA数据的第一项和仅取决于所述TOA数据的第二项。在一些这样的示例中，所述第一项可以包括第一权重因子，并且所述第二项可以包括第二权重因子。根据一些这样的示例，所述第二项中的一个或多个TOA元素可以具有指示所述一个或多个TOA元素中每一个的可用性或可靠性的TOA元素权重因子。

图9B是概述了定位方法的另一示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法950的框。此外，这样的方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法950涉及估计环境中设备的位置和取向。方法950的框可以由一个或多个设备执行，所述设备可以是(或可以包括)图10所示的装置1000。

在该示例中，框955涉及通过控制系统获得与所述环境中第一设备的至少第一收发器的传输相对应的到达方向(DOA)数据。所述控制系统可以例如是下面参考图10描述的控制系统1010。根据该示例，第一收发器包括第一发射器和第一接收器，并且DOA数据与由环境中至少第二设备的第二收发器接收到的传输相对应，第二收发器也包括第二发射器和第二接收器。在该示例中，DOA数据还与由至少第一收发器从至少第二收发器接收到的传输相对应。根据一些示例，第一收发器和第二收发器可以被配置用于发射和接收电磁波。在一些示例中，第一智能音频设备和第二智能音频设备可以是图1所示的音频设备105a至105d中的两个智能音频设备。

根据该示例，框960涉及通过控制系统接收配置参数。在该实施方式中，配置参数对应于环境本身、对应于音频环境中的一个或多个设备、或者既对应于所述环境又对应于所述音频环境中的所述一个或多个设备。根据一些示例，配置参数可以指示环境中音频设备的数量、环境的一个或多个维度、设备位置或取向的一个或多个约束、和/或针对旋转、平移或缩放中的至少一者的消歧数据。在一些示例中，所述配置参数可以包括回放时延数据、记录时延数据和/或用于消歧时延对称性的数据。

在该示例中，框965涉及：通过控制系统，至少部分地基于DOA数据和配置参数来最小化成本函数，以估计至少第一设备和第二设备的位置和取向。

根据一些实施方式，DOA数据还可以与由所述环境中第三至第N个设备的第三至第N个收发器发出的传输相对应，其中，N对应于所述环境中收发器的总数量，并且其中，DOA数据还与由所述第一至第N个收发器中的每一个从所述环境中的所有其他收发器接收到的传输相对应。在一些这样的实施方式中，最小化所述成本函数还可以涉及估计第三至第N个收发器的位置和取向。

在一些示例中，第一设备和第二设备可以是智能音频设备，并且环境可以是音频环境。在一些这样的示例中，第一发射器和第二发射器可以是音频发射器。在一些这样的示例中，所述第一接收器和所述第二接收器可以是音频接收器。根据一些这样的示例，DOA数据还可以与由音频环境中的第三至第N个智能音频设备发出的声音相对应，其中，N对应于所述音频环境中智能音频设备的总数量。在这样的示例中，所述DOA数据还可以与由第一至第N个智能音频设备中的每一个从音频环境中的所有其他智能音频设备接收到的声音相对应。在这样的实例中，最小化所述成本函数可以涉及估计第三至第N个智能音频设备的位置和取向。可替代地或另外，在一些示例中，DOA数据可以与由所述环境中的设备发出和接收到的电磁波相对应。

在一些示例中，DOA数据还可以与由所述环境中的一个或多个无源接收器接收到的声音相对应。所述一个或多个无源接收器中的每一个都可以包括接收器阵列，但可以没有发射器。最小化所述成本函数还可以提供所述一个或多个无源接收器中每一个的估计位置和取向。根据一些示例，所述DOA数据还可以与来自所述环境中的一个或多个发射器的传输相对应。在一些这样的示例中，一个或多个发射器中的每一个都可以没有接收器阵列。最小化所述成本函数还可以提供一个或多个发射器中每一个的估计位置。

在一些示例中，方法950可以涉及通过控制系统接收所述成本函数的种子布局。种子布局可以例如指定音频环境中发射器和接收器的正确数量、以及音频环境中发射器和接收器中的每一个的任意位置和取向。

根据一些示例，方法950可以涉及通过控制系统接收与DOA数据的一个或多个元素相关联的权重因子。所述权重因子可以例如指示所述DOA数据的所述一个或多个元素的可用性和/或可靠性。

在一些示例中，方法950可以涉及通过控制系统接收与由音频环境中的至少一个音频设备发出并由所述音频环境中的至少一个其他音频设备接收到的声音相对应的到达时间(TOA)数据。在一些这样的示例中，所述成本函数可以至少部分地基于所述TOA数据。一些这样的实施方式可以涉及估计至少一个回放时延和/或至少一个记录时延。根据一些这样的示例，所述成本函数可以用重新调整的位置、重新调整的时延和/或重新调整的到达时间进行操作。

图10是示出了能够实施本公开的各个方面的装置的部件的示例的框图。装置1000可以例如被配置为执行上述参考图9A和/或图9B描述的方法。根据一些示例，装置1000可以是或可以包括被配置用于执行本文公开的方法中的至少一些方法的智能音频设备(比如智能扬声器)。在其他实施方式中，装置1000可以是或者可以包括被配置用于执行本文公开的方法中的至少一些方法的另一个设备。在一些这样的实施方式中，装置1000可以是或可以包括智能家居中枢或服务器。

在该示例中，装置1000包括接口系统1005和控制系统1010。在一些实施方式中，接口系统1005可以被配置用于从环境中的多个麦克风中的每一个接收输入。接口系统1005可以包括一个或多个网络接口和/或一个或多个外部设备接口(比如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统1005可以包括一个或多个无线接口。接口系统1005可以包括用于实施用户接口的一个或多个设备，比如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统1005可以包括控制系统1010与存储器系统(比如图10中示出的可选存储器系统1015)之间的一个或多个接口。然而，控制系统1010可以包括存储器系统。

例如，控制系统1010可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。在一些实施方式中，控制系统1010可以驻留在超过一个设备中。例如，控制系统1010的一部分可以驻留在图1中描绘的音频环境100内的设备(比如音频设备105a至105d之一或智能家居中枢)中，并且控制系统1010的另一部分可以驻留在音频环境100之外的设备中，如服务器、移动设备(例如，智能电话或平板计算机)等。在一些这样的示例中，接口系统1005也可以驻留在多于一个设备中。

在一些实施方式中，控制系统1010可以被配置用于至少部分地执行本文公开的方法。根据一些示例，控制系统1010可以被配置用于实施上述例如参考图4至图9B描述的方法。

在一些示例中，装置1000可以包括图10中描绘的可选麦克风系统1020。麦克风系统1020可以包括一个或多个麦克风。在一些示例中，麦克风系统1020可以包括麦克风阵列。在一些示例中，装置1000可以包括图10中描绘的可选扬声器系统1025。扬声器系统1025可以包括一个或多个扬声器。在一些示例中，麦克风系统1020可以包括扬声器阵列。在一些这样的示例中，装置1000可以是或者可以包括音频设备。例如，装置1000可以是或者可以包括图1中示出的音频设备105a至105d之一。

在一些示例中，装置1000可以包括图10中示出的可选天线系统1030。根据一些示例，天线系统1030可以包括天线阵列。在一些示例中，天线系统1030可以被配置用于发射和/或接收电磁波。根据一些实施方式，控制系统1010可以被配置为基于来自天线系统1030的天线数据来估计环境中两个音频设备之间的距离。例如，控制系统1010可以被配置为根据天线数据的到达方向和/或天线数据的接收到的信号强度来估计环境中两个音频设备之间的距离。

本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。例如，本文描述的一些或所有方法可以由控制系统1010根据存储在一个或多个非暂态介质上的指令来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如驻留在图10中所示的可选存储器系统1015和/或控制系统1010中。因此，可以在其上具有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，软件可以包括用于控制至少一个设备来处理音频数据的指令。例如，软件可以是可由控制系统(比如图10的控制系统1010)的一个或多个部件执行的。

图11示出了音频环境的平面图的示例，所述音频环境在该示例中是生活空间。与本文提供的其他图一样，图11中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。

根据该示例，环境1100包括在左上方处的客厅1110、在下方中央处的厨房1115、以及在右下方的卧室1122。跨生活空间分布的方框和圆圈表示一组扬声器1105a至1105h，所述一组扬声器中的至少一些扬声器在一些实施方式中可以是智能扬声器，放置在对空间方便的位置，但不遵循任何标准规定的布局(任意地放置)。在一些示例中，电视1130可以被配置为至少部分地实施一个或多个公开的实施例。在该示例中，环境1100包括分布在整个环境中的相机1111a至1111e。在一些实施方式中，环境1100中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，可选传感器系统130的一个或多个相机可以驻留在电视1130中或电视1130上、在移动电话中或在智能扬声器(比如扬声器1105b、1105d、1105e或1105h中的一个或多个)中。尽管在本公开中呈现的环境1100的每个描绘中都未示出相机1111a至1111e，但在一些实施方式中，每个环境1100仍然可以包括一个或多个相机。

本公开的一些方面包括一种被配置(例如，被编程)成执行所公开的方法的一个或多个示例的系统或设备，以及一种存储用于实施所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，磁盘)。例如，一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据执行各种操作中的任一个，包括所公开的方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开的方法(或其步骤)的一个或多个示例。

一些实施例可以被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，所述数字信号处理器被配置(例如，被编程和以其他方式被配置)为对(多个)音频信号执行所需的处理，包括对所公开的方法的一个或多个示例的执行。可替代地，所公开的系统(或其元件)的实施例可以被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器用软件或固件编程为和/或以其他方式被配置为执行各种操作中的任一个，包括所公开的方法的一个或多个示例。可替代地，本发明系统的一些实施例的元件被实施为通用处理器或DSP，所述通用处理器或DSP被配置(例如，被编程)成执行所公开的方法的一个或多个示例，并且所述系统还包括其他元件(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置为执行所公开的方法的一个或多个示例的通用处理器可以耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，所述计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如，可执行以执行所公开方法或其步骤的一个或多个示例的编码器)。

虽然在本文中已经描述了本公开的具体实施例和应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离本公开的范围的情况下，可以对本文所描述的实施例和应用进行许多改变。

Claims

1.一种用于在音频环境中定位音频设备的方法，所述方法包括：

通过控制系统获得与由所述音频环境中的至少第一智能音频设备发出的声音相对应的到达方向(DOA)数据，所述第一智能音频设备包括第一音频发射器和第一音频接收器，所述DOA数据与由所述音频环境中的至少第二智能音频设备接收到的声音相对应，所述第二智能音频设备包括第二音频发射器和第二音频接收器，所述DOA数据还与由至少所述第二智能音频设备发出并由至少所述第一智能音频设备接收到的声音相对应；

通过所述控制系统接收配置参数，所述配置参数对应于所述音频环境、对应于所述音频环境中的一个或多个音频设备、或者对应于所述音频环境以及所述音频环境中的所述一个或多个音频设备两者；以及

通过所述控制系统，至少部分地基于所述DOA数据和所述配置参数来最小化成本函数，以估计至少所述第一智能音频设备和所述第二智能音频设备的位置和取向。

2.如权利要求1所述的方法，其中，所述DOA数据还与由所述音频环境中的一个或多个无源音频接收器接收到的声音相对应，所述一个或多个无源音频接收器中的每一个都包括麦克风阵列但没有音频发射机，并且其中，最小化所述成本函数还提供所述一个或多个无源音频接收器中每一个的估计位置和取向。

3.如权利要求1或权利要求2所述的方法，其中，所述DOA数据还与由所述音频环境中的一个或多个音频发射机发出的声音相对应，所述一个或多个音频发射机中的每一个都包括至少一个发声换能器但没有麦克风阵列，并且其中，最小化所述成本函数还提供所述一个或多个音频发射机中每一个的估计位置。

4.如权利要求1至3中任一项所述的方法，其中，所述DOA数据还与由所述音频环境中的第三至第N个智能音频设备发出的声音相对应，N对应于所述音频环境中智能音频设备的总数量，其中，所述DOA数据还与由所述第一至第N个智能音频设备中的每一个从所述音频环境中的所有其他智能音频设备接收到的声音相对应，并且其中，最小化所述成本函数涉及估计所述第三至第N个智能音频设备的位置和取向。

5.如权利要求1至4中任一项所述的方法，其中，所述配置参数包括以下各项中的至少一项：所述音频环境中音频设备的数量、所述音频环境的一个或多个维度、音频设备位置或取向的一个或多个约束、或者针对旋转、平移或缩放中的至少一者的消歧数据。

6.如权利要求1至5中任一项所述的方法，进一步包括通过所述控制系统接收所述成本函数的种子布局，所述种子布局指定所述音频环境中音频发射器和音频接收器的正确数量、以及所述音频环境中所述音频发射器和所述音频接收器中的每一个的任意位置和取向。

7.如权利要求1至6中任一项所述的方法，进一步包括通过所述控制系统接收与所述DOA数据的一个或多个元素相关联的权重因子，所述权重因子指示所述一个或多个元素的可用性或可靠性中的至少一者。

8.如权利要求1至7中任一项所述的方法，进一步包括通过所述控制系统，使用波束成形方法、可控功率响应方法、到达时间差方法或结构化信号方法中的至少一种来获得所述DOA数据的一个或多个元素。

9.如权利要求1至8中任一项所述的方法，进一步包括通过所述控制系统接收与由所述音频环境中的至少一个音频设备发出并由所述音频环境中的至少一个其他音频设备接收到的声音相对应的到达时间(TOA)数据，并且其中，所述成本函数至少部分地基于所述TOA数据。

10.如权利要求9所述的方法，进一步包括估计至少一个回放时延，估计至少一个记录时延，或估计至少一个回放时延和至少一个记录时延。

11.如权利要求10所述的方法，其中，所述成本函数用重新调整的位置、重新调整的时延或重新调整的到达时间中的至少一者进行操作。

12.如权利要求9至11中任一项所述的方法，其中，所述成本函数包括仅取决于所述DOA数据的第一项和仅取决于所述TOA数据的第二项。

13.如权利要求12所述的方法，其中，所述第一项包括第一权重因子，并且其中，所述第二项包括第二权重因子。

14.如权利要求12所述的方法，其中，所述第二项中的一个或多个TOA元素具有指示所述一个或多个TOA元素中每一个的可用性或可靠性的TOA元素权重因子。

15.如权利要求1至14中任一项所述的方法，其中，所述配置参数包括以下中的至少一项：回放时延数据；记录时延数据；用于消歧时延对称性的数据；用于旋转的消歧数据；用于平移的消歧数据；或用于缩放的消歧数据。

16.一种装置，所述装置被配置为执行如权利要求1至15中任一项所述的方法。

17.一种系统，所述系统被配置为执行如权利要求1至15中任一项所述的方法。

18.一种或多种非暂态介质，所述一种或多种非暂态介质具有存储于其上的软件，所述软件包括用于控制一个或多个设备以执行如权利要求1至15中任一项所述的方法的指令。

19.一种用于在环境中定位设备的方法，所述方法包括：

通过控制系统获得与所述环境中第一设备的至少第一收发器的传输相对应的到达方向(DOA)数据，所述第一收发器包括第一发射器和第一接收器，所述DOA数据与由所述环境中至少第二设备的第二收发器接收到的传输相对应，所述第二收发器包括第二发射器和第二接收器，所述DOA数据还与由至少所述第一收发器接收到的来自至少所述第二收发器的传输相对应；

通过所述控制系统接收配置参数，所述配置参数对应于所述环境、对应于所述环境中的一个或多个设备、或者对应于所述环境以及所述环境中的所述一个或多个设备两者；以及

通过所述控制系统，至少部分地基于所述DOA数据和所述配置参数来最小化成本函数，以估计至少所述第一设备和所述第二设备的位置和取向。

20.如权利要求19所述的方法，其中，所述DOA数据还与由所述环境中的一个或多个无源接收器接收的传输相对应，所述一个或多个无源接收器中的每一个都包括接收器阵列但没有发射器，并且其中，最小化所述成本函数还提供所述一个或多个无源接收器中每一个的估计位置和取向。

21.如权利要求19或权利要求20所述的方法，其中，所述DOA数据还与来自所述环境中的一个或多个发射器的传输相对应，所述一个或多个发射器中的每一个都没有接收器阵列，并且其中，最小化所述成本函数还提供所述一个或多个发射器中每一个的估计位置。

22.如权利要求19至21中任一项所述的方法，其中，所述DOA数据还与由所述环境中第三至第N个设备的第三至第N个收发器发出的传输相对应，N对应于所述环境中收发器的总数量，其中，所述DOA数据还与由所述第一至第N个收发器中的每一个从所述环境中的所有其他收发器接收到的传输相对应，并且其中，最小化所述成本函数涉及估计所述第三至第N个收发器的位置和取向。

23.如权利要求19至22中任一项所述的方法，其中，所述第一设备和所述第二设备是音频设备，并且其中，所述环境是音频环境。

24.如权利要求23所述的方法，其中：

所述第一发射器和所述第二发射器是音频发射器；并且

所述第一接收器和所述第二接收器是音频接收器。

25.如权利要求19至23中任一项所述的方法，其中，所述第一收发器和所述第二收发器被配置用于发射和接收电磁波。

26.一种装置，所述装置被配置为执行如权利要求19至25中任一项所述的方法。

27.一种系统，所述系统被配置为执行如权利要求19至25中任一项所述的方法。

28.一种或多种非暂态介质，所述一种或多种非暂态介质具有存储于其上的软件，所述软件包括用于控制一个或多个设备以执行如权利要求19至25中任一项所述的方法的指令。