CN114208209A

CN114208209A - 适应性空间音频回放

Info

Publication number: CN114208209A
Application number: CN202080055576.1A
Authority: CN
Inventors: A·J·西斐德; J·B·兰多; D·阿特亚加; G·N·狄金斯; M·R·P·托马斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2019-07-30
Filing date: 2020-07-16
Publication date: 2022-03-18
Anticipated expiration: 2040-07-16
Also published as: EP4005233A1; US12003946B2; CN114208209B; WO2021021460A1; US20220337969A1

Abstract

可以针对接收的音频数据确定渲染模式，所述接收的音频数据包括音频信号和相关联的空间数据。可以根据所述渲染模式经由环境的一组扩音器渲染音频数据以供再现，从而产生经渲染的音频信号。渲染音频数据可以涉及确定环境中的一组扩音器的相对激活。渲染模式可以在参考空间模式与一种或多种分布式空间模式之间变化。参考空间模式可以具有假定的收听位置和取向。在(多个)分布式空间模式下，音频数据的一个或多个元素可以各自以比在参考空间模式下更加空间分布的方式渲染，并且音频数据的其余元素的空间位置可以被扭曲，使得其余元素的空间位置比在参考空间模式下更完整地跨越环境的渲染空间。

Description

适应性空间音频回放

相关申请的交叉引用

本申请要求于2019年7月30日提交的美国临时专利申请号62/880,114和2020年6月23日提交的美国临时专利申请号62/705,351的优先权，所述专利申请中的每一个均通过引用以其全文特此并入。

技术领域

本公开涉及用于由一组扬声器中的一些或所有扬声器回放音频和渲染音频以供回放的系统和方法。

背景技术

音频设备，包括但不限于智能音频设备，已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

贯穿本公开，包括在权利要求中，“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送所驱动的任何发声换能器(或一组换能器)。典型的耳机包括两个扬声器。

贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据进行操作的表达(例如，对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的已处理版本(例如，在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)以对数据(例如，音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机，以及可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦接(couples)”或“耦接的(coupled)”用于指直接或间接连接。因此，如果第一设备耦接至第二设备，则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

本文中使用表达“智能音频设备”来表示智能设备，其可以是单一用途音频设备或多用途音频设备(例如，实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，TV或移动电话)。尽管TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但是在大多数情况下，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在所述操作系统上本地运行。类似地，移动电话中的音频输入和输出可以做很多事情，但这些都是由电话上运行的应用程序服务的。从这个意义上说，具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定的区或用户配置区域播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备，尽管虚拟助理功能的其他方面可以由一个或多个其他设备来实施，例如一个或多个服务器，多用途音频设备被配置为与所述一个或多个服务器通信。这种多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)，并且所述虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说，虚拟助理功能的至少一些方面(例如，语音识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以通过网络(如互联网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以非常离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以在其中之一(即，最确信已经听到唤醒词的虚拟助理)响应于所述词的意义上一起工作。在一些实施方式中，连接的设备可以形成一种星座，所述星座可以由一个主应用程序管理，所述主应用程序可以是(或实施)虚拟助理。

本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或其他声音)，其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风，或至少一个其他麦克风)而唤醒。在该情境下，“唤醒”表示设备进入等待(即，正在收听)声音命令的状态。在一些实例中，本文中可以被称为“唤醒词”的内容可以包括一个以上的词，例如，短语。

本文中，表达“唤醒词检测器”表示被配置为(或包括用于配置设备的指令的软件)连续搜索实时声音(例如，语音)特征与训练模型之间的对齐的设备。通常，每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值，就会触发唤醒词事件。例如，所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后，设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态)，在所述状态下设备会收听命令并且将接收到的命令传递给更大的、计算更密集的识别器。

发明内容

一些实施例涉及用于渲染(或渲染和回放)空间音频混音(例如，渲染一个音频流或多个音频流)以由一组智能音频设备中的智能音频设备中的至少一个(例如，所有或一些)智能音频设备回放和/或由另一组扬声器中的扬声器中的至少一个(例如，所有或一些)扬声器回放的方法。一些实施例是用于这种渲染(例如，包括扬声器馈送的生成)以及经渲染的音频的回放(例如，所生成的扬声器馈送的回放)的方法(或系统)。

一类实施例涉及用于由多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)渲染(或渲染和回放)音频的方法。例如，用户的家庭中存在(在系统中)一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染音频以供智能音频设备中的所有或一些(即，由包括在或耦接到智能音频设备中的所有或一些的(多个)扬声器)回放。

根据一些实施例，灵活渲染器的操作(例如，渲染空间音频混音)在参考模式(其假定收听者具有相对于要播放经渲染的音频的扬声器的收听位置和取向)与分布式模式之间是可变的。参考模式在本文中可以被称为“参考空间模式”。分布式模式在本文中可以被称为“分布式空间模式”。为了在分布式模式下渲染空间音频混音，渲染器(渲染系统)可以以比参考模式更加空间分布的方式渲染空间音频混音的至少一个元素(例如，某些元素)，同时使混音的至少一个其他元素空间化。例如，在分布式模式下，被认为重要的混音(例如，将在参考模式下渲染为前声场的内容)的元素(例如，渲染的内容)可以均匀地跨扬声器分布，而混音的环绕场(例如，在参考模式下将被渲染为环绕场的内容)可以跨收听区域以相对更多的空间多样性来渲染混音。这种可变渲染操作可以在覆盖的均匀性(在收听区域内或在收听区域的区内以均匀性回放混音的某些内容)与混音的空间兴趣的维持之间取得平衡。

在渲染音频以供包括在(或耦接到)空间中的一组智能音频设备(例如，一组协调的智能音频设备，例如，一组连接的智能扬声器)中的至少一个智能音频设备(例如，所有或一些智能音频设备)的(多个)扬声器回放的一些实施例中，渲染的一些方面可以有利地由用户的语音输入控制。例如，(参考模式的)预期收听位置和取向可以基于根据用户的语音输入对用户的位置的检测来动态地设置。在一些实施例中，可以响应于显式语音命令来实现向分布式模式的切换。然而，在其他实施例中，向分布式模式的切换可以基于其他用户输入(例如，对图形用户界面(GUI)的输入，如本文所公开的那些输入)或响应于对空间中人数的自动检测。在一些实施例中，可以实施参考模式与分布式模式之间的连续可变控制。在一些这样的实施例中，参考空间模式与分布式模式之间的连续可变控制可以例如经由在GUI中描绘的“滑块”、控制旋钮等根据用户输入来实施。

在一类实施例中，音频渲染系统可以渲染至少一个音频流(例如，用于同时回放的多个音频流)，和/或在多个任意放置的扩音器上播放(多个)经渲染的流，其中，所述(多个)节目流中的至少一个(例如，两个或更多个)是(或确定)空间混音。

本公开的一些方面包括一种被配置(例如，被编程)为执行一种或多种所公开的方法或其步骤的系统，以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如，磁盘或其他有形存储介质)，所述有形非暂态计算机可读介质存储用于执行所公开方法或其步骤的一个或多个实施例的代码(例如，可执行以执行所公开方法或其步骤的一个或多个实施例的代码)。例如，所公开系统的实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据进行多种操作中的任何一种，包括所公开方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的实施例。

在一些实施方式中，装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

在一些实施方式中，控制系统被配置用于经由接口系统接收音频数据。在一些示例中，音频数据包括一个或多个音频信号和相关联的空间数据，所述空间数据指示与音频信号相对应的预期感知空间位置。在一些实例中，空间数据包括声道数据或空间元数据中的至少一项。

在一些示例中，控制系统被配置用于确定渲染模式并且用于根据所述渲染模式经由环境的一组扩音器渲染音频数据以供再现，从而产生经渲染的音频信号。根据一些这样的示例，渲染所述音频数据涉及确定环境中的一组扩音器的相对激活。在一些这样的示例中，所述渲染模式在参考空间模式与一种或多种分布式空间模式之间是可变的。根据一些这样的示例，所述参考空间模式具有假定的收听位置和取向。在一些这样的示例中，在所述一种或多种分布式空间模式下，所述音频数据的一个或多个元素各自以比在所述参考空间模式下更加空间分布的方式渲染，并且所述音频数据的其余元素的空间位置被扭曲，使得所述其余元素的空间位置比在所述参考空间模式下更完整地跨越所述环境的渲染空间。根据一些这样的实施方式，控制系统被配置用于经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。

在一些实施方式中，确定所述渲染模式可以涉及经由所述接口系统接收渲染模式指示。在一些这样的实施方式中，接收所述渲染模式指示可以涉及接收与语音命令相对应的麦克风信号。在一些示例中，所述渲染模式可以从在所述参考空间模式到分布最广的空间模式范围内的渲染模式的连续统(continuum)中选择。

根据一些示例，音频处理系统可以包括显示设备和靠近所述显示设备的传感器系统。在一些这样的示例中，所述控制系统可以进一步被配置用于控制所述显示设备呈现图形用户界面。接收所述渲染模式指示可以涉及经由所述图形用户界面接收与用户输入相对应的传感器信号。在一些示例中，所述传感器信号可以是触摸传感器信号或手势传感器信号。

在一些实施方式中，接收渲染模式指示可以涉及接收收听区域中的人数的指示。在一些这样的实施方式中，所述控制系统可以进一步被配置用于至少部分地基于所述收听区域中的人数来确定所述渲染模式。在一些这样的实施方式中，所述收听区域中的人数的所述指示可以基于来自麦克风系统的麦克风数据或来自相机系统的图像数据中的至少一项。

根据一些示例，控制系统可以被配置成根据经由接口系统接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或取向。在一些实例中，参考空间模式数据可以包括来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。

如上所述，根据一些示例，音频处理系统可以包括显示设备和靠近所述显示设备的传感器系统。在一些这样的示例中，所述控制系统可以进一步被配置用于控制所述显示设备呈现图形用户界面。在一些这样的实例中，接收参考空间模式数据可以涉及经由所述图形用户界面接收与用户输入相对应的传感器信号。

在一些实施方式中，所述音频数据的各自以更加空间分布的方式渲染的所述一个或多个元素可以与前声场数据、音乐声乐、对话、低音吉他、打击乐器或其他独奏或领奏乐器中的一个或多个相对应。在一些这样的示例中，所述前声场数据可以包括以杜比(Dolby)5.1、杜比7.1或杜比9.1格式接收或上混到杜比5.1、杜比7.1或杜比9.1格式的音频数据的左信号、右信号或中央信号中的一个或多个。在一些示例中，所述前声场数据可以包括以杜比全景声(Dolby Atmos)格式接收并且具有空间元数据的音频数据，所述空间元数据指示(x,y)空间位置，其中，y<0.5。

根据一些示例，音频数据可以包括空间分布元数据，所述空间分布元数据指示所述音频数据的哪些元素要以更加空间分布的方式渲染。在一些这样的示例中，控制系统可以被配置用于根据空间分布元数据来识别音频数据的要以更加空间分布的方式渲染的一个或多个元素。替代性地或另外地，控制系统可以被配置用于实施内容类型分类器以识别音频数据的要以更加空间分布的方式渲染的一个或多个元素。

在一些实例中，所述一种或多种分布式空间模式中的至少一种可以涉及将时变修正应用于所述至少一个元素的空间位置。根据一些示例，所述时变修正可以是周期性修正。在一些实例中，所述周期性修正可以与以下各项相对应：用户输入、在所述环境中再现的音乐节奏、在所述环境中再现的音乐节拍、和/或在所述环境中再现的音频数据的一个或多个其他特征。

在一些示例中，以比在参考空间模式下更加空间分布的方式渲染音频数据的一个或多个元素可以涉及创建所述一个或多个元素的副本。一些这样的示例可以涉及在跨所述环境的一组分布式位置处同时渲染所有所述副本。

根据一些示例，所述渲染可以基于质心振幅平移、灵活虚拟化或其组合。在一些这样的示例中，以比在参考空间模式下更加空间分布的方式来渲染音频数据的一个或多个元素可以涉及将所述一个或多个元素中的每一个的渲染位置朝向零半径扭曲。

本公开的至少一些方面可以经由如音频处理方法等方法来实施。在一些实例中，所述方法可以至少部分地由如本文所公开的那些控制系统来实施。一些这样的方法可以涉及由控制系统并且经由接口系统接收音频数据。在一些示例中，音频数据包括一个或多个音频信号和相关联的空间数据，所述空间数据指示与音频信号相对应的预期感知空间位置。在一些示例中，音频数据包括声道数据和/或空间元数据。

一些这样的方法可以涉及由所述控制系统确定渲染模式，以及由所述控制系统根据所述渲染模式经由环境的一组扩音器渲染所述音频数据以供再现，从而产生经渲染的音频信号。根据一些这样的示例，渲染所述音频数据涉及确定环境中的一组扩音器的相对激活。在一些这样的示例中，所述渲染模式在参考空间模式与一种或多种分布式空间模式之间是可变的。根据一些这样的示例，所述参考空间模式具有假定的收听位置和取向。在一些这样的示例中，在所述一种或多种分布式空间模式下，所述音频数据的一个或多个元素各自以比在所述参考空间模式下更加空间分布的方式渲染，并且所述音频数据的其余元素的空间位置被扭曲，使得所述其余元素的空间位置比在所述参考空间模式下更完整地跨越所述环境的渲染空间。根据一些这样的实施方式，所述方法涉及经由所述接口系统向所述环境的所述一组扩音器中的至少一些扩音器提供所述经渲染的音频信号。

在一些实施方式中，确定所述渲染模式可以涉及经由所述接口系统接收渲染模式指示。在一些这样的实施方式中，接收所述渲染模式指示可以涉及接收与语音命令相对应的麦克风信号。在一些示例中，所述渲染模式可以从在所述参考空间模式到分布最广的空间模式范围内的渲染模式的连续统中选择。

根据一些示例，所述方法可以涉及控制显示设备呈现图形用户界面。接收所述渲染模式指示可以涉及经由所述图形用户界面接收与用户输入相对应的传感器信号。在一些示例中，所述传感器信号可以是触摸传感器信号或手势传感器信号。

在一些实施方式中，接收渲染模式指示可以涉及接收收听区域中的人数的指示。在一些这样的实施方式中，所述方法可以涉及至少部分地基于所述收听区域中的人数来确定所述渲染模式。在一些这样的实施方式中，所述收听区域中的人数的所述指示可以基于来自麦克风系统的麦克风数据或来自相机系统的图像数据中的至少一项。

根据一些示例，所述方法可以涉及根据经由接口系统接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或取向。在一些实例中，参考空间模式数据可以包括来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。

在一些实施方式中，所述音频数据的各自以更加空间分布的方式渲染的所述一个或多个元素可以与前声场数据、音乐声乐、对话、低音吉他、打击乐器或其他独奏或领奏乐器中的一个或多个相对应。在一些这样的示例中，所述前声场数据可以包括以杜比5.1、杜比7.1或杜比9.1格式接收或上混到杜比5.1、杜比7.1或杜比9.1格式的音频数据的左信号、右信号或中央信号中的一个或多个。在一些示例中，所述前声场数据可以包括以杜比全景声格式接收并且具有空间元数据的音频数据，所述空间元数据指示(x,y)空间位置，其中，y<0.5。

根据一些示例，音频数据可以包括空间分布元数据，所述空间分布元数据指示所述音频数据的哪些元素要以更加空间分布的方式渲染。在一些这样的示例中，所述方法可以涉及根据所述空间分布元数据来识别所述音频数据的要以更加空间分布的方式渲染的所述一个或多个元素。替代性地或另外地，所述方法可以涉及实施内容类型分类器以识别所述音频数据的要以更加空间分布的方式渲染的所述一个或多个元素。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。

例如，所述软件可以包括用于控制一个或多个设备执行涉及音频处理的方法的指令。一些这样的方法可以涉及由控制系统并且经由接口系统接收音频数据。在一些示例中，音频数据包括一个或多个音频信号和相关联的空间数据，所述空间数据指示与音频信号相对应的预期感知空间位置。在一些示例中，音频数据包括声道数据和/或空间元数据。

一些这样的方法可以涉及由所述控制系统确定渲染模式以及由所述控制系统根据所述渲染模式经由环境的一组扩音器渲染所述音频数据以供再现，从而产生经渲染的音频信号。根据一些这样的示例，渲染所述音频数据涉及确定环境中的一组扩音器的相对激活。在一些这样的示例中，所述渲染模式在参考空间模式与一种或多种分布式空间模式之间是可变的。根据一些这样的示例，所述参考空间模式具有假定的收听位置和取向。在一些这样的示例中，在所述一种或多种分布式空间模式下，所述音频数据的一个或多个元素各自以比在所述参考空间模式下更加空间分布的方式渲染，并且所述音频数据的其余元素的空间位置被扭曲，使得所述其余元素的空间位置比在所述参考空间模式下更完整地跨越所述环境的渲染空间。根据一些这样的实施方式，所述方法涉及经由所述接口系统向所述环境的所述一组扩音器中的至少一些扩音器提供所述经渲染的音频信号。

在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1是示出能够实施本公开的各个方面的装置的部件的示例的框图。

图2描绘了收听环境的平面图，所述收听环境在该示例中为生活空间。

图3A、图3B、图3C和图3D示出了针对图2中示出的生活空间中的多个不同收听位置和取向以参考空间模式灵活渲染空间音频的示例。

图3E示出了当两个收听者在收听环境的不同位置时的参考空间模式渲染的示例。

图4A示出了用于接收与收听者的位置和取向有关的用户输入的图形用户界面(GUI)的示例。

图4B描绘了根据一个示例实施例的分布式空间渲染模式。

图5A描绘了根据一个示例的部分分布式空间渲染模式。

图5B描绘了根据一个示例的完全分布式空间渲染模式。

图6描绘了2D平面上针对质心振幅平移(CMAP)和灵活虚拟化(FV)渲染系统的示例渲染位置。

图7A、图7B、图7C和图7D示出了应用于图6中的所有渲染点以实现各种分布式空间渲染模式的扭曲的示例。

图8示出了用户可以用来选择渲染模式的GUI的示例。

图9是概述了可以由如本文中公开的那些装置或系统等装置或系统执行的方法的一个示例的流程图。

图10是环境的图，所述环境在该示例中为生活空间。

图11示出了环境中三个音频设备之间的几何关系的示例。

图12示出了图11中示出的环境中三个音频设备之间的几何关系的另一个示例。

图13A示出了图11和图12中描绘的两个三角形，没有对应的音频设备和环境的其他特征。

图13B示出了估计由三个音频设备形成的三角形的内角的示例。

图14是概述了可以由如图1中示出的装置等装置执行的方法的一个示例的流程图。

图15示出了其中环境中的每个音频设备都是多个三角形的顶点的示例。

图16提供了前向对齐过程的一部分的示例。

图17示出了已经在前向对齐过程期间发生的多个音频设备位置估计的示例。

图18提供了反向对齐过程的一部分的示例。

图19示出了已经在反向对齐过程期间发生的多个音频设备位置估计的示例。

图20示出了估计音频设备位置和实际音频设备位置的比较。

图21是概述了可以由如图1中示出的装置等装置执行的方法的另一个示例的流程图。

图22A示出了图21的一些框的示例。

图22B示出了确定收听者角取向数据的附加示例。

图22C示出了确定收听者角取向数据的附加示例。

图22D示出了根据参考图22C描述的方法来确定音频设备坐标的适当旋转的示例。

在各附图中相同的附图标记和名称指示相似的元件。

具体实施方式

在灵活渲染中，可以在任意数量的任意放置的扬声器上渲染空间音频。随着智能音频设备(例如，智能扬声器)在家庭中的广泛部署，需要实现允许消费者使用智能音频设备来执行音频的灵活渲染以及对如此渲染的音频的回放的灵活渲染技术。

已经开发了若干种技术来实施灵活渲染，所述技术包括：质心振幅平移(CMAP)和灵活虚拟化(FV)。

当前的灵活渲染考虑以参考空间模式渲染空间音频节目素材，其中，存在假定的收听位置和取向。换句话说，坐在假定收听位置和取向中的人将以意在近似于内容创作者在工作室中听到混音的方式听到所述混音。例如，对于电影原声，对话通常将来自于收听者的前方，并且环绕声来自收听者的后方。与音乐类似，人声将通常来自收听者的前方。这对于位于或靠近预期收听位置的收听者运行良好，但存在如聚会等情况，其中，许多人可能分布在其中放置了一组扩音器的空间中。在刚刚描述的参考渲染模式下，不同收听者的体验可能会有显著差异。例如，播放音乐时，房间的设想的前方的人可能会听到人声轰鸣，而在房间后面的人可能大多听到来自混音的弥漫的环绕感。该问题的简单的现有解决方案是将音频节目的相同混音发送到所有扬声器，使得每个人都听到相同的东西。实际上，许多传统的整体家庭音频解决方案就是这样做的。然而，使用这样的解决方案，跨收听空间的音频混音的空间方面就完全缺失了。

一些公开的实施例涉及这样的系统和方法：其用于渲染(或渲染和回放)空间音频混音(例如，渲染一个音频流或多个音频流)以由一组智能音频设备(例如，一组协调的智能音频设备)中的智能音频设备中的至少一个(例如，所有或一些)智能音频设备回放，和/或由另一组扬声器中的扬声器中的至少一个(例如，所有或一些)扬声器回放。一些实施例是用于这种渲染(例如，包括扬声器馈送的生成)以及经渲染的音频的回放(例如，所生成的扬声器馈送的回放)的方法(或系统)。这样的实施例的示例包括以下枚举的示例实施例(EEE)：

EEE1.一种音频渲染方法，所述音频渲染方法渲染(或一种音频渲染系统，所述音频渲染系统被配置成渲染)至少一个空间音频节目流以在多个扬声器(例如，任意放置的扩音器)上回放，其中，所述渲染可在参考空间模式(具有假定的收听位置和取向)与至少一个(例如，一个)分布式空间模式之间变化，其中，在所述分布式空间模式下(或在每个分布式空间模式下)，所述(多个)空间音频节目流的一个或多个元素(即，所述(多个)空间音频节目流指示的一些内容)以比在所述参考空间模式下更加空间分布(即，在收听区域中更均匀地跨所述扬声器分布)的方式渲染；

EEE2.如权利要求EEE1所述的方法或系统，其中，所述(多个)空间音频节目流的所述一个或多个元素是前声场或者是前声场的一部分(例如，指示用于作为前声场回放或由前声场回放的音频)，其中，前声场包括参考收听环境中的参考收听位置和取向的前方的区域。

EEE3.如权利要求EEE2所述的方法或系统，其中，对于所述分布式空间模式(或在所述分布式空间模式下)，所述(多个)空间音频节目流的其余元素的空间位置(即，除了是所述前声场或是所述前声场的一部分的一个或多个元素之外的元素)被扭曲，使得所述空间位置(比在所述参考空间模式下)更完整地跨越所述渲染空间(例如，要在其中播放所述渲染的音频的所述收听空间)；

EEE4.如权利要求EEE1至EEE3中任一项所述的方法或系统，其中，所述(多个)空间音频节目流的所述一个或多个元素由关联的元数据来标识，所述关联的元数据将所述一个或多个元素标记为适合于分布式回放(例如，在分布式空间模式下)；

EEE5.如权利要求EEE1至EEE4中任一项所述的方法或系统，其中，所述参考空间模式的(例如，与所述参考空间模式相关联的)所述假定收听位置和取向是由用户(例如，系统的用户)动态设置的；

EEE6.如权利要求EEE5所述的方法或系统，其中，所述收听位置和取向是从所述用户的如由一个或多个麦克风(例如，所述渲染系统的或与所述渲染系统相关联的一个或多个麦克风)捕获的语音得到的；

EEE7.如权利要求EEE1至EEE6中任一项所述的方法或系统，其中，所述两种渲染模式(即，所述分布式空间模式和所述参考空间模式)之间的所述可变设置由用户的语音控制；

EEE8.如权利要求EEE7所述的方法或系统，其中，设置为所述参考空间模式是通过所述用户说出预定的短语(例如，短语“为我播放[任选地插入内容名称]”或短语“以个人模式播放[任选地插入内容名称]”)来实现的；

EEE9.如权利要求EEE7所述的方法或系统，其中，设置为所述分布式空间模式是通过所述用户说出预定的短语(例如，短语“以分布式模式播放[任选地插入内容名称]”)来实现的；以及

EEE10.如权利要求EEE1至EEE9中任一项所述的方法或系统，其中，所述两种渲染模式(即，所述分布式空间模式和所述参考空间模式)之间的可变设置是根据对收听区域内的人数的检测(例如，使用所述渲染系统的或与所述渲染系统相关联的一个或多个传感器)而自动设置的。

图1是示出能够实施本公开的各个方面的装置的部件的示例的框图。根据一些示例，装置100可以是或可以包括被配置用于执行本文公开的方法中的至少一些方法的智能音频设备。在其他实施方式中，装置100可以是或可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一种设备，如膝上型计算机、蜂窝电话、平板设备、智能家居中枢等。在一些这样的实施方式中，装置100可以是或可以包括服务器。

在该示例中，装置100包括接口系统105和控制系统110。在一些实施方式中，接口系统105可以被配置用于接收音频数据。音频数据可以包括被安排由环境的至少一些扬声器再现的音频信号。音频数据可以包括一个或多个音频信号和相关联的空间数据。例如，空间数据可以包括声道数据和/或空间元数据。接口系统105可以被配置用于向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。在一些实施方式中，接口系统105可以被配置用于从环境中的一个或多个麦克风接收输入。

接口系统105可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统105可以包括一个或多个无线接口。接口系统105可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统105可以包括控制系统110与存储器系统之间的一个或多个接口，如图1中示出的任选存储器系统115。然而，在一些实例中，控制系统110可以包括存储器系统。

控制系统110例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。

在一些实施方式中，控制系统110可以驻留在超过一个设备中。例如，控制系统110的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境之外的设备中，如服务器、移动设备(例如，智能电话或平板电脑)等。在其他示例中，控制系统110的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境的一个或多个其他设备中。例如，控制系统功能可以跨环境的多个智能音频设备分布，或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中，接口系统105还可以驻留在一个以上的设备中。

在一些实施方式中，控制系统110可以被配置用于至少部分地执行本文所公开的方法。根据一些示例，控制系统110可以被配置用于实施管理在多个扬声器上回放多个音频流的方法。

本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备等存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如驻留在图1中示出的任选存储器系统115和/或控制系统110中。因此，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，所述软件可以包括用于控制至少一个设备来处理音频数据的指令。例如，软件可以由如图1的控制系统110等控制系统的一个或多个部件执行。

在一些示例中，装置100可以包括图1中示出的任选的麦克风系统120。任选的麦克风系统120可以包括一个或多个麦克风。在一些实施方式中，麦克风中的一个或多个麦克风可以是一个或多个其他设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些这样的实施方式中，去往或来自一个或多个这样的麦克风的信号可以由装置100经由接口系统105传输或接收。

根据一些实施方式，装置100可以包括图1中示出的任选的扩音器系统125。任选的扬声器系统125可以包括一个或多个扩音器。扩音器在本文中有时可以被称为“扬声器”。在一些示例中，任选的扩音器系统125的至少一些扩音器可以任意地定位。例如，任选的扩音器系统125的至少一些扬声器可以放置在不对应于任何标准规定的扬声器布局的位置，如杜比5.1、杜比7.1、杜比9.1、滨崎(Hamasaki)22.2等。在一些这样的示例中，任选的扩音器系统125的至少一些扩音器可以放置在对空间方便的位置(例如，在有空间容纳扩音器的位置)，但不在任何标准规定的扩音器布局中。在一些实施方式中，扬声器中的一个或多个扬声器可以是一个或多个其他设备的一部分或与其相关联。在一些这样的实施方式中，去往或来自一个或多个这样的设备的信号可以由装置100经由接口系统105传输或接收。

在一些实施方式中，装置100可以包括图1中示出的任选的传感器系统130。任选的传感器系统130可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式，任选的传感器系统130可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，任选的传感器系统130的一个或多个相机可以驻留在智能音频设备中，所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选的传感器系统130的一个或多个相机可以驻留在TV、移动电话或智能扬声器中。因此，在一些实施方式中，相机、触摸传感器、手势传感器、运动检测器等中的一个或多个可以是一个或多个其他设备的一部分或与其相关联。在一些这样的实施方式中，去往或来自一个或多个这样的设备的信号可以由装置100经由接口系统105传输或接收。

在一些实施方式中，装置100可以包括图1中示出的任选的显示系统135。任选的显示系统135可以包括一个或多个显示器，如一个或多个发光二极管(LED)显示器。在一些实例中，任选的显示系统135可以包括一个或多个有机发光二极管(OLED)显示器。在其中装置100包括显示系统135的一些示例中，传感器系统130可以包括靠近显示系统135的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统110可以被配置用于控制显示系统135来呈现图形用户界面(GUI)，如本文所公开的GUI之一。

根据一些示例，装置100可以是或可以包括智能音频设备。在一些这样的实施方式中，装置100可以是或可以包括唤醒词检测器。例如，装置100可以是或可以包括虚拟助理。

参考图2描述了示例实施例。与本文提供的其他图一样，图2中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。图2描绘了收听环境的平面图，所述收听环境在该示例中为生活空间。根据该示例，环境200包括在左上方处的客厅210、在下方中央处的厨房215和在右下方处的卧室222。跨生活空间分布的方框和圆圈表示一组扩音器205a至205h，所述一组扩音器中的至少一些在一些实施方式中可以是智能扬声器，放置在对空间方便的位置，但不遵守任何标准规定的布局(任意放置)。在一些示例中，扩音器205a至205h可以被协调以实施一个或多个公开的实施例。在该示例中，环境200包括分布在整个环境中的相机211a至211e。在一些实施方式中，环境200中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选的传感器系统130的一个或多个相机可以驻留在电视230中或电视230上、在移动电话中或在智能扬声器(如扩音器205b、205d、205e或205h中的一个或多个)中。尽管在本公开中呈现的环境200的每个描绘中都未示出相机211a至211e，但在一些实施方式中，每个环境200仍然可以包括一个或多个相机。

图3A、图3B、图3C和图3D示出了针对图2中示出的生活空间中的多个不同收听位置和取向以参考空间模式灵活渲染空间音频的示例。图3A至图3D在四个示例收听位置处描绘了该功能。在每个示例中，指向人320a的箭头305表示前声场的位置(人320a面向的位置)。在每个示例中，箭头310a表示左环绕场并且箭头310b表示右环绕场。

在图3A中，针对坐在客厅沙发325上的人320a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。根据一些实施方式，控制系统(如图1A的控制系统110)可以被配置成根据经由接口系统(如图1A的接口系统105)接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或假定取向。下文描述了一些示例。在一些这样的示例中，参考空间模式数据可以包括来自麦克风系统(如图1A的麦克风系统120)的麦克风数据。

在一些这样的示例中，参考空间模式数据可以包括与唤醒词和语音命令(如“[唤醒词]，使电视成为前声场”)相对应的麦克风数据。替代性地或另外地，麦克风数据可以用于根据用户的语音的声音例如经由到达方向(DOA)数据对用户的位置进行三角测量。例如，三个或更多个扩音器205a至205e可以使用麦克风数据，以根据人320a的语音的声音，经由DOA数据，对坐在客厅沙发325上的人320a的位置进行三角测量。可以根据人320a的位置来假定人320a的取向：如果人320a在图3A中示出的位置处，则可以假定人320a面向电视230。

替代性地或另外地，人320a的位置和取向可以根据来自相机系统(如图1A的传感器系统130)的图像数据来确定。

在一些示例中，人320a的位置和取向可以根据经由图形用户界面(GUI)获得的用户输入来确定。根据一些这样的实例，控制系统可以被配置用于控制显示设备(例如，蜂窝电话的显示设备)来呈现允许人320a输入人320a的位置和取向的GUI。

图4A示出了用于接收与收听者的位置和取向有关的用户输入的GUI的示例。根据该示例，用户先前已经标识了若干个可能的收听位置和对应取向。在设置过程期间已经输入并且存储了与每个位置和对应取向相对应的扩音器位置。下文描述了一些示例。例如，可以已经提供了收听环境布局GUI，并且可以已经提示用户触摸与可能的收听位置和扬声器位置相对应的位置，并且命名所述可能的收听位置。在该示例中，在图4A中描绘的时间，用户已经通过触摸虚拟按钮“客厅沙发”向GUI 400提供了关于用户的位置的用户输入。因为存在两个可能的面向前方的位置，考虑到L形沙发325，提示用户指示所述用户面向哪个方向。

在图3B中，针对坐在客厅阅读椅315上的人320a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。在图3C中，针对站在厨房柜台330旁边的人320a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。在图3D中，针对坐在早餐桌340旁的人320a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。可以观察到，如箭头305所指示的前声场取向不一定与环境200内的任何特定扩音器相对应。随着收听者的位置和取向变化，扬声器的用于渲染空间混音的各种分量的责任也在变化。

对于图3A至图3D中任何一个中的人320a，他或她听到如预期针对示出的每个位置和取向的空间混音。然而，对于空间中的附加收听者来说，体验可能是次优的。图3E示出了当两个收听者在收听环境的不同位置时的参考空间模式渲染的示例。图3E描绘了针对在沙发上的人320a和站在厨房中的人320b的参考空间模式渲染。渲染对于人320a是最佳的，但是人320b鉴于他/她的位置，将主要听到来自环绕场以及少量前声场的信号。

在该情况下以及多人可以以不可预测的方式(例如，聚会)在空间中移动的其他情况下，需要更适合于这种分布式听众的渲染模式。图4B描绘了根据一个示例实施例的分布式空间渲染模式。在该分布式空间模式的示例中，前声场现在跨整个收听空间均匀渲染，而不仅仅是从沙发上的收听者前方的位置渲染。前声场的该分布由环绕云状线435的多个箭头405d表示，所有的箭头405d具有相同的长度或大约相同的长度。箭头405d的预期含义是所描绘的多个收听者(人320a至人320f)全部能够同样好地听到该部分混音而无论所述多个收听者的位置如何。然而，如果将该均匀分布应用于混音的所有分量，则混音的所有空间方面都将丢失；人320a至人320f基本上会听到单声道。为了维持一些空间感，分别由箭头310a和310b表示的混音的左和右环绕分量仍然以空间方式渲染。(在许多实例中，可以存在左侧和右侧环绕、左后和右后环绕、头顶以及在该空间内具有空间位置的动态音频对象。箭头310a和310b意在表示所有这些可能性的左部分和右部分。)并且为了最大化感知空间感，这些分量在其上被空间化的区域被扩大以更完整地覆盖整个收听空间，包括以前仅由前声场占据的空间。通过将图4B中示出的相对细长的箭头310a和310b与图3A中示出的相对较短的箭头310a和310b进行比较，可以理解在其上渲染环绕分量的该扩展的区域。此外，图3A中示出的表示参考空间模式下的环绕分量的箭头310a和310b大约从人320a的各侧延伸至收听环境的后侧并且不延伸至收听环境的前声场区域。

在该示例中，在实施前声场的均匀分布和环绕分量的扩展空间化时要小心，使得与针对参考空间模式的渲染相比，这些分量的感知响度在很大程度上维持。目标是移位这些分量的空间印象，以针对多人进行优化，同时仍维持混音中每个分量的相对水平。例如，如果前声场由于其均匀分布而变成相对于环绕分量两倍大声，这将是不期望的。

为了在示例实施例的各种参考渲染模式与分布式渲染模式之间切换，在一些示例中，用户可以和与经编排的扬声器的系统相关联的语音助理交互。例如，为了以参考空间模式播放音频，用户可以对语音助理说出唤醒词(例如“听着，杜比”)，然后说出命令“为我播放[插入内容名称]。”或“以个人模式播放[插入内容名称]。”然后，基于来自与系统相关联的各种麦克风的录音，系统可以自动确定用户的位置和取向，或者若干个预定区中最靠近用户的一个预定区域，并且开始以与该确定位置相对应的参考模式播放音频。为了以分布式空间模式播放音频，用户可以说出不同的命令，例如，“以分布式模式播放[插入内容名称]”。

替代性地或另外，系统可以被配置成基于其他输入来在参考模式与分布式模式之间自动切换。例如，系统可以具有用于自动确定空间中有多少收听者以及收听者的位置的装置。例如，这可以通过从相关联的麦克风监测空间中的语音活动和/或通过使用其他相关联的传感器(如一个或多个相机)来实现。在该情况下，系统还可以配置有用于在参考空间模式(如图3E中描绘的)与完全分布式空间模式(如图4B中描绘的)之间连续改变渲染的机制。在该连续统(continuum)上设置渲染的点可以计算为例如空间中报告的人数的函数。

图3A、图5A和图5B图示了该行为。在图3A中，系统仅检测到沙发上面向电视的单个收听者(人320a)，并且因此渲染模式被设置为针对该收听者位置和取向的参考空间模式。图5A描绘了根据一个示例的部分分布式空间渲染模式。在图5A中，在人320a后面检测到附加的两个人(人320e和320f)，并且渲染模式设置在参考空间模式与完全分布式空间模式之间的点处。这被描绘为一些前声场(箭头405a、405b和405c)被拉回朝向所述附加的收听者(人320e和320f)，但仍然更多地强调参考空间模式的前声场的位置。与箭头405b和405c的长度相比，该强调在图5A中由箭头305、以及箭头405a的相对更大的长度来指示。同样，如由箭头310a和310b的长度和位置所指示的，环绕场仅部分地朝向参考空间模式的前声场的位置而扩展。

图5B描绘了根据一个示例的完全分布式空间渲染模式。在一些示例中，系统可以已经检测到跨越整个空间的大量收听者(人320a、320e、320f、320g、320h和320i)，并且系统可以已经自动将渲染模式设置为完全分布式空间模式。在其他示例中，渲染模式可以已经根据用户输入进行设置。完全分布式空间模式在图5B中由箭头405d的均匀或基本上均匀的长度以及箭头310a和310b的长度和位置来指示。

在前面的示例中，在分布式渲染模式下，空间混音中以更均匀分布被渲染的一部分被指定为前声场。在许多空间混音的情境中，这是有道理的，因为传统的混音实践通常将混音中最重要的部分(如电影的对话和音乐的主音、鼓和低音吉他)放置在前声场中。对于大多数5.1和7.1环绕声混音以及使用如杜比定向逻辑(Dolby Pro-Logic)或杜比环绕声(Dolby Surround)等算法而上混到5.1或7.1的立体声内容来说这是正确的，其中，前声场由左声道、右声道和中央声道给出。对于如杜比全景声(Dolby Atmos)等许多基于对象的音频混音来说这也是正确的，其中，可以根据指示y<0.5的(x,y)空间位置的空间元数据将音频数据指定为前声场。然而，对于基于对象的音频，混音工程师自由地将音频放置在3D空间中的任何位置。具体地，对于基于对象的音乐，混音工程师开始打破传统的混音规范，并且将被认为是混音的重要部分(如主音)放置在非传统位置(如头顶上)。在这种情况下，很难构建简单的规则来确定混音的哪些分量适合于以用于分布式渲染模式的更加分布式空间方式渲染。基于对象的音频已经包含与每个其组成音频信号相关联的元数据，所述元数据描述了应在3D空间中的何处渲染信号。为了解决所描述的问题，可以添加附加元数据，从而允许内容创建者将特定信号标志为适合于在分布式渲染模式下更加分布式空间渲染。在渲染期间，系统然后使用该元数据来选择混音的应用更加分布式渲染的分量。这给予内容创建者对分布式渲染模式针对特定内容片段发声的方式的完全控制。

在一些替代性实施方式中，控制系统可以被配置用于实施内容类型分类器以识别所述音频数据中要以更加空间分布的方式渲染的一个或多个元素。在一些示例中，内容类型分类器可以参考内容类型元数据(例如，指示音频数据是对话、声乐、打击乐器、低音吉他等的元数据)以确定是否应该以更加空间分布的方式渲染音频数据。根据一些这样的实施方式，要以更加空间分布的方式渲染的内容类型元数据可以是可由用户例如根据用户输入而经由显示设备上显示的GUI来选择的。

用于以比在参考空间模式下更加空间分布的方式渲染空间音频混音的一个或多个元素的确切机制可以在不同实施例之间变化，并且本公开意在涵盖所有这样的机制。一种示例机制涉及创建每个这种元素的多个副本，其中多个相关联的渲染位置更均匀地跨收听空间分布。在一些实施方式中，针对分布式空间模式的渲染位置和/或渲染位置的数量可以是用户可选择的，而在其他实施方式中，针对分布式空间模式的渲染位置和/或渲染位置的数量可以是预设的。在一些这样的实施方式中，用户可以为分布式空间模式选择多个渲染位置，并且所述渲染位置可以是预设的，例如，遍及收听环境均匀地间隔开。与在原始单个元素的原始预期位置处渲染该原始单个元素相反，系统然后在所有这些副本的一组分布位置处渲染所有这些副本。根据一些实施方式，可以按水平修正所述副本，使得与所有副本的组合渲染相关联的感知水平与在参考渲染模式下的原始单个元素的水平相同或基本上相同(例如，在阈值分贝数以内，如2dB、3dB、4dB、5dB、6dB等)。

更巧妙的机制可以在CMAP或FV灵活渲染系统的情境中实施，或者在这两种系统的混合体中实施。在这些系统中，空间混音的每个元素都在空间中的特定位置渲染；与每个元素相关联的可以是假定的固定位置，例如，5.1或7.1环绕声混音中声道的规范位置，或时变位置，如基于对象的音频(如杜比全景声)的情况。

从高水平来看，这两种技术渲染一组的一个或多个音频信号，每个音频信号具有相关联的期望感知空间位置，用于在一组的两个或更多个扬声器上回放，其中，该组扬声器的相对激活是通过扬声器上回放的所述音频信号的感知空间位置的模型以及音频信号的期望感知空间位置与扬声器位置的接近度的函数。所述模型确保收听者在其预期空间位置附近听到音频信号，并且接近度项控制使用哪些扬声器来实现该空间印象。具体地，接近度项有利于激活靠近音频信号的期望感知空间位置的扬声器。对于CMAP和FV两者，该函数关系可以方便地从成本函数中得到，所述成本函数写为两个项的和，一个项用于空间方面并且一个项用于接近度：

此处，集合

表示一组M个扩音器的位置，

表示音频信号的期望感知空间位置，并且g表示扬声器激活的M维矢量。对于CMAP，矢量中的每个激活表示每个扬声器的增益，而对于FV，每个激活表示滤波器(在第二种情况下，g可以等效地被视为特定频率处的复值的矢量，并且跨多个频率计算不同的g以形成滤波器)。激活的最佳矢量是通过跨激活最小化成本函数找到的：

在成本函数的某些定义下，很难控制由上述最小化产生的最佳激活的绝对水平，尽管g_opt的分量之间的相对水平是适当的。为了解决该问题，可以执行g_opt的后续归一化，以便控制激活的绝对水平。例如，可以期望将矢量归一化为具有单位长度，这符合常用的恒定功率平移规则：

灵活渲染算法的确切行为取决于成本函数的C_spatial和C_proximity这两个项的特定构建。对于CMAP，C_spatial是从模型得到的，所述模型将从一组扩音器播放的音频信号的感知空间位置放置在由其相关联的激活增益g_i(矢量g的元素)加权的这些扩音器的位置的质心：

然后将等式3操纵成表示期望音频位置与由激活的扩音器产生的音频位置之间的平方误差的空间成本：

对于FV，成本函数的空间项被不同地定义。目标是在收听者的左耳和右耳处产生与音频对象位置

相对应的双耳响应b。概念上，b是滤波器的2×1矢量(每只耳朵一个滤波器)，但更方便地将其视为特定频率下的复值的2×1矢量。继续以特定频率进行该表示，可以按对象位置从一组HRTF索引中取得期望的双耳响应：

同时，由扩音器在收听者的耳朵处产生的2×1双耳响应e被建模为2×M声学传输矩阵H乘以复扬声器激活值的M×1矢量g：

e＝Hg (6)

声学传输矩阵H是基于扩音器位置的集合

相对于收听者位置建模的。最后，成本函数的空间分量定义为期望的双耳响应(等式5)与扩音器产生的双耳响应(等式6)之间的平方误差：

方便地，等式4和7两者中定义的针对CMAP和FV的成本函数的空间项都可以重新布置为矩阵二次函数，作为扬声器激活g的函数：

其中，A是M×M方阵，B是1×M矢量，并且C是标量。矩阵A的秩为2，并且因此当M>2时，存在无限多个空间误差项等于零的扬声器激活g。引入成本函数的第二项C_proximity去除了该不确定性，并且产生了与其他可能的解相比具有感知上有益性质的特定解。对于CMAP和FV两者，C_proximity被构建成使得位置

远离期望的音频信号位置

的扬声器的激活比位置靠近期望位置的扬声器的激活受到更多惩罚。该构建产生了稀疏的扬声器激活的最佳集合，其中，仅靠近期望音频信号的位置的扬声器才会被显著激活，并且实际上导致音频信号的空间再现，这对于在所述一组扬声器周围的收听者移动而言在感知上更加稳健。

为此，成本函数的第二项C_proximity可以定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式简洁地表示为：

其中，D是期望的音频位置与每个扬声器之间的距离惩罚的对角矩阵：

距离惩罚函数可以采取许多形式，但以下是有用的参数化：

其中，

是期望的音频位置与扬声器位置之间的欧几里得距离，并且α和β是可调参数。参数α指示惩罚的全局强度；d₀与距离惩罚的空间范围相对应(在大约d₀距离处或更远的扩音器将受到惩罚)，并且β解释了在距离d₀处惩罚起始的突然性。

将等式8和9a中定义的成本函数的两个项相结合，得出总体成本函数：

C(g)＝g^*Ag+Bg+C+g^*Dg＝g^*(A+D)g+Bg+C (10)

将该成本函数关于g的导数设置为零并且求解g产生最佳扬声器激活解：

通常，等式11中的最佳解可以产生值为负的扬声器激活。对于灵活渲染器的CMAP构建，这样的负激活可能是不期望的，并且因此等式(11)可以在所有激活保持为正的情况下最小化。

图6描绘了2D平面上针对CMAP和FV渲染系统的示例渲染位置。每个编号的小圆圈表示示例渲染位置，并且渲染系统能够在圆圈600上或圆圈600内的任何位置渲染空间混音的元素。在该示例中，圆圈600上的标记为L、R、C、Lss、Rss、Lrs和Rrs的位置表示7.1环绕混音的7个全音域声道的固定规范渲染位置：左(L)、右(R)、中央(C)、左侧环绕(Lss)、右侧环绕(Rss)、左后环绕(Lrs)、和右后环绕(Rrs)。在该情境中，L、R和C附近的渲染位置被认为是前声场。对于参考渲染模式(在本文中也被称为“参考空间模式”)，假定收听者位于大圆圈的中心而面向C渲染位置。对于描绘针对各种收听位置和取向的参考渲染的图3A至图3D中的任何一个，可以概念化图6的中心在收听者之上的叠加，并且图6另外地进行了旋转和缩放，使得C位置与前声场的位置对齐(箭头305)，并且图6的圆圈600包围云状线335。然后，所得对齐描述了来自图3A至图3D中的扬声器中的任何一个与图6中的渲染位置中的任何一个的相对接近度。当在CMAP和FV渲染系统的特定位置渲染空间混音的元素时，该接近度在很大程度上管控扬声器的相对激活。

当在工作室中混合空间音频时，扬声器通常以均匀的距离放置在收听位置周围。在大多数实例中，没有扬声器位于所得圆圈或半球的范围内。当音频放置在“房间中”时(例如，在图6的中心)，渲染倾向于触发周边上的所有扬声器，以实现“不知何处的声音(soundof nowhere)”。在CMAP和FV渲染系统中，可以通过改变管控扬声器激活的成本函数的接近度惩罚项来实现类似的效果。具体地，对于图6的圆圈600的周边上的渲染位置，接近度惩罚项完全惩罚使用远离期望渲染位置的扬声器。如此，仅在预期渲染位置附近的扬声器被以大量的方式激活。随着期望渲染位置移动朝向圆圈的中心(半径为零)，接近度惩罚项减少到零，使得在中心处没有任何扬声器优先。半径为零的渲染位置的对应结果是音频跨收听空间的完全均匀感知的分布，这也正是针对在分布最广的空间渲染模式下混音的某些元素的期望结果。

鉴于CMAP和FV系统在半径为零处的该行为，可以通过将空间混音的任何元素的预期空间位置朝向零半径点扭曲来实现对空间混音的任何元素的更加空间分布的渲染。该扭曲可以在原始预期位置与零半径之间连续，由此在参考空间模式与各种分布式空间模式之间提供自然的连续控制。图7A、图7B、图7C和图7D示出了应用于图6中的所有渲染点以实现各种分布式空间渲染模式的扭曲的示例。图7D描绘了应用于图6中的所有渲染点以实现完全分布式渲染模式的这种扭曲的示例。看到L、R和C点(前声场)已经折叠到零半径，由此确保其以完全统一的方式渲染。另外，Lss和Rss渲染点已经沿圆圈的周边被拉动朝向原始前声场，使得空间化的环绕场(Lss、Rss、Lbs和Rbs)包围整个收听区域。该扭曲应用于整个渲染空间，并且看到来自图6的所有渲染点都已经扭曲到图7D中与7.1规范位置的扭曲相称的新位置。图7D中引用的空间模式是在本文中可以被称为“分布最广的空间模式”或“完全分布式空间模式”的一个示例。

图7A、图7B和图7C示出了图6中表示的分布式空间模式与图7D中表示的分布式空间模式之间的中间分布式空间模式的各种示例。图7B表示图6中表示的分布式空间模式与图7D中表示的分布式空间模式之间的中点。图7A表示图6中表示的分布式空间模式与图7B中表示的分布式空间模式之间的中点。图7C表示图7B中表示的分布式空间模式与图7D中表示的分布式空间模式之间的中点。

图8示出了用户可以用来选择渲染模式的GUI的示例。根据一些实施方式，控制系统可以控制显示设备(例如，蜂窝电话)以在显示器上显示GUI 800或类似的GUI。显示设备可以包括传感器系统(如触摸传感器系统或靠近显示器(例如，覆盖显示器或在显示器下方)的手势传感器系统。控制系统可以被配置成经由GUI 800以来自传感器系统的传感器信号的形式接收用户输入。传感器信号可以与同GUI 800的元素相对应的用户触摸或手势相对应。

根据该示例，GUI包括虚拟滑块801，用户可以与所述虚拟滑块交互以选择渲染模式。如箭头803所指示的，用户可以使滑块沿轨道807在任一方向上移动。在该示例中，线805指示虚拟滑块801的与参考空间模式(如本文所公开的参考空间模式之一)相对应的位置。其他实施方式可以在GUI上提供用户可以与之交互的其他特征，如虚拟旋钮或刻度盘。根据一些实施方式，在选择参考空间模式之后，控制系统可以呈现如图4A中示出的GUI或允许用户针对参考空间模式选择收听者位置和取向的另一个这样的GUI。

在该示例中，线825指示与分布最广的空间模式(如图4B中示出的分布式空间模式)相对应的虚拟滑块801的位置。根据该实施方式，线810、815和820指示虚拟滑块801的与中间空间模式相对应的位置。在该示例中，线810的位置与如图7A的中间空间模式等中间空间模式相对应。此处，线815的位置与如图7B的中间空间模式等中间空间模式相对应。在该实施方式中，线820的位置与如图7C的中间空间模式等中间空间模式相对应。根据该示例，用户可以与“应用”按钮交互(例如，触摸“应用”按钮)以指示控制系统实施所选渲染模式。

然而，其他实施方式可以为用户提供其他方式来选择前述分布式空间模式之一。根据一些示例，用户可以说出语音命令，例如，“以半分布式模式播放[插入内容名称]”。“半分布式模式”可以与由图8的GUI 800中的线815的位置所指示的分布式模式相对应。根据一些这样的示例，用户可以说出语音命令，例如，“以四分之一分布式模式播放[插入内容名称]”。“四分之一分布式模式”可以与由线810的位置所指示的分布式模式相对应。

图9是概述了可以由如本文中公开的那些装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法900的框。在一些实施方式中，方法900的一个或多个框可以同时执行。此外，方法900的一些实施方式可以包括比所示出和/或所描述的框更多或更少的框。方法900的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1A中示出的和上文描述的控制系统110，或者其他公开的控制系统示例之一。

在该实施方式中，框905涉及由控制系统并且经由接口系统接收包括一个或多个音频信号和相关联的空间数据的音频数据。在该示例中，空间数据指示与音频信号相对应的预期感知空间位置。此处，空间数据包括声道数据和/或空间元数据。

在该示例中，框910涉及由控制系统确定渲染模式。在一些实例中，确定渲染模式可以涉及经由接口系统接收渲染模式指示。接收渲染模式指示可以例如涉及接收与语音命令相对应的麦克风信号。在一些示例中，接收渲染模式指示可以涉及经由图形用户界面接收与用户输入相对应的传感器信号。所述传感器信号可以是例如触摸传感器信号和/或手势传感器信号。

在一些实施方式中，接收渲染模式指示可以涉及接收收听区域中的人数的指示。根据一些这样的示例，控制系统可以被配置用于至少部分地基于收听区域中的人数来确定渲染模式。在一些这样的示例中，收听区域中的人数的指示可以基于来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。

根据图9中示出的示例，框915涉及根据在框910中确定的渲染模式，由控制系统经由环境的一组扩音器渲染音频数据以供再现，从而产生经渲染的音频信号。在该示例中，渲染音频数据涉及确定环境中的一组扩音器的相对激活。此处，所述渲染模式在参考空间模式与一种或多种分布式空间模式之间是可变的。在该实施方式中，所述参考空间模式具有假定的收听位置和取向。根据该示例，在一种或多种分布式空间模式下，音频数据的一个或多个元素各自以比在参考空间模式下更加空间分布的方式渲染。在该示例中，在一种或多种分布式空间模式下，音频数据的其余元素的空间位置被扭曲，使得所述其余元素的空间位置比在参考空间模式下更完整地跨越环境的渲染空间。

在一些实施方式中，以比在参考空间模式下更加空间分布的方式渲染音频数据的一个或多个元素可以涉及创建所述一个或多个元素的副本。一些这样的实施方式可以涉及在跨环境的一组分布式位置处同时渲染所有副本。

根据一些实施方式，渲染可以基于CMAP、FV或其组合。以比在参考空间模式下更加空间分布的方式来渲染音频数据的一个或多个元素可以涉及将所述一个或多个元素中的每一个的渲染位置朝向零半径扭曲。

在该示例中，框920涉及由控制系统并且经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。

根据一些实施方式，渲染模式可以从在参考空间模式到分布最广的空间模式范围内的渲染模式的连续统(continuum)中选择。在一些这样的实施方式中，控制系统可以进一步被配置成根据经由接口系统接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或取向。根据一些这样的实施方式，参考空间模式数据可以包括来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。在一些这样的示例中，参考空间模式数据可以包括与语音命令相对应的麦克风数据。替代性地或另外地，参考空间模式数据可以包括与收听环境中的人的一个或多个话语的位置相对应的麦克风数据。在一些这样的示例中，参考空间模式数据可以包括指示人在收听环境中的位置和/或取向的图像数据。

然而，在一些实例中，所述装置或方法可以包括显示设备和靠近所述显示设备的传感器系统。控制系统可以被配置用于控制显示设备呈现图形用户界面。接收参考空间模式数据可以涉及经由图形用户界面接收与用户输入相对应的传感器信号。

根据一些实施方式，所述音频数据的各自以更加空间分布的方式渲染的一个或多个元素可以与前声场数据、音乐声乐、对话、低音吉他、打击乐器、和/或其他独奏或领奏乐器相对应。在一些实例中，所述前声场数据可以包括以杜比5.1、杜比7.1或杜比9.1格式接收或上混到杜比5.1、杜比7.1或杜比9.1格式的音频数据的左信号、右信号或中央信号。在一些示例中，所述前声场数据可以包括以杜比全景声格式接收并且具有空间元数据的音频数据，所述空间元数据指示(x,y)空间位置，其中，y<0.5。

在一些实例中，音频数据可以包括空间分布元数据，所述空间分布元数据指示所述音频数据的哪些元素要以更加空间分布的方式渲染。在一些这样的示例中，控制系统可以被配置用于根据空间分布元数据来识别音频数据的要以更加空间分布的方式渲染的一个或多个元素。

替代性地或另外地，控制系统可以被配置用于实施内容类型分类器以识别音频数据的要以更加空间分布的方式渲染的一个或多个元素。在一些示例中，内容类型分类器可以参考内容类型元数据(例如，指示音频数据是对话、声乐、打击乐器、低音吉他等的元数据)以确定是否应该以更加空间分布的方式渲染音频数据。根据一些这样的实施方式，要以更加空间分布的方式渲染的内容类型元数据可以是可由用户例如根据用户输入而经由显示设备上显示的GUI来选择的。

替代性地或另外地，内容类型分类器可以结合渲染系统直接对音频信号进行操作。例如，可以使用在各种内容类型上训练的神经网络来实施分类器，以分析音频信号并且确定所述音频信号是否属于可能被认为适合于以更加空间分布的方式渲染的任何内容类型(声乐、主音吉他、鼓等)。这种分类可以以连续和动态的方式执行，并且所得分类结果还可以以连续和动态的方式调整以更加空间分布的方式渲染的信号集。一些这样的实施方式可以涉及根据本领域已知的方法使用如神经网络等技术来实施这样的动态分类系统。

在一些示例中，一种或多种分布式空间模式中的至少一种可以涉及将时变修正应用于至少一个元素的空间位置。根据一些这样的示例，所述时变修正可以是周期性修正。例如，周期性修正可以涉及围绕收听环境的外围旋转一个或多个渲染位置。根据一些这样的实施方式，所述周期性修正可以涉及在环境中再现的音乐节奏、在环境中再现的音乐节拍、或在环境中再现的音频数据的一个或多个其他特征。例如，一些这样的周期性修正可以涉及在两个、三个、四个或更多个渲染位置之间交替。所述交替可以与在环境中再现的音乐节拍相对应。在一些实施方式中，周期性修正可以是可根据用户输入选择的，例如，根据一个或多个语音命令、根据经由GUI接收的用户输入等。

图10是环境的图，所述环境在该示例中为生活空间。图10中示出的环境包括用于音频交互的一组智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)和可控灯(1.2)。在示例中，仅设备1.1包含麦克风，并且因此感知发出人声话语(例如，唤醒词命令)的用户(1.4)在何处。使用各种方法，可以从这些设备中共同获得信息以提供发出(例如，说出)唤醒词的用户的位置估计(例如，细粒度位置估计)。

在这样的生活空间中，存在一组自然活动区，人将在其中执行任务或活动，或跨越阈值。这些行动区域(区)是可能需要努力估计用户的位置(例如，确定不确定的位置)或情境以协助接口的其他方面的地方。包括设备1.1和扬声器1.3(和/或任选地至少一个其他子系统或设备)中的至少一些(即，由其实施)的渲染系统可以操作以在生活空间或其一个或多个区中渲染音频以供回放(例如，通过扬声器1.3中的一些或所有)。设想到了这种渲染系统可以是根据所公开的方法的任何实施例可在参考空间模式或分布式空间模式下操作的。在图8示例中，关键行动区域是：

1.厨房水槽和食物制备区域(在生活空间的左上区域中)；

2.冰箱门(在水槽和食物制备区域的右边)；

3.餐饮区域(在生活空间的左下方区域中)；

4.生活空间的开放区域(水槽和食物制备区域和餐饮区域的右边)；

5.TV沙发(在开放区域的右边)；

6.TV本身；

7.桌子；以及

8.门区域或入户通道(在生活空间的右上方区域中)。

通常存在具有类似定位以适应行动区域的类似数量的灯。一些或所有灯可以是单独可控的联网代理。

根据一些实施例，(例如，由图8的系统的设备1.1之一或另一个设备)渲染音频以供扬声器1.3中的一个或多个(和/或设备1.1中的一个或多个的(多个)扬声器)进行回放(根据任何所公开的实施例)。

图11示出了环境中三个音频设备之间的几何关系的示例。在该示例中，环境1100是包括电视101、沙发1103和五个音频设备1105的房间。根据该示例，音频设备1105在环境1100的位置1至位置5中。在该实施方式中，每个音频设备1105包括具有至少三个麦克风的麦克风系统1120和包括至少一个扬声器的扬声器系统1125。在一些实施方式中，每个麦克风系统1120包括麦克风阵列。根据一些实施方式，每个音频设备1105可以包括包含至少三根天线的天线系统。

与本文所公开的其他示例一样，图11中示出的元件的类型、数量和布置仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件，例如，更多或更少的音频设备1105、在不同位置的音频设备1105等。

在该示例中，三角形1110a的顶点在位置1、2和3处。此处，三角形1110a具有边12、23a和13a。根据该示例，边12与边23之间的角为θ₂，边12与边13a之间的角为θ₁并且边23a与边13a之间的角为θ₃。这些角可以根据DOA数据确定，如下文更详细描述的。

在一些实施方式中，可以确定仅三角形边的相对长度。在替代性实施方式中，可以确定三角形边的实际长度。根据一些这样的实施方式，三角形边的实际长度可以根据TOA数据来估计，例如，根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的声音的到达时间来估计。替代性地或另外地，三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波来估计。例如，三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波的信号强度来估计。在一些实施方式中，可以根据检测到的电磁波的相移来估计三角形边的长度。

图12示出了图11中示出的环境中三个音频设备之间的几何关系的另一个示例。在该示例中，三角形1110b的顶点在位置1、3和4处。此处，三角形1110b具有边13b、14和34a。根据该示例，边13b与边14之间的角为θ₄，边13b与边34a之间的角为θ₅并且边34a与边14之间的角为θ₆。

通过比较图11和图12，可以观察到三角形1110a的边13a的长度应该等于三角形1110b的边13b的长度。在一些实施方式中，一个三角形(例如，三角形1110a)的边长可以被假定为正确的，并且由相邻三角形共享的边的长度将被约束为该长度。

图13A示出了图11和图12中描绘的两个三角形，没有对应的音频设备和环境的其他特征。图13A示出了三角形1110a和1110b的边长和角取向的估计。在图13A中示出的示例中，三角形1110b的边13b的长度被约束为与三角形1110a的边13a的长度相同。三角形1110b的其他边的长度与边13b的长度的所产生的变化成比例地缩放。所得三角形1110b’在图13A示出为与三角形1110a相邻。

根据一些实施方式，与三角形1110a和1110b相邻的其他三角形的边长都可以以类似的方式确定，直到已经确定了环境1100中的所有音频设备位置。

音频设备位置的一些示例可以如下进行。每个音频设备可以基于由环境中的每个其他音频设备产生的声音来报告环境(例如，房间)中的每个其他音频设备的DOA。第i个音频设备的笛卡尔坐标可以表示为x_i＝[x_i，y_i]^T，其中，上标T指示矢量转置。给定环境中的M个音频设备，i＝{1...M}。

图13B示出了估计由三个音频设备形成的三角形的内角的示例。在该示例中，音频设备为i、j和k。从设备i观察到的从设备j散发的声源的DOA可以表示为θ_ji。从设备i观察到的从设备k散发的声源的DOA可以表示为θ_ki。在图13B中示出的示例中，θ_ji和θ_ki是从轴线1305a测得的，所述轴线的取向是任意的，并且所述轴线可以例如与音频设备i的取向相对应。三角形1310的内角a可以表示为a＝θ_ki-θ_ji。可以观察到内角a的计算不依赖于轴线1305a的取向。

在图13B中示出的示例中，θ_ij和θ_kj是从轴线1305b测得的，所述轴线的取向是任意的，并且所述轴线可以与音频设备j的取向相对应。三角形1310的内角b可以表示为b＝θ_ij-θ_kj。类似地，在该示例中，θ_jk和θ_ik是从轴线1305c测得的。三角形1310的内角c可以表示为c＝θ_jk-6_ik。

在存在测量误差的情况下，a+b+c≠180°。可以通过从其他两个角预测每个角并且求平均来提高稳健性，例如，如下所示：

在一些实施方式中，可以通过应用正弦规则来计算(直至缩放误差)边缘长度(A、B、C)。在一些示例中，可以为一个边缘长度分配任意值，如1。例如，通过使A＝1并且将顶点

放置在原点处，其余两个顶点的位置可以计算如下：

然而，任意旋转可以是可接受的。

根据一些实施方式，可以为环境中三个音频设备的所有可能子集重复三角形参数化的过程，在大小为

的超集ζ中枚举。在一些示例中，T_l可以表示第l个三角形。三角形可以不以任何特定顺序枚举，这取决于实施方式。由于DOA和/或边长估计中的可能误差，三角形可能重叠并且可能无法完美对齐。

图14是概述了可以由如图1中示出的装置等装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1400的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1400涉及估计扬声器在环境中的位置。方法1400的框可以由一个或多个设备执行，所述一个或多个设备可以是(或可以包括)图1中示出的装置100。

在该示例中，框1405涉及获得多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中，多个音频设备可以包括环境中的所有音频设备，如图11中示出的所有音频设备1105。

然而，在一些实例中，多个音频设备可以仅包括环境中所有音频设备的子集。例如，多个音频设备可以包括环境中的所有智能扬声器，但不包括环境中的其他音频设备中的一个或多个。

DOA数据可以通过各种方式获得，这取决于特定实施方式。在一些实例中，确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。例如，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据，以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据，以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。

在一些这样的示例中，单个音频设备本身可以确定DOA数据。根据一些这样的实施方式，多个音频设备中的每个音频设备可以确定其自身的DOA数据。然而，在其他实施方式中，另一个设备(可以是本地或远程设备)可以确定环境中的一个或多个音频设备的DOA数据。根据一些实施方式，服务器可以确定环境中一个或多个音频设备的DOA数据。

根据该示例，框1410涉及基于DOA数据确定多个三角形中的每个三角形的内角。在该示例中，多个三角形中的每个三角形具有与三个音频设备的音频设备位置相对应的顶点。上文描述了一些这样的示例。

图15示出了其中在环境中的每个音频设备都是多个三角形的顶点的示例。每个三角形的边与两个音频设备1105之间的距离相对应。

在该实施方式中，框1415涉及确定每个三角形的每条边的边长。(三角形的边在本文中也可以被称为“边缘”。)根据该示例，边长至少部分地基于内角。在一些实例中，可以通过确定三角形的第一边的第一长度并且基于三角形的内角确定三角形的第二边和第三边的长度来计算边长。上文描述了一些这样的示例。

根据一些这样的实施方式，确定第一长度可以涉及将第一长度设置为预定值。然而，在一些示例中，确定第一长度可以基于到达时间数据和/或接收到的信号强度数据。在一些实施方式中，到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的声波相对应。替代性地或另外地，到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的电磁波(例如，无线电波、红外波等)相对应。

根据该示例，框1420涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程。根据该示例，前向对齐过程产生前向对齐矩阵。

根据一些这样的示例，期望三角形以边缘(x_i，x_j)等于相邻边缘的方式对齐，例如，如图13A中示出的和上文所描述的。令ε为大小为

的所有边缘的集合。在一些这样的实施方式中，框1420可以涉及遍历ε并且通过迫使边缘与先前对齐的边缘的边缘一致来按前向顺序对齐三角形的公共边缘。

图16提供了前向对齐过程的一部分的示例。图16中以粗体示出的数字1至5与图1、图2和图5中示出的音频设备位置相对应。图16中示出并且在本文中描述的前向对齐过程的顺序仅为示例。

在该示例中，如在图13A中，迫使三角形1110b的边13b的长度与三角形1110a的边13a的长度一致。图16中示出了所得三角形1110b’，其中保持相同的内角。根据该示例，也迫使三角形1110c的边13c的长度与三角形1110a的边13a的长度一致。图16中示出了所得三角形1110c’，其中保持相同的内角。

接下来，在该示例中，迫使三角形1110d的边34b的长度与三角形1110b’的边34a的长度一致。此外，在该示例中，迫使三角形1110d的边23b的长度与三角形1110a的边23a的长度一致。图16中示出了所得三角形1110d’，其中保持相同的内角。根据一些这样的示例，图5中示出的其余三角形可以以与三角形1110b、1110c和1110d相同的方式进行处理。

前向对齐过程的结果可以存储在数据结构中。根据一些这样的示例，前向对齐过程的结果可以存储在前向对齐矩阵中。例如，前向对齐过程的结果可以存储在矩阵

中，其中N指示三角形的总数。

当DOA数据和/或初始边长确定包含误差时，将发生音频设备位置的多个估计。在前向对齐过程期间，误差通常会增加。

图17示出了已经在前向对齐过程期间发生的音频设备位置的多个估计的示例。在该示例中，前向对齐过程基于以七个音频设备位置为顶点的三角形。此处，由于DOA估计中的附加误差，三角形没有完美对齐。图17中示出的数字1至7的位置与由前向对齐过程产生的估计音频设备位置相对应。在该示例中，标记为“1”的音频设备位置估计一致，但针对音频设备6和7的音频设备位置估计示出较大差异，如数字6和7所在的相对较大的区域示出的。

返回图14，在该示例中，框1425涉及将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程。根据一些实施方式，反向对齐过程可以涉及像以前一样但以反向的顺序遍历ε。在替代性示例中，反向对齐过程可以不与前向对齐过程的操作顺序正好反向。根据该示例，反向对齐过程产生反向对齐矩阵，所述反向对齐矩阵在本文中可以表示为

图18提供了反向对齐过程的一部分的示例。图18中以粗体示出的数字1至5与图11、图21和图15中示出的音频设备位置相对应。图18中示出并且在本文中描述的反向对齐过程的顺序仅为示例。

在图18中示出的示例中，三角形1110e基于音频设备位置3、4和5。在该实施方式中，假定三角形1110e的边长(或“边缘”)是正确的，并且迫使相邻三角形的边长与其一致。根据该示例，迫使三角形1110f的边45b的长度与三角形1110e的边45a的长度一致。图18中示出了所得三角形1110f’，其中内角保持相同。在该示例中，迫使三角形1110c的边35b的长度与三角形1110e的边35a的长度一致。图18中示出了所得三角形1110c”，其中内角保持相同。根据一些这样的示例，图5中示出的其余三角形可以以与三角形1110c和1110f相同的方式进行处理，直到反向对齐过程已经包括所有其余三角形。

图19示出了已经在反向对齐过程期间发生的音频设备位置的多个估计的示例。在该示例中，反向对齐过程基于具有与上文参考图17描述的顶点相同的七个音频设备位置的三角形。图19中示出的数字1至7的位置与由反向对齐过程产生的估计音频设备位置相对应。此处同样，由于DOA估计中的附加误差，三角形没有完美对齐。在该示例中，标记为6和7的音频设备位置估计一致，但针对音频设备1和2的音频设备位置估计示出更大差异。

返回图14，框1430涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。在一些示例中，产生每个音频设备位置的最终估计可以涉及平移和缩放前向对齐矩阵以产生经平移和经缩放的前向对齐矩阵，以及平移和缩放反向对齐矩阵以产生经平移和经缩放的反向对齐矩阵。

例如，通过将形心移动到原点并且强制单位弗罗伯尼范数(Frobenius norm)(例如，

和

)来固定平移和缩放。

根据一些这样的示例，产生每个音频设备位置的最终估计也可以涉及基于经平移和经缩放的前向对齐矩阵以及经平移和经缩放的反向对齐矩阵来产生旋转矩阵。旋转矩阵可以包括每个音频设备的多个估计音频设备位置。例如，可以通过奇异值分解来找到前向对齐与反向对齐之间的最佳旋转。在一些这样的示例中，涉及产生旋转矩阵可以涉及对经平移和经缩放的前向对齐矩阵以及经平移和经缩放的反向对齐矩阵执行奇异值分解，例如，如下：

在前述等式中，分别地，U表示矩阵

的左奇异矢量并且V表示所述矩阵的右奇异矢量，∑表示奇异值矩阵。前述等式产生旋转矩阵R＝VU^T。矩阵乘积VU^T产生旋转矩阵，使得

被最佳旋转以与

对齐。

根据一些示例，在确定旋转矩阵R＝VU^T之后，可以对对齐求平均，例如，如下：

在一些实施方式中，产生每个音频设备位置的最终估计也可以涉及对每个音频设备的估计音频设备位置求平均，以产生每个音频设备位置的最终估计。各种公开的实施方式已被证明是稳健的，即使在DOA数据和/或其他计算包括重大误差时。例如，由于来自多个三角形的重叠顶点，

包含相同节点的

个估计。跨公共节点求平均产生最终估计

图20示出了估计音频设备位置和实际音频设备位置的比较。在图20中示出的示例中，音频设备位置与在上文参考图17和图19描述的前向对齐过程和反向对齐过程期间估计的音频设备位置相对应。在这些示例中，DOA估计的误差有15度的标准偏差。尽管如此，每个音频设备位置的最终估计(每个所述最终估计在图20中由“x”表示)与实际音频设备位置(每个所述实际音频设备位置在图20中由圆圈表示)很好地对应。

前述讨论的大部分涉及音频设备自动定位。以下讨论扩展了上文简要描述的确定收听者位置和收听者角取向的一些方法。在前述描述中，术语“旋转”的使用方式与以下描述中使用的术语“取向”基本上相同。例如，上文提到的“旋转”可以指最终扬声器几何形状的全局旋转，而不是在上文参考图14以及以下描述的过程期间单个三角形的旋转。该全局旋转或取向可以参考收听者角取向，例如通过收听者注视的方向、收听者的鼻子指向的方向等来解决。

下文描述了用于估计收听者位置的各种令人满意的方法。然而，估计收听者角取向可能具有挑战性。下文详细描述了一些相关方法。

确定收听者位置和收听者角取向可以实现一些期望的特征，如相对于收听者定向定位的音频设备。知道收听者位置和角取向允许确定例如环境中相对于收听者哪些扬声器在前面、哪些在后面、哪些靠近中心(如果有的话)等。

在音频设备位置与收听者的位置和取向之间建立关联之后，一些实施方式可以涉及将音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据提供给音频渲染系统。替代性地或另外地，一些实施方式可以涉及至少部分地基于音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据的音频数据渲染过程。

图21是概述了可以由如图1中示出的装置等装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法2100的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该示例中，方法2100的框由控制系统执行，所述控制系统可以是(或可以包括)图1中示出的控制系统110。如上所述，在一些实施方式中，控制系统110可以驻留在单个设备中，而在其他实施方式中，控制系统110可以驻留在两个或更多个设备中。

在该示例中，框1205涉及获得环境中多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中，多个音频设备可以包括环境中的所有音频设备，如图11中示出的所有音频设备1105。

DOA数据可以通过各种方式获得，这取决于特定实施方式。在一些实例中，确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。在一些示例中，可以通过控制环境中的多个扩音器中的每个扩音器以再现测试信号来获得DOA数据。例如，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据，以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据，以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。

根据图21中示出的示例，框2110涉及至少部分基于DOA数据，经由控制系统产生音频设备位置数据。在该示例中，音频设备位置数据包括对在框2105中引用的每个音频设备的音频设备位置的估计。

音频设备位置数据例如可以是(或包括)坐标系(如笛卡尔坐标系、球坐标系或圆柱坐标系)的坐标。所述坐标系在本文中可以被称为音频设备坐标系。在一些这样的示例中，音频设备坐标系可以参考环境中的音频设备之一来定向。在其他示例中，音频设备坐标系可以参考由环境中的音频设备中的两个音频设备之间的线所定义的轴线来定向。然而，在其他示例中，音频设备坐标系可以参考环境的另一部分(如电视、房间的墙等)来定向。

在一些示例中，框2110可以涉及上文参考图14描述的过程。根据一些这样的示例，框2110可以涉及基于DOA数据确定多个三角形中的每个三角形的内角。在一些实例中，多个三角形中的每个三角形可以具有与三个音频设备的音频设备位置相对应的顶点。一些这样的方法可以涉及至少部分地基于内角来确定每个三角形的每条边的边长。

一些这样的方法可以涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程，以产生前向对齐矩阵。一些这样的方法可以涉及执行将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程，以产生反向对齐矩阵。一些这样的方法可以涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。然而，在方法2100的一些实施方式中，框2110可以涉及应用除了上文参考图14描述的方法之外的方法。

在该示例中，框2115涉及经由控制系统确定指示环境内的收听者位置的收听者位置数据。例如，收听者位置数据可以参考音频设备坐标系。然而，在其他示例中，所述坐标系可以参考收听者或参考环境的一部分(如电视、房间的墙等)来定向。

在一些示例中，框2115可以涉及提示收听者(例如，经由来自环境中的一个或多个扩音器的音频提示)说出一个或多个话语并且根据DOA数据估计收听者位置。DOA数据可以与由环境中的多个麦克风获得的麦克风数据相对应。麦克风数据可以与由麦克风对一个或多个话语的检测相对应。至少一些麦克风可以与扩音器共同定位。根据一些示例，框2115可以涉及三角测量过程。例如，框2115可以涉及通过找到穿过音频设备的DOA矢量之间的交点来对用户的语音进行三角测量，例如，如下文参考图22A所描述的。根据一些实施方式，框2115(或方法2100的另一个操作)可以涉及将音频设备坐标系的原点和收听者坐标系的原点共同定位，这在确定收听者位置之后。将音频设备坐标系的原点和收听者坐标系的原点共同定位可以涉及将音频设备位置从音频设备坐标系变换到收听者坐标系。

根据该实施方式，框2120涉及经由控制系统确定指示收听者角取向的收听者角取向数据。例如，收听者角取向数据可以参考用于表示收听者位置数据的坐标系(如音频设备坐标系)来得到。在一些这样的示例中，收听者角取向数据可以参考音频设备坐标系的原点和/或轴线来得到。

然而，在一些实施方式中，收听者角取向数据可以参考由收听者位置和环境中的另一个点(如电视、音频设备、墙等)定义的轴线来得到。在一些这样的实施方式中，收听者位置可以用于定义收听者坐标系的原点。在一些这样的示例中，可以参考收听者坐标系的轴线来得到收听者角取向数据。

本文公开了用于执行框2120的各种方法。根据一些示例，收听者角取向可以与收听者观看方向相对应。在一些这样的示例中，可以例如通过假定收听者正在观看特定对象(如电视)，参考收听者位置数据来推断收听者观看方向。在一些这样的实施方式中，可以根据收听者位置和电视位置来确定收听者观看方向。替代性地或另外地，可以根据收听者位置和电视音箱位置来确定收听者观看方向。

然而，在一些示例中，可以根据收听者输入来确定收听者观看方向。根据一些这样的示例，收听者输入可以包括从由收听者持有的设备接收的惯性传感器数据。收听者可以使用所述设备来指向环境中的位置，例如，与收听者面向的方向相对应的位置。例如，收听者可以使用所述设备来指向发声的扩音器(再现声音的扩音器)。因此，在这样的示例中，惯性传感器数据可以包括与发声的扩音器相对应的惯性传感器数据。

在一些这样的实例中，收听者输入可以包括由收听者选择的音频设备的指示。在一些示例中，音频设备的指示可以包括与所选音频设备相对应的惯性传感器数据。

然而，在其他示例中，可以根据收听者的一个或多个话语(例如，“电视现在在我前面”、“扬声器2现在在我前面”等)做出音频设备的指示。下文描述根据收听者的一个或多个话语来确定收听者角取向数据的其他示例。

根据图21中示出的示例，框2125涉及经由控制系统确定音频设备角取向数据，所述音频设备角取向数据指示每个音频设备相对于收听者位置和收听者角取向的音频设备角取向。根据一些这样的示例，框2125可以涉及围绕由收听者位置定义的点旋转音频设备坐标。在一些实施方式中，框2125可以涉及将音频设备位置数据从音频设备坐标系变换到收听者坐标系。下文描述了一些示例。

图22A示出了图21的一些框的示例。根据一些这样的示例，音频设备位置数据包括参考音频设备坐标系2207对音频设备1至5中的每一个的音频设备位置的估计。在该实施方式中，音频设备坐标系2207是以音频设备2的麦克风的位置作为原点的笛卡尔坐标系。此处，音频设备坐标系2207的x轴与音频设备2的麦克风位置和音频设备1的麦克风位置之间的线2203相对应。

在该示例中，该示例，收听者位置是通过提示被示出为坐在沙发1103上的收听者2205(例如，经由来自环境2200a中的一个或多个扩音器的音频提示)说出一个或多个话语2227并且根据到达时间(TOA)数据估计收听者位置来确定的。TOA数据与由环境中的多个麦克风获得的麦克风数据相对应。在该示例中，麦克风数据与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对一个或多个话语2227的检测相对应。

替代性地或另外地，收听者位置根据由音频设备1至5中的至少一些(例如，2个、3个、4个或全部5个)音频设备的麦克风提供的DOA数据。根据一些这样的示例，可以根据与DOA数据相对应的线2209a、2209b等的交点来确定收听者位置。

根据该示例，收听者位置与收听者坐标系2220的原点相对应。在该示例中，收听者角取向数据由收听者坐标系2220的y’轴指示，所述y’轴与收听者的头2210(和/或收听者的鼻子2225)和电视101的音箱2230之间的线2213a相对应。在图22A中示出的示例中，线2213a平行于y’轴。因此，角θ表示y轴与y’轴之间的角。在该示例中，图21的框2125可以涉及音频设备坐标的角θ围绕收听者坐标系2220的原点旋转。因此，尽管音频设备坐标系2207的原点示出为与图22A中的音频设备2相对应，但一些实施方式涉及在围绕收听者坐标系2220的原点旋转音频设备坐标的角θ之前，将音频设备坐标系2207的原点与收听者坐标系2220的原点共同定位。该共同定位可以通过从音频设备坐标系2207到收听者坐标系2220的坐标变换来执行。

在一些示例中，音箱2230和/或电视101的位置可以通过使音箱发出声音并且根据DOA和/或TOA数据估计音箱的位置来确定，这可以相当于由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测。替代性地或另外地，音箱2230和/或电视1101的位置可以通过提示用户走近电视并且通过由DOA和/或TOA数据定位用户的言语来确定，这可以相当于由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测。这种方法可以涉及三角测量。这样的示例在其中音箱2230和/或电视101没有相关联的麦克风的情况下可以是有益的。

在一些其他示例中，其中，音箱2230和/或电视101确实具有相关联的麦克风，音箱2230和/或电视101的位置可以根据TOA或DOA方法(如本文公开的DOA方法)来确定。根据一些这样的方法，麦克风可以与音箱2230共同定位。

根据一些实施方式，音箱2230和/或电视101可以具有相关联的相机2211。控制系统可以被配置成捕获收听者的头2210(和/或收听者的鼻子2225)的图像。在一些这样的示例中，控制系统可以被配置成确定收听者的头2210(和/或收听者的鼻子2225)与相机2211之间的线2213a。收听者角取向数据可以与线2213a相对应。替代性地或另外地，控制系统可以被配置成确定线2213a与音频设备坐标系的y轴之间的角θ。

图22B示出了确定收听者角取向数据的附加示例。根据该示例，收听者位置已经在图21的框2115中确定。此处，控制系统控制环境2200b的扩音器以将音频对象2235渲染到环境2200b内的各种位置。在一些这样的示例中，控制系统可以使扩音器渲染音频对象2235，使得音频对象2235似乎围绕收听者2205旋转，例如，通过渲染音频对象2235使得音频对象2235似乎围绕收听者坐标系2220的原点旋转。在该示例中，弯曲箭头2240示出了音频对象2235在其围绕收听者2205旋转时的轨迹的一部分。

根据一些这样的示例，收听者2205可以提供指示音频对象2235何时处于收听者2205所面对的方向的用户输入(例如，说“停止”)。在一些这样的示例中，控制系统可以被配置成确定收听者位置与音频对象2235的位置之间的线2213b。在该示例中，线2213b与收听者坐标系的指示收听者2205所面对的方向的y’轴相对应。在替代性实施方式中，收听者2205可以提供指示音频对象2235何时在环境的前面、在环境的TV位置、在音频设备位置等的用户输入。

图22C示出了确定收听者角取向数据的附加示例。根据该示例，收听者位置已经在图21的框2115中确定。此处，收听者2205正在使用手持设备2245以通过将手持设备2245指向电视101或音箱2230来提供关于收听者2205的观看方向的输入。在该示例中，手持设备2245和收听者的手臂的虚线轮廓指示在收听者2205将手持设备2245指向电视101或音箱2230之前的时间，收听者2205将手持设备2245指向音频设备2。在其他示例中，收听者2205可以已经将手持设备2245指向另一个音频设备，如音频设备1。根据该示例，手持设备2245被配置成确定音频设备2与电视101或音箱2230之间的角α，所述角近似于音频设备2与收听者2205的观看方向之间的角。

在一些示例中，手持设备2245可以是包括惯性传感器系统和被配置用于与控制环境2200c的音频设备的控制系统通信的无线接口的蜂窝电话。在一些示例中，手持设备2245可以运行应用程序或“app”，其被配置成控制手持设备2245执行必要功能，例如通过提供用户提示(例如，经由图形用户界面)、通过接收指示手持设备2245指向期望方向的输入、通过保存对应的惯性传感器数据和/或将对应的惯性传感器数据传输到控制环境2200c的音频设备的控制系统等。

根据该示例，控制系统(其可以是手持设备2245的控制系统或控制环境2200c的音频设备的控制系统)被配置成根据惯性传感器数据(例如，根据陀螺仪数据)确定线2213c和2250的取向。在该示例中，线2213c平行于轴y’，并且可以用于确定收听者角取向。根据一些示例，控制系统可以根据音频设备2与收听者2205的观看方向之间的角α来确定音频设备坐标围绕收听者坐标系2220的原点的适当旋转。

图22D示出了根据参考图22C描述的方法来确定音频设备坐标的适当旋转的示例。在该示例中，音频设备坐标系2207的原点与收听者坐标系2220的原点共同定位。在其中确定收听者位置的2115的过程之后，使音频设备坐标系2207的原点和收听者坐标系2220的原点共同定位成为可能。将音频设备坐标系2207的原点和收听者坐标系2220的原点共同定位可以涉及将音频设备位置从音频设备坐标系2207变换到收听者坐标系2220。已经如上文参考图22C所描述的确定了角α。因此，角α与音频设备2在收听者坐标系2220中的期望取向相对应。在该示例中，角β与音频设备2在音频设备坐标系2207中的取向相对应。在该示例中为α-β的角θ指示用于将音频设备坐标系2207的y轴与收听者坐标系2220的y’轴对齐所必需的旋转。

在一些实施方式中，图21的方法可以涉及至少部分地基于对应的音频设备位置、对应的音频设备角取向、收听者位置数据和收听者角取向数据来控制环境中的音频设备中的至少一个。

例如，一些实施方式可以涉及将音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据提供给音频渲染系统。在一些示例中，音频渲染系统可以由控制系统(如图1的控制系统110)实施。一些实施方式可以涉及至少部分地基于音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据来控制音频数据渲染过程。一些这样的实施方式可以涉及向渲染系统提供扩音器声学能力数据。扩音器声学能力数据可以与环境的一个或多个扩音器相对应。扩音器声学能力数据可以指示一个或多个驱动器的取向、驱动器数量或一个或多个驱动器的驱动器频率响应。在一些示例中，可以从存储器中取得扩音器声学能力数据，然后将所述扩音器声学能力数据提供给渲染系统。

一类实施例涉及用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)进行回放和/或音频回放的方法。例如，用户的家庭中存在(在系统中)的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染音频以供智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放。考虑了与系统的许多交互，所述交互需要对渲染和/或回放进行动态修正。这种修正可以但不一定专注于空间保真度。

一些实施例通过被协调的(编排的)多个智能音频设备的(多个)扬声器实施渲染以供回放和/或实施回放。其他实施例通过另一组扬声器的(多个)扬声器实施渲染以供回放和/或实施回放。

一些实施例(例如，渲染系统或渲染器、或渲染方法、或回放系统或方法)涉及用于由一组扬声器中的一些或所有扬声器(即，每个激活的扬声器)渲染音频以供回放和/或回放的系统和方法。在一些实施例中，扬声器是一组被协调的(编排的)智能音频设备的扬声器。

许多实施例在技术上是可能的。对于本领域普通技术人员而言，从本公开中将显而易见是如何实施它们。本文描述了所公开的系统和方法的一些实施例。

本公开的一些方面包括一种被配置(例如，被编程)为执行所公开的方法的任何实施例的系统或设备，以及一种存储用于实施所公开的方法或其步骤的任何实施例的代码的有形计算机可读介质(例如，磁盘)。例如，所公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据进行多种操作中的任何一种，包括所公开的方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的实施例。

所公开的系统的一些实施例被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，所述DSP被配置(例如，被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理，包括所公开方法的实施例的执行。替代性地，所公开的系统(或其元件)的实施例被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器被用软件或固件编程和/或以其他方式被配置成执行包括所公开方法的实施例的各种操作中的任何一种。替代性地，所公开的系统的一些实施例的元件被实施为被配置(例如，被编程)为执行所公开的方法的实施例的通用处理器或DSP，并且所述系统还包括其他元件(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置成执行所公开的方法的实施例的通用处理器通常将耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，所述计算机可读介质存储用于执行所公开的方法或其步骤的任何实施例的代码(例如，可执行以执行所公开的方法或其步骤的任何实施例的编解码器)。

虽然在本文中已经描述了具体实施例和应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离在本文中描述的并要求保护的实施例的范围的情况下，可以对本文所述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了某些实施例，但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种音频处理系统，包括：

接口系统；以及

控制系统，所述控制系统被配置用于：

经由所述接口系统接收音频数据，所述音频数据包括一个或多个音频信号和相关联的空间数据，所述空间数据指示与音频信号相对应的预期感知空间位置，所述空间数据包括声道数据或空间元数据中的至少一项；

确定渲染模式；

根据所述渲染模式而经由环境的一组扩音器渲染所述音频数据以供再现，以产生经渲染的音频信号，其中：

渲染所述音频数据包括确定环境中的一组扩音器的相对激活；

所述渲染模式能够在参考空间模式与一种或多种分布式空间模式之间变化；

所述参考空间模式具有假定的收听位置和取向；以及

在所述一种或多种分布式空间模式下，所述音频数据的一个或多个元素各自以比在所述参考空间模式下更加空间分布的方式渲染，并且所述音频数据的其余元素的空间位置被扭曲，使得所述其余元素的空间位置比在所述参考空间模式下更完整地跨越所述环境的渲染空间；以及

经由所述接口系统向所述环境的所述一组扩音器中的至少一些扩音器提供所述经渲染的音频信号。

2.如权利要求1所述的音频处理系统，其中，确定所述渲染模式涉及经由所述接口系统接收渲染模式指示。

3.如权利要求2所述的音频处理系统，其中，接收所述渲染模式指示涉及接收与语音命令相对应的麦克风信号。

4.如权利要求2所述的音频处理系统，进一步包括显示设备和靠近所述显示设备的传感器系统，其中：

所述控制系统进一步被配置用于控制所述显示设备以呈现图形用户界面；以及

接收所述渲染模式指示涉及经由所述图形用户界面接收与用户输入相对应的传感器信号。

5.如权利要求4所述的音频处理系统，其中，所述传感器信号是触摸传感器信号或手势传感器信号。

6.如权利要求2所述的音频处理系统，其中，接收所述渲染模式指示涉及接收收听区域中的人数的指示，并且其中，所述控制系统进一步被配置用于至少部分地基于所述收听区域中的所述人数来确定所述渲染模式。

7.如权利要求6所述的音频处理系统，其中，所述收听区域中的所述人数的所述指示基于来自麦克风系统的麦克风数据或来自相机系统的图像数据中的至少一项。

8.如权利要求1至7中任一项所述的音频处理系统，其中，所述渲染模式能够从自所述参考空间模式到分布最广的空间模式范围的渲染模式的连续统中选择。

9.如权利要求1至8中任一项所述的音频处理系统，其中，所述控制系统进一步被配置成根据经由所述接口系统接收的参考空间模式数据来确定所述参考空间模式的所述假定的收听位置或取向中的至少一项。

10.如权利要求9所述的音频处理系统，其中，所述参考空间模式数据包括来自麦克风系统的麦克风数据或来自相机系统的图像数据中的至少一项。

11.如权利要求9所述的音频处理系统，进一步包括显示设备和靠近所述显示设备的传感器系统，其中：

接收参考空间模式数据涉及经由所述图形用户界面接收与用户输入相对应的传感器信号。

12.如权利要求1至11中任一项所述的音频处理系统，其中，所述音频数据的各自以更加空间分布的方式渲染的所述一个或多个元素与前声场数据、音乐声乐、对话、低音吉他、打击乐器或其他独奏或领奏乐器中的一个或多个相对应。

13.如权利要求12所述的音频处理系统，其中，所述前声场数据包括以杜比5.1、杜比7.1或杜比9.1格式接收或上混到杜比5.1、杜比7.1或杜比9.1格式的音频数据的左信号、右信号或中央信号中的一个或多个。

14.如权利要求12所述的音频处理系统，其中，所述前声场数据包括以杜比全景声格式接收并且具有空间元数据的音频数据，所述空间元数据指示(x,y)空间位置，其中，y<0.5。

15.如权利要求1至14中任一项所述的音频处理系统，其中，所述音频数据包括空间分布元数据，所述空间分布元数据指示所述音频数据的哪些元素要以更加空间分布的方式渲染，并且其中，所述控制系统被配置用于根据所述空间分布元数据来识别所述音频数据的要以更加空间分布的方式渲染的所述一个或多个元素。

16.如权利要求1至14中任一项所述的音频处理系统，其中，所述控制系统被配置用于实施内容类型分类器以识别所述音频数据的要以更加空间分布的方式渲染的所述一个或多个元素。

17.如权利要求1至14中任一项所述的音频处理系统，其中，所述一种或多种分布式空间模式中的至少一种涉及将时变修正应用于所述至少一个元素的空间位置。

18.如权利要求17所述的音频处理系统，其中，所述时变修正是周期性修正。

19.如权利要求18所述的音频处理系统，其中，所述周期性修正与以下各项中的至少一项相对应：用户输入、在所述环境中再现的音乐节奏、在所述环境中再现的音乐节拍、或在所述环境中再现的音频数据的一个或多个其他特征。

20.如权利要求1至19中任一项所述的音频处理系统，其中，以比在所述参考空间模式下更加空间分布的方式渲染所述音频数据的所述一个或多个元素涉及创建所述一个或多个元素的副本，并且在跨所述环境的一组分布式位置处同时渲染所有的所述副本。

21.如权利要求1至19中任一项所述的音频处理系统，其中，所述渲染基于质心振幅平移、灵活虚拟化或其组合，并且其中，以比在所述参考空间模式下更加空间分布的方式渲染所述音频数据的所述一个或多个元素涉及将所述一个或多个元素中的每一个的渲染位置朝向零半径扭曲。

22.一种音频处理方法，包括：

由控制系统并且经由接口系统接收音频数据，所述音频数据包括一个或多个音频信号和相关联的空间数据，所述空间数据指示与音频信号相对应的预期感知空间位置，所述空间数据包括声道数据或空间元数据中的至少一项；

由所述控制系统确定渲染模式；

由所述控制系统根据所述渲染模式而经由环境的一组扩音器渲染所述音频数据以供再现，以产生经渲染的音频信号，其中：

所述参考空间模式具有假定的收听位置和取向；以及

23.如权利要求22所述的音频处理方法，其中，确定所述渲染模式涉及经由所述接口系统接收渲染模式指示。

24.如权利要求23所述的音频处理方法，其中，接收所述渲染模式指示涉及接收与语音命令相对应的麦克风信号。

25.一个或多个在其上编码有软件的非暂态介质，所述软件包括用于控制一个或多个设备以执行音频处理方法的指令，所述音频处理方法包括：

由所述控制系统确定渲染模式；

所述参考空间模式具有假定的收听位置和取向；以及

26.如权利要求25所述的一个或多个非暂态介质，其中，确定所述渲染模式涉及经由所述接口系统接收渲染模式指示。

27.如权利要求26所述的一个或多个非暂态介质，其中，接收所述渲染模式指示涉及接收与语音命令相对应的麦克风信号。