CN114521334B

CN114521334B - 音频处理系统、方法和介质

Info

Publication number: CN114521334B
Application number: CN202080067801.3A
Authority: CN
Inventors: A·J·西斐德; J·B·兰多; D·阿特亚加; M·R·P·托马斯; G·N·狄金斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2019-07-30
Filing date: 2020-07-27
Publication date: 2023-12-01
Anticipated expiration: 2040-07-27
Also published as: CN117499852A; JP2022542387A; KR102670118B1; US20220272454A1; CN114521334A; KR20220041186A; WO2021021707A1; EP4005248A1

Abstract

一种多流渲染系统和方法可以在多个任意放置的扩音器上同时渲染和播放多个音频节目流。所述节目流中的至少一个可以是空间混音。所述空间混音的渲染可以根据一个或多个附加节目流的同时渲染而被动态地修正。一个或多个附加节目流的渲染可以根据所述空间混音的同时渲染而被动态地修正。

Description

音频处理系统、方法和介质

发明人：Alan J.Seefeldt(A·J·西斐德)、Joshua B.Lando(J·B·兰多)、Daniel Arteaga(D·阿特亚加)、Mark R.P.Thomas(M·R·P·托马斯)、Glenn N.Dickins(G·N·狄金斯)

相关申请的交叉引用

本申请要求于2020年3月19日提交的美国临时专利申请号62/992,068、2019年12月18日提交的美国临时专利申请号62/949,998、2019年12月18日提交的欧洲专利申请号19217580.0、2019年7月30号提交的西班牙专利申请号P201930702、2020年2月7日提交的美国临时申请号62/971,421、2020年6月25日提交的美国临时专利申请号62/705,410、2019年7月30日提交的美国临时专利申请号62/880,111、2020年5月27日提交的美国临时专利申请号62/704,754、2020年7月21日提交的美国临时专利申请号62/705,896、2019年7月30日提交的美国临时专利申请号62/880,114、2020年6月23日提交的美国临时专利申请号62/705,351、2019年7月30日提交的美国临时专利申请号62/880,115和2020年6月12日提交的美国临时专利申请号62/705,143的优先权，所述专利申请中的每一个均通过引用以其全文并入本文。

技术领域

本公开涉及用于由一组扬声器中的一些或所有扬声器(例如，每个激活的扬声器)回放音频和渲染音频以供回放的系统和方法。

背景技术

音频设备，包括但不限于智能音频设备，已经被广泛部署并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

贯穿本公开，包括在权利要求中，“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或一组换能器)。典型的耳机组包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据进行操作的表达(例如，对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的已处理版本(例如，在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)为对数据(例如，音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机，以及可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦接(couples)”或“耦接(coupled)”用于指直接或间接连接。因此，如果第一设备耦接至第二设备，则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

如本文所使用的，“智能设备”是可以在某种程度上交互地和/或自主地运行的电子设备，其通常被配置用于通过如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板电脑、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指展现出如人工智能等普适计算的某些性质的设备。

本文中使用表达“智能音频设备”来表示智能设备，其可以是单一用途音频设备或多用途音频设备(例如，实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，电视(TV)或移动电话)。例如，虽然TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数情况下，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在所述操作系统上本地运行。类似地，移动电话中的音频输入和输出可以做很多事情，但这些都是由电话上运行的应用程序服务的。从这个意义上说，具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置成运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置成组合在一起以实现在一定区或用户配置区域上播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备，尽管虚拟助理功能的其他方面可以由一个或多个其他设备来实施，例如一个或多个服务器，多用途音频设备被配置用于与所述一个或多个服务器通信。这种多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说，虚拟助理功能的至少一些方面(例如，言语识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以通过网络(如互联网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以在其中之一(例如，最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中，连接的虚拟助理可以形成一种星座，所述星座可以由一个主应用程序管理，所述主应用程序可以是(或实施)虚拟助理。

本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或其他声音)，其中智能音频设备被配置成响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风，或至少一个其他麦克风)而唤醒。在该上下文中，“唤醒”表示设备进入等待(换句话说，正在收听)声音命令的状态。在一些实例中，本文中可以被称为“唤醒词”的内容可以包括超过一个词，例如，短语。

本文中，表达“唤醒词检测器”表示被配置成连续搜索实时声音(例如，言语)特征与训练模型之间的对齐的设备(或软件，其包括用于将设备配置为连续搜索实时声音特征与训练模型之间的对齐的指令)。通常，每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值，就会触发唤醒词事件。例如，所述阈值可以是被调整为在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后，设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态)，在所述状态下设备会收听命令并且将接收到的命令传递给更大的、计算更密集的识别器。

发明内容

一些实施例涉及用于管理由一组智能音频设备中的至少一个(例如，所有或一些)智能音频设备和/或由另一组扬声器中的至少一个(例如，所有或一些)扬声器回放多个音频流的方法。

一类实施例涉及用于管理由多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)进行回放的方法。例如，用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染音频以供智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放。

编排智能音频设备(例如，在家中处理各种同时用例)可以涉及在一组互连的扬声器上同时回放一个或多个音频节目流。例如，用户可能正在通过一组扬声器(例如，包含在一组智能音频设备中或由一组智能音频设备控制)收听电影全景声(Atmos)声轨(或其他基于对象的音频节目)，并且然后用户可以向相关联的智能音频设备(例如，智能助理)说出命令(例如，唤醒词后接命令)。在这种情况下，由系统回放的音频可以被修正(根据一些实施例)以将节目(例如，全景声混音)的空间呈现扭曲而远离说话者(正在说话的用户)的位置，并且将智能音频设备的(例如，语音助理的)对应响应引导到说话者附近的扬声器。与响应于对命令(或对应的唤醒词)的检测而仅降低音频节目内容的回放音量相比，这可以提供重要的益处。类似地，用户可能想要使用扬声器在厨房中获得烹饪提示，同时在相邻的开放式生活空间中播放同一节目(例如，全景声声轨)。在这种情况下，根据一些实施例，节目的回放(例如，全景声声轨)可以被扭曲而远离厨房并且烹饪提示可以通过在厨房附近或厨房中的扬声器播放。另外地，在厨房中播放的烹饪提示可以动态地调整(根据一些实施例)以被厨房中的人听到，其声音比可能从生活空间中渗入的任何节目(例如，全景声声轨)更响亮。

一些实施例是被配置成实施上述示例用例以及预期的许多其他示例用例的多流渲染系统。在一类实施例中，音频渲染系统可以被配置成渲染多个音频节目流以在多个任意放置的扩音器上同时回放(和/或同时播放流)，其中，所述节目流中的至少一个是空间混音，并且所述空间混音的渲染(或渲染和回放)响应于(或结合)一个或多个附加节目流的同时回放(或渲染和回放)而被动态地修正。

一些实施方式的各方面包括一种被配置(例如，被编程)成执行所公开方法或其步骤的任何实施例的系统，以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如，磁盘或其他有形存储介质)，所述有形非暂态计算机可读介质存储用于执行所公开方法或其步骤的任何实施例的代码(例如，可被执行以执行所公开方法或其步骤的任何实施例的代码)。例如，一些实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据进行多种操作中的任何一种，包括所公开方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的实施例。

本公开的至少一些方面可以经由装置来实施。例如，一个或多个装置可以能够至少部分地执行本文所公开的方法。在一些实施方式中，装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

在一些实施方式中，控制系统包括或实施至少2个渲染模块。根据一些示例，控制系统可以包括或可以实施N个渲染模块，其中，N是大于2的整数。

在一些示例中，第一渲染模块被配置用于经由接口系统接收第一音频节目流。在一些实例中，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号。在一些示例中，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据和/或空间元数据。根据一些示例，所述第一渲染模块被配置用于渲染第一音频信号以经由环境的扬声器再现，从而产生第一经渲染的音频信号。

在一些实施方式中，第二渲染模块被配置用于经由接口系统接收第二音频节目流。在一些实例中，所述第二音频节目流包括被安排由环境的至少一些扬声器再现的第二音频信号。在一些示例中，所述第二音频节目流包括第二空间数据，所述第二空间数据包括声道数据和/或空间元数据。根据一些示例，所述第二渲染模块被配置用于渲染第二音频信号以经由环境的扬声器再现，从而产生第二经渲染的音频信号。

根据一些示例，所述第一渲染模块被配置用于至少部分地基于所述第二音频信号、所述第二经渲染的音频信号或其特性中的至少一项来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号。在一些实施方式中，所述第二渲染模块进一步被配置用于至少部分地基于所述第一音频信号、所述第一经渲染的音频信号或其特性中的至少一项来修正针对所述第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号。

在一些实施方式中，所述音频处理系统包括混合模块，所述混合模块被配置用于混合所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号以产生经混合的音频信号。在一些示例中，所述控制系统进一步被配置用于将所述经混合的音频信号提供给所述环境的至少一些扬声器。

根据一些示例，所述音频处理系统可以包括一个或多个附加渲染模块。在一些实例中，所述一个或多个附加渲染模块中的每一个可以被配置用于经由接口系统接收附加音频节目流。所述附加音频节目流可以包括被安排由环境的至少一个扬声器再现的附加音频信号。在一些实例中，所述一个或多个附加渲染模块中的每一个可以被配置用于渲染所述附加音频信号以经由所述环境的至少一个扬声器再现，从而产生附加的经渲染的音频信号。在一些实例中，所述一个或多个附加渲染模块中的每一个可以被配置用于至少部分地基于所述第一音频信号、所述第一经渲染的音频信号、所述第二音频信号、所述第二经渲染的音频信号或其特性中的至少一项来修正针对所述附加音频信号的渲染过程，以产生经修正的附加的经渲染的音频信号。在一些这样的示例中，所述混合模块可以进一步被配置用于将所述经修正的附加的经渲染的音频信号至少与所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号混合，以产生所述经混合的音频信号。

在一些实施方式中，修正针对所述第一音频信号的渲染过程可以涉及将对第一音频信号的所述渲染扭曲而远离所述第二经渲染的音频信号的渲染位置。替代性地或另外地，修正针对所述第一音频信号的渲染过程可以涉及响应于所述第二音频信号或所述第二经渲染的音频信号中的一个或多个的响度而修正所述第一经渲染的音频信号中的一个或多个的响度。

根据一些示例，修正针对所述第二音频信号的渲染过程可以涉及将对第二音频信号的所述渲染扭曲而远离所述第一经渲染的音频信号的渲染位置。替代性地或另外地，修正针对所述第二音频信号的渲染过程可以涉及响应于所述第一音频信号或所述第一经渲染的音频信号中的一个或多个的响度而修正所述第二经渲染的音频信号中的一个或多个的响度。根据一些实施方式，修正针对所述第一音频信号和/或所述第二音频信号的渲染过程可以涉及执行频谱修正、基于可听度的修正和/或动态范围修正。

在一些示例中，所述音频处理系统可以包括麦克风系统，所述麦克风系统包括一个或多个麦克风。在一些这样的示例中，第一渲染模块可以被配置用于至少部分地基于来自所述麦克风系统的第一麦克风信号来修正针对第一音频信号的渲染过程。在一些这样的示例中，第二渲染模块可以被配置用于至少部分地基于所述第一麦克风信号来修正针对第二音频信号的渲染过程。

根据一些示例，控制系统可以进一步被配置用于基于所述第一麦克风信号来估计第一声源位置以及用于至少部分地基于所述第一声源位置来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。在一些示例中，控制系统可以进一步被配置用于确定所述第一麦克风信号是否与环境噪声相对应以及用于至少部分地基于第一麦克风信号是否与环境噪声相对应来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。

在一些示例中，控制系统可以被配置用于确定第一麦克风信号是否与人类语音相对应以及用于至少部分地基于第一麦克风信号是否与人类语音相对应来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。根据一些这样的示例，修正针对所述第一音频信号的渲染过程可以涉及与由远离所述第一声源位置的扬声器再现的所述第一经渲染的音频信号的响度相比，减小由所述第一声源位置附近的扬声器再现的所述第一经渲染的音频信号的响度。

根据一些示例，控制系统可以被配置用于确定所述第一麦克风信号与唤醒词相对应、用于确定对所述唤醒词的回复以及用于控制所述第一声源位置附近的至少一个扬声器以再现所述回复。在一些示例中，控制系统可以被配置用于确定所述第一麦克风信号与命令相对应、用于确定对所述命令的回复、用于控制所述第一声源位置附近的至少一个扬声器以再现所述回复以及用于执行所述命令。根据一些示例，控制系统可以进一步被配置用于在控制所述第一声源位置附近的至少一个扬声器以再现所述回复之后，恢复到针对所述第一音频信号的未修正的渲染过程。

在一些实施方式中，控制系统可以被配置用于至少部分地基于所述第一麦克风信号得到经再现的第一音频节目流和/或经再现的第二音频节目流的响度估计。根据一些示例，控制系统可以进一步被配置用于至少部分地基于所述响度估计来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。在一些实例中，所述响度估计可以是感知响度估计。根据一些这样的示例，修正所述渲染过程可以涉及改变所述第一音频信号或所述第二音频信号中的至少一项以便在存在干扰信号的情况下保持所述第一音频信号和/或所述第二音频信号的感知响度。

在一些示例中，控制系统可以被配置用于确定所述第一麦克风信号与人类语音相对应以及在环境的与第一声源位置不同的位置附近的一个或多个扬声器中再现所述第一麦克风信号。根据一些这样的示例，控制系统可以进一步被配置用于确定第一麦克风信号是否与儿童的哭声相对应。在一些这样的示例中，环境的位置可以与看护者的估计位置相对应。

根据一些示例，控制系统可以被配置用于得到经再现的第一音频节目流和/或经再现的第二音频节目流的响度估计。在一些这样的示例中，控制系统可以进一步被配置用于至少部分地基于所述响度估计来修正针对所述第一音频信号和/或所述第二音频信号的渲染过程。根据一些示例，所述响度估计可以是感知响度估计。修正所述渲染过程可以涉及改变所述第一音频信号或所述第二音频信号中的至少一项以便在存在干扰信号的情况下保持其感知响度。

在一些实施方式中，渲染所述第一音频信号和/或渲染所述第二音频信号可以涉及灵活渲染到任意定位的扬声器。在一些这样的示例中，所述灵活渲染可以涉及质心振幅平移或灵活虚拟化。

本公开的至少一些方面可以经由一种或多种音频处理方法来实施。在一些实例中，所述(多种)方法可以至少部分地由如本文所公开的那些控制系统来实施。一些这样的方法涉及由第一渲染模块接收第一音频节目流，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号。在一些示例中，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据和/或空间元数据。一些这样的方法涉及由所述第一渲染模块渲染所述第一音频信号以经由所述环境的扬声器再现，从而产生第一经渲染的音频信号。

一些这样的方法涉及由第二渲染模块接收第二音频节目流。在一些示例中，所述第二音频节目流包括被安排由环境的至少一个扬声器再现的第二音频信号。一些这样的方法涉及由所述第二渲染模块渲染所述第二音频信号以经由所述环境的至少一个扬声器再现，从而产生第二经渲染的音频信号。

一些这样的方法涉及由所述第一渲染模块至少部分地基于所述第二音频信号、所述第二经渲染的音频信号或其特性中的至少一项来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号。一些这样的方法涉及由所述第二渲染模块至少部分地基于所述第一音频信号、所述第一经渲染的音频信号或其特性中的至少一项来修正针对所述第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号。一些这样的方法涉及混合所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号以产生经混合的音频信号，以及将所述经混合的音频信号提供给所述环境的至少一些扬声器。

根据一些示例，修正针对第一音频信号的渲染过程可以涉及将对第一音频信号的渲染扭曲而远离第二经渲染的音频信号的渲染位置和/或响应于第二音频信号或第二经渲染的音频信号中的一个或多个的响度而修正第一经渲染的音频信号中的一个或多个的响度。

在一些示例中，修正针对第二音频信号的渲染过程可以涉及将对第二音频信号的渲染扭曲而远离第一经渲染的音频信号的渲染位置和/或响应于第一音频信号或第一经渲染的音频信号中的一个或多个的响度而修正第二经渲染的音频信号中的一个或多个的响度。

根据一些示例，修正针对所述第一音频信号的渲染过程可以涉及执行频谱修正、基于可听度的修正和/或动态范围修正。

一些方法可以涉及由所述第一渲染模块至少部分地基于来自麦克风系统的第一麦克风信号来修正针对所述第一音频信号的渲染过程。一些方法可以涉及由所述第二渲染模块至少部分地基于所述第一麦克风信号来修正针对所述第二音频信号的渲染过程。

一些方法可以涉及基于所述第一麦克风信号来估计第一声源位置以及至少部分地基于所述第一声源位置来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。

例如，所述软件可以包括用于控制一个或多个设备执行方法的指令，所述方法涉及由第一渲染模块接收第一音频节目流，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号。在一些示例中，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据和/或空间元数据。一些这样的方法涉及由所述第一渲染模块渲染所述第一音频信号以经由所述环境的扬声器再现，从而产生第一经渲染的音频信号。

在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1A是示出能够实施本公开的各个方面的装置的部件的示例的框图。

图1B是实施例的最小版本的框图。

图2A描绘了具有附加特征的另一个(更有能力的)实施例。

图2B是概述了可以由如图1A、图1B或图2A中示出的装置或系统执行的方法的一个示例的流程图。

图2C和图2D是图示示例的一组扬声器激活和对象渲染位置的图。

图2E是概述了可以由如图1A中示出的装置或系统执行的方法的一个示例的流程图。

图2F是示例实施例中的扬声器激活的图。

图2G是示例实施例中的对象渲染位置的图。

图2H是示例实施例中的扬声器激活的图。

图2I是示例实施例中的对象渲染位置的图。

图2J是示例实施例中的扬声器激活的图。

图2H是示例实施例中的扬声器激活的图。

图2I是示例实施例中的对象渲染位置的图。

图2J是示例实施例中的扬声器激活的图。

图2K是示例实施例中的对象渲染位置的图。

图3A和图3B示出了连接的生活空间的平面图示例。

图4A和图4B示出了提供空间音乐混音和语音助理响应的同时回放的多流渲染器的示例。

图5A、图5B和图5C图示了所公开的多流渲染器的第三示例用例。

图6示出了图1B中示出的多流渲染器的频域/变换域示例。

图7示出了图2A中示出的多流渲染器的频域/变换域示例。

图8示出了具有音频流响度估计器的多流渲染系统的实施方式。

图9A示出了被配置用于多个经渲染的流的交叉渐变的多流渲染系统的示例。

图9B是示例实施例中指示扬声器激活的点的图。

图10是根据一个示例的指示扬声器激活的点之间的三线性插值的图。

图11描绘了收听环境的平面图，所述收听环境在该示例中为生活空间。

图12A、图12B、图12C和图12D示出了针对图11中示出的生活空间中的多个不同收听位置和取向以参考空间模式灵活渲染空间音频的示例。

图12E示出了当两个收听者在收听环境的不同位置时的参考空间模式渲染的示例。

图13A示出了用于接收与收听者的位置和取向有关的用户输入的图形用户界面(GUI)的示例。

图13B描绘了根据一个示例实施例的分布式空间渲染模式。

图14A描绘了根据一个示例的部分分布式空间渲染模式。

图14B描绘了根据一个示例的完全分布式空间渲染模式。

图15描绘了2D平面上针对质心振幅平移(CMAP)和灵活虚拟化(FV)渲染系统的示例渲染位置。

图16A、图16B和图16C示出了图15中表示的分布式空间模式与图16D中表示的分布式空间模式之间的中间分布式空间模式的各种示例。

图16D描绘了扭曲的示例，其应用于图15中的所有渲染点以实现完全分布式渲染模式。

图17示出了用户可以用来选择渲染模式的GUI的示例。

图18是概述了可以由如本文中公开的那些装置或系统执行的方法的一个示例的流程图。

图19示出了环境中三个音频设备之间的几何关系的示例。

图20示出了图19中示出的环境中三个音频设备之间的几何关系的另一个示例。

图21A示出了图19和图20中描绘的两个三角形，没有对应的音频设备和环境的其他特征。

图21B示出了估计由三个音频设备形成的三角形的内角的示例。

图22是概述了可以由如图1A中示出的装置执行的方法的一个示例的流程图。

图23示出了其中环境中的每个音频设备是多个三角形的顶点的示例。

图24提供了前向对齐过程的一部分的示例。

图25示出了已经在前向对齐过程期间发生的多个音频设备位置估计的示例。

图26提供了反向对齐过程的一部分的示例。

图27示出了已经在反向对齐过程期间发生的多个音频设备位置估计的示例。

图28示出了估计音频设备位置和实际音频设备位置的比较。

图29是概述了可以由如图1A中示出的装置执行的方法的一个示例的流程图。

图30A示出了图29的一些框的示例。

图30B示出了确定收听者角取向数据的附加示例。

图30C示出了确定收听者角取向数据的附加示例。

图30D示出了根据参考图30C描述的方法来确定音频设备坐标的适当旋转的示例。

图31是示出能够实施本公开的各个方面的系统的部件的示例的框图。

图32A、图32B和图32C示出了回放限制阈值和对应的频率的示例。

图33A和图33B是示出动态范围压缩数据的示例的图。

图34示出了收听环境的空间区的示例。

图35示出了图34的空间区内的扩音器的示例。

图36示出了覆盖在图35的空间区和扬声器上的标称空间位置的示例。

图37是概述了可以由如本文中公开的那些装置或系统执行的方法的一个示例的流程图。

图38A、图38B和图38C示出了与图2C和图2D的示例相对应的扩音器参与值的示例。

图39A、图39B和图39C示出了与图2F和图2G的示例相对应的扩音器参与值的示例。

图40A、图40B和图40C示出了与图2H和图2I的示例相对应的扩音器参与值的示例。

图41A、图41B和图41C示出了与图2J和图2K的示例相对应的扩音器参与值的示例。

图42是环境的图，所述环境在该示例中为生活空间。

在各个附图中，相同的附图标记和名称指示相似的元件。

具体实施方式

灵活渲染是用于在任意数量的任意放置的扬声器上渲染空间音频的技术。随着智能音频设备(例如，智能扬声器)在家庭中的广泛部署，需要实现允许消费者使用智能音频设备来执行音频的灵活渲染以及对如此渲染的音频的回放的灵活渲染技术。

已经开发了若干种技术来实施灵活渲染，所述技术包括：质心振幅平移(CMAP)和灵活虚拟化(FV)。这两种技术将渲染问题视为成本函数最小化之一，其中，成本函数由两个项构成：模拟渲染器试图实现的期望空间印象的第一项，以及分配用于激活扬声器的成本的第二项。迄今为止，该第二项专注于创建稀疏解决方案，其中，仅激活与正在渲染的音频的期望空间位置非常接近的扬声器。

本公开的一些实施例是用于管理由一组智能音频设备中的至少一个(例如，所有或一些)智能音频设备(或由另一组扬声器中的至少一个(例如，所有或一些)扬声器)回放多个音频流的方法。

编排智能音频设备(例如，在家中处理各种同时用例)可以涉及在一组互连的扬声器上同时回放一个或多个音频节目流。例如，用户可能正在一组扬声器上收听电影全景声(Atmos)声轨(或其他基于对象的音频节目)，但是然后所述用户可能向相关联的智能助理(或其他智能音频设备)说出命令。在这种情况下，由系统回放的音频可以被修正(根据一些实施例)以将全景声混音的空间呈现扭曲而远离说话者(正在说话的用户)的位置并且远离最近的智能音频设备，而同时将智能音频设备的(语音助理的)对应响应扭曲而朝向说话者的位置。与响应于对命令(或对应的唤醒词)的检测而仅降低音频节目内容的回放音量相比，这可以提供重要的益处。类似地，用户可能想要在相邻的开放式生活空间中播放同一全景声声轨时，使用扬声器在厨房中获得烹饪提示。在这种情况下，根据一些示例，全景声声轨可以被扭曲而远离厨房和/或全景声声轨的一个或多个经渲染的信号的响度可以响应于烹饪提示声轨的一个或多个经渲染的信号的响度而被修正。另外地，在一些实施方式中，在厨房中播放的烹饪提示可以动态地调整以被厨房中的人听到，其声音比可能从生活空间中渗入的任何全景声声轨更响亮。

一些实施例涉及被配置成实施上述示例用例以及预期的许多其他示例用例的多流渲染系统。在一类实施例中，音频渲染系统可以被配置成在多个任意放置的扩音器上同时播放多个音频节目流，其中，所述节目流中的至少一个是空间混音，并且所述空间混音的渲染响应于(或结合)一个或多个附加节目流的同时回放而被动态地修正。

在一些实施例中，多流渲染器可以被配置用于实施上述场景以及必须管理多个音频节目流的同时回放的许多其他情况。多流渲染系统的一些实施方式可以被配置成执行以下操作：

●在多个任意放置的扩音器上同时渲染和回放多个音频节目流，其中，所述节目流中的至少一个是空间混音。

○术语“节目流”是指旨在作为一个整体被收听的一个或多个音频信号的集合。示例包括选自音乐、电影声轨、播客、现场语音通话、来自智能助理的合成语音响应等。

○“空间混音”是旨在在收听者的左耳和右耳处传递不同信号的节目流(不仅仅是单声道)。用于空间混音的音频格式的示例包括立体声、5.1和7.1环绕声、对象音频格式(如杜比全景声(Dolby Atmos)和高保真度立体声响复制(Ambisonics))。

○“渲染”节目流是指跨多个扩音器主动分布相关联的一个或多个音频信号以实现特定感知印象的过程。

●根据附加节目流中的一个或多个的渲染动态地修正至少一个空间混音的渲染。对空间混音的渲染的这种修正的示例包括但不限于

○根据与一个或多个附加节目流中的至少一个的渲染相关联的扩音器的相对激活来修正多个扩音器的相对激活。

○根据一个或多个附加节目流中的至少一个的渲染的空间性质来扭曲空间混音的预期空间平衡。

○根据所述一个或多个附加节目流中的至少一个的响度或可听度来修正所述空间混音的响度或可听度。

图1A是示出能够实施本公开的各个方面的装置的部件的示例的框图。根据一些示例，装置100可以是或可以包括被配置用于执行本文公开的方法中的至少一些方法的智能音频设备。在其他实施方式中，装置100可以是或可以包括被配置用于执行本文所公开的方法中的至少一些方法的另一种设备，如膝上型计算机、蜂窝电话、平板设备、智能家居中枢等。在一些这样的实施方式中，装置100可以是或可以包括服务器。在一些实施方式中，装置100可以被配置成实施本文中可以被称为“音频会话管理器”的设备。

在该示例中，装置100包括接口系统105和控制系统110。在一些实施方式中，接口系统105可以被配置用于与正在执行或被配置用于执行软件应用程序的一个或多个设备通信。这样的软件应用程序在本文中有时可以被称为“应用程序”或简称为“app”。在一些实施方式中，接口系统105可以被配置用于交换控制信息和与应用程序有关的相关联的数据。在一些实施方式中，接口系统105可以被配置用于与音频环境的一个或多个其他设备通信。在一些示例中，音频环境可以是家庭音频环境。在一些实施方式中，接口系统105可以被配置用于交换控制信息和与音频环境的音频设备相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置100被配置用于与其通信的一个或多个应用程序有关。

在一些实施方式中，接口系统105可以被配置用于接收音频节目流。音频节目流可以包括被安排由环境的至少一些扬声器再现的音频信号。音频节目流可以包括如声道数据和/或空间元数据等空间数据。在一些实施方式中，接口系统105可以被配置用于从环境中的一个或多个麦克风接收输入。

接口系统105可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统105可以包括一个或多个无线接口。接口系统105可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统105可以包括控制系统110与存储器系统(如图1A中示出的任选存储器系统115)之间的一个或多个接口。然而，在一些实例中，控制系统110可以包括存储器系统。

控制系统110例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。

在一些实施方式中，控制系统110可以驻留在超过一个设备中。例如，控制系统110的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境之外的设备中，如服务器、移动设备(例如，智能电话或平板电脑)等。在其他示例中，控制系统110的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统110的另一部分可以驻留在环境的一个或多个其他设备中。例如，控制系统功能可以跨环境的多个智能音频设备分布，或者可以由编排设备(如本文中可以被称为智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中，接口系统105还可驻留在超过一个设备中。

在一些实施方式中，控制系统110可以被配置用于至少部分地执行本文所公开的方法。根据一些示例，控制系统110可以被配置用于实施管理在多个扬声器上回放多个音频流的方法。

本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的那些存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图1A中所示的任选存储器系统115和/或控制系统110中。因此，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，软件可以包括用于控制至少一个设备来处理音频数据的指令。例如，软件可以由如图1A的控制系统110等控制系统的一个或多个部件执行。

在一些示例中，装置100可以包括图1A中示出的任选麦克风系统120。任选麦克风系统120可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中，装置100可以不包括麦克风系统120。然而，在一些这样的实施方式中，装置100仍然可以被配置成经由接口系统110接收音频环境中的一个或多个麦克风的麦克风数据。

根据一些实施方式，装置100可以包括图1A中示出的任选扩音器系统125。任选扩音器系统125可以包括一个或多个扩音器，所述扩音器在本文中也可以被称为“扬声器”。在一些示例中，任选扩音器系统125的至少一些扩音器可以任意地定位。例如，任选扩音器系统125的至少一些扬声器可以放置在不与任何标准规定的扩音器布局(如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4、杜比9.1、滨崎(Hamasaki)22.2等)相对应的位置。在一些这样的示例中，任选扬声器系统125的至少一些扩音器可以放置在对空间方便的位置(例如，在有空间容纳扩音器的位置)，但不在任何标准规定的扩音器布局中。在一些示例中，装置100可以不包括扩音器系统125。

在一些实施方式中，装置100可以包括图1A中示出的任选传感器系统129。任选传感器系统129可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式，任选传感器系统129可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，任选传感器系统129的一个或多个相机可以驻留在智能音频设备中，所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选传感器系统129的一个或多个相机可以驻留在TV、移动电话或智能扬声器中。在一些示例中，装置100可以不包括传感器系统129。然而，在一些这样的实施方式中，装置100仍然可以被配置成经由接口系统110接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置100可以包括图1A中示出的任选显示系统135。任选显示系统135可以包括一个或多个显示器，如一个或多个发光二极管(LED)显示器。在一些实例中，任选显示系统135可以包括一个或多个有机发光二极管(OLED)显示器。在其中装置100包括显示系统135的一些示例中，传感器系统129可以包括接近显示系统135的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统110可以被配置用于控制显示系统135来呈现一个或多个图形用户界面(GUI)。

根据一些这样的示例，装置100可以是或者可以包括智能音频设备。在一些这样的实施方式中，装置100可以是或者可以包括唤醒词检测器。例如，装置100可以是或者可以包括虚拟助理。

图1B是实施例的最小版本的框图。描绘了N个节目流(N≥2)，其中第一个明确标记为空间的，其对应的音频信号集合馈送通过对应的渲染器，所述渲染器各自单独被配置用于通过公共的一组M个任意间隔开的扩音器(M≥2)来回放其对应的节目流。渲染器在本文中也可以被称为“渲染模块”。渲染模块和混音器130a可以经由软件、硬件、固件或其某种组合来实施。在该示例中，渲染模块和混音器130a经由控制系统110a实施，所述控制系统110a是上文参考图1A描述的控制系统110的实例。N个渲染器中的每一个输出跨所有N个渲染器相加的一组M个扩音器馈送，用于在M个扩音器上同时回放。根据该实施方式，将有关收听环境内M个扩音器的布局的信息提供给所有渲染器，这由从扩音器框馈送返回的虚线指示，以便渲染器可以正确地被配置用于通过扬声器进行回放。该布局信息可以从或可以不从一个或多个扬声器本身发送，这取决于特定实施方式。根据一些示例，布局信息可以由被配置用于确定M个扩音器中的每一个在收听环境中的相对位置的一个或多个智能扬声器提供。一些这样的自动定位方法可以基于到达方向(DOA)方法或到达时间(TOA)方法。在其他示例中，该布局信息可以由另一个设备确定和/或由用户输入。在一些示例中，可以将关于收听环境内M个扩音器中的至少一些扩音器的能力的扩音器规格信息提供给所有渲染器。这种扩音器规格信息可以包括阻抗、频率响应、灵敏度、额定功率、单独的驱动器的数量和位置等。根据该示例，来自附加节目流中的一个或多个附加节目流的渲染的信息被馈送到主要空间流的渲染器中，使得可以根据所述信息动态地修正所述渲染。该信息由从渲染框2到渲染框N向上回到渲染框1的虚线表示。

图2A描绘了具有附加特征的另一个(更有能力的)实施例。在该示例中，渲染模块和混音器130b经由控制系统110b实施，所述控制系统110b是上文参考图1A描述的控制系统110的实例。在该版本中，在所有N个渲染器之间上下行进的虚线表示N个渲染器中的任何一个都可以有助于剩余N-1个渲染器中的任何一个的动态修正的想法。换句话说，N个节目流中的任何一个节目流的渲染可以根据剩余N-1个节目流中的任何一个的一个或多个渲染的组合而动态地修正。另外地，节目流中的任何一个或多个节目流可以是空间混音，并且任何节目流的渲染，无论它是否是空间的，都可以根据其他节目流中的任何节目流来动态修正。例如，如上所述，可以将扩音器布局信息提供给N个渲染器。在一些示例中，可以将扩音器规格信息提供给N个渲染器。在一些实施方式中，麦克风系统120a可以在收听环境内包括一组K个麦克风(K≥1)。在一些示例中，(多个)麦克风可以附接到扩音器中的一个或多个扩音器或与其相关联。这些麦克风可以将其捕获的音频信号(由实线表示)和附加配置信息(例如，其位置)(由虚线表示)两者馈送回到一组N个渲染器中。N个渲染器中的任何渲染器然后可以根据该附加麦克风输入进行动态修正。本文中提供了各种示例。

从麦克风输入得到的并且随后用于动态修正N个渲染器中的任何渲染器的信息的示例包括但不限于：

●对系统的用户的特定词语或短语的话语的检测。

●对系统的一个或多个用户的位置的估计。

●对收听空间中特定位置处的N个节目流的任何组合的响度的估计。

●对收听环境中其他环境声音(如背景噪声)的响度的估计。

图2B是概述了可以由如图1A、图1B或图2A中示出的装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法200的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。方法200的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1A、图1B和图2A中示出的和上文描述的控制系统110、控制系统110a或控制系统110b，或者其他公开的控制系统示例之一。

在该实施方式中，框205涉及经由接口系统接收第一音频节目流。在该示例中，第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号。此处，第一音频节目流包括第一空间数据。根据该示例，第一空间数据包括声道数据和/或空间元数据。在一些示例中，框205涉及控制系统的第一渲染模块，其经由接口系统接收第一音频节目流。

根据该示例，框210涉及渲染第一音频信号以经由环境的扬声器再现，从而产生第一经渲染的音频信号。例如，如上所述，方法200的一些示例涉及接收扩音器布局信息。例如，如上所述，方法200的一些示例涉及接收扩音器规格信息。在一些示例中，第一渲染模块可以至少部分地基于扩音器布局信息和/或扩音器规格信息产生第一经渲染的音频信号。

在该示例中，框215涉及经由接口系统接收第二音频节目流。在该实施方式中，第二音频节目流包括被安排由环境的至少一些扬声器再现的第二音频信号。根据该示例，第二音频节目流包括第二空间数据。第二空间数据包括声道数据和/或空间元数据。在一些示例中，框215涉及控制系统的第二渲染模块，其经由接口系统接收第二音频节目流。

根据该实施方式，框220涉及渲染第二音频信号以经由环境的扬声器再现，从而产生第二经渲染的音频信号。在一些示例中，第二渲染模块可以至少部分地基于接收到的扩音器布局信息和/或接收到的扩音器规格信息产生第二经渲染的音频信号。

在一些实例中，环境中的一些或所有扬声器可以任意地定位。例如，环境的至少一些扬声器可以放置在不对应于任何标准规定的扬声器布局(如杜比5.1、杜比7.1、滨崎22.2等)的位置。在一些这样的示例中，环境的至少一些扬声器可以放置在相对于环境的家具、墙等而言方便的位置(例如，在有空间容纳扬声器的位置)，但不采用任何标准规定的扬声器布局。

因此，一些实施方式框210或框220可以涉及灵活渲染到任意定位的扬声器。一些这样的实施方式可以涉及质心振幅平移(CMAP)、灵活虚拟化(FV)或两者的组合。从高水平来看，这两种技术都渲染一组的一个或多个音频信号(每个音频信号具有相关联的期望感知空间位置)，用于在一组的两个或更多个扬声器上回放，其中，该组扬声器的相对激活是通过扬声器回放的所述音频信号的感知空间位置的模型以及音频信号的期望感知空间位置与扬声器位置的接近度的函数。所述模型确保收听者在其预期空间位置附近听到音频信号，并且接近度项控制使用哪些扬声器来实现该空间印象。具体地，接近度项有利于激活靠近音频信号的期望感知空间位置的扬声器。对于CMAP和FV两者，该函数关系可以方便地从成本函数中得到，所述成本函数写为两个项的和，一个项用于空间方面并且一个项用于接近度：

此处，集合表示一组M个扩音器的位置，/>表示音频信号的期望感知空间位置，并且g表示扬声器激活的M维向量。对于CMAP，向量中的每个激活表示每个扬声器的增益，而对于FV，每个激活表示滤波器(在第二种情况下，g可以等效地被视为特定频率处的复值的向量，并且跨多个频率计算不同的g以形成滤波器)。激活的最佳向量是通过跨激活来最小化成本函数找到的：/>

在成本函数的某些定义下，很难控制由上述最小化产生的最佳激活的绝对水平，尽管g_opt的分量之间的相对水平是适当的。为了解决该问题，可以执行g_opt的后续归一化，以便控制激活的绝对水平。例如，可以期望将向量归一化为具有单位长度，这符合常用的恒定功率平移规则：

灵活渲染算法的确切行为取决于成本函数的C_spatial和C_proximity这两个项的特定构建。对于CMAP，C_spatial是从模型得到的，所述模型将从一组扩音器播放的音频信号的感知空间位置放置在由这些扩音器的相关联的激活增益g_i(向量g的元素)加权的、这些扩音器的位置的质心：

然后将等式3操纵成表示期望音频位置与由激活的扩音器产生的音频位置之间的平方误差的空间成本：

对于FV，成本函数的空间项被不同地定义。目标是在收听者的左耳和右耳处产生与音频对象位置相对应的双耳响应b。概念上，b是滤波器的2×1向量(每只耳朵一个滤波器)，但更方便地将其视为特定频率下复值的2×1向量。继续以特定频率进行该表示，可以按对象位置从一组HRTF索引中取得期望的双耳响应：

同时，由扩音器在收听者的耳朵处产生的2×1双耳响应e被建模为2×M声学传输矩阵H乘以复扬声器激活值的M×1向量g：

e＝Hg (6)

声学传输矩阵H是基于扩音器位置的集合相对于收听者位置建模的。最后，成本函数的空间分量定义为期望的双耳响应(等式5)与扩音器产生的双耳响应(等式6)之间的平方误差：

方便地，等式4和7两者中定义的针对CMAP和FV的成本函数的空间项都可以重新布置为矩阵二次函数，作为扬声器激活g的函数：

其中，A是M×M方阵，B是1×M向量，并且C是标量。矩阵A的秩为2，并且因此当M＞2时，存在无限多个空间误差项等于零的扬声器激活g。引入成本函数的第二项C_proximity去除了该不确定性，并且产生了与其他可能的解相比具有感知上有益性质的特定解。对于CMAP和FV两者，C_proximity被构建成使得位置远离期望的音频信号位置/>的扬声器的激活比位置接近期望位置的扬声器的激活受到更多惩罚。该构建产生了稀疏的扬声器激活的最佳集合，其中，仅接近期望的音频信号的位置的扬声器才会被显著激活，并且实际上导致音频信号的空间再现，这对于在所述一组扬声器周围的收听者移动而言在感知上更加稳健。

为此，成本函数的第二项C_proximity可以定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式简洁地表示为：

其中，D是期望的音频位置与每个扬声器之间的距离惩罚的对角矩阵：

距离惩罚函数可以采取许多形式，但以下是有用的参数化：

其中，是期望的音频位置与扬声器位置之间的欧几里得距离，并且α和β是可调参数。参数α指示惩罚的全局强度；d₀与距离惩罚的空间范围相对应(在大约d₀距离处或更远的扩音器将受到惩罚)，并且β解释了在距离d₀处惩罚起始的突然性。

将等式8和9a中定义的成本函数的两个项相结合，得出总体成本函数：

C(g)＝g^*Ag+Bg+C+g^*Dg＝g^*(A+D)g+Bg+C (10)

将该成本函数关于g的导数设置为零并且求解g产生最佳扬声器激活解：

通常，等式11中的最佳解可以产生值为负的扬声器激活。对于灵活渲染器的CMAP构建，这样的负激活可能是不期望的，并且因此等式(11)可以在所有激活保持为正的情况下最小化。

图2C和图2D是图示示例的一组扬声器激活和对象渲染位置的图。在这些示例中，扬声器激活和对象渲染位置与4、64、165、-87和-4度的扬声器位置相对应。图2C示出了扬声器激活245a、250a、255a、260a和265a，其包括针对这些特定扬声器位置的等式11的最佳解。图2D将单独的扬声器位置绘制为正方形267、270、272、274和275，其分别与扬声器激活245a、250a、255a、260a和265a相对应。图2D还将大量可能的对象角度的理想对象位置(换句话说，要渲染音频对象的位置)示出为点276a，并且将针对这些对象的对应实际渲染位置示出为点278a，通过虚线279a连接到理想对象位置。

一类实施例涉及用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)进行回放的方法。例如，用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染(根据实施例)音频，用于由智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放。考虑了与系统的许多交互，这些交互需要对渲染进行动态修正。这种修正可以但不一定专注于空间保真度。

一些实施例是用于渲染音频以由一组智能音频设备中的至少一个(例如，所有或一些)回放(或由另一组扬声器的至少一个(例如，所有或一些)回放)的方法。渲染可以包括成本函数的最小化，其中，成本函数包括至少一个动态扬声器激活项。这种动态扬声器激活项的示例包括(但不限于)：

●扬声器与一个或多个收听者的接近度；

●扬声器与吸引力或推斥力的接近度；

●扬声器关于一些位置(例如，收听者位置或婴儿房)的可听度；

●扬声器的能力(例如，频率响应和失真)；

●所述扬声器关于其他扬声器的同步；

●唤醒词性能；以及

●回声消除器性能。

(多个)动态扬声器激活项可以启用各种行为中的至少一种，包括将音频的空间呈现扭曲而远离特定智能音频设备，使得所述特定智能音频设备的麦克风可以更好地听到说话者，或者使得可以更好地从智能音频设备的(多个)扬声器听到次要音频流。

一些实施例通过协调的(编排的)多个智能音频设备的(多个)扬声器实施渲染以供回放。其他实施例通过另一组扬声器的(多个)扬声器实施渲染以供回放。

将灵活渲染方法(根据一些实施例实施)与一组无线智能扬声器(或其他智能音频设备)配对可以产生非常有能力并且易于使用的空间音频渲染系统。在考虑与这种系统的交互时，显然可能期望对空间渲染进行动态修正，以便针对在系统使用期间可能出现的其他目标进行优化。为了实现该目标，一类实施例增强了现有的灵活渲染算法(其中扬声器激活是先前公开的空间项和接近度项的函数)，具有一个或多个附加的动态可配置功能，所述动态可配置功能取决于正在渲染的音频信号的一个或多个属性、扬声器组的一个或多个属性、和/或其他外部输入。根据一些实施例，等式1中给出的现有灵活渲染的成本函数根据以下等式增加了这些一个或多个附加依赖项：

在等式12中，项表示附加成本项，并且/>表示正在渲染的音频信号(例如，基于对象的音频节目)的一组的一个或多个属性，/>表示正在渲染音频的扬声器的一组的一个或多个属性，并且/>表示一个或多个附加外部输入。每个项/>返回成本，作为与音频信号的一个或多个属性、扬声器的一个或多个属性和/或外部输入的组合相关的激活g的函数，一般由集合/>表示。应当理解，集合/>至少包含来自/>或/>中的任何一个的一个元素。

的示例包括但不限于：

●音频信号的期望感知空间位置；

●音频信号的水平(可能随时间变化)；和/或

●音频信号的频谱(可能随时间变化)。

的示例包括但不限于：

●扩音器在收听空间中的位置；

●扩音器的频率响应；

●扩音器的回放水平限制；

●扬声器内部动态处理算法的参数，如限制器增益；

●从每个扬声器到其他扬声器的声学传输的测量或估计；

●扬声器上回声消除器性能的度量；和/或

●扬声器关于彼此的相对同步。

的示例包括但不限于：

●回放空间中一个或多个收听者或说话者的位置；

●从每个扩音器到收听位置的声学传输的测量或估计；

●从说话者到所述扩音器组的声学传输的测量或估计；

●回放空间中一些其他地标的位置；和/或

●从每个扬声器到回放空间中一些其他地标的声学传输的测量或估计；

使用等式12中定义的新成本函数，可以通过如先前在等式2a和2b中指定的关于g的最小化和可能的后归一化来找到最佳激活组。

图2E是概述了可以由如图1A中示出的装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法280的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。方法280的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1A中示出的控制系统110。

在该实施方式中，框285涉及由控制系统并且经由接口系统接收音频数据。在该示例中，音频数据包括一个或多个音频信号和相关联的空间数据。根据该实施方式，空间数据指示与音频信号相对应的预期感知空间位置。在一些实例中，预期感知空间位置可以是显式的，例如，如由诸如杜比全景声位置元数据等位置元数据所指示的。在其他实例中，预期感知空间位置可以是隐式的，例如，预期感知空间位置可以是与根据杜比5.1、杜比7.1的声道或其他基于声道的音频格式相关联的假定位置。在一些示例中，框285涉及控制系统的渲染模块，其经由接口系统接收音频数据。

根据该示例，框290涉及由控制系统渲染音频数据以用于经由环境的一组扩音器再现，从而产生经渲染的音频信号。在该示例中，渲染音频数据中包括的一个或多个音频信号中的每一个涉及通过优化成本函数来确定环境中一组扩音器的相对激活。根据该示例，当在环境中的所述一组扩音器上回放时，成本是音频信号的感知空间位置的模型的函数。在该示例中，成本也是音频信号的预期感知空间位置与所述一组扩音器中的每个扩音器的位置的接近度的度量的函数。在该实施方式中，成本也是一个或多个附加动态可配置功能的函数。在该示例中，动态可配置功能基于以下各项中的一项或多项：扩音器与一个或多个收听者的接近度；扩音器与吸引力位置的接近度，其中，吸引力是有利于更接近吸引力位置的相对更高的扩音器激活的因素；扩音器与推斥力位置的接近度，其中，推斥力是有利于更接近推斥力位置的相对更低的扩音器激活的因素；每个扩音器相对于环境中其他扩音器的能力；扩音器关于其他扩音器的同步；唤醒词性能；或回声消除器性能。

在该示例中，框295涉及经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。

根据一些示例，感知空间位置的模型可以产生与收听者的左耳和右耳处的音频对象位置相对应的双耳响应。替代性地或另外地，感知空间位置的模型可以将从一组扩音器播放的音频信号的感知空间位置放置在由扩音器的相关联的激活增益加权的、所述一组扩音器的位置的质心。

在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的水平。在一些实例中，一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的频谱。

方法280的一些示例涉及接收扩音器布局信息。在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于每个扩音器在环境中的位置。

方法280的一些示例涉及接收扩音器规格信息。在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于每个扩音器的能力，所述能力可以包括以下各项中的一项或多项：频率响应、回放水平限制或一个或多个扩音器动态处理算法的参数。

根据一些示例，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到其他扩音器的声学传输的测量或估计。替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个人的收听者或扬声器位置。替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到收听者或扬声器位置的声学传输的测量或估计。声学传输的估计可以例如至少部分地基于墙、家具或可以驻留在每个扩音器与收听者或扬声器位置之间的其他物体。

替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个非扩音器对象或地标的对象位置。在一些这样的实施方式中，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到对象位置或地标位置的声学传输的测量或估计。

可以通过采用一个或多个适当定义的附加成本项来实施灵活渲染以实现许多新的和有用的行为。下文列出的所有示例行为都是就在某些被认为不期望的条件下惩罚某些扩音器而言的。最终结果是这些扩音器在一组音频信号的空间渲染中被较少激活。在许多这些情况下，人们可能会考虑简单地调低不期望的扩音器，而与对空间渲染进行任何修正无关，但这种策略可能会显著降低音频内容的整体平衡。例如，混音的某些分量可能变得完全听不见。另一方面，对于所公开的实施例，将这些惩罚集成到渲染的核心优化中允许了渲染适应并使用剩余较少惩罚的扬声器来执行最佳可能的空间渲染。这是更优雅、更加能适应的、更有效的解决方案。

示例用例包括但不限于：

●在收听区域周围提供更平衡的空间呈现

○已经发现，空间音频最好跨与预期收听区域距离大致相同的扩音器来呈现。可以构建成本，使得明显比扩音器到收听区域的平均距离更近或更远的扩音器被惩罚，因此减少所述扩音器的激活；

●移动音频而离开或朝向收听者或说话者

○如果系统的用户正在试图与系统的或与系统相关联的智能语音助理说话，则创建惩罚更接近说话者的扩音器的成本可能是有益的。通过该方式，这些扩音器更少激活，允许它们相关联的麦克风更好地听到说话者；

○为了为单个收听者提供更亲密的体验，即最小化收听空间中针对其他人的回放水平，远离收听者的位置的扬声器可能会受到严重惩罚，以便仅最接近收听者的扬声器被最显著地激活；

●移动音频而离开或朝向地标、区或区域

○收听空间附近的某些位置可以被认为是敏感的，如婴儿房、婴儿床、办公室、阅读区域、学习区域等。在这种情况下，可以构建惩罚使用接近该位置、区或区域的扬声器的成本；

○替代性地，对于上文的相同情况(或类似情况)，扬声器的系统可以已经生成从每个扬声器到婴儿房中的声学传输的测量，特别是当扬声器(带有附接或关联的麦克风)之一驻留在所述婴儿房内时。在这种情况下，不使用扬声器与婴儿房间的物理接近度，而是可以构建惩罚使用所测量的到房间的声学传输高的扬声器的成本；和/或

●扬声器的能力的最佳使用

○不同扩音器的能力可以显著变化。例如，一种流行的智能扬声器仅包含具有有限低频能力的单个1.6”全音域驱动器。另一方面，另一个智能扬声器包含更有能力的3”低音扬声器。这些能力通常反映在扬声器的频率响应中，并且如此，可以在成本项中利用与扬声器相关联的一组响应。在特定频率下，相对于其他扬声器能力较弱的扬声器(如根据其频率响应测得的)被惩罚并且因此被更少程度地激活。在一些实施方式中，这种频率响应值可以用智能扩音器存储，并且然后报告给负责优化灵活渲染的计算单元；

○许多扬声器包含超过一个驱动器，每个驱动器负责播放不同的频率范围。例如，一种流行的智能扬声器是双向设计，包含用于较低频率的低音扬声器和用于较高频率的高音扬声器。通常，这种扬声器包含用于将全音域回放音频信号划分为适当的频率范围并且发送到相应的驱动器的分频器电路。替代性地，这种扬声器可以为每个单独的驱动器提供灵活渲染器回放接入，以及关于每个单独的驱动器的能力(如频率响应)的信息。通过应用如上文描述的成本项，在一些示例中，灵活渲染器可以基于两个驱动器在不同频率下的相对能力在所述两个驱动器之间自动建立分频器；

○上文描述的频率响应的示例使用专注于扬声器的固有能力上，但可能没有准确地反映放置在收听环境中的扬声器的能力。在某些情况下，如在预期收听位置测得的扬声器的频率响应可以通过一些校准程序获得。可以使用这种测量替代预先计算的响应以更好地优化扬声器的使用。例如，某个扬声器在特定频率下可以天生就非常有能力，但由于其放置(例如，在墙或一件家具后面)可能会在预期收听位置产生非常有限的响应。捕获该响应并且馈送到适当成本项中的测量可以防止这种扬声器的显著激活；

○频率响应仅为扩音器的回放能力的一个方面。许多较小的扩音器开始失真，并且然后随着回放水平的增加而达到其偏移限制，特别是对于较低频率。为了减少这种失真，许多扩音器实施动态处理，所述动态处理将回放水平限制在可以随频率可变的某些限制阈值以下。在扬声器靠近或处于这些阈值而其他参与灵活渲染的扬声器没有靠近或处于这些阈值的情况下，在限制的扬声器中降低信号水平并且将该能量转移到其他负担较轻的扬声器是有意义的。根据一些实施例，可以通过适当地配置相关联的成本项来自动实现这种行为。这种成本项可以涉及以下各项中的一项或多项：

■监测与扩音器的限制阈值相关的全局回放音量。例如，音量水平接近其限制阈值的扩音器可能会受到更多惩罚；

■监测与扩音器限制阈值(可能随频率变化)相关的动态信号水平(也可能随频率变化)。例如，监测的信号水平接近其限制阈值的扩音器可能会受到更多惩罚；

■直接监测扩音器的动态处理的参数，如限制增益。在一些这样的示例中，参数指示更多限制的扩音器可能会受到更多惩罚；和/或

■监测放大器向扩音器传递的实际瞬时电压、电流和功率，以确定扩音器是否在线性范围内操作。例如，更少线性地操作的扩音器可能会受到更多惩罚；

○带有集成式麦克风和交互式语音助理的智能扬声器通常采用某种类型的回声消除来降低由录音麦克风拾取的扬声器播放的音频信号水平。降低得越大，扬声器听到和理解空间中说话者的机会就越大。如果回声消除器的残差始终很高，这可以指示扬声器正在被驱动到非线性区域中，在所述非线性区域中回声路径的预测变得具有挑战性。在这种情况下，将信号能量从扬声器转移出去可以是有意义的，并且如此，考虑回声消除器性能的成本项可以是有益的。这样的成本项可以将高成本分配给其相关联的回声消除器性能不佳的扬声器；

○为了在多个扬声器上渲染空间音频时实现可预测的成像，通常需要跨越时间合理地同步在一组扩音器上的回放。对于有线扩音器来说，这是给定的，但对于大量无线扩音器来说，同步可能具有挑战性并且最终结果可变。在这种情况下，每个扩音器报告其与目标同步的相对程度可以是可能的，并且然后该程度可以馈送到同步成本项中。在一些这样的示例中，具有较低同步程度的扩音器可能会受到更多惩罚，并且因此被排除在渲染之外。另外地，某些类型的音频信号可能不需要紧密同步，例如，旨在扩散或非定向的音频混音的分量。在一些实施方式中，可以如此用元数据对分量进行标记，并且可以修正同步成本项，使得惩罚减少。

接下来描述实施例的示例。

与等式9a和9b中定义的接近度成本类似，将每个新成本函数项表达为扬声器激活的绝对值平方的加权和也是方便的：

其中，W_j是权重的对角矩阵，描述与激活项j的扬声器i相关联的成本：

将等式13a和等式13b与等式10中给出的CMAP和FV成本函数的矩阵二次版本相结合，产生等式12中给出的(一些实施例的)通用扩展成本函数的潜在有益实施方式：

C(g)＝g^*Ag+Bg+C+g^*Dg+∑_jg^*W_jg＝g^*(A+D+∑_jW_j)g+Bg+C (14)

有了新成本函数项的该定义，总体成本函数仍然是矩阵二次的，并且可以通过等式14的微分找到最佳组的激活g_opt以产生：

将权重项W_ij中的每一个视为扩音器中的每一个的给定连续惩罚值的函数是有用的。在一个示例实施例中，该惩罚值是从(将被渲染的)对象到所考虑的扩音器的距离。在另一个示例实施例中，该惩罚值表示给定扩音器无法再现一些频率。基于该惩罚值，权重项W_ij可以参数化为：

其中，α_j表示前置因子(其考虑了权重项的全局强度)，其中，τ_j表示惩罚阈值(约为或超过所述惩罚阈值，权重项变得显著)，并且其中，f_j(x)表示单调增加函数。例如，有了权重项具有以下形式：

其中，α_j、β_j、τ_j是可调参数，其分别指示惩罚的全局强度、惩罚起始的突然性和惩罚的程度。在设置这些可调值时应小心谨慎，使得成本项C_j相对于任何其他附加成本项以及C_spatial和C_proximity的相对影响适用于实现期望的结果。例如，根据经验，如果希望特定惩罚明显地支配其他惩罚，则将其强度α_j设置为下一个最大惩罚强度的大约十倍可能是适当的。

如果所有扩音器都被惩罚，则通常可以方便地在后处理中从所有权重项中减去最小惩罚，使得扬声器中的至少一个不会被惩罚：

w_ij→w′_ij＝w_ij-min_i(w_ij) (18)

如上所述，使用本文所描述的新成本函数项(以及根据其他实施例采用的类似的新成本函数项)可以实现许多可能的用例。接下来，用以下三个示例来描述更具体的细节：移动音频而朝向收听者或说话者、移动音频而离开收听者或说话者以及移动音频而离开地标。

在第一个示例中，在本文中将被称为“吸引力”的东西用于将音频拉动而朝向某个位置，在一些示例中，所述位置可以是收听者或说话者的位置、地标位置、家具位置等。所述位置在本文中可以被称为“吸引力位置”或“吸引子位置”。如本文所使用的，“吸引力”是有利于更接近吸引力位置的相对更高的扩音器激活的因素。根据该示例，权重w_ij采用等式17的形式，连续惩罚值p_ij由第i个扬声器距固定吸引子位置的距离给出，并且阈值τ_j由跨所有扬声器的这些距离中的最大值给出：

并且 (19a)

为了说明将音频“拉动”而朝向收听者或说话者的用例，具体地设置α_j＝20，β_j＝3，并且将设置为与180度的收听者/说话者位置相对应的向量。α_j、β_j和/>的这些值仅为示例。在一些实施方式中，α_j可以在1至100的范围内并且β_j可以在1至25的范围内。

图2F是示例实施例中的扬声器激活的图。在该示例中，图2F示出了扬声器激活245b、250b、255b、260b和265b，其包括图1和图2中相同扬声器位置的成本函数的最佳解，加上由w_ij表示的吸引力。图2G是示例实施例中的对象渲染位置的图。在该示例中，图2G示出了针对大量可能对象角度的对应理想对象位置276b和针对那些对象的对应实际渲染位置278b，通过虚线279b连接到理想对象位置276b。实际渲染位置278b朝向固定位置的倾斜取向说明了吸引子权重对成本函数的最佳解的影响。

在第二个和第三个示例中，“推斥力”用于将音频“推动”而离开某个位置，所述位置可以是收听者位置、说话者位置或其他位置，如地标位置、家具位置等。在一些示例中，推斥力可以用于将音频推动而离开收听环境的区域或区，如办公区域、阅读区域、床或卧室区域(例如，婴儿床或卧室)等。根据一些这样的示例，特定位置可以用作区或区域的代表。例如，表示婴儿床的位置可以是婴儿的头部的估计位置、与婴儿相对应的估计声源位置等。所述位置在本文中可以被称为“推斥力位置”或“推斥位置”。如本文所使用的，“推斥力”是有利于更接近推斥力位置的相对更低的扩音器激活的因素。根据该示例，相对于固定推斥位置定义p_ij和τ_j，类似于等式19中的吸引力：

并且 (19c)

为了说明将音频推动而离开收听者或说话者的用例，具体地设置α_j＝5，β_j＝2，并且将设置为与180度的收听者/说话者位置相对应的向量。α_j、β_j和/>的这些值仅为示例。如上所述，在一些示例中，α_j可以在1至100的范围内并且β_j可以在1至25的范围内。图2H是示例实施例中的扬声器激活的图。根据该示例，图2H示出了扬声器激活245c、250c、255c、260c和265c，其包括如先前图的相同扬声器位置的成本函数的最佳解，加上由w_ij表示的推斥力。图2I是示例实施例中的对象渲染位置的图。在该示例中，图2I示出了针对大量可能对象角度的理想对象位置276c和针对那些对象的对应实际渲染位置278c，所述对应实际渲染位置通过虚线279c连接到理想对象位置276c。实际渲染位置278c离开固定位置/>的倾斜取向说明了推斥子权重对成本函数的最佳解的影响。

第三个示例用例是将音频“推动”而离开声学上敏感的地标，如通向睡着的婴儿的房间的门。与最后的示例类似，将设置为与180度的门位置相对应的向量(绘图的底部中心)。为了实现更强的推斥力并且将声场完全倾斜到主要收听空间的前部，设置α_j＝20，β_j＝5。图2J是示例实施例中的扬声器激活的图。再次，在该示例中，图2J示出了扬声器激活245d、250d、255d、260d和265d，其包括对同一组扬声器位置的最佳解，加上更强的推斥力。图2K是示例实施例中的对象渲染位置的图。并且再次，在该示例中，图2K示出了针对大量可能对象角度的理想对象位置276d和针对那些对象的对应实际渲染位置278d，所述对应实际渲染位置通过虚线279d连接到理想对象位置276d。实际渲染位置278d的倾斜取向说明了更强的推斥子权重对成本函数的最佳解的影响。

现在返回图2B，在该示例中，框225涉及至少部分地基于第二音频信号、第二经渲染的音频信号或其特性中的至少一项来修正针对第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号。本文中公开了修正渲染过程的各种示例。例如，经渲染的信号的“特性”可以包括在预期收听位置处估计或测量的响度或可听度，无论是在静默中或在存在一个或多个附加的经渲染的信号的情况下。特性的其他示例包括如相关联的节目流的组成信号的预期空间位置等与所述信号的渲染相关联的参数、在其上渲染信号的扩音器的位置、根据组成信号的预期空间位置的扩音器的相对激活、以及与用于生成所述经渲染的信号的渲染算法相关联的任何其他参数或状态。在一些示例中，框225可以由第一渲染模块执行。

根据该示例，框230涉及至少部分地基于第一音频信号、第一经渲染的音频信号或其特性中的至少一项来修正针对第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号。在一些示例中，框230可以由第二渲染模块执行。

在一些实施方式中，修正针对第一音频信号的渲染过程可以涉及将对第一音频信号的渲染扭曲而远离第二经渲染的音频信号的渲染位置，和/或响应于第二音频信号或第二经渲染的音频信号中的一个或多个的响度而修正第一经渲染的音频信号中的一个或多个的响度。替代性地或另外地，修正针对第二音频信号的渲染过程可以涉及将对第二音频信号的渲染扭曲而远离第一经渲染的音频信号的渲染位置，和/或响应于第一音频信号或第一经渲染的音频信号中的一个或多个的响度而修正第二经渲染的音频信号中的一个或多个的响度。下文参考图3以及以下提供了一些示例。

然而，其他类型的渲染过程修正在本公开的范围内。例如，在一些实例中，修正针对第一音频信号或第二音频信号的渲染过程可以涉及执行频谱修正、基于可听度的修正或动态范围修正。这些修正可以与基于响度的渲染修正有关或者可以与其无关，这取决于特定示例。例如，在上述主要空间流在开敞布置生活区域中渲染并且包括烹饪提示的次要流在相邻厨房中渲染的情况下，可能期望确保烹饪提示在厨房中仍然是可听的。这可以通过在没有干扰性第一信号的情况下估计厨房中经渲染的烹饪提示流的响度、然后估计厨房中存在的第一信号的响度、并且最后跨多个频率动态地修正两个流的响度和动态范围来完成，从而确保第二信号在厨房中的可听度。

在图2B中示出的示例中，框235涉及至少混合经修正的第一经渲染的音频信号和经修正的第二经渲染的音频信号以产生经混合的音频信号。例如，框235可以由图2A中示出的混音器130b执行。

根据该示例，框240涉及将经混合的音频信号提供给环境的至少一些扬声器。方法200的一些示例涉及由扬声器回放经混合的音频信号。

如图2B中示出的，一些实施方式可以提供多于2个渲染模块。一些这样的实施方式可以提供N个渲染模块，其中，N是大于2的整数。因此，一些这样的实施方式可以包括一个或多个附加渲染模块。在一些这样的示例中，一个或多个附加渲染模块中的每一个可以被配置用于经由接口系统接收附加音频节目流。所述附加音频节目流可以包括被安排由环境的至少一个扬声器再现的附加音频信号。一些这样的实施方式可以涉及渲染附加音频信号以经由环境的至少一个扬声器再现，从而产生附加的经渲染的音频信号，以及至少部分地基于第一音频信号、第一经渲染的音频信号、第二音频信号、第二经渲染的音频信号或其特性中的至少一项来修正针对附加音频信号的渲染过程，以产生经修正的附加的经渲染的音频信号。根据一些这样的示例，混合模块可以被配置用于将经修正的附加的经渲染的音频信号至少与经修正的第一经渲染的音频信号和经修正的第二经渲染的音频信号混合，以产生经混合的音频信号。

如上文参考图1A和图2A所描述的，一些实施方式可以包括包含收听环境中的一个或多个麦克风的麦克风系统。在一些这样的示例中，第一渲染模块可以被配置用于至少部分地基于来自麦克风系统的第一麦克风信号来修正针对第一音频信号的渲染过程。“第一麦克风信号”可以从单个麦克风或从2个或更多个麦克风接收，这取决于特定实施方式。在一些这样的实施方式中，第二渲染模块可以被配置用于至少部分地基于第一麦克风信号来修正针对第二音频信号的渲染过程。

如上文参考图2A所述，在一些实例中，一个或多个麦克风的位置可以是已知的并且可以提供给控制系统。根据一些这样的实施方式，控制系统可以被配置用于基于第一麦克风信号估计第一声源位置以及至少部分地基于所述第一声源位置来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。例如，可以基于来自具有已知位置的三个或更多个麦克风或麦克风的组中的每一个麦克风的DOA数据，根据三角测量过程来估计第一声源位置。替代性地或另外地，可以根据从两个或更多个麦克风接收的信号的振幅来估计第一声源位置。可以假定产生最高振幅信号的麦克风离第一声源位置最近。在一些这样的示例中，第一声源位置可以设置为最近的麦克风的位置。在一些这样的示例中，第一声源位置可以与区的位置相关联，其中，区是由通过预训练的分类器(如高斯混音器模型)处理来自两个或更多个麦克风的信号来选择的。

在一些这样的实施方式中，控制系统可以被配置用于确定第一麦克风信号是否与环境噪声相对应。一些这样的实施方式可以涉及至少部分地基于第一麦克风信号是否与环境噪声相对应来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。例如，如果控制系统确定第一麦克风信号与环境噪声相对应，则修正针对第一音频信号或第二音频信号的渲染过程可以涉及增加经渲染的音频信号的水平，使得在预期收听位置处存在噪声时信号的感知响度基本上等于不存在噪声时信号的感知响度。

在一些示例中，控制系统可以被配置用于确定第一麦克风信号是否与人类语音相对应。一些这样的实施方式可以涉及至少部分地基于第一麦克风信号是否与人类语音相对应来修正针对第一音频信号或第二音频信号中的至少一项的渲染过程。例如，如果控制系统确定第一麦克风信号与人类语音(如唤醒词)相对应，则修正针对第一音频信号或第二音频信号的渲染过程可以涉及，与由远离第一声源位置的扬声器再现的经渲染的音频信号的响度相比，减小由在第一声源位置附近的扬声器再现的经渲染的音频信号的响度。修正针对第一音频信号或第二音频信号的渲染过程可以替代性地或另外涉及修正渲染过程以将相关联的节目流的组成信号的预期位置扭曲而远离第一声源位置，和/或与远离第一声源位置的扬声器相比，对在第一声源位置附近的扬声器的使用进行惩罚。

在一些实施方式中，如果控制系统确定第一麦克风信号与人类语音相对应，则控制系统可以被配置用于在与第一声源位置不同的环境的位置附近的一个或多个扬声器中再现第一麦克风信号。在一些这样的示例中，控制系统可以被配置用于确定第一麦克风信号是否与儿童的哭声相对应。根据一些这样的实施方式，控制系统可以被配置用于在与看护者(如父母、亲戚、监护人、儿童看护服务提供者、老师、护士等)的估计位置相对应的环境的位置附近的一个或多个扬声器中再现第一麦克风信号。在一些示例中，估计看护者的估计位置的过程可以由如“<唤醒词>，不要吵醒婴儿”等语音命令触发。控制系统将能够根据正在实施虚拟助理的最近的智能音频设备的位置，通过基于由三个或更多个本地麦克风等提供的DOA信息的三角测量来估计扬声器(看护者)的位置。根据一些实施方式，控制系统将具有婴儿房间位置(和/或其中的收听设备)的先验知识，然后将能够执行适当的处理。

根据一些这样的示例，控制系统可以被配置用于确定第一麦克风信号是否与命令相对应。在一些实例中，如果控制系统确定第一麦克风信号与命令相对应，则控制系统可以被配置用于确定对命令的回复并且控制在第一声源位置附近的至少一个扬声器来再现回复。在一些这样的示例中，控制系统可以被配置用于在控制第一声源位置附近的至少一个扬声器再现回复之后，恢复到针对第一音频信号或第二音频信号的未修正的渲染过程。

在一些实施方式中，控制系统可以被配置用于执行命令。例如，控制系统可以是或者可以包括被配置成根据命令控制音频设备、电视、家用电器等的虚拟助理。

通过图1A、图1B和图2A中示出的最小且更有能力的多流渲染系统的该定义，可以针对许多有用的场景实现对多个节目流的同时回放的动态管理。现在将参考图3A和图3B描述若干个示例。

首先检查先前讨论的涉及同时在客厅中回放空间电影声轨和在连接的厨房中回放烹饪提示的示例。空间电影声轨是上文提及的“第一音频节目流”的示例，并且烹饪提示音频是上文提及的“第二音频节目流”的示例。图3A和图3B示出了连接的生活空间的平面图示例。在该示例中，生活空间300包括在左上方处的客厅、在下方中央处的厨房和在右下方处的卧室。跨生活空间分布的方框和圆圈305a至305h表示放置在对于空间便利的位置上的一组8个扩音器，但不遵守任何标准规定的布局(任意放置)。在图3A中，仅回放空间电影声轨，并且考虑到扩音器的能力和布局，客厅310和厨房315中的所有扩音器被用于创建围绕坐在沙发325上面向电视330的收听者320a的优化的空间再现。电影声轨的该最佳再现在视觉上由位于激活扩音器边界内的云状线335a表示。

在图3B中，在厨房315中的单个扩音器305g上为第二收听者320b同时渲染和回放烹饪提示。该第二节目流的再现在视觉上由从扩音器305g传出的云状线340表示。如果在不修正电影声轨的渲染的情况下同时回放这些烹饪提示，如图3A所示，那么来自从厨房315中或附近的扬声器传出的电影声轨的音频会干扰第二收听者的理解烹饪提示的能力。相反，在该示例中，根据烹饪提示的渲染动态地修正空间电影声轨的渲染。具体地，电影声轨的渲染从烹饪提示的渲染位置(厨房315)附近的扬声器移开，其中图3B中从厨房附近的扬声器被推开的较小云状线335b在视觉上表示了该移位。在一些实施方式中，如果在播放电影声轨时烹饪提示的回放停止，那么电影声轨的渲染可以动态地移回在图3A中看到的其原始的最佳配置。可以通过许多所公开方法来实现空间电影声轨的渲染中的这种动态移位。

许多空间音频混音包括被设计为在收听空间中的特定位置处播放的多个组成音频信号。例如，杜比5.1和7.1环绕声混音分别由6个和8个信号构成，意指在收听者周围的指定规范位置上的扬声器上回放。基于对象的音频格式(例如，杜比全景声)由具有相关联的元数据的组成音频信号构成，所述元数据描述了将要渲染音频的收听空间中可能的时变3D位置。假设空间电影声轨的渲染器能够在关于任意扩音器组的任何位置渲染单独的音频信号，则可以通过扭曲空间混音内的音频信号的预期位置来实现对图3A和图3B中描绘的渲染的动态移位。例如，与音频信号相关联的2D或3D坐标可以被推动而远离厨房中扬声器的位置，或者替代性地被拉动而朝向客厅的左上角。这种扭曲的结果是在厨房附近的扬声器较少被使用，因为空间混音的音频信号的经扭曲的位置现在离该位置更远。虽然该方法确实实现了让第二音频流对于第二收听者来说更加可懂的目标，但这样做的代价是显著改变了针对第一收听者的电影声轨的预期空间平衡。

用于实现向空间渲染的动态移位的第二种方法可以通过使用灵活渲染系统来实现。在一些这样的实施方式中，灵活渲染系统可以是CMAP、FV或两者的混合，如上文所描述的。一些这样的灵活渲染系统试图再现空间混音，所述空间混音的所有组成信号被认为来自其预期位置。在一些示例中，在对混音的每个信号这样做的同时，优先考虑激活接近该信号的期望位置的扩音器。在一些实施方式中，附加项可以动态添加到渲染的优化中，这会基于其他标准惩罚某些扩音器的使用。例如，可以将可以被称为“推斥力”的东西动态地放置在厨房的位置，以高度惩罚在该位置附近使用扩音器并且有效地将空间电影声轨的渲染推开。如本文所使用的，术语“推斥力”可以指在收听环境的特定位置或区域中与相对较低的扬声器激活相对应的因素。换句话说，短语“推斥力”可以指有利于激活距与“推斥力”相对应的特定位置或区域相对较远的扬声器的因素。然而，根据一些这样的实施方式，渲染器可以仍试图使用剩余的、较少被惩罚的扬声器来再现混音的预期空间平衡。如此，与简单地扭曲混音的组成信号的预期位置的方法相比，该技术可以被认为是实现渲染的动态移位的优越的方法。

可以使用图1B中描绘的多流渲染器的最小版本来实现所描述的将空间电影声轨的渲染从厨房中的烹饪提示移开的场景。然而，可以通过采用图2A中描绘的更有能力的系统来实现对所述场景的改进。虽然将空间电影声轨的渲染移位确实改进了厨房中烹饪提示的可懂度，但电影声轨在厨房中可以仍然是明显可听的。根据两个流的瞬时条件，烹饪提示可能会被电影声轨掩蔽；例如，电影声轨中的响亮时刻掩蔽烹饪提示中的轻柔时刻。要处理该问题，可以添加根据空间电影声轨的渲染对烹饪提示的渲染的动态修正。例如，可以执行用于跨频率和时间动态地改变音频信号以便在存在干扰信号的情况下保持其感知响度的方法。在该场景中，可以生成对在厨房位置处经移位的电影声轨的感知响度的估计，并且将所述估计作为干扰信号馈送到这样的过程中。然后可以动态地修正烹饪提示的时间和频率变化水平以维持其感知响度高于该干扰，由此更好地维持针对第二收听者的可懂度。厨房中电影声轨的响度的所需估计可以来自所述声轨的渲染的扬声器馈送、来自在厨房中或厨房附近的麦克风的信号、或其组合。维持烹饪提示的感知响度的该过程通常将提高烹饪提示的水平，并且在一些情况下，整体响度可能会变得高得令人反感。要解决该问题，可以采用又另一种渲染修正。可以根据厨房中的经响度修正的烹饪提示变得太大声而将干扰性空间电影声轨动态地调低。最后，一些外部噪声源可能同时干扰两个节目流的可听度；例如，在烹饪期间在厨房中可能使用搅拌机。在客厅和厨房两者中该环境噪声源的响度估计可以由连接到渲染系统的麦克风生成。例如，可以将该估计添加到对厨房中声轨的响度的估计中，以影响烹饪提示的响度修正。同时，可以根据环境噪声估计来另外地修正客厅中声轨的渲染，以在存在该环境噪声的情况下维持客厅中声轨的感知响度，由此更好地维持针对客厅中的收听者的可听度。

如可以看到的，所公开的多流渲染器的该示例用例对两个节目流采用了大量相互关联的修正，从而优化其同时回放。总之，对流的这些修正可以列出如下：

●空间电影声轨

○根据在厨房中渲染的烹饪提示将空间渲染从厨房移开

○根据在厨房中渲染的烹饪提示的响度来动态降低响度

○根据对来自厨房的干扰性搅拌机噪声在客厅中的响度的估计来动态提高响度

●烹饪提示

○根据对电影声轨和厨房中搅拌机噪声两者的响度的组合估计来动态提高响度

所公开的多流渲染器的第二个示例用例涉及同时发生的空间节目流(如音乐)的回放以及智能语音助理对用户的一些询问的响应。对于回放通常被约束为单个设备上的单声道或立体声回放的现有智能扬声器，与语音助理的交互通常由以下阶段构成：

1)播放音乐

2)用户说出语音助理唤醒词

3)智能扬声器识别所述唤醒词并且显著调低(躲避)所述音乐

4)用户向智能助理说出命令(即“播放下一首歌曲”)

5)智能扬声器识别所述命令，通过借由扬声器播放在躲避的音乐之上混合的某个语音响应(即“好的，播放下一首歌曲”)来确认所述命令，并且然后执行所述命令

6)智能扬声器将音乐上调回到原始音量

图4A和图4B示出了提供空间音乐混音和语音助理响应的同时回放的多流渲染器的示例。当在多个经编排的智能扬声器上播放空间音频时，一些实施例提供了对上述事件链的改进。具体地，可以将空间混音从被选择为适合于中继来自语音助理的响应的一个或多个扬声器移开。为语音助理响应创建该空间意指与上文列出的现有情况相比，空间混音可以被调低更少，或者可以根本不被调低。图4A和图4B描绘了该场景。在该示例中，经修正的事件链可以发生如下：

1)正在为用户在众多经编排的智能扬声器上播放空间音乐节目流(图4A中的云状线335c)。

2)用户320c说出语音助理唤醒词。

3)一个或多个智能扬声器(例如，扬声器305d和/或扬声器305f)识别所述唤醒词，并且使用来自与一个或多个智能扬声器相关联的麦克风的相关联的记录来确定用户320c的位置或者用户320c最接近哪个(哪些)扬声器。

4)在预期语音助理响应节目流在该位置附近被渲染时，将空间音乐混音的渲染从在先前步骤中确定的位置移开(图4B中的云状线335d)。

5)用户对智能助理(例如，对运行智能助理/虚拟助理软件的智能扬声器)说出命令。

6)智能扬声器识别所述命令，合成对应的响应节目流，并且在用户的位置附近渲染响应(图4B中的云状线440)。

7)当语音助理响应完成时，空间音乐节目流的渲染将移回其原始状态(图4A中的云状线335c)。

除了优化空间音乐混音和语音助理响应的同时回放，空间音乐混音的移位也可以改进步骤5中一组扬声器理解收听者的能力。这是因为音乐已经从在收听者附近的扬声器中移出，由此将语音提高到相关麦克风的其他比例。

与针对具有空间电影混音和烹饪提示的先前场景所描述的场景类似，当前场景可以进一步优化，超出通过根据语音助理响应将空间混音的渲染移位而提供的优化。将空间混音移位本身可能不足以使语音助理响应对于用户来说是完全可懂的。简单的解决方案是也将空间混音降低固定的量，尽管少于当前状态所需的量。替代性地，可以根据空间音乐混音节目流的响度来动态提高语音助理响应节目流的响度，以维持响应的可听度。作为扩展，如果响应流上的该提高过程变得太大，则空间音乐混音的响度也可以被动态削减。

图5A、图5B和图5C图示了所公开的多流渲染器的第三示例用例。该示例涉及管理空间音乐混音节目流和舒适噪声节目流的同时回放，同时试图确保婴儿在相邻的房间里保持睡眠，但能够听到婴儿是否哭泣。图5A描绘了起点，其中，空间音乐混音(由云状线335e表示)跨客厅310和厨房315中的所有扬声器为聚会上的许多人以最佳方式播放。在图5B中，婴儿510现在正在试图在右下方所绘制的相邻卧室505中睡觉。为帮助确保这一点，空间音乐混音从卧室动态地移开，以最小化在卧室中的泄漏，如云状线335f所描绘的，同时仍为聚会上的人们维持合理的体验。同时，包含舒缓白噪声的第二节目流(由云状线540表示)从婴儿的房间的扬声器305h中播放，以掩蔽来自相邻房间中音乐的任何剩余泄漏。在一些示例中，要确保完全掩蔽，可以根据对泄漏到婴儿的房间中的空间音乐的响度的估计来动态地修正该白噪声流的响度。该估计可以从空间音乐的渲染的扬声器馈送、来自婴儿的房间的麦克风的信号、或其组合中生成。同样，如果空间音乐混音的响度变得太大，则可以根据响度经修改的噪声使空间音乐混音的响度动态衰减。这类似于第一个场景的空间电影混音与烹饪提示之间的响度处理。最后，婴儿的房间里的麦克风(例如，与在一些实施方式中可以是智能扬声器的扬声器305h相关联的麦克风)可以被配置成记录来自婴儿的音频(消除可能从空间音乐和白噪声中拾取的声音)，并且如果检测到哭泣(通过机器学习、经由模式匹配算法等)，则这些经处理的麦克风信号的组合然后可以充当可以在客厅310中的收听者320d附近同时回放的第三节目流，所述收听者320d可以是父母或其他看护者。图5C用云状线550描绘了该附加流的再现。在这种情况下，空间音乐混音可以另外地从在父母附近的播放婴儿的哭声的扬声器移开，如相对于图5B的云状线335f的形状，云状线335g的经修正的形状所示出的，并且婴儿的哭声的节目流可以根据空间音乐流来修正响度，使得婴儿的哭声对于收听者320d保持可听。该示例中考虑的优化三个节目流的同时回放的互连修正可以总结如下：

●客厅里的空间音乐混音

○将空间渲染从婴儿的房间移开，以减少进入所述房间的传播

○根据在婴儿的房间中渲染的白噪声的响度来动态降低响度

○根据婴儿的哭声在父母附近的扬声器上渲染，将空间渲染从父母移开

●白噪声

○根据对渗透进婴儿的房间中的音乐流的响度的估计来动态提高响度

●记录婴儿的哭声

○根据对在父母或其他看护者的位置处的音乐混音的响度的估计来动态提高响度。

接下来描述可以如何实施一些提到的实施例的示例。

在图1B中，渲染块1...N中的每一个都可以实施为如先前提到的CMAP、FV或混合渲染器等任何单流渲染器的相同实例。以该方式构造多流渲染器具有一些方便并且有用的性质。

首先，如果渲染是在该层级布置中完成的，并且每个单流渲染器实例都被配置成在频域/变换域(例如，QMF)中操作，那么流的混合也可以发生在频域/变换域中，并且逆变换只需要运行一次，用于M个声道。与在时域中运行N×M逆变换和混合相比，这是显著的效率改进。

图6示出了图1B中示出的多流渲染器的频域/变换域示例。在该示例中，在每个节目流被渲染模块1至N中的对应渲染模块接收之前，正交镜像分析滤波器组(QMF)被应用于节目流1至N中的每一个。根据该示例，渲染模块1至N在频域中操作。在混音器630a混合了渲染模块1至N的输出之后，逆合成滤波器组635a将混音转换到时域，并且将时域中的经混合的扬声器馈送信号提供给扩音器1至M。在该示例中，正交镜像滤波器组、渲染模块1至N、混音器630a和逆滤波器组635a是控制系统110c的部件。

图7示出了图2A中示出的多流渲染器的频域/变换域示例。如在图6中，在每个节目流被渲染模块1至N中的对应渲染模块接收之前，正交镜像滤波器组(QMF)被应用于节目流1至N中的每一个。根据该示例，渲染模块1至N在频域中操作。在该实施方式中，来自麦克风系统120b的时域麦克风信号也被提供给正交镜像滤波器组，使得渲染模块1至N接收频域中的麦克风信号。在混音器630b混合了渲染模块1至N的输出之后，逆滤波器组635b将混音变换到时域，并且将时域中的经混合的扬声器馈送信号提供给扩音器1至M。在该示例中，正交镜像滤波器组、渲染模块1至N、混音器630b和逆滤波器组635b是控制系统110d的部件。

频域中层级方法的另一个益处在于计算每个音频流的感知响度，并且使用该信息动态地修正其他音频流中的一个或多个音频流。为了说明该实施例，考虑上文参考图3A和图3B描述的先前提到的示例。在这种情况下，有两个音频流(N＝2)，空间电影声轨和烹饪提示。还可以有在厨房中的搅拌机产生的环境噪声，其由K个麦克风中的一个或多个麦克风拾取。

在每个音频流s被单独渲染并且每个麦克风i被捕获并且变换到频域之后，可以计算源激励信号E_s或E_i，其充当每个音频流s或麦克风信号i的感知响度的时变估计。在该示例中，这些源激励信号是针对c个扬声器、针对跨时间t的b个频带、从经渲染的流或所捕获的麦克风经由针对音频流的变换系数X_s或针对麦克风信号的变换系数X_i来计算的，并且使用与频率相关的时间常数λ_b进行平滑：

E_s(b，t，c)＝λ_bE_s(b，t-1，c)+(1-λ_b)|X_s(b，t，c)|² (20a)

E_i(b，t，c)＝λ_b(b)E_i(b，t-1，c)+(1-λ_b)|X_i(b，t，c)|² (20b)

原始源激励是对每个流在特定位置处的感知响度的估计。对于空间流，该位置在图3B中的云状线335b中间，而对于烹饪提示流，该位置在云状线340中间。由麦克风拾取的搅拌机噪声的位置可以例如基于最靠近该搅拌机噪声的来源的(多个)麦克风的(多个)特定位置。

必须将原始源激励变换到将被其修正的(多个)音频流的收听位置，以估计所述原始源激励在每个目标音频流的收听位置处作为噪声的可感知程度。例如，如果音频流1是电影声轨并且音频流2是烹饪提示，则将为经变换的(噪声)激励。针对每个频带b，根据每个扩音器c，通过将可听度比例系数A_xs从源音频流s应用到目标音频流x或将A_xi从麦克风i应用到目标音频流x来计算该变换。A_xs和A_xi的值可以通过使用距离比率或对实际可听度的估计来确定，其可以随着时间而变化。/>

在等式13a中，表示针对源音频流计算的原始噪声激励，不参考麦克风输入。在等式13b中，/>表示参考麦克风输入计算的原始噪声激励。根据该示例，然后跨流1到N、麦克风1到K和输出声道1到M对原始噪声激励/>或/>求和，从而获得针对目标流x的总噪声估计/>

根据一些替代性实施方式，通过省略等式14中的项可以在不参考麦克风输入的情况下获得总噪声估计。

在该示例中，对总原始噪声估计进行平滑以避免由过快地修正目标流引起的可感知的伪影。根据该实施方式，平滑基于使用快速启动和缓慢释放的概念，类似于音频压缩器。针对目标流x的经平滑的噪声估计在该示例中计算为：

一旦有了针对流x的完整噪声估计就可以重新使用先前计算的源激励信号E_x(b，t，c)来确定时变增益集合G_x(b，t，c)以应用于目标音频流x，从而确保所述目标音频流在噪声上保持可听。可以使用各种技术中的任一种来计算这些增益。

在一个实施例中，响度函数L{·，·}可以应用于激励，以对人类的响度感知中的各种非线性进行建模，并且计算描述感知响度在频率上的时变分布的特定响度信号。将L{·，·}应用于针对噪声估计和经渲染的音频流x的激励给出了针对每个信号的特定响度的估计：

L_x(b，t，c)＝L{E_x(b，t，c)} (25b)

在等式17a中，L_xn表示针对噪声的特定响度的估计，并且在等式17b中，L_x表示针对经渲染的音频流x的特定响度的估计。这些特定响度信号表示当信号被单独听到时的感知响度。然而，如果两个信号混合，则可能出现掩蔽。例如，如果噪声信号比流x信号响亮得多，则所述噪声信号将掩蔽流x信号，从而相对于单独听到的该信号的感知响度降低了该信号的感知响度。该现象可以用采用两个输入的部分响度函数PL{·，·}来建模。第一输入是感兴趣信号的激励，并且第二输入是竞争(噪声)信号的激励。该函数返回部分特定响度信号PL，其表示在存在竞争信号的情况下感兴趣信号的感知响度。在存在噪声信号的情况下，流x信号的部分特定响度然后可以跨频带b、时间t和扩音器c直接从激励信号中计算：

为了在存在噪声的情况下维持音频流x信号的可听度，可以计算增益G_x(b，t，c)以应用于音频流x从而提高响度，直到所述信号在噪声之上可听，如等式8a和8b所示出的。替代性地，如果噪声来自另一个音频流s，则可以计算两个增益集合。在一个这样的示例中，第一个增益集合G_x(b，t，c)将应用于音频流x以提高其响度并且第二个增益集合G_s(b，t)将应用于竞争音频流s以降低其响度，使得增益的组合确保音频流x的可听度，如等式9a和9b所示出的。在等式的两个集合中，表示在应用补偿增益后，在存在噪声的情况下源信号的部分特定响度。

使得

再次，使得

在实践中，在应用于音频流之前，使用平滑函数S{·}跨频率进一步对原始增益进行平滑，以再次避免可听伪影。和/>表示针对目标音频流x和竞争音频流s的最终补偿增益：

在一个实施例中，这些增益可以直接应用于音频流的所有经渲染的输出声道。在另一个实施例中，这些增益可以替代地在被渲染之前应用于音频流的对象，例如，使用美国专利申请公开号2019/0037333 A1中描述的方法，所述专利申请通过引用并入本文。这些方法涉及基于音频对象的空间元数据计算与多个预定义声道覆盖区中的每一个相关的每个音频对象的平移系数。可以基于所计算的平移系数和音频对象将音频信号转换为与预定义声道覆盖区相关的子混音。每个子混音可以指示多个音频对象的与预定义声道覆盖区之一相关的分量的总和。子混音增益可以通过对每个子混音应用音频处理来生成，并且可以控制应用到每个音频对象的对象增益。对象增益可以是针对每个音频对象的平移系数和与每个预定义声道覆盖区相关的子混音增益的函数。将增益应用于对象具有一些优势，特别是在与流的其他处理结合时。

图8示出了具有音频流响度估计器的多流渲染系统的实施方式。根据该示例，图8的多流渲染系统还被配置用于实施如等式12a至21b中所描述的响度处理，以及在每个单流渲染器内的补偿增益应用。在该示例中，在每个节目流被渲染模块1和2中的对应渲染模块接收之前，正交镜像滤波器组(QMF)被应用于节目流1和2中的每一个。在替代性示例中，在每个节目流被渲染模块1至N中的对应渲染模块接收之前，正交镜像滤波器组(QMF)可以被应用于节目流1至N中的每一个。根据该示例，渲染模块1和2在频域中操作。在该实施方式中，响度估计模块805a计算针对节目流1的响度估计，例如，如上文参考等式12a至17b所描述的。类似地，在该示例中，响度估计模块805b计算针对节目流2的响度估计。

在该实施方式中，来自麦克风系统120c的时域麦克风信号也被提供给正交镜像滤波器组，使得响度估计模块805c接收频域中的麦克风信号。在该实施方式中，响度估计模块805c计算针对麦克风信号的响度估计，例如，如上文参考等式12b至17a所描述的。在该示例中，响度处理模块810被配置用于实施如等式18至21b中所描述的响度处理，以及针对每个单流渲染模块的补偿增益应用。在该实施方式中，响度处理模块810被配置用于改变节目流1的音频信号和节目流2的音频信号，以便在存在一个或多个干扰信号的情况下保持所述音频信号的感知响度。在一些实例中，控制系统可以确定麦克风信号与环境噪声相对应，节目流应该被提高到该环境噪声之上。然而，在一些示例中，控制系统可以确定麦克风信号与唤醒词、命令、儿童的哭声或可能需要由智能音频设备和/或一个或多个收听者听到的其他这样的音频相对应。在一些这样的实施方式中，响度处理模块810可以被配置用于改变麦克风信号，以便在存在节目流1的干扰音频信号和/或节目流2的干扰音频信号的情况下保持所述麦克风信号的感知响度。此处，响度处理模块810被配置成向渲染模块1和2提供适当的增益。

在混音器630c混合了渲染模块1至N的输出之后，逆滤波器组635c将混音转换到时域，并且将时域中的经混合的扬声器馈送信号提供给扩音器1至M。在该示例中，正交镜像滤波器组、渲染模块1至N、混音器630c和逆滤波器组635c是控制系统110e的部件。

图9A示出了被配置用于多个经渲染的流的交叉渐变(crossfade)的多流渲染系统的示例。在一些这样的实施例中，多个经渲染的流的交叉渐变用于在动态更改渲染配置时提供流畅的体验。一个示例是前述的同时回放空间节目流(如音乐)的用例，其中智能语音助理对收听者的一些询问作出响应，如上文参考图4A和图4B所描述的。在这种情况下，使用交替的空间渲染配置将额外的单流渲染器实例化并且同时在其之间交叉渐变是有用的，如图9A中所示出的。

在该示例中，在节目流被渲染模块1a和1b接收之前，QMF应用于节目流1。类似地，在节目流被渲染模块2a和2b接收之前，QMF应用于节目流2。在一些实例中，渲染模块1a的输出可以与在唤醒词检测之前对节目流1的期望再现相对应，而渲染模块1b的输出可以与在唤醒词检测之后对节目流1的期望再现相对应。类似地，渲染模块2a的输出可以与在唤醒词检测之前对节目流2的期望再现相对应，而渲染模块2b的输出可以与在唤醒词检测之后对节目流2的期望再现相对应。在该实施方式中，渲染模块1a和1b的输出被提供给交叉渐变模块910a，并且渲染模块2a和2b的输出被提供给交叉渐变模块910b。例如，交叉渐变时间可以在数百毫秒到若干秒的范围内。

在混音器630d混合了交叉渐变模块910a和910b的输出之后，逆滤波器组635d将混音转换到时域，并且将时域中的经混合的扬声器馈送信号提供给扩音器1至M。在该示例中，正交镜像滤波器组、渲染模块、交叉渐变模块、混音器630d和逆滤波器组635d是控制系统110f的部件。

在一些实施例中，可以预先计算在单流渲染器1a、1b、2a和2b中的每一个中使用的渲染配置。这对于像智能语音助理等用例特别方便和高效，因为空间配置通常是已知先验的，并且不依赖于系统的其他动态方面。在其他实施例中，预先计算渲染配置可能是不可能或不可取的，在这种情况下，必须在系统运行时动态地计算每个单流渲染器的完整配置。

一些实施例的各方面包括以下各项：

1.一种音频渲染系统，其在多个任意放置的扩音器上同时播放多个音频节目流，其中，所述节目流中的至少一个是空间混音，并且所述空间混音的渲染响应于一个或多个附加节目流的同时回放而被动态地修正。

2.如权利要求1所述的系统，其中，对所述多个音频节目流中任一个的渲染可以根据剩余的多个音频节目流中的任何一个或多个的组合而被动态地修正。

3.如权利要求1或2所述的系统，其中，所述修正包括以下各项中的一项或多项

●根据与所述一个或多个附加节目流中的至少一个的渲染相关联的扩音器的相对激活来修正多个扩音器的相对激活；

●根据所述一个或多个附加节目流中的至少一个的渲染的空间性质来扭曲所述空间混音的预期空间平衡；或者

●根据所述一个或多个附加节目流中的至少一个的响度或可听度来修正所述空间混音的响度或可听度。

4.如权利要求1或2所述的系统，进一步涉及根据一个或多个麦克风输入来动态地修正渲染。

5.如权利要求4所述的系统，其中，从用于修正渲染的所述麦克风输入得到的信息包括以下各项中的一项或多项：

●对系统的用户的特定短语的话语的检测；

●对系统的一个或多个用户的位置的估计；

●对收听空间中特定位置处的N个节目流的任何组合的响度的估计；或者

●对收听环境中其他环境声音(例如，背景噪声)的响度的估计。

用于管理在多个扬声器(例如，一组经编排的智能音频设备的扬声器)上的多个音频流的回放的本发明系统和方法的实施例的其他示例包括以下各项：

1.一种音频系统(例如，音频渲染系统)，其在多个任意放置的扩音器(例如，一组经编排的智能音频设备的扬声器)上同时播放多个音频节目流，其中，所述节目流中的至少一个是空间混音，并且所述空间混音的渲染响应于(或结合)一个或多个附加节目流的同时回放而被动态地修正。

2.如权利要求1所述的系统，其中，对所述空间混音的所述修正包括以下各项中的一项或多项：

●将所述空间混音的渲染扭曲而远离所述一个或多个附加流的渲染位置，或

●响应于所述一个或多个附加流的响度而修正所述空间混音的响度。

3.如权利要求1所述的系统，进一步涉及根据一个或多个麦克风输入(即，由例如一组经编排的智能音频设备的一个或多个智能音频设备的一个或多个麦克风捕获的信号)动态地修正所述空间混音的渲染。

4.如权利要求3所述的系统，其中，所述一个或多个麦克风输入中的至少一个包含(指示)人类语音。任选地，响应于所述语音的源(人类)的确定位置而动态地修正渲染。

5.如权利要求3所述的系统，其中，所述一个或多个麦克风输入中的至少一个包含环境噪声。

6.如权利要求3所述的系统，其中，空间流或一个或多个附加流的响度的估计是从所述一个或多个麦克风输入中的至少一个得到的。

实施动态成本灵活渲染(根据一些实施例)的实际考虑之一是复杂性。在一些情况下，考虑到对象位置(每个要渲染的音频对象的可以由元数据指示的位置)可能每秒变化多次，实时求解每个音频对象的每个频带的唯一成本函数可能不可行。以存储器为代价降低复杂性的替代性方法是使用查找表，所述查找表对所有可能对象位置的三维空间进行采样。所述采样不必在所有维度上都相同。图9B是示例实施例中指示扬声器激活的点的图。在该示例中，对x维度和y维度采样15个点，并且对z维度采样5个点。其他实施方式可以包括更多样本或更少样本。根据该示例，每个点表示针对CMAP或FV解的M个扬声器激活。

在运行时，为了确定每个扬声器的实际激活，在一些示例中，可以使用最近的8个点的扬声器激活之间的三线性插值。图10是根据一个示例的指示扬声器激活的点之间的三线性插值的图。在该示例中，连续线性插值的过程包括对顶平面中的每对点进行插值以确定第一插值点1005a和第二插值点1005b、对底平面中的每对点进行插值以确定第三插值点1010a和第四插值点1010b、对第一插值点1005a和第二插值点1005b进行插值以确定顶平面中的第五插值点1015、对第三插值点1010a和第四插值点1010b进行插值以确定底平面中的第六插值点1020、以及对第五插值点1015和第六插值点1020进行插值以确定顶平面与底平面之间的第七插值点1025。尽管三线性插值是有效的插值方法，但本领域技术人员将理解，三线性插值只是可以用于实施本公开的各方面的一种可能的插值方法，并且其他示例可以包括其他插值方法。

在上文的第一个示例中，例如，其中使用推斥力为语音助理创建声学空间，另一个重要概念是从没有推斥力的渲染场景到具有推斥力的场景的过渡。为了创建平滑过渡并且给人动态扭曲声场的印象，在一段时间计算先前一组没有推斥力的扬声器激活和新的一组具有推斥力的扬声器激活两者并且在所述两者之间进行插值。

根据实施例实施的音频渲染的示例是：一种音频渲染方法，包括：

在一组的两个或更多个扩音器上渲染各自具有相关联的期望感知空间位置的一个或多个音频信号的集合，其中，所述一组扩音器的相对激活是以下各项的函数：在所述扩音器上回放的所述音频信号的感知空间位置的模型、所述音频对象的期望感知空间位置与所述扩音器位置的接近度、以及一个或多个附加的动态可配置功能，该功能取决于所述音频信号集合的至少一个或多个属性、所述一组扩音器的一个或多个属性、或一个或多个外部输入。

参考图11描述了示例实施例。与本文提供的其他图一样，图11中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。图11描绘了收听环境的平面图，所述收听环境在该示例中为生活空间。根据该示例，环境1100包括在左上方处的客厅1110、在下方中央处的厨房1115和在右下方处的卧室1122。跨生活空间分布的方框和圆圈表示一组扩音器1105a至1105h，所述一组扩音器1105a至1105h中的至少一些在一些实施方式中可以是智能扬声器，放置在对空间方便的位置，但不遵守任何标准规定的布局(任意放置)。在一些示例中，扩音器1105a至1105h可以被协调以实施一个或多个公开的实施例。在该示例中，环境1100包括分布在整个环境中的相机1111a至1111e。在一些实施方式中，环境1100中的一个或多个智能音频设备还可以包括一个或多个相机。所述一个或多个智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选传感器系统130的一个或多个相机可以驻留在电视1130中或电视1130上、在移动电话中或在智能扬声器(如扩音器1105b、1105d、1105e或1105h中的一个或多个)中。尽管相机1111a至1111e并非在本公开中呈现的环境1100的每个描绘中都被未示出，但在一些实施方式中，每个环境1100仍然可以包括一个或多个相机。

图12A、图12B、图12C和图12D示出了针对图11中示出的生活空间中的多个不同收听位置和取向以参考空间模式来灵活渲染空间音频的示例。图12A至图12D在四个示例收听位置处描绘了该功能。在每个示例中，指向人1220a的箭头1205表示前声场的位置(人1220a面向的位置)。在每个示例中，箭头1210a表示左环绕场并且箭头1210b表示右环绕场。

在图12A中，针对坐在客厅沙发1225上的人1220a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。根据一些实施方式，控制系统(如图1A的控制系统110)可以被配置成根据经由接口系统(如图1A的接口系统105)接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或假定取向。下文描述了一些示例。在一些这样的示例中，参考空间模式数据可以包括来自麦克风系统(如图1A的麦克风系统120)的麦克风数据。

在一些这样的示例中，参考空间模式数据可以包括与唤醒词和语音命令(如“[唤醒词]，使电视成为前声场”)相对应的麦克风数据。替代性地或另外地，麦克风数据可以用于根据用户的语音的声音，例如经由到达方向(DOA)数据对用户的位置进行三角测量。例如，三个或更多个扩音器1105a至1105e可以使用麦克风数据，以根据人1220a的语音的声音，经由DOA数据，对坐在客厅沙发1225上的人1220a的位置进行三角测量。可以根据人1220a的位置来假定人1220a的取向：如果人1220a在图12A中示出的位置处，则可以假定人1220a面向电视1130。

替代性地或另外地，人1220a的位置和取向可以根据来自相机系统(如图1A的传感器系统130)的图像数据来确定。

在一些示例中，人1220a的位置和取向可以根据经由图形用户界面(GUI)获得的用户输入来确定。根据一些这样的示例，控制系统可以被配置用于控制显示设备(例如，蜂窝电话的显示设备)来呈现允许人1220a输入人1220a的位置和取向的GUI。

图13A示出了用于接收与收听者的位置和取向有关的用户输入的GUI的示例。根据该示例，用户先前已经标识了若干个可能的收听位置和对应取向。在设置过程期间已经输入并且存储了与每个位置和对应取向相对应的扩音器位置。下文描述了一些示例。例如，可以已经提供了收听环境布局GUI，并且可以已经提示用户触摸与可能的收听位置和扬声器位置相对应的位置，并且命名所述可能的收听位置。在该示例中，在图13A中描绘的时间，用户已经通过触摸虚拟按钮“客厅沙发”向GUI 1300提供了关于用户的位置的用户输入。因为存在两个可能的面向前方的位置，考虑到L形沙发1225，提示用户指示所述用户面向哪个方向。

在图12B中，针对坐在客厅阅读椅1215上的人1220a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。在图12C中，针对站在厨房柜台1230旁边的人1220a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。在图12D中，针对坐在早餐桌1240旁的人1220a，已经确定了参考空间模式并且已经灵活地渲染了空间音频。可以观察到，如箭头1205所指示的前声场取向不一定与环境1100内的任何特定扩音器相对应。随着收听者的位置和取向变化，扬声器的用于渲染空间混音的各种分量的责任也在变化。

对于图12A至图12D中任何一个图中的人1220a，他或她听到如预期针对示出的每个位置和取向的空间混音。然而，对于空间中的附加收听者来说，体验可能是次优的。图12E示出了当两个收听者在收听环境的不同位置时参考空间模式渲染的示例。图12E描绘了针对在沙发上的人1220a和站在厨房中的人1220b的参考空间模式渲染。在该示例中，渲染对于人1220a可能是最佳的，但是人1220b鉴于他/她的位置，将听到主要来自环绕场以及少量前声场的信号。

在这种情况下以及多人可能以不可预测的方式(例如，聚会)在空间中移动的其他情况下，需要更适合于这种分布式听众的渲染模式。图13B描绘了根据一个示例实施例的分布式空间渲染模式。在该分布式空间模式的示例中，前声场现在跨整个收听空间均匀渲染，而不仅仅是从沙发上的收听者前方的位置渲染。前声场的该分布由环绕云状线1335的多个箭头1305d表示，所有箭头1305d具有相同的长度或大约相同的长度。箭头1305d的预期含义是所描绘的多个收听者(人1220a至人1220f)全部能够同样好地听到该部分的混音，而无论所述多个收听者的位置如何。然而，如果将该均匀分布应用于混音的所有分量，则混音的所有空间方面都将丢失；人1220a至人1220f基本上会听到单声道音频。为了维持一些空间感，分别由箭头1210a和1210b表示的混音的左环绕分量和右环绕分量仍然以空间方式渲染。(在许多实例中，可以存在左侧和右侧环绕、左后和右后环绕、头顶环绕以及在该空间内具有空间位置的动态音频对象。箭头1210a和1210b意在表示所有这些可能性的左部分和右部分。)并且为了最大化感知空间感，这些分量在其上被空间化的区域被扩大以更完整地覆盖整个收听空间，包括以前仅由前声场占据的空间。通过将图13B中示出的相对细长的箭头1210a和1210b与图12A中示出的相对较短的箭头1210a和1210b进行比较，可以理解在其上渲染环绕分量的该扩展的区域。此外，图12A中示出的表示参考空间模式中的环绕分量的箭头1210a和1210b大约从人1220a的侧面延伸至收听环境的后侧并且不延伸至收听环境的前声场区域。

在该示例中，在实施前声场的均匀分布和环绕分量的扩展空间化时要小心，使得与针对参考空间模式的渲染相比，这些分量的感知响度在很大程度上维持。目标是改变这些分量的空间印象以针对多人进行优化，同时仍维持混音中每个分量的相对水平。例如，如果前声场由于其均匀分布而变成相对于环绕分量两倍大声，这将是不期望的。

为了在示例实施例的各种参考渲染模式与分布式渲染模式之间切换，在一些示例中，用户可以和语音助理交互，该语音助理与被编排的扬声器的系统相关联。例如，为了以参考空间模式播放音频，用户可以对语音助理说出唤醒词(例如“听着，杜比”)，然后说出命令“为我播放[插入内容名称]。”或“以个人模式播放[插入内容名称]。”，然后，基于来自与系统相关联的各种麦克风的录音，系统可以自动确定用户的位置和取向，或者若干个预定区中最接近用户的一个预定区，并且开始以与该确定位置相对应的参考模式播放音频。为了以分布式空间模式播放音频，用户可以说出不同的命令，例如，“以分布式模式播放[插入内容名称]。”。

替代性地或另外，系统可以被配置成基于其他输入来在参考模式与分布式模式之间自动切换。例如，系统可以具有用于自动确定空间中有多少收听者以及收听者的位置的装置。例如，这可以通过从相关联的麦克风监测空间中的语音活动和/或通过使用其他相关联的传感器(如一个或多个相机)来实现。在这种情况下，系统还可以配置有用于在参考空间模式(如图12E中描绘的)与完全分布式空间模式(如图13B中描绘的)之间连续改变渲染的机制。在该连续统(continuum)上的设置渲染的点可以计算为例如空间中报告的人数的函数。

图12A、图14A和图14B图示了该行为。在图12A中，系统仅检测到沙发上面向电视的单个收听者(人1220a)，并且因此渲染模式被设置为针对该收听者位置和取向的参考空间模式。图14A描绘了根据一个示例的部分分布式空间渲染模式。在图14A中，在人1220a后面检测到附加的两个人(人1220e和1220f)，并且渲染模式设置在参考空间模式与完全分布式空间模式之间的点处。这被描绘为一些前声场(箭头1305a、1305b和1305c)被拉回而朝向所述附加的收听者(人1220e和1220f)，但仍然更多地强调参考空间模式的前声场的位置。与箭头1305b和1305c的长度相比，该强调在图14A中由箭头1205、以及箭头1305a的相对更大的长度来指示。同样，如由箭头1210a和1210b的长度和位置所指示的，环绕场仅部分地朝向参考空间模式的前声场的位置扩展。

图14B描绘了根据一个示例的完全分布式空间渲染模式。在一些示例中，系统可以已经检测到跨越整个空间的大量收听者(人1220a、1220e、1220f、1220g、1220h和1220i)，并且系统可以已经自动将渲染模式设置为完全分布式空间模式。在其他示例中，渲染模式可以已经根据用户输入进行设置。完全分布式空间模式在图14B中由箭头1305d的均匀或基本上均匀的长度以及箭头1210a和1210b的长度和位置来指示。

在前面的示例中，在分布式渲染模式下空间混音中的以更均匀分布渲染的一部分被指定为前声场。在许多空间混音的情境中，这是有道理的，因为传统的混音实践通常将混音中最重要的部分(如电影的对话和音乐的主唱、鼓和低音吉他)放置在前声场中。对于大多数5.1和7.1环绕声混音以及使用如杜比定向逻辑(Dolby Pro-Logic)或杜比环绕声(Dolby Surround)等算法上混到5.1或7.1的立体声内容来说这是正确的，其中，前声场由左声道、右声道和中央声道给出。对于如杜比全景声等许多基于对象的音频混音来说这也是正确的，其中，可以根据指示y<0.5的(x,y)空间位置的空间元数据将音频数据指定为前声场。然而，对于基于对象的音频，混音工程师自由地将音频放置在3D空间中的任何位置。具体地，对于基于对象的音乐，混音工程师开始打破传统的混音规范，并且将被认为是混音的重要部分(如主唱)的内容放置在非传统位置(如头顶)。在这种情况下，很难构建简单的规则来确定混音的哪些分量适合于以更加分布式空间方式针对分布式渲染模式渲染。基于对象的音频已经包含与每个其组成音频信号相关联的元数据，所述元数据描述了应在3D空间中的何处渲染信号。在一些实施方式中，为了解决所描述的问题，可以添加附加元数据，从而允许内容创建者将特定信号标志为适合于在分布式渲染模式下更加分布式空间渲染。在渲染期间，系统可以使用该元数据来选择混音的应用更加分布式渲染的分量。这给予内容创建者对针对特定内容片段发出分布式渲染模式的方式的控制。

在一些替代性实施方式中，控制系统可以被配置用于实施内容类型分类器以标识所述音频数据中要以更加空间分布的方式渲染的一个或多个元素。在一些示例中，内容类型分类器可以参考内容类型元数据(例如，指示音频数据是对话、人声、打击乐器、低音吉他等的元数据)以确定是否应该以更加空间分布的方式渲染音频数据。根据一些这样的实施方式，要以更加空间分布的方式渲染的内容类型元数据可以是可由用户例如根据用户输入经由显示设备上显示的GUI来选择的。

用于以比在参考空间模式下更加空间分布的方式渲染空间音频混音的一个或多个元素的确切机制可以在不同实施例之间变化，并且本公开意在涵盖所有这样的机制。一种示例机制涉及创建每个这种元素的多个副本，其中多个相关联的渲染位置更均匀地跨收听空间分布。在一些实施方式中，针对分布式空间模式的渲染位置和/或渲染位置的数量可以是用户可选择的，而在其他实施方式中，针对分布式空间模式的渲染位置和/或渲染位置的数量可以是预设的。在一些这样的实施方式中，用户可以为分布式空间模式选择多个渲染位置，并且所述渲染位置可以是预设的，例如，遍及收听环境均匀地间隔开。系统然后在这些副本的一组分布位置处渲染所有这些副本，与在其原始预期位置处渲染原始单个元素相反。根据一些实施方式，可以按水平修正所述副本，使得与所有副本的组合渲染相关联的感知水平与在参考渲染模式下的原始单个元素的水平相同或基本上相同(例如，在如2dB、3dB、4dB、5dB、6dB等阈值分贝数内)。

更巧妙的机制可以在CMAP或FV灵活渲染系统的情境中实施，或者以这两种系统的混合体实施。在这些系统中，空间混音的每个元素都在空间中的特定位置渲染；与每个元素相关联的可以是假定的固定位置，例如，5.1或7.1环绕声混音中声道的规范位置，或时变位置，如基于对象的音频(如杜比全景声)的情况。

图15描绘了2D平面上针对CMAP和FV渲染系统的示例渲染位置。每个编号的小圆圈表示示例渲染位置，并且渲染系统能够在圆圈1500上或圆圈1500内的任何位置渲染空间混音的元素。在该示例中，圆圈1500上的标记为L、R、C、Lss、Rss、Lrs和Rrs的位置表示7.1环绕混音的7个全音域声道的固定规范渲染位置：左(L)、右(R)、中央(C)、左侧环绕(Lss)、右侧环绕(Rss)、左后环绕(Lrs)和右后环绕(Rrs)。在该情境中，L、R和C附近的渲染位置被认为是前声场。对于参考渲染模式(在本文中也被称为“参考空间模式”)，假定收听者位于大圆圈的中心而面向C渲染位置。对于描绘针对各种收听位置和取向的参考渲染的图12A至图12D中的任何一个，可以将图15的中心在收听者之上的叠加概念化，并且图15另外地进行了旋转和缩放，使得C位置与前声场的位置(箭头1205)对齐，并且图15的圆圈1500包围云状线1235。然后，所得对齐描述了来自图12A至图12D中的扬声器中的任何一个与图15中的渲染位置中的任何一个的相对接近度。在一些实施方式中，当在用于CMAP和FV渲染系统两者的特定位置渲染空间混音的元素时，该接近度在很大程度上管控扬声器的相对激活。

当在工作室中混合空间音频时，扬声器通常以均匀的距离放置在收听位置周围。在大多数实例中，没有扬声器位于所得圆圈或半球的边界内。当音频放置在“房间中”时(例如，在图15的中心)，渲染倾向于触发周边上的所有扬声器以实现“不知何处的声音”。在CMAP和FV渲染系统中，可以通过改变管控扬声器激活的成本函数的接近度惩罚项来实现类似的效果。具体地，对于图15的圆圈1500的周边上的渲染位置，接近度惩罚项完全惩罚对远离期望渲染位置的扬声器的使用。如此，仅在预期渲染位置附近的扬声器被以大量的方式激活。随着期望渲染位置移动朝向圆圈的中心(半径为零)，接近度惩罚项减少到零，使得在中心处没有任何扬声器优先。半径为零的渲染位置的对应结果是音频跨收听空间的完全均匀感知的分布，这也正是针对在分布最广的空间渲染模式下混音的某些元素的期望结果。

鉴于CMAP和FV系统在半径为零处的该行为，可以通过将空间混音的任何元素的预期空间位置扭曲而朝向零半径点来实现对空间混音的任何元素的更加空间分布的渲染。该扭曲可以在原始预期位置与零半径之间连续，由此在参考空间模式与各种分布式空间模式之间提供自然的连续控制。图16A、图16B、图16C和图16D示出了应用于图15中的所有渲染点以实现各种分布式空间渲染模式的扭曲的示例。图16D描绘了应用于图15中的所有渲染点以实现完全分布式渲染模式的这种扭曲的示例。可以看到L、R和C点(前声场)已经折叠到零半径，由此确保其以完全统一的方式渲染。另外，Lss和Rss渲染点已经沿圆圈的周边被拉动朝向原始前声场，使得空间化的环绕场(Lss、Rss、Lbs和Rbs)包围整个收听区域。该扭曲应用于整个渲染空间，并且看到来自图15的所有渲染点都已经扭曲到图16D中与7.1规范位置的扭曲相称的新位置。图16D中引用的空间模式是在本文中可以被称为“分布最广的空间模式”或“完全分布式空间模式”的一个示例。

图16A、图16B和图16C示出了图15中表示的分布式空间模式与图16D中表示的分布式空间模式之间的中间分布式空间模式的各种示例。图16B表示图15中表示的分布式空间模式与图16D中表示的分布式空间模式之间的中点。图16A表示图15中表示的分布式空间模式与图16B中表示的分布式空间模式之间的中点。图16C表示图16B中表示的分布式空间模式与图16D中表示的分布式空间模式之间的中点。

图17示出了用户可以用来选择渲染模式的GUI的示例。根据一些实施方式，控制系统可以控制显示设备(例如，蜂窝电话)在显示器上显示GUI 1700或类似的GUI。显示设备可以包括传感器系统(如触摸传感器系统或接近显示器(例如，覆盖显示器或在显示器下方)的手势传感器系统)。控制系统可以被配置成经由GUI 1700以来自传感器系统的传感器信号的形式接收用户输入。传感器信号可以与同GUI 1700的元素相对应的用户触摸或手势相对应。

根据该示例，GUI包括虚拟滑块1701，用户可以与所述虚拟滑块1701交互以选择渲染模式。如箭头1703所指示的，用户可以使滑块沿轨道1707在任一方向上移动。在该示例中，线1705指示虚拟滑块1701的与参考空间模式(如本文所公开的参考空间模式之一)相对应的位置。其他实施方式可以在GUI上提供用户可以与之交互的其他特征，如虚拟旋钮或刻度盘。根据一些实施方式，在选择参考空间模式之后，控制系统可以呈现如图13A中示出的GUI或允许用户针对参考空间模式选择收听者位置和取向的另一个这样的GUI。

在该示例中，线1725指示与分布最广的空间模式(如图13B中示出的分布式空间模式)相对应的虚拟滑块1701的位置。根据该实施方式，线1710、1715和1720指示虚拟滑块1701的与中间空间模式相对应的位置。在该示例中，线1710的位置与如图16A的中间空间模式等的中间空间模式相对应。此处，线1715的位置与如图16B的中间空间模式等的中间空间模式相对应。在该实施方式中，线1720的位置与如图16C的中间空间模式等的中间空间模式相对应。根据该示例，用户可以与“应用”按钮交互(例如，触摸“应用”按钮)以指示控制系统实施所选渲染模式。

然而，其他实施方式可以为用户提供其他方式来选择前述分布式空间模式之一。根据一些示例，用户可以说出语音命令，例如，“以半分布式模式播放[插入内容名称]。”。“半分布式模式”可以与由图17的GUI 1700中的线1715的位置所指示的分布式模式相对应。根据一些这样的示例，用户可以说出语音命令，例如，“以四分之一分布式模式播放[插入内容名称]。”。“四分之一分布式模式”可以与由线1710的位置所指示的分布式模式相对应。

图18是概述了可以由如本文中公开的那些装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1800的框。在一些实施方式中，方法1800的一个或多个框可以同时执行。此外，方法1800的一些实施方式可以包括比所示出和/或所描述的框更多或更少的框。方法1800的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1A中示出的和上文描述的控制系统110，或者其他公开的控制系统示例之一。

在该实施方式中，框1805涉及由控制系统并且经由接口系统接收包括一个或多个音频信号和相关联的空间数据的音频数据。在该示例中，空间数据指示与音频信号相对应的预期感知空间位置。此处，空间数据包括声道数据和/或空间元数据。

在该示例中，框1810涉及由控制系统确定渲染模式。在一些实例中，确定渲染模式可以涉及经由接口系统接收渲染模式指示。接收渲染模式指示可以例如涉及接收与语音命令相对应的麦克风信号。在一些示例中，接收渲染模式指示可以涉及经由图形用户界面接收与用户输入相对应的传感器信号。所述传感器信号可以是例如触摸传感器信号和/或手势传感器信号。

在一些实施方式中，接收渲染模式指示可以涉及接收收听区域中的人数的指示。根据一些这样的示例，控制系统可以被配置用于至少部分地基于收听区域中的人数来确定渲染模式。在一些这样的示例中，收听区域中的人数的指示可以基于来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。

根据图18中示出的示例，框1815涉及根据在框1810中确定的渲染模式由控制系统渲染音频数据用于经由环境的一组扩音器再现，从而产生经渲染的音频信号。在该示例中，渲染音频数据涉及确定环境中的一组扩音器的相对激活。此处，所述渲染模式在参考空间模式与一种或多种分布式空间模式之间是可变的。在该实施方式中，所述参考空间模式具有假定的收听位置和取向。根据该示例，在一个或多个分布式空间模式下，音频数据的一个或多个元素各自以比在参考空间模式下更加空间分布的方式渲染。在该示例中，在一个或多个分布式空间模式下，音频数据的剩余元素的空间位置被扭曲，使得所述剩余元素的空间位置比在参考空间模式下更完整地跨越环境的渲染空间。

在一些实施方式中，以比在参考空间模式下更加空间分布的方式渲染音频数据的一个或多个元素可以涉及创建所述一个或多个元素的副本。一些这样的实施方式可以涉及在跨环境的一组分布式位置处同时渲染所有副本。

根据一些实施方式，渲染可以基于CMAP、FV或其组合。以比在参考空间模式下更加空间分布的方式来渲染音频数据的一个或多个元素可以涉及将所述一个或多个元素中的每一个的渲染位置扭曲而朝向零半径。

在该示例中，框1820涉及由控制系统并且经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供经渲染的音频信号。

根据一些实施方式，渲染模式可以从在参考空间模式到分布最广的空间模式范围内的渲染模式的连续统中选择。在一些这样的实施方式中，控制系统可以进一步被配置成根据经由接口系统接收的参考空间模式数据来确定参考空间模式的假定收听位置和/或取向。根据一些这样的实施方式，参考空间模式数据可以包括来自麦克风系统的麦克风数据和/或来自相机系统的图像数据。在一些这样的示例中，参考空间模式数据可以包括与语音命令相对应的麦克风数据。替代性地或另外地，参考空间模式数据可以包括与收听环境中的人的一个或多个话语的位置相对应的麦克风数据。在一些这样的示例中，参考空间模式数据可以包括指示人在收听环境中的位置和/或取向的图像数据。

然而，在一些实例中，所述装置或系统可以包括显示设备和接近所述显示设备的传感器系统。控制系统可以进一步被配置用于控制显示设备呈现图形用户界面。接收参考空间模式数据可以涉及经由图形用户界面接收与用户输入相对应的传感器信号。

根据一些实施方式，所述音频数据的各自以更加空间分布的方式渲染的一个或多个元素可以与前声场数据、音乐声乐、对话、低音吉他、打击乐器、和/或其他独奏或领奏乐器相对应。在一些实例中，所述前声场数据可以包括以杜比5.1、杜比7.1或杜比9.1格式接收或上混到杜比5.1、杜比7.1或杜比9.1格式的音频数据的左信号、右信号或中央信号。在一些示例中，所述前声场数据可以包括以杜比全景声格式接收并且具有空间元数据的音频数据，所述空间元数据指示(x,y)空间位置，其中，y<0.5。

在一些实例中，音频数据可以包括空间分布元数据，所述空间分布元数据指示所述音频数据的哪些元素要以更加空间分布的方式渲染。在一些这样的示例中，控制系统可以被配置用于根据空间分布元数据来标识音频数据的要以更加空间分布的方式渲染的一个或多个元素。

替代性地或另外地，控制系统可以被配置用于实施内容类型分类器以标识音频数据的要以更加空间分布的方式渲染的一个或多个元素。在一些示例中，内容类型分类器可以参考内容类型元数据(例如，指示音频数据是对话、人声、打击乐器、低音吉他等的元数据)以确定是否应该以更加空间分布的方式渲染音频数据。根据一些这样的实施方式，要以更加空间分布的方式渲染的内容类型元数据可以是可由用户例如根据用户输入经由显示设备上显示的GUI来选择的。

替代性地或另外地，内容类型分类器可以结合渲染系统直接对音频信号进行操作。例如，可以使用在各种内容类型上训练的神经网络来实施分类器，以分析音频信号并且确定所述音频信号是否属于可能被认为适合于以更加空间分布的方式渲染的任何内容类型(人声、主音吉他、鼓等)。这种分类可以以连续和动态的方式执行，并且所得分类结果还可以以连续和动态的方式调整以更加空间分布的方式渲染的信号集。一些这样的实施方式可以涉及使用如神经网络等技术来根据本领域已知的方法来实施这样的动态分类系统。

在一些示例中，一种或多种分布式空间模式中的至少一种可以涉及将时变修正应用于至少一个元素的空间位置。根据一些这样的示例，所述时变修正可以是周期性修正。例如，周期性修正可以涉及围绕收听环境的外围旋转一个或多个渲染位置。根据一些这样的实施方式，所述周期性修正可以涉及在环境中再现的音乐的节奏、在环境中再现的音乐的节拍、或在环境中再现的音频数据的一个或多个其他特征。例如，一些这样的周期性修正可以涉及在两个、三个、四个或更多个渲染位置之间交替。所述交替可以与在环境中再现的音乐的节拍相对应。在一些实施方式中，周期性修正可以是可根据用户输入选择的，例如，根据一个或多个语音命令、根据经由GUI接收的用户输入等。

图19示出了环境中三个音频设备之间的几何关系的示例。在该示例中，环境1900是包括电视1901、沙发1903和五个音频设备1905的房间。根据该示例，音频设备1905在环境1900的位置1至位置5中。在该实施方式中，每个音频设备1905包括具有至少三个麦克风的麦克风系统1920和包括至少一个扬声器的扬声器系统1925。在一些实施方式中，每个麦克风系统1920包括麦克风阵列。根据一些实施方式，每个音频设备1905可以包括包含至少三根天线的天线系统。

与本文所公开的其他示例一样，图19中示出的元件的类型、数量和布置仅作为示例。其他实施方式可以具有不同类型、数量和布置的元件，例如，更多或更少的音频设备1905、在不同位置的音频设备1905等。

在该示例中，三角形1910a的顶点在位置1、2和3处。此处，三角形1910a具有边12、23a和13a。根据该示例，边12与23之间的角为θ₂，边12与13a之间的角为θ₁并且边23a与13a之间的角为θ₃。这些角可以根据DOA数据确定，如下文更详细描述的。

在一些实施方式中，可以确定仅三角形边的相对长度。在替代性实施方式中，可以确定三角形边的实际长度。根据一些这样的实施方式，三角形边的实际长度可以根据TOA数据来估计，例如，根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的声音的到达时间来估计。替代性地或另外地，三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波来估计。例如，三角形边的长度可以根据由位于一个三角形顶点处的音频设备产生并且由位于另一个三角形顶点处的音频设备检测到的电磁波的信号强度来估计。在一些实施方式中，可以根据检测到的电磁波的相移来估计三角形边的长度。

图20示出了图19中示出的环境中三个音频设备之间的几何关系的另一个示例。在该示例中，三角形1910b的顶点在位置1、3和4处。此处，三角形1910b具有边13b、14和34a。根据该示例，边13b与14之间的角为θ₄，边13b与34a之间的角为θ₅并且边34a与14之间的角为θ₆。

通过比较图11和图12，可以观察到三角形1910a的边13a的长度应该等于三角形1910b的边13b的长度。在一些实施方式中，一个三角形(例如，三角形1910a)的边长可以被假定为正确的，并且由相邻三角形共享的边的长度将被约束为该长度。

图21A示出了图19和图20中描绘的两个三角形，没有对应的音频设备和环境的其他特征。图21A示出了三角形1910a和1910b的边长和角取向的估计。在图21A中示出的示例中，三角形1910b的边13b的长度被约束为与三角形1910a的边13a的长度相同。三角形1910b的其他边的长度与边13b的长度上所产生的变化成比例地缩放。所得三角形1910b'在图21A示出为与三角形1910a相邻。

根据一些实施方式，与三角形1910a和1910b相邻的其他三角形的边长都可以以类似的方式确定，直到已经确定了环境1900中的所有音频设备位置。

音频设备位置的一些示例可以如下进行。每个音频设备可以基于由环境中的每个其他音频设备产生的声音来报告环境(例如，房间)中的每个其他音频设备的DOA。第i个音频设备的笛卡尔坐标可以表示为x_i＝[x_i，y_i]^T，其中，上标T指示向量转置。给定环境中的M个音频设备，i＝{1…M}。

图21B示出了估计由三个音频设备形成的三角形的内角的示例。在该示例中，音频设备为i、j和k。从设备i观察到的从设备j散发的声源的DOA可以表示为θ_ji。从设备i观察到的从设备k散发的声源的DOA可以表示为θ_ki。在图21B中示出的示例中，θ_ji和θ_ki是从轴线2105a测得的，所述轴线的取向是任意的，并且所述轴线可以例如与音频设备i的取向相对应。三角形2110的内角a可以表示为a＝θ_ki-θ_ji。可以观察到内角a的计算不依赖于轴线2105a的取向。

在图21B中示出的示例中，θ_ij和θ_kj是从轴线2105b测得的，所述轴线的取向是任意的，并且所述轴线可以与音频设备j的取向相对应。三角形2110的内角b可以表示为b＝θ_ij-θ_kj。类似地，在该示例中，θ_jk和θ_ik是从轴线2105c测得的。三角形2110的内角c可以表示为c＝θ_jk-θ_ik。

在存在测量误差的情况下，a+b+c≠180°。可以通过从其他两个角预测每个角并且求平均来提高稳健性，例如，如下所示：

在一些实施方式中，可以通过应用正弦规则来计算边缘长度(A、B、C)(直至缩放误差)。在一些示例中，可以为一个边缘长度分配任意值，如1。例如，通过使A＝1并且将顶点放置在原点处，剩余两个顶点的位置可以计算如下：

然而，任意旋转可以是可接受的。

根据一些实施方式，可以为环境中三个音频设备的所有可能子集重复三角形参数化的过程，在大小为的超集ζ中枚举。在一些示例中，T_l可以表示第1个三角形。三角形可以不以任何特定顺序枚举，这取决于实施方式。由于DOA和/或边长估计中的可能误差，三角形可能重叠并且可能无法完美对齐。

图22是概述了可以由如图1A中示出的装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法2200的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法2200涉及估计扬声器在环境中的位置。方法2200的框可以由一个或多个设备执行，所述一个或多个设备可以是(或可以包括)图1A中示出的装置100。

在该示例中，框2205涉及获得多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中，多个音频设备可以包括环境中的所有音频设备，如图19中示出的所有音频设备1905。

然而，在一些实例中，多个音频设备可以仅包括环境中所有音频设备的子集。例如，多个音频设备可以包括环境中的所有智能扬声器，但不包括环境中的其他音频设备中的一个或多个。

DOA数据可以通过各种方式获得，这取决于特定实施方式。在一些实例中，确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。例如，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。

在一些这样的示例中，单个音频设备本身可以确定DOA数据。根据一些这样的实施方式，多个音频设备中的每个音频设备可以确定其自身的DOA数据。然而，在其他实施方式中，可以是本地或远程设备的另一个设备可以确定环境中的一个或多个音频设备的DOA数据。根据一些实施方式，服务器可以确定环境中一个或多个音频设备的DOA数据。

根据该示例，框2210涉及基于DOA数据确定多个三角形中的每个三角形的内角。在该示例中，多个三角形中的每个三角形具有与三个音频设备的音频设备位置相对应的顶点。上文描述了一些这样的示例。

图23示出了其中环境中的每个音频设备都是多个三角形的顶点的示例。每个三角形的边与两个音频设备1905之间的距离相对应。

在该实施方式中，框2215涉及确定每个三角形的每条边的边长。(三角形的边在本文中也可以被称为“边缘”。)根据该示例，边长至少部分地基于内角。在一些实例中，可以通过确定三角形的第一边的第一长度并且基于三角形的内角确定三角形的第二边和第三边的长度来计算边长。上文描述了一些这样的示例。

根据一些这样的实施方式，确定第一长度可以涉及将第一长度设置为预定值。然而，在一些示例中，确定第一长度可以基于到达时间数据和/或接收到的信号强度数据。在一些实施方式中，到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的声波相对应。替代性地或另外地，到达时间数据和/或接收到的信号强度数据可以与来自环境中的第一音频设备的由环境中的第二音频设备检测到的电磁波(例如，无线电波、红外波等)相对应。

根据该示例，框2220涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程。根据该示例，前向对齐过程产生前向对齐矩阵。

根据一些这样的示例，期望三角形以边缘(x_i，x_j)等于相邻边缘的方式对齐，例如，如图21A中示出的和上文所描述的。令ε为大小为的所有边缘的集合。在一些这样的实施方式中，框2220可以涉及遍历ε并且通过迫使边缘与先前对齐的边缘的边缘一致来按前向顺序对齐三角形的公共边缘。

图24提供了前向对齐过程的一部分的示例。图24中以粗体示出的数字1至5与图1、图2和图5中示出的音频设备位置相对应。图24中示出并且在本文中描述的前向对齐过程的顺序仅为示例。

在该示例中，如在图21A中，迫使三角形1910b的边13b的长度与三角形1910a的边13a的长度一致。图24中示出了所得三角形1910b’，其中保持相同的内角。根据该示例，也迫使三角形1910c的边13c的长度与三角形1910a的边13a的长度一致。图24中示出了所得三角形1910c’，其中保持相同的内角。

接下来，在该示例中，迫使三角形1910d的边34b的长度与三角形1910b’的边34a的长度一致。此外，在该示例中，迫使三角形1910d的边23b的长度与三角形1910a的边23a的长度一致。图24中示出了所得三角形1910d’，其中保持相同的内角。根据一些这样的示例，图5中示出的剩余三角形可以以与三角形1910b、1910c和1910d相同的方式进行处理。

前向对齐过程的结果可以存储在数据结构中。根据一些这样的示例，前向对齐过程的结果可以存储在前向对齐矩阵中。例如，前向对齐过程的结果可以存储在矩阵中，其中N指示三角形的总数。

当DOA数据和/或初始边长的确定包含误差时，将出现多个音频设备位置估计。在前向对齐过程期间，误差通常会增加。

图25示出了已经在前向对齐过程期间出现的多个音频设备位置估计的示例。在该示例中，前向对齐过程基于以七个音频设备位置为顶点的三角形。此处，由于DOA估计中的附加误差，三角形没有完美对齐。图25中示出的数字1至7的位置与由前向对齐过程产生的估计音频设备位置相对应。在该示例中，标记为“1”的音频设备位置估计一致，但针对音频设备6和7的音频设备位置估计示出较大差异，如数字6和7所在的相对较大的区域示出的。

返回图22，在该示例中，框2225涉及将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程。根据一些实施方式，反向对齐过程可以涉及像以前一样但以反向的顺序遍历ε。在替代性示例中，反向对齐过程可以不与前向对齐过程的操作顺序正好反向。根据该示例，反向对齐过程产生反向对齐矩阵，所述反向对齐矩阵在本文中可以表示为

图26提供了反向对齐过程的一部分的示例。图26中以粗体示出的数字1至5与图19、图21和图23中示出的音频设备位置相对应。图26中示出并且在本文中描述的反向对齐过程的顺序仅为示例。

在图26中示出的示例中，三角形1910e基于音频设备位置3、4和5。在该实施方式中，假定三角形1910e的边长(或“边缘”)是正确的，并且迫使相邻三角形的边长与其一致。根据该示例，迫使三角形1910f的边45b的长度与三角形1910e的边45a的长度一致。图26中示出了所得三角形1910f’，其中内角保持相同。在该示例中，迫使三角形1910c的边35b的长度与三角形1910e的边35a的长度一致。图26中示出了所得三角形1910c”，其中内角保持相同。根据一些这样的示例，图23中示出的剩余三角形可以以与三角形1910c和1910f相同的方式进行处理，直到反向对齐过程已经包括所有剩余三角形。

图27示出了已经在反向对齐过程期间出现的多个音频设备位置估计的示例。在该示例中，反向对齐过程基于具有与上文参考图25描述的顶点相同的七个音频设备位置的三角形。图27中示出的数字1至7的位置与由反向对齐过程产生的估计音频设备位置相对应。此处同样，由于DOA估计中的附加误差，三角形没有完美对齐。在该示例中，标记为6和7的音频设备位置估计一致，但针对音频设备1和2的音频设备位置估计示出更大差异。

返回图22，框2230涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。在一些示例中，产生每个音频设备位置的最终估计可以涉及平移和缩放前向对齐矩阵以产生经平移和缩放的前向对齐矩阵，以及平移和缩放反向对齐矩阵以产生经平移和缩放的反向对齐矩阵。

例如，通过将形心移动到原点并且强制单位弗罗伯尼范数(Frobenius norm)(例如，和/>)来固定平移和缩放。

根据一些这样的示例，产生每个音频设备位置的最终估计也可以涉及基于经平移和缩放的前向对齐矩阵以及经平移和缩放的反向对齐矩阵来产生旋转矩阵。旋转矩阵可以包括每个音频设备的多个估计音频设备位置。例如，可以通过奇异值分解来找到前向对齐与反向对齐之间的最佳旋转。在一些这样的示例中，涉及产生旋转矩阵可以涉及对经平移和缩放的前向对齐矩阵以及经平移和缩放的反向对齐矩阵执行奇异值分解，例如，如下：

/>

在前述等式中，分别地，U表示矩阵的左奇异向量并且V表示所述矩阵的右奇异向量，∑表示奇异值矩阵。前述等式产生旋转矩阵R＝VU^T。矩阵乘积VU^T产生旋转矩阵，使得/>被最佳旋转以与/>对齐。

根据一些示例，在确定旋转矩阵R＝VU^T之后，可以对对齐求平均，例如，如下：

在一些实施方式中，产生每个音频设备位置的最终估计也可以涉及对每个音频设备的估计音频设备位置求平均，以产生每个音频设备位置的最终估计。各种公开的实施方式已被证明是稳健的，即使在DOA数据和/或其他计算包括重大误差时。例如，由于来自多个三角形的重叠顶点，包含相同节点的/>个估计。跨公共节点求平均产生最终估计/>

图28示出了估计音频设备位置和实际音频设备位置的比较。在图28中示出的示例中，音频设备位置与在上文参考图17和图19描述的前向对齐过程和反向对齐过程期间估计的音频设备位置相对应。在这些示例中，DOA估计上的误差有15度的标准偏差。尽管如此，每个音频设备位置的最终估计(每个所述最终估计在图28中由“x”表示)与实际音频设备位置(每个所述实际音频设备位置在图28中由圆圈表示)很好地对应。

前述讨论的大部分涉及音频设备自动定位。以下讨论扩展了上文简要描述的确定收听者位置和收听者角取向的一些方法。在前述描述中，术语“旋转”的使用方式与以下描述中使用的术语“取向”基本上相同。例如，上文提到的“旋转”可以指最终扬声器几何形状的全局旋转，而不是在上文参考图14以及以下描述的过程期间单独的三角形的旋转。该全局旋转或取向可以参考收听者角取向，例如通过收听者注视的方向、收听者的鼻子指向的方向等来解决。

下文描述了用于估计收听者位置的各种令人满意的方法。然而，估计收听者角取向可能具有挑战性。下文详细描述了一些相关方法。

确定收听者位置和收听者角取向可以实现一些期望的特征，如相对于收听者定向定位的音频设备。知道收听者位置和角取向允许确定例如环境中相对于收听者哪些扬声器在前面、哪些在后面、哪些靠近中心(如果有的话)等。

在音频设备位置与收听者的位置和取向之间建立关联之后，一些实施方式可以涉及将音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据提供给音频渲染系统。替代性地或另外地，一些实施方式可以涉及至少部分地基于音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据的音频数据渲染过程。

图29是概述了可以由如图1A中示出的装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法2900的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该示例中，方法2900的框由控制系统执行，所述控制系统可以是(或可以包括)图1A中示出的控制系统110。如上所述，在一些实施方式中，控制系统110可以驻留在单个设备中，而在其他实施方式中，控制系统110可以驻留在两个或更多个设备中。

在该示例中，框2905涉及获得环境中多个音频设备中的每个音频设备的到达方向(DOA)数据。在一些示例中，多个音频设备可以包括环境中的所有音频设备，如图27中示出的所有音频设备1905。

DOA数据可以通过各种方式获得，这取决于特定实施方式。在一些实例中，确定DOA数据可以涉及确定多个音频设备中的至少一个音频设备的DOA数据。在一些示例中，可以通过控制环境中的多个扩音器中的每个扩音器以再现测试信号来获得DOA数据。例如，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的多个音频设备麦克风中的每个麦克风接收麦克风数据以及至少部分地基于所述麦克风数据确定单个音频设备的DOA数据。替代性地或另外地，确定DOA数据可以涉及从与多个音频设备中的单个音频设备相对应的一个或多个天线接收天线数据以及至少部分地基于所述天线数据确定单个音频设备的DOA数据。

根据图29中示出的示例，框2910涉及至少部分地基于DOA数据，经由控制系统产生音频设备位置数据。在该示例中，音频设备位置数据包括对在框2905中引用的每个音频设备的音频设备位置的估计。

音频设备位置数据例如可以是(或包括)坐标系(如笛卡尔坐标系、球坐标系或圆柱坐标系)的坐标。所述坐标系在本文中可以被称为音频设备坐标系。在一些这样的示例中，音频设备坐标系可以参考环境中的音频设备之一来定向。在其他示例中，音频设备坐标系可以参考由环境中的音频设备中的两个音频设备之间的线所定义的轴线来定向。然而，在其他示例中，音频设备坐标系可以参考环境的另一部分(如电视、房间的墙等)来定向。

在一些示例中，框2910可以涉及上文参考图22描述的过程。根据一些这样的示例，框2910可以涉及基于DOA数据确定多个三角形中的每个三角形的内角。在一些实例中，多个三角形中的每个三角形可以具有与三个音频设备的音频设备位置相对应的顶点。一些这样的方法可以涉及至少部分地基于内角来确定每个三角形的每条边的边长。

一些这样的方法可以涉及执行将多个三角形中的每一个以第一顺序对齐的前向对齐过程，以产生前向对齐矩阵。一些这样的方法可以涉及执行将多个三角形中的每一个以与第一顺序反向的第二顺序对齐的反向对齐过程，以产生反向对齐矩阵。一些这样的方法可以涉及至少部分地基于前向对齐矩阵的值和反向对齐矩阵的值来产生每个音频设备位置的最终估计。然而，在方法2900的一些实施方式中，框2910可以涉及应用除了上文参考图22描述的方法之外的方法。

在该示例中，框2915涉及经由控制系统确定指示环境内的收听者位置的收听者位置数据。例如，收听者位置数据可以参考音频设备坐标系。然而，在其他示例中，所述坐标系可以参考收听者或参考环境的一部分(如电视、房间的墙等)来定向。

在一些示例中，框2915可以涉及提示收听者(例如，经由来自环境中的一个或多个扩音器的音频提示)说出一个或多个话语并且根据DOA数据估计收听者位置。DOA数据可以与由环境中的多个麦克风获得的麦克风数据相对应。麦克风数据可以与由麦克风对一个或多个话语的检测相对应。至少一些麦克风可以与扩音器共同定位。根据一些示例，框2915可以涉及三角测量过程。例如，框2915可以涉及通过找到穿过音频设备的DOA向量之间的交点来对用户的语音进行三角测量，例如，如下文参考图30A所描述的。根据一些实施方式，框2915(或方法2900的另一个操作)可以涉及在确定收听者位置之后，将音频设备坐标系的原点和收听者坐标系的原点共同定位。将音频设备坐标系的原点和收听者坐标系的原点共同定位可以涉及将音频设备位置从音频设备坐标系变换到收听者坐标系。

根据该实施方式，框2920涉及经由控制系统确定指示收听者角取向的收听者角取向数据。例如，收听者角取向数据可以参考用于表示收听者位置数据的坐标系(如音频设备坐标系)来得到。在一些这样的示例中，收听者角取向数据可以参考音频设备坐标系的原点和/或轴线来得到。

然而，在一些实施方式中，收听者角取向数据可以参考由收听者位置和环境中的另一个点(如电视、音频设备、墙等)定义的轴线来得到。在一些这样的实施方式中，收听者位置可以用于定义收听者坐标系的原点。在一些这样的示例中，可以参考收听者坐标系的轴线来得到收听者角取向数据。

本文公开了用于执行框2920的各种方法。根据一些示例，收听者角取向可以与收听者观看方向相对应。在一些这样的示例中，可以例如通过假定收听者正在观看特定对象(如电视)，参考收听者位置数据来推断收听者观看方向。在一些这样的实施方式中，可以根据收听者位置和电视位置来确定收听者观看方向。替代性地或另外地，可以根据收听者位置和电视音箱位置来确定收听者观看方向。

然而，在一些示例中，可以根据收听者输入来确定收听者观看方向。根据一些这样的示例，收听者输入可以包括从由收听者持有的设备接收的惯性传感器数据。收听者可以使用所述设备来指向环境中的位置，例如，与收听者面向的方向相对应的位置。例如，收听者可以使用所述设备来指向发声的扩音器(正在再现声音的扩音器)。因此，在这样的示例中，惯性传感器数据可以包括与发声的扩音器相对应的惯性传感器数据。

在一些这样的实例中，收听者输入可以包括由收听者选择的音频设备的指示。在一些示例中，音频设备的指示可以包括与所选音频设备相对应的惯性传感器数据。

然而，在其他示例中，可以根据收听者的一个或多个话语(例如，“电视现在在我前面。”、“扬声器2现在在我前面。”等)做出对音频设备的指示。下文描述根据收听者的一个或多个话语来确定收听者角取向数据的其他示例。

根据图29中示出的示例，框2925涉及经由控制系统确定音频设备角取向数据，所述音频设备角取向数据指示每个音频设备相对于收听者位置和收听者角取向的音频设备角取向。根据一些这样的示例，框2925可以涉及围绕由收听者位置定义的点旋转音频设备坐标。在一些实施方式中，框2925可以涉及将音频设备位置数据从音频设备坐标系变换到收听者坐标系。下文描述了一些示例。

图30A示出了图29的一些框的示例。根据一些这样的示例，音频设备位置数据包括参考音频设备坐标系3007对音频设备1至5中的每一个的音频设备位置的估计。在该实施方式中，音频设备坐标系3007是以音频设备2的麦克风的位置作为原点的笛卡尔坐标系。此处，音频设备坐标系3007的x轴与音频设备2的麦克风位置和音频设备1的麦克风位置之间的线3003相对应。

在该示例中，该示例，收听者位置是通过提示被示出为坐在沙发1903上的收听者3005(例如，经由来自环境3000a中的一个或多个扩音器的音频提示)说出一个或多个话语3027并且根据到达时间(TOA)数据估计收听者位置来确定的。TOA数据与由环境中的多个麦克风获得的麦克风数据相对应。在该示例中，麦克风数据与由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对一个或多个话语3027的检测相对应。

替代性地或另外地，收听者位置根据由音频设备1至5中的至少一些(例如，2个、3个、4个或全部5个)音频设备的麦克风提供的DOA数据。根据一些这样的示例，可以根据与DOA数据相对应的线3009a、3009b等的交点来确定收听者位置。

根据该示例，收听者位置与收听者坐标系3020的原点相对应。在该示例中，收听者角取向数据由收听者坐标系3020的y’轴指示，所述y’轴与收听者的头3010(和/或收听者的鼻子3025)和电视101的音箱3030之间的线3013a相对应。在图30A中示出的示例中，线3013a平行于y’轴。因此，角表示y轴与y’轴之间的角。在该示例中，图29的框2925可以涉及围绕收听者坐标系3020的原点旋转音频设备坐标的角/>因此，尽管音频设备坐标系3007的原点示出为与图30A中的音频设备2相对应，但一些实施方式涉及在围绕收听者坐标系3020的原点旋转音频设备坐标的角/>之前，将音频设备坐标系3007的原点与收听者坐标系3020的原点共同定位。该共同定位可以通过从音频设备坐标系3007到收听者坐标系3020的坐标变换来执行。

在一些示例中，音箱3030和/或电视1901的位置可以通过使音箱发出声音并且根据DOA和/或TOA数据估计音箱的位置来确定，这可以对应于由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测。替代性地或另外地，音箱3030和/或电视1901的位置可以通过提示用户走近电视并且通过由DOA和/或TOA数据定位用户的言语来确定，这可以对应于由音频设备1至5中的至少一些(例如，3个、4个或全部5个)音频设备的麦克风对声音的检测。这种方法可以涉及三角测量。这样的示例在其中音箱3030和/或电视1901没有相关联的麦克风的情况下可以是有益的。

在一些其他示例中，其中，音箱3030和/或电视1901确实具有相关联的麦克风，音箱3030和/或电视1901的位置可以根据TOA或DOA方法(如本文公开的DOA方法)来确定。根据一些这样的方法，麦克风可以与音箱3030共同定位。

根据一些实施方式，音箱3030和/或电视1901可以具有相关联的相机3011。控制系统可以被配置成捕获收听者的头3010(和/或收听者的鼻子3025)的图像。在一些这样的示例中，控制系统可以被配置成确定收听者的头3010(和/或收听者的鼻子3025)与相机3011之间的线3013a。收听者角取向数据可以与线3013a相对应。替代性地或另外地，控制系统可以被配置成确定线3013a与音频设备坐标系的y轴之间的角

图30B示出了确定收听者角取向数据的附加示例。根据该示例，收听者位置已经在图29的框2915中确定。此处，控制系统控制环境3000b的扩音器以将音频对象3035渲染到环境3000b内的各种位置。在一些这样的示例中，控制系统可以使扩音器渲染音频对象3035，使得音频对象3035似乎围绕收听者3005旋转，例如，通过渲染音频对象3035使得音频对象3035似乎围绕收听者坐标系3020的原点旋转。在该示例中，弯曲箭头3040示出了音频对象3035在其围绕收听者3005旋转时的轨迹的一部分。

根据一些这样的示例，收听者3005可以提供指示音频对象3035何时处于收听者3005所面对的方向的用户输入(例如，说“停止”)。在一些这样的示例中，控制系统可以被配置成确定收听者位置与音频对象3035的位置之间的线3013b。在该示例中，线3013b与收听者坐标系的指示收听者3005所面对的方向的y’轴相对应。在替代性实施方式中，收听者3005可以提供指示音频对象3035何时在环境的前面、在环境的TV位置、在音频设备位置等的用户输入。

图30C示出了确定收听者角取向数据的附加示例。根据该示例，收听者位置已经在图29的框2915中确定。此处，收听者3005正在使用手持设备3045通过将手持设备3045指向电视1901或音箱3030来提供关于收听者3005的观看方向的输入。在该示例中，手持设备3045和收听者的手臂的虚线轮廓指示在收听者3005将手持设备3045指向电视1901或音箱3030之前的时间，收听者3005将手持设备3045指向了音频设备2。在其他示例中，收听者3005可以已经将手持设备3045指向另一个音频设备，如音频设备1。根据该示例，手持设备3045被配置成确定音频设备2与电视1901或音箱3030之间的角α，所述角α近似于音频设备2与收听者3005的观看方向之间的角。

在一些示例中，手持设备3045可以是蜂窝电话，该蜂窝电话包括惯性传感器系统和被配置用于与控制环境3000c的音频设备的控制系统通信的无线接口。在一些示例中，手持设备3045可以运行应用程序或“app”，该应用程序或“app”被配置成例如通过提供用户提示(例如，经由图形用户界面)、通过接收指示手持设备3045正在指向期望方向的输入、通过保存对应的惯性传感器数据和/或将对应的惯性传感器数据传输到控制环境3000c的音频设备的控制系统等，来控制手持设备3045执行必要功能。

根据该示例，控制系统(其可以是手持设备3045的控制系统或控制环境3000c的音频设备的控制系统)被配置成根据惯性传感器数据(例如，根据陀螺仪数据)确定线3013c和3050的取向。在该示例中，线3013c平行于轴y’，并且可以用于确定收听者角取向。根据一些示例，控制系统可以根据音频设备2与收听者3005的观看方向之间的角α来确定音频设备坐标围绕收听者坐标系3020的原点的适当旋转。

图30D示出了根据参考图30C描述的方法来确定音频设备坐标的适当旋转的示例。在该示例中，音频设备坐标系3007的原点与收听者坐标系3020的原点共同定位。在其中确定收听者位置的过程2915之后，使音频设备坐标系3007的原点和收听者坐标系3020的原点共同定位成为可能。将音频设备坐标系3007的原点和收听者坐标系3020的原点共同定位可以涉及将音频设备位置从音频设备坐标系3007变换到收听者坐标系3020。已经如上文参考图30C所描述的确定了角α。因此，角α与音频设备2在收听者坐标系3020中的期望取向相对应。在该示例中，角β与音频设备2在音频设备坐标系3007中的取向相对应。在该示例中为β-α的角指示用于将音频设备坐标系3007的y轴与收听者坐标系3020的y’轴对齐所必需的旋转。

在一些实施方式中，图29的方法可以涉及至少部分地基于对应的音频设备位置、对应的音频设备角取向、收听者位置数据和收听者角取向数据来控制环境中的音频设备中的至少一个。

例如，一些实施方式可以涉及将音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据提供给音频渲染系统。在一些示例中，音频渲染系统可以由控制系统(如图1A的控制系统110)实施。一些实施方式可以涉及至少部分地基于音频设备位置数据、音频设备角取向数据、收听者位置数据和收听者角取向数据来控制音频数据渲染过程。一些这样的实施方式可以涉及向渲染系统提供扩音器声学能力数据。扩音器声学能力数据可以与环境的一个或多个扩音器相对应。扩音器声学能力数据可以指示一个或多个驱动器的取向、驱动器数量或一个或多个驱动器的驱动器频率响应。在一些示例中，可以从存储器中取得扩音器声学能力数据，然后将所述扩音器声学能力数据提供给渲染系统。

一类实施例涉及用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)进行回放和/或音频回放的方法。例如，用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染音频以供智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放。考虑了与系统的许多交互，所述交互需要对渲染和/或回放进行动态修正。这种修正可以但不一定专注于空间保真度。

在执行空间音频混音(例如，渲染一个音频流或多个音频流)的渲染(或渲染和回放)以供一组智能音频设备中的智能音频设备(或另一组扬声器)回放的情境中，扬声器的类型(例如，在智能音频设备中或耦接到智能音频设备)可能会有所不同，并且因此扬声器的对应声学能力可以非常显著地变化。在图3A中示出的音频环境的一个示例中，扩音器305d、305f和305h可以是具有单个0.6英寸扬声器的智能扬声器。在该示例中，扩音器305b、305c、305e和305f可以是具有2.5英寸低音扬声器和0.8英寸高音扬声器的智能扬声器。根据该示例，扩音器305g可以是具有一个5.25英寸低音扬声器、三个2英寸中音扬声器和一个1.0英寸高音扬声器的智能扬声器。此处，扩音器305a可以是具有十六个1.1英寸波束驱动器和两个4英寸低音扬声器的音箱。因此，智能扬声器305d和305f的低频能力将显著小于环境200中的其他扩音器(尤其是具有4英寸或5.25英寸低音扬声器的那些扩音器)的低频能力。

图31是示出能够实施本公开的各个方面的系统的部件的示例的框图。与本文提供的其他图一样，图31中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。

根据该示例，系统3100包括智能家居中枢3105和扩音器3125a到3125m。在该示例中，智能家居中枢3105包括图1A中示出并且上文所描述的控制系统110的实例。根据该实施方式，控制系统110包括收听环境动态处理配置数据模块3110、收听环境动态处理模块3115和渲染模块3120。下文描述了收听环境动态处理配置数据模块3110、收听环境动态处理模块3115和渲染模块3120的一些示例。在一些示例中，渲染模块3120’可以被配置用于渲染和收听环境动态处理两者。

如智能家居中枢3105与扩音器3125a到3125m之间的箭头所表明的，智能家居中枢3105还包括图1A中示出并且上文描述的接口系统105的实例。根据一些示例，智能家居中枢3105可以是图3A中示出的环境300的一部分。在一些实例中，智能家居中枢3105可以由智能扬声器、智能电视、蜂窝电话、膝上型计算机等实施。在一些实施方式中，智能家居中枢3105可以由软件(例如，经由可下载软件应用程序或“app”的软件)实施。在一些实例中，智能家居中枢3105可以在扩音器3125a至3125m中的每一个中实施，所有所述扩音器3125a至3125m并行操作以从模块3120生成相同的经处理的音频信号。根据一些这样的示例，在每个扩音器中，渲染模块3120然后可以生成与每个扩音器或一组扩音器相关的一个或多个扬声器馈送，并且可以将这些扬声器馈送提供给每个扬声器动态处理模块。

在一些实例中，扩音器3125a至3125m可以包括图3A的扩音器305a至305h，而在其他示例中，扩音器3125a至3125m可以是或可以包括其他扩音器。因此，在该示例中，系统3100包括M个扩音器，其中，M是大于2的整数。

智能扬声器以及许多其他电动扬声器通常采用某种类型的内部动态处理来防止扬声器失真。通常与这种动态处理相关联的是信号限制阈值(例如，随频率可变化的限制阈值)，低于所述阈值的信号水平被动态保持。例如，杜比音频处理(DAP)音频后处理套件中的若干种算法之一的杜比音频调节器提供这种处理。在一些实例中，但通常不经由智能扬声器的动态处理模块，动态处理也可以涉及应用一个或多个压缩器、门、扩展器、躲避器等。

因此，在该示例中，扩音器3125a至3125m中的每一个都包括对应的扬声器动态处理(DP)模块A至M。扬声器动态处理模块被配置成对收听环境的每个单独的扩音器应用单独的扩音器动态处理配置数据。例如，扬声器DP模块A被配置成应用适合于扩音器3125a的单独的扩音器动态处理配置数据。在一些示例中，单独的扩音器动态处理配置数据可以与单独的扩音器的一种或多种能力相对应，如扩音器在特定频率范围内和在特定水平上再现音频数据而不会出现可感知的失真的能力等。

当跨各自具有可能不同的回放限制的一组异构扬声器(例如，智能音频设备的扬声器或耦接到智能音频设备的扬声器)渲染空间音频时，在对整个混音执行动态处理时必须小心。简单的解决方案是将空间混音渲染为每个参与扬声器的扬声器馈送，并且然后允许与每个扬声器相关联的动态处理模块根据该扬声器的限制在其对应的扬声器馈送上独立操作。

虽然该方法将阻止每个扬声器失真，但该方法可能会以感知上分散的方式使混音的空间平衡动态地移位。例如，参考图3A，假设电视节目正在电视330上播放，并且对应的音频正在由环境300的扩音器再现。假设在电视节目期间，与静止对象(如工厂中的重型机械单元)相关联的音频旨在被渲染到环境300中的特定位置。进一步假设由于扩音器305b在低音范围内再现声音的能力强得多，所以与扩音器305d相关联的动态处理模块将在低音范围内的音频的水平降低得比与扩音器305b相关联的动态处理模块降低得多得多。如果与静止对象相关联的信号的音量发生波动，则当音量较高时，与扩音器305d相关联的动态处理模块将导致在低音范围内的音频的水平降低得比由与扩音器305b相关联的动态处理模块降低的同一音频的水平多得多。水平上的该差异将使静止对象的明显位置发生变化。因此，需要改进的解决方案。

本公开的一些实施例是用于渲染(或渲染和回放)空间音频混音(例如，渲染一个音频流或多个音频流)以由一组智能音频设备(例如，一组协调的智能音频设备)中的智能音频设备中的至少一个(例如，所有或一些)智能音频设备回放和/或由另一组扬声器中的扬声器中的至少一个(例如，所有或一些)扬声器回放的系统和方法。一些实施例是用于这种渲染(例如，包括扬声器馈送的生成)以及经渲染的音频的回放(例如，所生成的扬声器馈送的回放)的方法(或系统)。这种实施例的示例包括以下各项：

用于音频处理的系统和方法可以包括渲染音频(例如，例如通过渲染一个音频流或多个音频流来渲染空间音频混音)以由至少两个扬声器(例如，一组扬声器中的所有或一些扬声器)回放，包括通过以下各项：

(a)组合单独扩音器的单独扩音器动态处理配置数据(如限制阈值(回放限制阈值))，从而确定多个扩音器的收听环境动态处理配置数据(如组合的阈值)；

(b)使用多个扩音器的收听环境动态处理配置数据(例如，组合的阈值)对音频(例如，指示空间音频混音的(多个)音频流)执行动态处理，以生成经处理的音频；以及

(c)将所述经处理的音频渲染为扬声器馈送。

根据一些实施方式，过程(a)可以由如图31中示出的收听环境动态处理配置数据模块3110等模块来执行。智能家居中枢3105可以被配置用于经由接口系统获得M个扩音器中的每一个的单独的扩音器动态处理配置数据。在该实施方式中，单独的扩音器动态处理配置数据包括多个扩音器中的每个扩音器的单独的扩音器动态处理配置数据集。根据一些示例，一个或多个扩音器的单独的扩音器动态处理配置数据可以与一个或多个扩音器的一种或多种能力相对应。在该示例中，每个单独的扩音器动态处理配置数据集包括至少一种类型的动态处理配置数据。在一些示例中，智能家居中枢3105可以被配置用于通过查询扩音器3125a至3125m中的每一个来获得单独的扩音器动态处理配置数据集。在其他实施方式中，智能家居中枢3105可以被配置用于通过查询存储在存储器中的先前获得的单独的扩音器动态处理配置数据集的数据结构来获得单独的扩音器动态处理配置数据集。

在一些示例中，过程(b)可以由如图31的收听环境动态处理模块3115等模块来执行。下文描述了过程(a)和(b)的一些详细示例。

在一些示例中，过程(c)的渲染可以由如图31的渲染模块3120或渲染模块3120’等模块来执行。在一些实施例中，音频处理可以涉及：

(d)根据每个扩音器的单独的扩音器动态处理配置数据对经渲染的音频信号执行动态处理(例如，根据与对应的扬声器相关联的回放限制阈值来限制所述扬声器馈送，从而生成限制的扬声器馈送)。例如，过程(d)可以由图31中示出的动态处理模块A到M来执行。

扬声器可以包括(或耦接到)一组智能音频设备中的智能音频设备中的至少一个(例如，所有或一些)的扬声器。在一些实施方式中，为了生成步骤(d)中的受限扬声器馈送，在步骤(c)中生成的扬声器馈送可以由动态处理的第二阶段(例如，由每个扬声器的相关联的动态处理系统)处理，例如，以在最终通过扬声器回放之前生成扬声器馈送。例如，可以将扬声器馈送(或其子集或部分)提供给每个不同扬声器的动态处理系统(例如，智能音频设备的动态处理子系统，其中，所述智能音频设备包括或耦接到扬声器中相关的一个扬声器)，并且来自每个所述动态处理系统的经处理的音频输出可以用于为扬声器中相关的一个扬声器生成扬声器馈送。在扬声器特定的动态处理(换句话说，针对每个扬声器独立执行的动态处理)之后，经处理的(例如，被动态限制的)扬声器馈送可以用于驱动扬声器以引起声音的回放。

动态处理的第一阶段(在步骤(b)中)可以被设计为减少空间平衡中的感知上分散的移位，如果省略步骤(a)和(b)，则会导致所述移位，并且由步骤(d)产生的经动态处理的(例如，限制的)扬声器馈送是响应于原始音频(而不是响应于步骤(b)中生成的经处理的音频)而生成的。这可以防止混音的空间平衡中的不期望的移位。在来自步骤(c)的经渲染的扬声器馈送上操作的动态处理的第二阶段可以被设计为确保没有扬声器失真，因为步骤(b)的动态处理可能不一定保证信号水平已降低到低于所有扬声器的阈值。在一些示例中，单独的扩音器动态处理配置数据的组合(例如，第一阶段(步骤(a))中的阈值的组合)可以涉及(例如，包括)跨扬声器(例如，跨智能音频设备)对单独的扩音器动态处理配置数据(例如，限制阈值)求平均、或跨扬声器(例如，跨智能音频设备)获取最小的单独的扩音器动态处理配置数据(例如，限制阈值)的步骤。

在一些实施方式中，当动态处理的第一阶段(在步骤(b)中)对指示空间混音的音频(例如，基于对象的音频节目的音频，包括至少一个对象声道并且任选地还包括至少一个扬声器声道)进行操作时，该第一阶段可以根据用于通过使用空间区进行音频对象处理的技术来实施。在这种情况下，与每个区相关联的组合的单独的扩音器动态处理配置数据(例如，组合的限制阈值)可以通过(或作为)单独的扩音器动态处理配置数据(例如，单独的扬声器限制阈值)的加权平均而得到，并且该加权可以至少部分地由每个扬声器与所述区的空间接近度和/或在所述区内的位置来给出或确定。

在示例实施例中，假设多个M个扬声器(M≥2)，其中，每个扬声器由变量i索引。与每个扬声器i相关联的是一组频率变化的回放限制阈值T_i[f]，其中，变量f表示对指定阈值的一组有限频率的索引。(注意，如果频率集的大小是一，则对应的单个阈值可以被认为是宽频带的，应用于整个频率范围)。这些阈值由每个扬声器在其自己的独立动态处理功能中使用，以将音频信号限制为低于阈值T_i[f]，以用于特定目的，如防止扬声器失真或防止扬声器播放超出其附近被认为令人反感的某个水平。

图32A、图32B和图32C示出了回放限制阈值和对应的频率的示例。例如，示出的频率范围可以跨越普通人类可听到的频率范围(例如，20Hz到20kHz)。在这些示例中，回放限制阈值由图表3200a、3200b和3200c的竖直轴线指示，所述竖直轴线在这些示例中被标记为“水平阈值”。回放限制阈值/水平阈值在竖直轴线上的箭头的方向上增加。例如，回放限制阈值/水平阈值可以以分贝表达。在这些示例中，图表3200a、3200b和3200c的水平轴线指示频率，所述频率在水平轴线上的箭头方向上增加。由曲线3200a、3200b和3200c指示的回放限制阈值可以例如由单独的扩音器的动态处理模块来实施。

图32A的图表3200a示出回放限制阈值作为频率的函数的第一示例。曲线3205a指示每个对应频率值的回放限制阈值。在该示例中，在低音频率f_b处，以输入水平T_i接收的输入音频将由动态处理模块以输出水平T。输出。例如，低音频率f_b可以在60Hz至250Hz的范围内。然而，在该示例中，在高音频率f_t处，以输入水平T_i接收的输入音频将由动态处理模块以相同的水平，输入水平T_i输出。例如，高音频率f_t可以在高于1280Hz的范围内。因此，在该示例中，曲线3205a与对低音频率应用比对高音频率显著更低的阈值的动态处理模块相对应。这种动态处理模块可以适用于不具有低音扬声器的扩音器(例如，图3A的扩音器305d)。

图32B的图表3200b示出回放限制阈值作为频率的函数的第二示例。曲线3205b指示在图32A中示出的相同的低音频率f_b处，以输入水平T_i接收的输入音频将由动态处理模块以更高的输出水平T_o输出。因此，在该示例中，曲线3205b与不对低音频率应用低于曲线3205a的阈值的动态处理模块相对应。这种动态处理模块可以适用于具有至少小的低音扬声器的扩音器(例如，图3A的扩音器305b)。

图32C的图表3200c示出回放限制阈值作为频率的函数的第二示例。曲线3205c(在该示例中为直线)指示在图32A中示出的相同的低音频率f_b处，以输入水平T_i接收的输入音频将由动态处理模块以相同水平输出。因此，在该示例中，曲线3205c与可以适用于能够再现包括低音频率的宽范围频率的扩音器的动态处理模块相对应。将观察到，为了简单起见，动态处理模块可以通过实施对所有指示的频率应用相同阈值的曲线3205d来近似于曲线3205c。

可以使用如质心振幅平移(CMAP)或灵活虚拟化(FV)等已知渲染系统来渲染多个扬声器的空间音频混音。渲染系统从空间音频混音的组成分量生成扬声器馈送，多个扬声器中的每一个扬声器各一个。在一些先前的示例中，扬声器馈送然后由每个扬声器的阈值为T_i[f]的相关联的动态处理功能独立处理。在没有本公开的益处的情况下，该描述的渲染场景可能导致经渲染的空间音频混音的感知空间平衡中的分散移位。例如，M个扬声器中的一个扬声器(比如说，在收听区域的右侧)可能比其他扬声器的能力差得多(例如，在低音范围内渲染音频的能力)，并且因此至少在特定频率范围内，该扬声器的阈值T_i[f]可能显著低于其他扬声器的阈值。在回放期间，该扬声器的动态处理模块将降低空间混音的右侧分量的水平，所述降低显著多于左侧分量的降低。收听者对空间混音的左/右平衡之间的这种动态移位非常敏感，并且可能发现结果是非常分散的。

要处理该问题，在一些示例中，将收听环境的单独扬声器的单独扩音器动态处理配置数据(例如，回放限制阈值)组合起来，以创建针对收听环境的所有扩音器的收听环境动态处理配置数据。然后可以在将所述收听环境动态处理配置数据渲染为扬声器馈送之前，将其用于首先在整个空间音频混音的情境中执行动态处理。因为动态处理的该第一阶段可以访问整个空间混音而不仅仅是一个独立的扬声器馈送，所以可以以不会使混音的感知空间平衡产生分散移位的方式来执行处理。可以以消除或减少由单独扬声器的任何独立动态处理功能执行的动态处理的量的方式组合单独的扩音器动态处理配置数据(例如，回放限制阈值)。

在确定收听环境动态处理配置数据的一个示例中，单独扬声器的单独扩音器动态处理配置数据(例如，回放限制阈值)可以组合成在动态处理的第一阶段应用于空间混音的所有分量的收听环境动态处理配置数据(例如，频变回放限制阈值)的单一集合。根据一些这样的示例，因为针对所有分量的限制都是相同的，所以可以维持混音的空间平衡。组合单独的扩音器动态处理配置数据(例如，回放限制阈值)的一种方式是跨所有扬声器i取最小值：

这种组合基本上消除了每个扬声器的单独动态处理的操作，因为空间混音首先被限制为低于在每个频率上能力最小的扬声器的阈值。然而，这种策略可能过于激进。许多扬声器可能以低于其能力的水平进行回放，并且所有扬声器的组合回放水平可能低得令人反感。例如，如果将图32A中示出的在低音范围内的阈值应用于与图32C的阈值相对应的扩音器，则后一个扬声器的回放水平在低音范围内会不必要地低。确定收听环境动态处理配置数据的替代性组合是跨收听环境的所有扬声器对单独的扩音器动态处理配置数据取平均值(mean)(平均(average))。例如，在回放限制阈值的情境中，平均值可以如下确定：

对于该组合，与取最小值相比，整体回放水平可能会增加，因为动态处理的第一阶段限制到更高的水平，由此允许更有能力的扬声器更大声地回放。对于单独限制阈值降到平均值以下的扬声器，如果需要，则其独立动态处理功能可以仍然限制其相关联的扬声器馈送。然而，动态处理的第一阶段可能会减少对该限制的需求，因为已经对空间混音执行了一些初始限制。

根据确定收听环境动态处理配置数据的一些示例，可以创建可调谐组合，所述组合通过调谐参数α在单独的扩音器动态处理配置数据的最小值与平均值之间进行插值。例如，在回放限制阈值的情境中，插值可以如下确定：

单独的扩音器动态处理配置数据的其他组合是可能的，并且本公开意在涵盖所有这样的组合。

图33A和图33B是示出动态范围压缩数据的示例的图。在图表3300a和3300b中，以分贝为单位的输入信号水平示出在水平轴线上，并且以分贝为单位的输出信号水平示出在竖直轴线上。与其他公开的示例一样，特定阈值、比率和其他值仅以示例的方式示出而非限制性的。

在图33A中所示的示例中，输出信号水平与低于阈值的输入信号水平相等，所述阈值在该示例中为-10dB。其他示例可以涉及不同的阈值，例如，-20dB、-18dB、-16dB、-14dB、-12dB、-8dB、-6dB、-4dB、-2dB、0dB、2dB、4dB、6dB等。在阈值之上示出了压缩比的各种示例。比率N:1意指在高于阈值的情况下，输入信号每增加N dB，则输出信号水平将增加1dB。例如，压缩比10:1(线3305e)意指在高于阈值的情况下，输入信号每增加10dB，则输出信号水平将仅增加1dB。压缩比1:1(线3305a)意指即使高于阈值，输出信号水平仍然等于输入信号水平。线3305b、3305c和3305d与压缩比3:2、2:1和5:1相对应。其他实施方式可以提供不同的压缩比，如2.5:1、3:1、3.5:1、4:3、4:1等。

图33B示出了“拐点”的示例，所述“拐点”控制压缩比在阈值处或阈值附近如何变化，所述阈值在该示例中为0dB。根据该示例，具有“硬”拐点的压缩曲线由两条直线段构成，线段3310a达到阈值，并且线段3310b高于阈值。硬拐点可以更简单地实施，但可能会导致伪影。

在图33B中，还示出了“软”拐点的一个示例。在该示例中，软拐点跨越10dB。根据该实施方式，在10dB跨度之上和之下，具有软拐点的压缩曲线的压缩比与具有硬拐点的压缩曲线的压缩比相同。其他实施方式可以提供各种其他形状的“软”拐点，其可以跨越更多或更少分贝、可以指示跨度之上的不同压缩比等。

其他类型的动态范围压缩数据可以包括“攻击”数据和“释放”数据。攻击是压缩器例如响应于在输入处增加的水平而减少增益以达到由压缩比确定的增益的时间段。压缩器的攻击时间通常在25毫秒与500毫秒之间，但其他攻击时间也是可行的。释放是压缩器例如响应于在输入处减少的水平而增加增益以达到由压缩比确定的输出增益(或达到输入水平，如果输入水平已经降到阈值以下)的时间段。例如，释放时间可以在25毫秒至2秒的范围内。

因此，在一些示例中，对于多个扩音器中的每个扩音器，单独的扩音器动态处理配置数据可以包括动态范围压缩数据集。动态范围压缩数据集可以包括阈值数据、输入/输出比率数据、攻击数据、释放数据和/或拐点数据。这些类型的单独的扩音器动态处理配置数据中的一种或多种类型可以被组合以确定收听环境动态处理配置数据。如上所述，参考组合回放限制阈值，在一些示例中，可以对动态范围压缩数据求平均以确定收听环境动态处理配置数据。在一些实例中，动态范围压缩数据的最小值或最大值可以用于确定收听环境动态处理配置数据(例如，最大压缩比)。在其他实施方式中，可以创建例如经由如上文参考等式(32)描述的调谐参数在针对单独的扩音器动态处理的动态范围压缩数据的最小值与平均值之间进行插值的可调谐组合。

在上文描述的一些示例中，在动态处理的第一阶段，将收听环境动态处理配置数据的单一集合(例如，组合阈值的单一集合)应用于空间混音的所有分量。这样的实施方式可以维持混音的空间平衡，但可能会产生其他不想要的伪影。例如，当隔离的空间区域中的空间混音的非常响亮的部分使整个混音被调低时，可能会发生“空间躲避”。在空间上远离该响亮分量的混音的其他较柔和的分量可能会被感知为变得不自然地柔和。例如，柔和的背景音乐可以在空间混音的环绕场中以低于组合阈值/>的水平播放，并且因此动态处理的第一阶段不会对空间混音执行限制。然后，可能会在空间混音的前面(例如，针对电影声轨在屏幕上)短暂地引入响亮的枪声，并且混音的整体水平增加到高于组合阈值。此时，动态处理的第一阶段将整个混音的水平降低到阈值/>以下。因为音乐在空间上与枪声是分开的，这可能被感知为在连续的音乐流中不自然的躲避。

为了处理这些问题，一些实施方式允许对空间混音的不同“空间区”进行独立的或部分独立的动态处理。空间区可以被认为是在其上渲染整个空间混音的空间区域的子集。尽管以下讨论的大部分提供了基于回放限制阈值的动态处理的示例，但这些概念同样适用于其他类型的单独扩音器动态处理配置数据和收听环境动态处理配置数据。

图34示出了收听环境的空间区的示例。图34描绘了空间混音区域(由整个正方形表示)的示例，细分为三个空间区：前、中央和环绕。

虽然图34中的空间区被描绘成具有硬边界，但实际上，将一个空间区到另一个空间区的过渡视为连续是有益的。例如，位于正方形左边缘中间的空间混音分量可以将其水平的一半分配给前区，并且一半分配给环绕区。可以以该连续方式将来自空间混音的每个分量的信号水平分配和累积到每个空间区中。然后，动态处理功能可以在从混音分配给它的整体信号水平上针对每个空间区独立操作。对于空间混音的每个分量，来自每个空间区的动态处理的结果(例如，每个频率的时变增益)然后可以组合并且应用于所述分量。在一些示例中，空间区结果的该组合对于每个分量都是不同的，并且是该特定分量到每个区的分配的函数。最终结果是具有类似空间区分配的空间混音的分量接收类似的动态处理，但允许空间区之间的独立性。可以有利地选择空间区以防止令人反感的空间移位，如左/右不平衡，同时仍然允许一些空间独立处理(例如，以减少如所描述的空间躲避等其他伪影)。

在本公开的动态处理的第一阶段中可以有利地采用用于按空间区处理空间混音的技术。例如，可以针对每个空间区计算跨扬声器i的单独的扩音器动态处理配置数据(例如，回放限制阈值)的不同组合。组合的区阈值的集合可以由表示，其中，索引j是指多个空间区之一。动态处理模块可以在具有相关联的阈值/>的每个空间区上独立操作，并且根据上文描述的技术，可以将结果应用回空间混音的组成分量上。

考虑经渲染的空间信号由总共K个单独组成信号x_k[t]构成，每个所述组成信号都具有相关联的期望空间位置(可能是时变的)。用于实施区处理的一种特定方法涉及根据音频信号相对于区j的位置的期望空间位置计算描述每个音频信号x_k[t]对所述区j的贡献程度的时变平移增益α_kj[t]。这些平移增益可以有利地被设计为遵循要求增益的平方和等于一的功率保持平移定律。根据这些平移增益，区信号s_j[t]可以计算为由该区的所述区信号的平移增益加权的组成信号的总和：

然后，每个区信号s_j[t]可以通过由区阈值参数化的动态处理功能DP独立处理，以产生频率和时间变化的区修正增益G_j：

然后可以通过将区修正增益与单独组成信号x_k[t]的用于区的平移增益成比例地组合来针对每个所述单独组成信号计算频变和时变修正增益：

这些信号修正增益G_k然后可以通过例如使用滤波器组被应用到每个组成信号，以产生然后可以随后渲染为扬声器信号的经动态处理的组成信号

可以以各种方式执行每个空间区的单独扩音器动态处理配置数据(如扬声器回放限制阈值)的组合。作为一个示例，可以使用空间区和扬声器依赖性权重w_ij[f]将空间区回放限制阈值计算为扬声器回放限制阈值T_i[f]的加权和：

类似的加权函数可以应用于其他类型的单独的扩音器动态处理配置数据。有利地，空间区的组合的单独扩音器动态处理配置数据(例如，回放限制阈值)可以偏向主要负责回放与该空间区相关联的空间混音的分量的扬声器的单独扩音器动态处理配置数据(例如，回放限制阈值)。这可以通过根据每个扬声器对渲染用于频率f的与该区相关联的空间混音的分量的责任来设置权重w_ij[f]而实现。

图35示出了图34的空间区内的扩音器的示例。图35描绘了与图34相同的区，但具有负责渲染叠加的空间混音的五个示例扩音器(扬声器1、2、3、4和5)的位置。在该示例中，扩音器1、2、3、4和5由菱形表示。在该特定示例中，扬声器1主要负责渲染中央区，扬声器2和5负责前区，并且扬声器3和4负责环绕区。可以基于扬声器到空间区的该概念上的一对一映射来创建权重w_ij[f]，但是与空间混音的基于空间区的处理一样，更连续的映射可以是优选的。例如，扬声器4非常接近前区，并且位于扬声器4与5之间的音频混音的分量(尽管在概念上的前区中)将可能主要由扬声器4和5的组合来回放。如此，扬声器4的单独扬声器动态处理配置数据(例如，回放限制阈值)有助于前区和环绕区的组合的单独扩音器动态处理配置数据(例如，回放限制阈值)是有道理的。

实现该连续映射的一种方式是将权重w_ij[f]设置为等于描述每个扬声器i在渲染与空间区j相关联的分量中的相对贡献的扬声器参与值。这样的值可以直接从负责向扬声器(例如，来自上文描述的步骤(c))和与每个空间区相关联的一个或多个标称空间位置的集合渲染的渲染系统得到。该标称空间位置集合可以包括在每个空间区内的位置集合。

图36示出了覆盖在图35的空间区和扬声器上的标称空间位置的示例。标称位置由编号的圆圈指示：与前区相关联的是位于正方形顶角处的两个位置，与中央区相关联的是在正方形顶部中间处的单一位置，并且与环绕区相关联的是在正方形底角处的两个位置。

为了计算空间区的扬声器参与值，可以通过渲染器渲染与所述区相关联的每个标称位置以生成与该位置相关联的扬声器激活。例如，在CMAP的情况下，这些激活可以是每个扬声器的增益，或者在FV的情况下，可以是每个扬声器在给定频率下的复值。接下来，对于每个扬声器和区，这些激活可以跨与空间区相关联的每个标称位置来累积，以产生值g_ij[f]。该值表示用于渲染与空间区j相关联的整个标称位置集合的扬声器i的总激活。最后，空间区中的扬声器参与值可以计算为由所有这些累积的跨扬声器激活的总和归一化的累积激活g_ij[f]。然后可以将权重设置为该扬声器参与值：

所描述的归一化确保跨所有扬声器i的w_ij[f]之和等于一，这是等式36中权重的理想性质。

根据一些实施方式，上文描述的用于计算扬声器参与值并且根据这些值来组合阈值的过程可以作为静态过程来执行，其中，在确定环境中扬声器的布局和能力的设置程序期间，所得组合阈值被计算一次。在这样的系统中，可以假定一旦设置，单独的扩音器的动态处理配置数据和渲染算法根据期望的音频信号位置激活扩音器的方式两者都保持静态。然而，在某些系统中，这两个方面都可能随着时间的推移例如响应于回放环境中变化的条件而变化，并且如此，可能期望根据上文描述的过程以连续或事件触发的方式更新组合阈值以考虑这样的变化。

CMAP渲染算法和FV渲染算法两者都可以增强以适配响应于收听环境中的变化的一个或多个动态可配置功能。例如，关于图35，位于扬声器3附近的人可以说出与扬声器相关联的智能助理的唤醒词，由此将系统置于准备好收听来自所述人的后续命令的状态中。当唤醒词被说出时，系统可以使用与扩音器相关联的麦克风来确定人的位置。有了该信息，系统然后可以选择将正在回放的音频的能量从扬声器3转移到其他扬声器中，使得扬声器3上的麦克风可以更好地听到人。在这样的场景中，图35中的扬声器2可以在一段时间内基本上“接管”扬声器3的责任，并且因此环绕区的扬声器参与值显著地变化；扬声器3的参与值减少并且扬声器2的参与值增加。然后可以重新计算区阈值，因为其取决于已经变化的扬声器参与值。替代性地或除了渲染算法的这些变化之外，扬声器3的限制阈值可以降低到其标称值以下，设置为防止扬声器失真。这可以确保从扬声器3播放的任何剩余音频不会增加超过某个阈值，该阈值被确定为对收听人的麦克风造成干扰。由于区阈值也是单独的扬声器阈值的函数，因此在这种情况下也可以对其进行更新。

图37是概述了可以由如本文中公开的那些装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法3700的框。在一些实施方式中，方法3700的一个或多个框可以同时执行。此外，方法3700的一些实施方式可以包括比所示出和/或所描述的框更多或更少的框。方法3700的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图1A中示出的和上文描述的控制系统110，或者其他公开的控制系统示例之一。

根据该示例，框3705涉及由控制系统并且经由接口系统获得收听环境的多个扩音器中的每一个扩音器的单独的扩音器动态处理配置数据。在该实施方式中，单独的扩音器动态处理配置数据包括多个扩音器中的每个扩音器的单独的扩音器动态处理配置数据集。根据一些示例，一个或多个扩音器的单独的扩音器动态处理配置数据可以与一个或多个扩音器的一种或多种能力相对应。在该示例中，每个单独的扩音器动态处理配置数据集包括至少一种类型的动态处理配置数据。

在一些实例中，框3705可以涉及从收听环境的多个扩音器中的每一个获得单独的扩音器动态处理配置数据集。在其他示例中，框3705可以涉及从存储在存储器中的数据结构获得单独的扩音器动态处理配置数据集。例如，单独的扩音器动态处理配置数据集可以先前已经例如作为每个扩音器的设置程序的一部分而获得并且存储在数据结构中。

根据一些示例，单独的扩音器动态处理配置数据集可以是专有的。在一些这样的示例中，基于具有类似特性的扬声器的单独的扩音器动态处理配置数据，单独的扩音器动态处理配置数据集可以先前已经被估计。例如，框3705可以涉及从指示多个扬声器的数据结构和多个扬声器中的每一个的对应的单独扩音器动态处理配置数据集确定最类似的扬声器的扬声器匹配过程。扬声器匹配过程可以基于例如一个或多个低音扬声器、高音扬声器和/或中音扬声器的大小的比较。

在该示例中，框3710涉及由控制系统确定多个扩音器的收听环境动态处理配置数据。根据该实施方式，确定收听环境动态处理配置数据是基于针对多个扩音器中的每一个扩音器的单独的扩音器动态处理配置数据集。确定收听环境动态处理配置数据可以涉及例如，通过对一种或多种类型的单独扩音器动态处理配置数据求平均来组合动态处理配置数据集的单独的扩音器动态处理配置数据。在一些实例中，确定收听环境动态处理配置数据可以涉及确定一种或多种类型的单独的扩音器动态处理配置数据的最小值或最大值。根据一些这样的实施方式，确定收听环境动态处理配置数据可以涉及在一种或多种类型的单独的扩音器动态处理配置数据的最小值或最大值与平均值之间进行插值。

在该实施方式中，框3715涉及由控制系统并且经由接口系统接收包括一个或多个音频信号和相关联的空间数据的音频数据。例如，空间数据可以指示与音频信号相对应的预期感知空间位置。在该示例中，空间数据包括声道数据和/或空间元数据。

在该示例中，框3720涉及由控制系统基于收听环境动态处理配置数据对音频数据进行动态处理，以生成经处理的音频数据。框3720的动态处理可以涉及本文中所公开的任何公开的动态处理方法，包括但不限于应用一个或多个回放限制阈值、压缩数据等。

此处，框3725涉及由控制系统渲染经处理的音频数据以经由包括多个扩音器中的至少一些扩音器的一组扩音器再现，从而产生经渲染的音频信号。在一些示例中，框3725可以涉及应用CMAP渲染过程、FV渲染过程或所述两者的组合。在该示例中，框3720在框3725之前执行。然而，如上所述，框3720和/或框3710可以至少部分地基于框3725的渲染过程。框3720和3725可以涉及执行如上文参考图31的收听环境动态处理模块和渲染模块3120所描述的过程。

根据该示例，框3730涉及经由接口系统将经渲染的音频信号提供给一组扩音器。在一个示例中，框3730可以涉及由智能家居中枢3105并且经由其接口系统将经渲染的音频信号提供给扩音器3125a到3125m。

在一些示例中，方法3700可以涉及根据经渲染的音频信号被提供到的一组扩音器中的每一个扩音器的单独的扩音器动态处理配置数据对经渲染的音频信号执行动态处理。例如，再次参考图31，动态处理模块A到M可以根据扩音器3125a到3125m的单独的扩音器动态处理配置数据对经渲染的音频信号执行动态处理。

在一些实施方式中，单独的扩音器动态处理配置数据可以包括针对多个扩音器中的每一个扩音器的回放限制阈值数据集。在一些这样的示例中，回放限制阈值数据集可以包括用于多个频率中的每一个频率的回放限制阈值。

在一些实例中，确定收听环境动态处理配置数据可以涉及确定跨多个扩音器的最小回放限制阈值。在一些示例中，确定收听环境动态处理配置数据可以涉及对回放限制阈值求平均以获得跨多个扩音器的平均回放限制阈值。在一些这样的示例中，确定收听环境动态处理配置数据可以涉及确定跨多个扩音器的最小回放限制阈值，以及在最小回放限制阈值与平均回放限制阈值之间进行插值。

根据一些实施方式，对回放限制阈值求平均可以涉及确定回放限制阈值的加权平均值。在一些这样的示例中，加权平均值可以至少部分地基于由控制系统实施的渲染过程的特性，例如，框3725的渲染过程的特性。

在一些实施方式中，对音频数据执行动态处理可以基于空间区。每个空间区可以与收听环境的子集相对应。

根据一些这样的实施方式，可以针对每个空间区单独执行动态处理。例如，可以针对每个空间区单独执行确定收听环境动态处理配置数据。例如，可以针对一个或多个空间区中的每一个单独执行跨多个扩音器组合动态处理配置数据集。在一些示例中，针对一个或多个空间区中的每一个单独进行跨多个扩音器组合动态处理配置数据集可以至少部分地基于通过根据跨一个或多个空间区的期望音频信号位置的渲染过程激活扩音器。

在一些示例中，针对一个或多个空间区中的每一个单独进行跨多个扩音器来组合动态处理配置数据集可以至少部分地基于一个或多个空间区中的每一个中的每个扩音器的扩音器参与值。每个扩音器参与值可以至少部分地基于一个或多个空间区中的每一个内的一个或多个标称空间位置。在一些示例中，标称空间位置可以与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。在一些这样的实施方式中，每个扩音器参与值至少部分地基于与在一个或多个空间区中的每一个内的一个或多个标称空间位置中的每一个处渲染音频数据相对应的每个扩音器的激活。

根据一些这样的示例，回放限制阈值的加权平均值可以至少部分地基于根据接近空间区的音频信号通过渲染过程激活扩音器。在一些实例中，加权平均值可以至少部分地基于每个空间区中的每个扩音器的扩音器参与值。在一些这样的示例中，每个扩音器参与值可以至少部分地基于每个空间区内的一个或多个标称空间位置。例如，标称空间位置可以与杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4或杜比9.1环绕声混音中的声道的规范位置相对应。在一些实施方式中，每个扩音器参与值可以至少部分地基于与在每个空间区内的一个或多个标称空间位置中的每一个处渲染音频数据相对应的每个扩音器的激活。

根据一些实施方式，渲染经处理的音频数据可以涉及根据一个或多个动态可配置功能来确定一组扩音器的相对激活。下文参考图10等描述了一些示例。一个或多个动态可配置功能可以基于音频信号的一个或多个属性、一组扩音器的一个或多个属性、或一个或多个外部输入。例如，一个或多个动态可配置功能可以基于：扩音器与一个或多个收听者的接近度；扩音器与吸引力位置的接近度，其中，吸引力是有利于更接近吸引力位置的相对更高的扩音器激活的因素；扩音器与推斥力位置的接近度，其中，推斥力是有利于更接近推斥力位置的相对更低的扩音器激活的因素；每个扩音器相对于环境中其他扩音器的能力；扩音器关于其他扩音器的同步；唤醒词性能；或回声消除器性能。

在一些示例中，扬声器的相对激活可以基于以下各项的成本函数：当在扬声器上回放时音频信号的感知空间位置的模型、音频信号的预期感知空间位置与扬声器位置的接近度的度量以及一个或多个动态可配置功能。

在一些示例中，成本函数的最小化(包括至少一个动态扬声器激活项)可以导致至少一个扬声器的去激活(在每个这种扬声器不播放相关音频内容的意义上)和至少一个扬声器的激活(在每个这种扬声器播放至少一些经渲染的音频内容的意义上)。(多个)动态扬声器激活项可以启用各种行为中的至少一种，包括将音频的空间呈现扭曲而远离特定智能音频设备，使得所述特定智能音频设备的麦克风可以更好地听到说话者或者使得可以更好地从智能音频设备的(多个)扬声器听到次要音频流。

根据一些实施方式，对于多个扩音器中的每个扩音器，单独的扩音器动态处理配置数据可以包括动态范围压缩数据集。在一些实例中，动态范围压缩数据集可以包括阈值数据、输入/输出比数据、攻击数据、释放数据、或拐点数据中的一项或多项。

如上所述，在一些实施方式中，可以省略图37中所示的方法3700的至少一些框。例如，在一些实施方式中，框3705和3710在设置过程期间执行。在确定收听环境动态处理配置数据之后，在一些实施方式中，在“运行时间”操作期间不再次执行步骤3705和3710，除非收听环境的扬声器的类型和/或布置变化。例如，在一些实施方式中，可以进行初始检查以确定是否已经添加或断开任何扩音器，是否有任何扩音器位置发生了变化等。如果是，则可以实施步骤3705和3710。如果不是，则在“运行时间”操作之前不再次执行步骤3705和3710，所述“运行时间”操作可以涉及框3715-3730。

图38A、图38B和图38C示出了与图2C和图2D的示例相对应的扩音器参与值的示例。在图38A、图38B和图38C中，角度-4.1与图2D的扬声器位置272相对应，角度4.1与图2D的扬声器位置274相对应，角度-87与图2D的扬声器位置267相对应，角度63.6与图2D的扬声器位置275相对应，并且角度165.4与图2D的扬声器位置270相对应。这些扩音器参与值是与参考图34至图37所描述的空间区相关的权重的示例。根据这些示例，图38A、图38B和图38C中所示的扩音器参与值与图34中所示的每个空间区中的每个扩音器的参与相对应：图38A中所示的扩音器参与值与中央区中的每个扩音器的参与相对应，图38B中所示的扩音器参与值与前左区和前右区中的每个扩音器的参与相对应，并且图38C中所示的扩音器参与值与后区中的每个扩音器的参与相对应。

图39A、图39B和图39C示出了与图2F和图2G的示例相对应的扩音器参与值的示例。在图39A、图39B和图39C中，角度-4.1与图2D的扬声器位置272相对应，角度4.1与图2D的扬声器位置274相对应，角度-87与图2D的扬声器位置267相对应，角度63.6与图2D的扬声器位置275相对应，并且角度165.4与图2D的扬声器位置270相对应。根据这些示例，图39A、图39B和图39C中所示的扩音器参与值与图34中所示的每个空间区中的每个扩音器的参与相对应：图39A中所示的扩音器参与值与中央区中的每个扩音器的参与相对应，图39B中所示的扩音器参与值与前左区和前右区中的每个扩音器的参与相对应，并且图39C中所示的扩音器参与值与后区中的每个扩音器的参与相对应。

图40A、图40B和图40C示出了与图2H和图2I的示例相对应的扩音器参与值的示例。根据这些示例，图40A、图40B和图40C中所示的扩音器参与值与图34中所示的每个空间区中的每个扩音器的参与相对应：图40A中所示的扩音器参与值与中央区中的每个扩音器的参与相对应，图40B中所示的扩音器参与值与前左区和前右区中的每个扩音器的参与相对应，并且图40C中所示的扩音器参与值与后区中的每个扩音器的参与相对应。

图41A、图41B和图41C示出了与图2J和图2K的示例相对应的扩音器参与值的示例。根据这些示例，图41A、图41B和图41C中所示的扩音器参与值与图34中所示的每个空间区中的每个扩音器的参与相对应：图41A中所示的扩音器参与值与中央区中的每个扩音器的参与相对应，图41B中所示的扩音器参与值与前左区和前右区中的每个扩音器的参与相对应，并且图41C中所示的扩音器参与值与后区中的每个扩音器的参与相对应。

图42是环境的图，所述环境在该示例中为生活空间。根据该示例，生活空间包括用于音频交互的一组智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)和可控灯(1.2)。在示例中，仅设备1.1包含麦克风，并且因此感知发出唤醒词命令的用户(1.4)在何处。使用各种方法，可以从这些设备中共同获得信息以提供发出(例如，说出)唤醒词的用户的位置估计(例如，细粒度位置估计)。

在这种生活空间中，有一组自然活动区，人将在其中执行任务或活动，或跨越阈值。这些动作区域(区)是可以用以估计用户的位置(例如，确定不确定的位置)或情境以协助接口的其他方面的地方。在图1示例中，关键动作区域是：

1.厨房水槽和食物制备区域(在生活空间的左上方区域中)；

2.冰箱门(在水槽和食物制备区域的右边)；

3.餐饮区域(在生活空间的左下方区域中)；

4.生活空间的开放区域(水槽和食物制备区域和餐饮区域的右边)；

5.TV沙发(在开放区域的右边)；

6.TV本身；

7.桌子；以及

8.门区域或入户通道(在生活空间的右上方区域中)。

很明显，通常存在具有类似定位以适应动作区域的类似数量的灯。一些或所有灯可以是单独可控的联网代理。

根据一些实施例，渲染音频(例如，由设备1.1之一或图42的系统的另一个设备)以由扬声器1.3中的一个或多个(和/或一个或多个设备1.1的(多个)扬声器)回放(根据本发明方法的任何实施例)。

一类实施例是用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如，所有或一些)进行回放和/或音频回放的方法。例如，用户的家庭中(的系统中)存在的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染音频以供智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放。考虑了与系统的许多交互，所述交互需要对渲染和/或回放进行动态修正。这种修正可以但不一定专注于空间保真度。

一些实施例通过协调的(编排的)多个智能音频设备的(多个)扬声器实施渲染用于回放的渲染和/或回放。其他实施例通过另一组扬声器的(多个)扬声器实施渲染以供回放和/或实施回放。

一些实施例(例如，渲染系统或渲染器、或渲染方法、或回放系统或方法)涉及用于由一组扬声器中的一些或所有扬声器(即，每个激活的扬声器)渲染音频以供回放和/或回放的系统和方法。在一些实施例中，扬声器是一组协调的(编排的)智能音频设备的扬声器。

许多实施例在技术上是可能的。对于本领域普通技术人员而言，从本公开中将显而易见是如何实施它们。本文描述了一些实施例。

本公开的一些方面包括一种被配置(例如，被编程)成执行所公开方法的一个或多个示例的系统或设备，以及一种存储用于实施所公开方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，磁盘)。例如，一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据进行多种操作中的任何一种，包括所公开方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。

一些实施例可以被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，所述DSP被配置(例如，被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理，包括对所公开方法的一个或多个示例的执行。替代性地，所公开系统(或其元件)的实施例可以被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器被用软件或固件编程和/或以其他方式被配置成执行包括所公开方法的一个或多个示例的各种操作中的任何一种。替代性地，本发明系统的一些实施例的元件被实施为被配置(例如，被编程)成执行所公开方法的一个或多个示例的通用处理器或DSP，并且所述系统还包括其他元件(例如，一个或多个扩音器和/或一个或多个麦克风)。被配置成执行所公开方法的一个或多个示例的通用处理器可以耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，所述计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如，可被执行以执行)所公开方法或其步骤的一个或多个示例的编解码器)。

将从以下枚举的示例实施例(EEE)中理解各种特征和方面：

EEE1.一种用于渲染音频以由一组智能音频设备中的智能音频设备中的至少一个的至少两个扬声器进行回放的方法，其中，所述音频是各自具有相关联的期望感知空间位置的一个或多个音频信号，其中，所述一组扬声器中的扬声器的相对激活是以下各项的函数：在所述扬声器上回放的所述音频信号的感知空间位置的模型、所述音频信号的期望感知空间位置与所述扬声器位置的接近度、以及取决于所述音频信号的至少一个或多个属性、所述一组扬声器的一个或多个属性、或一个或多个外部输入的一个或多个附加动态可配置功能。

EEE2.如权利要求EEE1所述的方法，其中，所述附加动态可配置功能包括以下各项中的至少一项：扬声器与一个或多个收听者的接近度；扬声器与吸引力或推斥力的接近度；所述扬声器关于某个位置的可听度；所述扬声器的能力；所述扬声器关于其他扬声器的同步；唤醒词性能；或回声消除器性能。

EEE3.如权利要求EEE1或EEE2所述的方法，其中，所述渲染包括成本函数的最小化，其中，所述成本函数包括至少一个动态扬声器激活项。

EEE4.一种用于渲染音频以由一组扬声器中的至少两个扬声器进行回放的方法，其中，所述音频是各自具有相关联的期望感知空间位置的一个或多个音频信号，其中，所述一组扬声器中的扬声器的相对激活是以下各项的函数：在所述扬声器上回放的所述音频信号的感知空间位置的模型、所述音频信号的期望感知空间位置与所述扬声器位置的接近度、以及取决于所述音频信号的至少一个或多个属性、所述一组扬声器的一个或多个属性、或一个或多个外部输入的一个或多个附加动态可配置功能。

EEE5.如权利要求EEE4所述的方法，其中，所述附加动态可配置功能包括以下各项中的至少一项：扬声器与一个或多个收听者的接近度；扬声器与吸引力或推斥力的接近度；所述扬声器关于某个位置的可听度；所述扬声器的能力；所述扬声器关于其他扬声器的同步；唤醒词性能；或回声消除器性能。

EEE6.如权利要求EEE4或EEE5所述的方法，其中，所述渲染包括成本函数的最小化，其中，所述成本函数包括至少一个动态扬声器激活项。

EEE7.一种音频渲染方法，包括：

在一组的两个或更多个扩音器上渲染各自具有相关联的期望感知空间位置的一个或多个音频信号的集合，其中，所述一组扩音器的相对激活是以下各项的函数：在所述扩音器上回放的所述音频信号的感知空间位置的模型、所述音频对象的期望感知空间位置与所述扩音器位置的接近度、以及取决于所述音频信号集合的至少一个或多个属性、所述一组扩音器的一个或多个属性、或一个或多个外部输入的一个或多个附加动态可配置功能。

EEE1A.一种音频处理方法，包括：

接收第一音频节目流，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据或空间元数据中的至少一项；

渲染所述第一音频信号以经由所述环境的扬声器再现，从而产生第一经渲染的音频信号；

接收第二音频节目流，所述第二音频节目流包括被安排由所述环境的至少一个扬声器再现的第二音频信号；

渲染所述第二音频信号以经由所述环境的至少一个扬声器再现，从而产生第二经渲染的音频信号；

至少部分地基于所述第二音频信号、所述第二经渲染的音频信号或其特性中的至少一项来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号；

至少部分地基于所述第一音频信号、所述第一经渲染的音频信号或其特性中的至少一项来修正针对所述第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号；

混合所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号以产生经混合的音频信号；以及

将所述经混合的音频信号提供给所述环境的至少一些扬声器。

EEE2A.如权利要求EEE1A所述的方法，其中，修正针对所述第一音频信号的渲染过程涉及执行以下操作中的一项或多项：

将对第一音频信号的所述渲染扭曲而远离所述第二经渲染的音频信号的渲染位置，或

响应于所述第二音频信号或所述第二经渲染的音频信号中的一个或多个的响度而修正所述第一经渲染的音频信号中的一个或多个的响度。

EEE3A.如权利要求EEE1A或权利要求EEE2A所述的方法，进一步包括：

从第一麦克风接收第一麦克风信号；以及

至少部分地基于所述第一麦克风信号来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。

EEE4A.如权利要求EEE3A所述的方法，进一步包括：

基于所述第一麦克风信号来估计第一声源位置；以及

至少部分地基于所述第一声源位置来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。

EEE5A.如权利要求EEE3A或权利要求EEE4A所述的方法，进一步包括：

确定所述第一麦克风信号是否与人类语音相对应；以及

至少部分地基于所述第一麦克风信号是否与人类语音相对应来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。

EEE6A.如权利要求EEE3A至EEE5A中任一项所述的方法，进一步包括：

确定所述第一麦克风信号是否与环境噪声相对应；以及

至少部分地基于所述第一麦克风信号是否与环境噪声相对应来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。

EEE7A.如权利要求EEE3A至EEE6A中任一项所述的方法，进一步包括至少部分地基于所述第一麦克风信号得到经再现的第一音频节目流或经再现的第二音频节目流的响度估计。

EEE8A.如权利要求EEE7A所述的方法，进一步包括至少部分地基于所述响度估计来修正针对所述第一音频信号或所述第二音频信号中的至少一项的渲染过程。

EEE9A.如权利要求EEE8A所述的方法，其中，所述响度估计是感知响度估计，并且其中，修正所述渲染过程涉及改变所述第一音频信号或所述第二音频信号中的至少一项以便在存在干扰信号的情况下保持其感知响度。

EEE10A.如权利要求EEE4A所述的方法，进一步包括：

确定所述第一麦克风信号与人类语音相对应；以及

在所述环境的与所述第一声源位置不同的位置附近的一个或多个扬声器中再现所述第一麦克风信号。

EEE11A.如权利要求EEE10A所述的方法，进一步包括确定所述第一麦克风信号与儿童的哭声相对应，其中，所述环境的位置与看护者的估计位置相对应。

EEE12A.如权利要求EEE10A所述的方法，其中，修正针对所述第一音频信号的渲染过程涉及降低在所述环境位置附近的一个或多个扬声器中的所述经修正的第一经渲染的音频信号的响度。

EEE13A.如权利要求EEE1A至EEE10A中任一项所述的方法，其中，渲染所述第一音频信号或渲染所述第二音频信号中的至少一项涉及灵活渲染到任意定位的扬声器。

EEE14A.如权利要求EEE13A所述的方法，其中，所述灵活渲染涉及质心振幅平移或灵活虚拟化。

EEE1B.一种控制环境中的扬声器的方法，所述方法包括：

接收第一音频节目流，所述第一音频节目流包括被安排由所述环境的至少一些扬声器再现的第一音频信号，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据或空间元数据中的至少一项；

渲染所述第一音频信号以经由所述环境的扬声器同时再现，从而产生第一经渲染的音频信号；

从第一麦克风接收第一麦克风信号；

基于所述第一麦克风信号来估计第一声源位置；

至少部分地基于所述第一麦克风信号来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号，其中，修正针对所述第一音频信号的渲染过程涉及执行以下操作中的一项或多项：

基于所述第一麦克风信号，将对第一音频信号的所述渲染扭曲而远离所述第一声源位置，或

至少部分地基于所述第一声源位置来修正所述第一经渲染的音频信号的响度；以及

将所述经修正的第一经渲染的音频信号提供给所述环境的至少一些扬声器。

EEE2B.如权利要求EEE1B所述的方法，进一步包括确定所述第一麦克风信号与环境噪声相对应，其中，修正针对所述第一音频信号的渲染过程涉及与由远离所述第一声源位置的扬声器再现的所述第一经渲染的音频信号的响度相比，增大由所述第一声源位置附近的扬声器再现的所述第一经渲染的音频信号的响度。

EEE3B.如权利要求EEE1B所述的方法，进一步包括确定所述第一麦克风信号与人类语音相对应，其中，修正针对所述第一音频信号的渲染过程涉及与由远离所述第一声源位置的扬声器再现的所述第一经渲染的音频信号的响度相比，减小由所述第一声源位置附近的扬声器再现的所述第一经渲染的音频信号的响度。

EEE4B.如权利要求EEE3B所述的方法，进一步包括：

确定所述第一麦克风信号与唤醒词相对应；

确定对所述唤醒词的回复；以及

控制所述第一声源位置附近的至少一个扬声器以再现所述回复。

EEE5B.如权利要求EEE3B所述的方法，进一步包括：

确定所述第一麦克风信号与命令相对应；

确定对所述命令的回复；

控制所述第一声源位置附近的至少一个扬声器以再现所述回复；以及

执行所述命令。

EEE6B.如权利要求EEE5B所述的方法，进一步包括在控制所述第一声源位置附近的至少一个扬声器以再现所述回复之后，恢复到针对所述第一音频信号的未修正的渲染过程。

EEE7B.如权利要求EEE1B所述的方法，进一步包括：

确定所述第一麦克风信号与人类语音相对应；以及

在所述环境的位置附近的一个或多个扬声器中再现所述第一麦克风信号。

EEE8B.如权利要求EEE7B所述的方法，进一步包括确定所述第一麦克风信号与儿童的哭声相对应，其中，所述环境的位置与看护者的估计位置相对应。

EEE9B.如权利要求EEE7B所述的方法，其中，修正针对所述第一音频信号的渲染过程涉及减小所述第二位置附近的一个或多个扬声器中的所述经修正的第一经渲染的音频信号的响度。

虽然在本文中已经描述了本公开的具体实施例和本公开的应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离在本文中描述的并要求保护的本公开的范围的情况下，可以对本文所述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了本公开的某些形式，但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种音频处理系统，包括：

接口系统；

控制系统，所述控制系统包括：

第一渲染模块，所述第一渲染模块被配置用于：

经由所述接口系统接收第一音频节目流，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据或空间元数据中的至少一项；以及

渲染所述第一音频信号以经由所述环境的所述扬声器再现，从而产生第一经渲染的音频信号；

第二渲染模块，所述第二渲染模块被配置用于：

经由所述接口系统接收第二音频节目流，所述第二音频节目流包括被安排由所述环境的至少一个扬声器再现的第二音频信号；以及

其中，所述第一渲染模块进一步被配置用于至少部分地基于所述第二音频信号、所述第二经渲染的音频信号、或者所述第二音频信号或所述第二经渲染的音频信号的特性中的至少一项来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号，其中，所述修正针对所述第一音频信号的所述渲染过程涉及：修正针对所述第一音频信号的所述渲染，以使得所述第一音频信号的空间呈现扭曲而远离所述第二经渲染的音频信号的渲染位置；并且

其中，所述第二渲染模块进一步被配置用于至少部分地基于所述第一音频信号、所述第一经渲染的音频信号、或者所述第一音频信号或所述第一经渲染的音频信号的特性中的至少一项来修正针对所述第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号；以及

混合模块，所述混合模块被配置用于混合所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号以产生经混合的音频信号，

其中，所述控制系统进一步被配置用于将所述经混合的音频信号提供给所述环境的至少一些扬声器。

2.如权利要求1所述的音频处理系统，进一步包括：

一个或多个附加渲染模块，所述一个或多个附加渲染模块中的每一个被配置用于：

经由所述接口系统接收附加音频节目流，所述附加音频节目流包括被安排由所述环境的至少一个扬声器再现的附加音频信号；

渲染所述附加音频信号以经由所述环境的至少一个扬声器再现，从而产生附加经渲染的音频信号；以及

至少部分地基于所述第一音频信号、所述第一经渲染的音频信号、所述第二音频信号、所述第二经渲染的音频信号、或者所述第一音频信号、所述第一经渲染的音频信号、所述第二音频信号或所述第二经渲染的音频信号的特性中的至少一项来修正针对所述附加音频信号的渲染过程，以产生经修正的附加经渲染的音频信号；

其中，所述混合模块进一步被配置用于将所述经修正的附加经渲染的音频信号至少与所述经修正的第一经渲染的音频信号和所述经修正的第二经渲染的音频信号混合，以产生所述经混合的音频信号。

3.如权利要求1或2所述的音频处理系统，其中，修正针对所述第一音频信号的所述渲染过程还涉及：

4.如权利要求1或2所述的音频处理系统，其中，修正针对所述第二音频信号的所述渲染过程涉及执行下列一项或多项：

将对第二音频信号的所述渲染扭曲而远离所述第一经渲染的音频信号的渲染位置，或

响应于所述第一音频信号或所述第一经渲染的音频信号中的一个或多个的响度而修正所述第二经渲染的音频信号中的一个或多个的响度。

5.如权利要求1或2所述的音频处理系统，其中，修正针对所述第一音频信号的所述渲染过程涉及执行来自包括频谱修正、基于可听度的修正或动态范围修正的修正的列表中的一个或多个修正。

6.如权利要求1或2所述的音频处理系统，进一步包括麦克风系统，所述麦克风系统包括一个或多个麦克风，其中，所述第一渲染模块被配置用于至少部分地基于来自所述麦克风系统的第一麦克风信号来修正针对所述第一音频信号的渲染过程，并且其中，所述第二渲染模块被配置用于至少部分地基于所述第一麦克风信号来修正针对所述第二音频信号的渲染过程。

7.如权利要求6所述的音频处理系统，其中，所述控制系统进一步被配置用于：

基于所述第一麦克风信号来估计第一声源位置；以及

至少部分地基于所述第一声源位置来修正针对所述第一音频信号或所述第二音频信号中的至少一项的所述渲染过程。

8.如权利要求6所述的音频处理系统，其中，所述控制系统进一步被配置用于：

确定所述第一麦克风信号是否与环境噪声相对应；以及

至少部分地基于所述第一麦克风信号是否与环境噪声相对应来修正针对所述第一音频信号或所述第二音频信号中的至少一项的所述渲染过程。

9.如权利要求6所述的音频处理系统，其中，所述控制系统进一步被配置用于：

确定所述第一麦克风信号是否与人类语音相对应；以及

至少部分地基于所述第一麦克风信号是否与人类语音相对应来修正针对所述第一音频信号或所述第二音频信号中的至少一项的所述渲染过程。

10.如权利要求9所述的音频处理系统，其中，修正针对所述第一音频信号的所述渲染过程涉及：相比于由远离第一声源位置的扬声器再现的所述第一经渲染的音频信号的响度，减小由所述第一声源位置附近的扬声器再现的所述第一经渲染的音频信号的响度。

11.如权利要求9或10所述的音频处理系统，其中，所述控制系统进一步被配置用于：

确定所述第一麦克风信号与唤醒词相对应；

确定对所述唤醒词的回复；以及

控制第一声源位置附近的至少一个扬声器以再现所述回复。

12.如权利要求9或10所述的音频处理系统，其中，所述控制系统进一步被配置用于：

确定所述第一麦克风信号与命令相对应；

确定对所述命令的回复；

控制第一声源位置附近的至少一个扬声器以再现所述回复；以及

执行所述命令。

13.如权利要求12所述的音频处理系统，其中，所述控制系统进一步被配置用于在控制所述第一声源位置附近的至少一个扬声器以再现所述回复之后，恢复到针对所述第一音频信号的未修正的渲染过程。

14.如权利要求6所述的音频处理系统，其中，所述控制系统进一步被配置用于至少部分地基于所述第一麦克风信号得到经再现的所述第一音频节目流或经再现的所述第二音频节目流的响度估计。

15.如权利要求14所述的音频处理系统，其中，所述控制系统进一步被配置用于至少部分地基于所述响度估计来修正针对所述第一音频信号或所述第二音频信号中的至少一项的所述渲染过程。

16.如权利要求15所述的音频处理系统，其中，所述响度估计是感知响度估计，并且其中，修正所述渲染过程涉及改变所述第一音频信号或所述第二音频信号中的至少一项以便在存在干扰信号的情况下保持其感知响度。

17.如权利要求6所述的音频处理系统，其中，所述控制系统进一步被配置用于：

确定所述第一麦克风信号与人类语音相对应；以及

在所述环境的与第一声源位置不同的位置附近的一个或多个扬声器中再现所述第一麦克风信号。

18.如权利要求17所述的音频处理系统，其中，所述控制系统进一步被配置用于确定所述第一麦克风信号是否与儿童的哭声相对应，其中，所述环境的所述位置与看护者的估计位置相对应。

19.如权利要求1或2所述的音频处理系统，其中，所述控制系统进一步被配置用于得到经再现的所述第一音频节目流或经再现的所述第二音频节目流的响度估计，并且其中，所述控制系统进一步被配置用于至少部分地基于所述响度估计来修正针对所述第一音频信号或所述第二音频信号中的至少一项的所述渲染过程。

20.如权利要求19所述的音频处理系统，其中，所述响度估计是感知响度估计，并且其中，修正所述渲染过程涉及改变所述第一音频信号或所述第二音频信号中的至少一项以便在存在干扰信号的情况下保持其感知响度。

21.如权利要求1或2所述的音频处理系统，其中，渲染所述第一音频信号或渲染所述第二音频信号中的至少一项涉及灵活渲染到任意定位的扬声器。

22.如权利要求21所述的音频处理系统，其中，所述灵活渲染涉及质心振幅平移或灵活虚拟化。

23.一种音频处理方法，包括：

由第一渲染模块接收第一音频节目流，所述第一音频节目流包括被安排由环境的至少一些扬声器再现的第一音频信号，所述第一音频节目流包括第一空间数据，所述第一空间数据包括声道数据或空间元数据中的至少一项；以及

由所述第一渲染模块渲染所述第一音频信号以经由所述环境的所述扬声器再现，从而产生第一经渲染的音频信号；

由第二渲染模块接收第二音频节目流，所述第二音频节目流包括被安排由所述环境的至少一个扬声器再现的第二音频信号；以及

由所述第二渲染模块渲染所述第二音频信号以经由所述环境的至少一个扬声器再现，从而产生第二经渲染的音频信号；

由所述第一渲染模块至少部分地基于所述第二音频信号、所述第二经渲染的音频信号、或者所述第二音频信号或所述第二经渲染的音频信号的特性中的至少一项来修正针对所述第一音频信号的渲染过程，以产生经修正的第一经渲染的音频信号，其中，所述修正针对所述第一音频信号的所述渲染过程涉及：修正针对所述第一音频信号的所述渲染，以使得所述第一音频信号的空间呈现扭曲而远离所述第二经渲染的音频信号的渲染位置；以及

由所述第二渲染模块至少部分地基于所述第一音频信号、所述第一经渲染的音频信号、或者所述第一音频信号或所述第一经渲染的音频信号的特性中的至少一项来修正针对所述第二音频信号的渲染过程，以产生经修正的第二经渲染的音频信号；

24.如权利要求23所述的音频处理方法，其中，修正针对所述第一音频信号的所述渲染过程还涉及：

25.如权利要求23或24所述的音频处理方法，其中，修正针对所述第二音频信号的所述渲染过程涉及执行下列一项或多项：

26.如权利要求23或24所述的音频处理方法，其中，修正针对所述第一音频信号的所述渲染过程涉及执行来自包括频谱修正、基于可听度的修正或动态范围修正的修正的列表中的一个或多个修正。

27.如权利要求23或24所述的音频处理方法，进一步包括由所述第一渲染模块至少部分地基于来自麦克风系统的第一麦克风信号来修正针对所述第一音频信号的渲染过程，以及由所述第二渲染模块至少部分地基于所述第一麦克风信号来修正针对所述第二音频信号的渲染过程。

28.如权利要求27所述的音频处理方法，进一步包括：

基于所述第一麦克风信号来估计第一声源位置；以及

29.一种计算机可读介质，所述计算机可读介质上存储有软件，所述软件包括用于控制一个或多个设备执行音频处理方法的指令，所述音频处理方法包括：

30.如权利要求29所述的计算机可读介质，其中，修正针对所述第一音频信号的所述渲染过程还涉及：

31.如权利要求29或30所述的计算机可读介质，其中，修正针对所述第二音频信号的所述渲染过程涉及执行下列一项或多项：

32.如权利要求29或30所述的计算机可读介质，其中，修正针对所述第一音频信号的所述渲染过程涉及执行来自包括频谱修正、基于可听度的修正或动态范围修正的修正的列表中的一个或多个修正。

33.如权利要求29或30所述的计算机可读介质，其中，所述音频处理方法进一步包括由所述第一渲染模块至少部分地基于来自麦克风系统的第一麦克风信号来修正针对所述第一音频信号的渲染过程，以及由所述第二渲染模块至少部分地基于所述第一麦克风信号来修正针对所述第二音频信号的渲染过程。

34.如权利要求33所述的计算机可读介质，其中，所述音频处理方法进一步包括：

基于所述第一麦克风信号来估计第一声源位置；以及