CN114207715A

CN114207715A - 用于分布式音频设备的声学回声消除控制

Info

Publication number: CN114207715A
Application number: CN202080055689.1A
Authority: CN
Inventors: G·N·狄金斯; C·G·海因斯; D·古纳万; R·J·卡特莱特; A·J·西斐德; D·阿特亚加; M·R·P·托马斯; J·B·兰多
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2019-07-30
Filing date: 2020-07-29
Publication date: 2022-03-18
Also published as: US12003673B2; US20230319190A1; MX2022001162A; JP2022542962A; BR112022000466A2; AU2020323929A1; IL289450A; KR20220044204A; WO2021021857A1; EP4005228A1; CA3146871A1

Abstract

一种音频处理方法可以涉及从音频环境中的多个麦克风中的每个麦克风接收输出信号，所述输出信号对应于人的当前话语，以及基于所述输出信号确定与所述人有关的情境信息的一个或多个方面，包括所述人与一个或多个麦克风位置的估计当前接近度。所述方法可以涉及至少部分地基于所述情境信息的一个或多个方面来选择两个或更多个配备扩音器的音频设备，确定一种或多种类型的音频处理变化以应用于被渲染到所述音频设备的扩音器馈送信号的音频数据，以及使得应用一种或多种类型的音频处理变化。在一些示例中，所述音频处理变化具有增加一个或多个麦克风处的言语‑回声比的效果。

Description

用于分布式音频设备的声学回声消除控制

相关申请的交叉引用

本申请要求于2020年7月21日提交的美国临时专利申请号62/705,897、于2020年6月25日提交的美国临时专利申请号62/705,410、于2020年2月7日提交的美国临时专利申请号62/971,421、于2019年12月18日提交的美国临时专利申请号62/950,004、于2019年7月30日提交的美国临时专利申请号62/880,122、于2019年7月30日提交的美国临时专利申请号62/880,113、于2019年11月29日提交的欧洲专利申请号19212391.7和于2019年7月30日提交的西班牙专利申请号P201930702的优先权，所有这些专利申请通过援引以其整体并入本文。

技术领域

本公开涉及用于协调(编排)和实施音频设备(例如，智能音频设备)以及控制音频设备对音频的渲染的系统和方法。

背景技术

音频设备，包括但不限于智能音频设备，已经被广泛部署，并且正在成为许多家庭的共同特征。尽管用于控制音频设备的现有系统和方法提供了益处，但改进的系统和方法将仍是期望的。

符号和术语

贯穿本公开，包括在权利要求中，“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送所驱动的任何发声换能器(或一组换能器)。典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据进行操作的表达(例如，对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的已处理版本(例如，在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)以对数据(例如，音频、视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机，以及可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦接(couples)”或“耦接的(coupled)”用于指直接或间接连接。因此，如果第一设备耦接至第二设备，则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

如本文所使用的，“智能设备”是可以在某种程度上交互地和/或自主地运行的电子设备，其通常被配置为通过如蓝牙、Zigbee、近场通信、Wi-Fi、光保真(Li-Fi)、3G、4G、5G等各种无线协议与一个或多个其他设备(或网络)进行通信。若干种值得注意的智能设备类型是智能电话、智能汽车、智能恒温器、智能门铃、智能锁、智能冰箱、平板手机和平板电脑、智能手表、智能手环、智能钥匙链和智能音频设备。术语“智能设备”还可以指展现出如人工智能等普适计算的某些性质的设备。

本文中使用表达“智能音频设备”来表示智能设备，其可以是单一用途音频设备或多用途音频设备(例如，实施虚拟助理功能的至少一些方面的音频设备)。单一用途音频设备是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)并且很大程度上或主要被设计为实现单一用途的设备(例如，电视(TV)或移动电话)。例如，虽然TV通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数情况下，现代TV运行某种操作系统，应用程序(包括看电视的应用程序)在所述操作系统上本地运行。类似地，移动电话中的音频输入和输出可以做很多事情，但这些都是由电话上运行的应用程序服务的。从这个意义上说，具有(多个)扬声器和(多个)麦克风的单一用途音频设备通常被配置为运行本地应用程序和/或服务以直接使用所述(多个)扬声器和(多个)麦克风。一些单一用途音频设备可以被配置为组合在一起以实现在一定的区或用户配置区域上播放音频。

一种常见类型的多用途音频设备是实施虚拟助理功能的至少一些方面的音频设备，尽管虚拟助理功能的其他方面可以由一个或多个其他设备来实施，例如一个或多个服务器，多用途音频设备被配置为与所述一个或多个服务器通信。这种多用途音频设备在本文中可以被称为“虚拟助理”。虚拟助理是包括或耦接到至少一个麦克风(并且任选地还包括或耦接到至少一个扬声器和/或至少一个相机)的设备(例如，智能扬声器或语音助理集成设备)。在一些示例中，虚拟助理可以提供将多个设备(不同于虚拟助理)用于某种意义上支持云的应用程序或以其他方式未在虚拟助理本身中或之上完全实施的应用程序的能力。换句话说，虚拟助理功能的至少一些方面(例如，语音识别功能)可以(至少部分地)由一个或多个服务器或其他设备实施，虚拟助理可以通过网络(如互联网)与所述一个或多个服务器或其他设备通信。虚拟助理有时可以一起工作，例如，以离散和有条件地定义的方式。例如，两个或更多个虚拟助理可以在其中之一(例如，最确信已经听到唤醒词的虚拟助理)对唤醒词作出响应的意义上一起工作。在一些实施方式中，连接的虚拟助理可以形成一种星座，所述星座可以由一个主应用程序管理，所述主应用程序可以是(或实施)虚拟助理。

本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或其他声音)，其中智能音频设备被配置为响应于检测到(“听到”)声音(使用包括在智能音频设备中或耦接到所述智能音频设备的至少一个麦克风，或至少一个其他麦克风)而唤醒。在该上下文中，“唤醒”表示设备进入等待(换句话说，正在收听)声音命令的状态。在一些实例中，本文中可以被称为“唤醒词”的内容可以包括一个以上的词，例如，短语。

本文中，表达“唤醒词检测器”表示被配置为(或包括用于配置设备的指令的软件)连续搜索实时声音(例如，语音)特征与训练模型之间的对齐的设备。通常，每当唤醒词检测器确定检测到唤醒词的概率超过预定义阈值，就会触发唤醒词事件。例如，所述阈值可以是被调整以在错误接受率与错误拒绝率之间给出合理折衷的预定阈值。在唤醒词事件之后，设备可能会进入一种状态(可以被称为“唤醒”状态或“注意力”状态)，在所述状态下设备会收听命令并且将接收到的命令传递给更大的、计算更密集的识别器。

本文中，表达“麦克风位置”表示一个或多个麦克风的位置。在一些示例中，单个麦克风位置可以与驻留在单个音频设备中的麦克风阵列相对应。例如，麦克风位置可以是与包括一个或多个麦克风的整个音频设备相对应的单个位置。在一些这样的示例中，麦克风位置可以是与单个音频设备的麦克风阵列的质心相对应的单个位置。然而，在一些实例中，麦克风位置可以是单个麦克风的位置。在一些这样的示例中，音频设备可以仅具有单个麦克风。

发明内容

一些公开的实施例提供了一种用于管理收听者或“用户”体验的方法，以改进在一个或多个音频设备处的成功全双工的关键标准。该标准被称为信号-回声比(SER)，在本文中也被称为言语-回声比，其可以被定义为通过一个或多个麦克风从环境(例如，房间)捕获的语音(或其他期望的)信号与在包括一个或多个麦克风的音频设备上呈现的来自输出节目内容、互动内容等的回声之间的比率。考虑了音频环境的许多音频设备可以具有内置的扩音器和麦克风，同时提供其他功能。然而，音频环境的其他音频设备可以具有一个或多个扩音器但没有(多个)麦克风，或具有一个或多个麦克风但没有(多个)扩音器。在某些用例或场景中，一些实施例故意避免使用(或不主要使用)离用户最近的(多个)扩音器。替代性地或另外地，一些实施例可以针对由音频环境的一个或多个扩音器渲染的音频数据引起一种或多种其他类型的音频处理变化，以便增加环境的一个或多个麦克风处的SER。

一些实施例被配置为实施包括被协调(编排)音频设备的系统，在一些实施方式中，所述音频设备可以包括智能音频设备。根据一些这样的实施方式，两个或更多个智能音频设备是(或被配置为实施)唤醒词检测器。因此，在这样的示例中多个麦克风(例如，异步麦克风)是可用的。在一些实例中，每个麦克风可以被包括在智能音频设备中的至少一个中，或者被配置用于与智能音频设备中的至少一个进行通信。例如，至少一些麦克风可以是不被包括在任何智能音频设备中但是被配置为与智能音频设备中的至少一个进行通信(使得其输出可以被智能音频设备中的至少一个捕获)的离散麦克风(例如，在家用电器中)。在一些实施例中，每个唤醒词检测器(或包括唤醒词检测器的每个智能音频设备)或系统的另一个子系统(例如，分类器)被配置为通过应用由来自至少一些麦克风(例如，异步麦克风)的多个声学特征驱动的分类器来估计人所在的区。在一些实施方式中，目标可以不是估计人的确切位置，而是形成对包括人的当前位置的离散区的稳健估计。

在一些实施方式中，人(在本文中也可以被称为“用户”)、智能音频设备和麦克风处于音频环境(例如，用户的住所、汽车或营业地点)中，在所述音频环境中声音可以从用户传播到麦克风，并且所述音频环境可以包括预定区。根据一些示例，环境可以包括至少以下区：食物制备区域；餐饮区域；生活空间的开放区域；生活空间的TV区域(包括TV沙发)；等等。在系统运行过程中，假设用户在任何时间、物理上位于其中一个区(“用户的区”)，并且用户区可以不时地发生变化。

在一些示例中，麦克风可以是异步的(例如，使用不同的采样时钟进行数字采样)和随机定位的(或至少不位于预定位置中、对称布置中、网格上等)。在一些实例中，可以通过数据驱动的方法估计用户的区，所述方法由至少部分地从唤醒词检测器中的至少一个唤醒词检测器得到的多个高级特征驱动。在一些示例中，这些特征(例如，唤醒词置信度和接收水平)可以消耗非常少的带宽并且可以(例如，异步地)传输到正在实施具有非常小的网络负载的分类器的设备。

一些实施例的各方面涉及实施智能音频设备和/或协调智能音频设备。

一些公开的实施方式的各方面包括一种被配置(例如，被编程)为执行一种或多种所公开的方法或其步骤的系统，以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如，磁盘或其他有形存储介质)，所述有形非暂态计算机可读介质存储了用于执行一种或多种所公开的方法或其步骤的代码(例如，可执行以执行一种或多种所公开的方法或其步骤的代码)。例如，一些公开的实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种，包括一种或多种所公开的方法或其步骤。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行一种或多种所公开的方法(或其步骤)。

在一些实施方式中，控制系统可以被配置用于实施本文中公开的一种或多种方法，如一种或多种音频会话管理方法。一些这样的方法涉及(例如，由控制系统)从音频环境中的多个麦克风中的每个麦克风接收输出信号。在一些示例中，多个麦克风中的每个麦克风驻留在音频环境的麦克风位置中。在一些实例中，输出信号包括与人的当前话语相对应的信号。根据一些示例，输出信号包括与如噪声和/或回声等非言语音频数据相对应的信号。

一些这样的方法涉及基于输出信号(例如，由控制系统)确定与所述人相关的情境信息的一个或多个方面。在一些示例中，情境信息包括人的估计当前位置和/或人与一个或多个麦克风位置的估计当前接近度。一些这样的方法涉及至少部分地基于所述情境信息的一个或多个方面来选择音频环境的两个或更多个音频设备。在一些实施方式中，两个或更多个音频设备中的每个音频设备包括至少一个扩音器。

一些这样的方法涉及(例如，由控制系统)确定要应用于渲染到所述两个或更多个音频设备的扩音器馈送信号的音频数据的一种或多种类型的音频处理变化。在一些示例中，所述音频处理变化具有增加一个或多个麦克风处的言语-回声比的效果。一些这样的方法涉及使得应用所述一种或多种类型的音频处理变化。

根据一些实施方式，所述一种或多种类型的音频处理变化可以使所述两个或更多个音频设备的扩音器的扩音器再现水平降低。在一些实施方式中，第一音频设备的音频处理变化中的至少一个音频处理变化可以不同于第二音频设备的音频处理变化。在一些示例中，(例如，由控制系统)选择所述音频环境的两个或更多个音频设备可以涉及选择所述音频环境的N个配备扩音器的音频设备，N为大于2的整数。

在一些实施方式中，选择所述音频环境的两个或更多个音频设备可以至少部分地基于所述人的相对于麦克风位置或配备扩音器的音频设备位置中的至少一者的估计当前位置。根据一些这样的实施方式，所述方法可以涉及确定最靠近所述人的估计当前位置或最靠近与所述人的估计当前位置最靠近的麦克风位置的最近的配备扩音器的音频设备。在一些这样的示例中，所述两个或更多个音频设备可以包括所述最近的配备扩音器的音频设备。

在一些示例中，所述一种或多种类型的音频处理变化涉及改变渲染过程以扭曲音频信号的渲染而远离所述人的估计当前位置。在一些实施方式中，所述一种或多种类型的音频处理变化可以涉及频谱修正。根据一些这样的实施方式，所述频谱修正可以涉及降低介于500Hz与3KHz之间的频带中的音频数据的水平。

在一些实施方式中，所述一种或多种类型的音频处理变化可以涉及将至少一个间隙插入到音频回放信号的至少一个所选频带中。在一些示例中，所述一种或多种类型的音频处理变化可以涉及动态范围压缩。

根据一些实施方式，选择所述两个或更多个音频设备可以至少部分地基于针对一个或多个麦克风位置的信号-回声比估计。例如，选择所述两个或更多个音频设备可以至少部分地基于确定所述信号-回声比估计是否小于或等于信号-回声比阈值。在一些实例中，确定所述一种或多种类型的音频处理变化可以基于成本函数的优化，所述优化至少部分地基于所述信号-回声比估计。例如，成本函数可以至少部分地基于渲染性能。在一些实施方式中，选择所述两个或更多个音频设备可以至少部分地基于接近度估计。

在一些示例中，所述方法可以涉及(例如，由控制系统)从每个麦克风的输出信号中确定多个当前声学特征以及将分类器应用于所述多个当前声学特征。根据一些实施方式，应用所述分类器可以涉及应用在先前确定的声学特征上训练的模型，所述声学特征从所述人在环境中的多个用户区中作出的多个先前话语中得到。

在一些这样的示例中，确定与所述人相关的情境信息的一个或多个方面可以涉及至少部分地基于来自所述分类器的输出，确定对所述人当前所在的用户区的估计。根据一些实施方式，对所述用户区的估计可以是在不参考所述多个麦克风的几何位置的情况下确定的。在一些实例中，当前话语和先前话语可以是或可以包括唤醒词话语。

根据一些实施方式，所述一个或多个麦克风可以驻留在所述音频环境的多个音频设备中。然而，在其他实例中，所述一个或多个麦克风可以驻留在所述音频环境的单个音频设备中。在一些示例中，所述一个或多个麦克风位置中的至少一个可以与单个音频设备的多个麦克风相对应。一些公开的方法可以涉及根据所述情境信息的一个或多个方面选择至少一个麦克风。

本公开的至少一些方面可以通过如音频会话管理方法等方法来实施。如本文别处所指出的，在一些实例中，所述方法可以至少部分地由如本文所公开的那些控制系统来实施。一些这样的方法涉及从音频环境中的多个麦克风中的每个麦克风接收输出信号。在一些示例中，多个麦克风中的每个麦克风驻留在音频环境的麦克风位置中。在一些实例中，输出信号包括与人的当前话语相对应的信号。根据一些示例，输出信号包括与如噪声和/或回声等非言语音频数据相对应的信号。

一些这样的方法涉及基于输出信号确定与所述人相关的情境信息的一个或多个方面。在一些示例中，情境信息包括人的估计当前位置和/或人与一个或多个麦克风位置的估计当前接近度。一些这样的方法涉及至少部分地基于所述情境信息的一个或多个方面来选择音频环境的两个或更多个音频设备。在一些实施方式中，两个或更多个音频设备中的每个音频设备包括至少一个扩音器。

一些这样的方法涉及确定要应用于渲染到所述两个或更多个音频设备的扩音器馈送信号的音频数据的一种或多种类型的音频处理变化。在一些示例中，所述音频处理变化具有增加一个或多个麦克风处的言语-回声比的效果。一些这样的方法涉及使得应用所述一种或多种类型的音频处理变化。

根据一些实施方式，所述一种或多种类型的音频处理变化可以使所述两个或更多个音频设备的扩音器的扩音器再现水平降低。在一些实施方式中，第一音频设备的音频处理变化中的至少一个音频处理变化可以不同于第二音频设备的音频处理变化。在一些示例中，选择所述音频环境的两个或更多个音频设备可以涉及选择所述音频环境的N个配备扩音器的音频设备，N为大于2的整数。

在一些示例中，所述方法可以涉及从每个麦克风的输出信号中确定多个当前声学特征以及将分类器应用于所述多个当前声学特征。根据一些实施方式，应用所述分类器可以涉及应用在先前确定的声学特征上训练的模型，所述声学特征从所述人在环境中的多个用户区中作出的多个先前话语中得到。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备等存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以在其上存储有软件的非暂态介质中实施。

例如，所述软件可以包括用于控制一个或多个设备以执行涉及从音频环境中的多个麦克风中的每个麦克风接收输出信号的方法的指令。在一些示例中，多个麦克风中的每个麦克风驻留在音频环境的麦克风位置中。在一些实例中，输出信号包括与人的当前话语相对应的信号。根据一些示例，输出信号包括与如噪声和/或回声等非言语音频数据相对应的信号。

在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1A表示根据一个示例的音频环境。

图1B示出了音频环境的另一个示例。

图2A是示出能够实施本公开的各个方面的装置的部件的示例的框图。

图2B是包括根据一些实施方式的音频会话管理方法的框的流程图。

图3A是被配置为跨多个设备实施单独的渲染控制和收听或捕获逻辑的系统的框图。

图3B是根据另一个公开的实施方式的系统的框图。

图3C是根据一个示例被配置为实施能量平衡网络的实施例的框图。

图4是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的音频处理的示例的图。

图5是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理的图。

图6图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理。

图7是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理的图。

图8是其中要调低的音频设备可能不是最靠近正在讲话的人的音频设备的示例的图。

图9图示了其中SER非常高的设备非常靠近用户的情况。

图10是概述了可以由如图2A中示出的装置等装置执行的方法的一个示例的流程图。

图11是被配置为实施区分类器的实施例的一个示例的元件的框图。

图12是概述了可以由如图2A的装置200等装置执行的方法的一个示例的流程图。

图13是概述了可以由如图2A的装置200等装置执行的方法的另一个示例的流程图。

图14是概述了可以由如图2A的装置200等装置执行的方法的另一个示例的流程图。

图15和图16是图示一组示例扬声器激活和对象渲染位置的图。

图17是概述了可以由如图2A中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。

图18是示例实施例中的扬声器激活的图。

图19是示例实施例中的对象渲染位置的图。

图20是示例实施例中的扬声器激活的图。

图21是示例实施例中的对象渲染位置的图。

图22是示例实施例中的扬声器激活的图。

图23是示例实施例中的对象渲染位置的图。

具体实施方式

目前，设计人员通常将音频设备视为音频的单一接口点，所述音频可以是娱乐、通信和信息服务的混合体。使用音频进行通知和语音控制具有避免视觉或物理干扰的优势。不断扩大的设备格局是碎片化的，有更多的系统在争夺我们的一对耳朵。

在所有形式的交互式音频中，提高全双工音频能力的问题仍然是一个挑战。当房间中存在与房间中的传输或基于信息的捕获无关的音频输出时，期望从捕获到的信号中去除这种音频(例如，通过回声消除和/或回声抑制)。一些公开的实施例提供了用于提高信号-回声比(signal to echo ratio,SER)的用户体验的方法和管理，SER是一个或多个设备处成功全双工的关键标准。

预期这样的实施例在用户的声学范围内有一个以上的音频设备的情况下有用，使得每个音频设备将能够在用户处呈现适当响亮的音频节目素材，以用于期望的娱乐、通信或信息服务。当存在三个或更多个类似地靠近用户的音频设备时，这种实施例的价值预计会特别高。

渲染应用程序有时是音频设备的主要功能，并且因此有时期望使用尽可能多的音频输出设备。如果音频设备更靠近用户，则音频设备可以在准确定位声音或向用户传送特定音频信号传送和成像的能力方面更有利。然而，如果这些音频设备包括一个或多个麦克风，则所述音频设备也可以更适合用于拾取用户的语音。当考虑到信号-回声比的挑战时，看到如果在单工(仅输入)模式下实施使用更靠近用户的设备或朝该设备移动，则信号-回声比会显著提高。

在各种公开的实施例中，音频设备可以具有内置的扬声器和麦克风，同时提供其他功能(例如，图1A中示出的功能)。一些公开的实施例实施了在某些情况下故意不主要使用离用户最近的(多个)扩音器的概念。

考虑在连接的操作系统或应用程序(例如，基于云的应用程序)之间的去中介化中，可以包括许多不同类型的(启用音频输入、输出和/或实时交互的)设备。这种设备的示例包括可穿戴设备、家庭音频设备、移动设备、汽车和移动计算设备以及智能扬声器。智能扬声器可以包括用于基于云的服务的网络连接扬声器和麦克风。这种设备的其他示例可以结合扬声器和/或麦克风，包括灯、时钟、电视、个人助理设备、冰箱和垃圾箱。一些实施例与存在用于经由编排设备编排音频环境的多个音频设备的公共平台的情况特别相关，所述编排设备如智能家居中枢或被配置用于音频会话管理的另一个设备，其在本文中可以被称为音频会话管理器。一些这样的实施方式可以涉及音频会话管理器与本地实施的软件应用程序之间的命令，所述命令的语言不是设备特定的，而是涉及编排设备将音频内容路由到软件应用程序指定的人和地点并从所述人和地点路由音频内容。一些实施例实施用于动态管理渲染的方法，例如，包括将声音从最近的设备推开并且维持空间成像的约束，和/或用于在区中定位用户的方法，和/或用于设备相对于彼此和用户的映射和定位的方法。

通常，包括多个智能音频设备的系统需要在其听到来自用户的“唤醒词”(如上文定义的)并且注意(换句话说，收听)来自用户的命令时进行指示。

图1A表示根据一个示例的音频环境。一些公开的实施例在环境(例如，生活或工作空间)中存在能够传送声音和捕获音频的许多音频设备的场景(例如，如本文所公开的)中可以特别有用。可以根据各种公开的实施例来配置图1A的系统。

图1A是包括系统的音频环境(生活空间)的图，所述系统包括用于音频交互的一组智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)和可控灯(1.2)。与其他公开的实施方式一样，图1A中元件的类型、数量和布置仅仅是示例。其他实施方式可以提供更多、更少和/或不同的元件。在一些实例中，一个或多个麦克风1.5可以是设备1.1、灯1.2或扬声器1.3中的一个的一部分或与其相关联。替代性地或另外地，一个或多个麦克风1.5可以附接到环境的另一个部分，例如，附接到墙、天花板、家具、家用电器或环境的另一个设备。在示例中，每个设备1.1包括(和/或耦接到)至少一个麦克风1.5。尽管图1A中未示出，但一些音频环境可以包括一个或多个相机。根据一些公开的实施方式，音频环境的一个或多个设备(例如，被配置用于音频会话管理的设备，如一个或多个设备1.1、正在实施音频会话管理器的设备、智能家居中枢等)可以能够估计发布唤醒词、命令等的用户(1.4)在何处(例如，在生活空间的哪个区)。图1A中示出的系统的一个或多个设备(例如，其设备1.1)可以被配置为实施各种公开的实施例。使用各种方法，可以从图3的设备共同获得信息以提供说出唤醒词的用户的位置估计。根据一些公开的方法，可以从图1A的麦克风1.5共同获得信息，并且将所述信息提供给实施分类器的设备(例如，被配置用于音频会话管理的设备)，所述分类器被配置为提供说出唤醒词的用户的位置估计。

在生活空间中(例如，图1A的生活空间)，存在一组自然活动区，人将在其中执行任务或活动，或跨越阈值。在一些示例中，在本文中可以被称为用户区的这些区域可以由用户定义，而不指定几何位置的坐标或其他标记。根据一些示例，人的“情境”可以包括或者可以对应于所述人当前所在的用户区或所述用户区的估计。在图1A示例中，用户区包括：

1.厨房水槽和食物制备区域(在生活空间的左上区域中)；

2.冰箱门(在水槽和食物制备区域的右边)；

3.餐饮区域(在生活空间的左下方区域中)；

4.生活空间的开放区域(水槽和食物制备区域和餐饮区域的右边)；

5.电视(TV)沙发(在开放区域的右边)；

6.TV本身；

7.桌子；以及

8.门区域或入户通道(在生活空间的右上方区域中)。其他音频环境可以包括更多、更少和/或其他类型的用户区，如一个或多个卧室区、车库区、露台或平台区等。

根据一些实施例，估计声音(例如，唤醒词或其他引起注意的信号)在何处出现或起源(例如，确定对声音在何处出现或起源的不确定估计)的系统可以在所述估计中具有某些确定的置信度(或多个假设)。例如，如果一个人碰巧在音频环境的用户区之间的边界附近，则所述人的位置的不确定估计可以包括所述人在每个区中的确定的置信度。在语音接口的一些传统实施方式中，要求语音助理的语音一次只能从一个位置发出，这迫使对单个位置进行单个选择(例如，图1A中的八个扬声器位置(1.1和1.3)之一)。然而，基于简单的想象角色扮演，很明显，(在这样的传统实施方式中)助理的语音的来源的所选位置(即，包括在助理中或与助理耦接的扬声器的位置)是焦点或是用于表达关注的自然返回响应的可能性可能很低。

图1B示出了音频环境的另一个示例。图1B描绘了另一种音频环境，所述音频环境包括说出直接言语102的用户101，以及包括一组智能音频设备103和105、用于音频输出的扬声器、和麦克风的系统。系统可以根据一些公开的实施方式来配置。用户101(在本文中有时被称为说话者)说出的言语可以被系统的一个或多个元件识别为唤醒词。

更具体地，图1B系统的元件包括：

102：直接本地语音(由用户101产生)；

103：语音助理设备(耦接到一个或多个扩音器)。设备103被定位成比设备105更靠近用户101，并且因此设备103有时被称为“近”设备，并且设备105被称为“远”设备；

104：近设备103中(或耦接到所述近设备)的多个麦克风；

105：语音助理设备(耦接到一个或多个扩音器)；

106：远设备105中(或耦接到所述远设备)的多个麦克风；

107：家用电器(例如灯)；以及

108：家用电器107中(或耦接到所述家用电器)的多个麦克风。在一些示例中，麦克风108中的每一个可以被配置用于与被配置用于实施分类器的设备通信，在一些情况下，所述设备可以是设备103或105中的至少一个。在一些实施方式中，被配置用于实施分类器的设备也可以是被配置用于音频会话管理的设备，如被配置用于实施CHASM或智能家居中枢的设备。

图1B系统还可以包括至少一个分类器(例如，下文描述的图11的分类器1107)。例如，设备103(或设备105)可以包括分类器。替代性地或另外地，分类器可以由另一个设备实施，所述设备可以被配置用于与设备103和/或105通信。在一些示例中，分类器可以由另一个本地设备(例如，环境109内的设备)实施，而在其他示例中，分类器可以由位于环境109之外的远程设备(例如，服务器)实施。

根据一些实施方式，至少两个设备(例如，图1A的设备1.1、图1B的设备103和105等)以某种方式协同工作(例如，在如被配置用于音频会话管理的设备等编排设备的控制下)以传递声音，因为音频可以跨所述设备被共同控制。例如，两个设备103和105可以单独地或共同地播放声音。在简单的情况下，设备103和105充当音频的每个渲染部分的联合对(例如，不失一般性，一种这样的立体声信号，其中一个基本上渲染L而另一个基本上渲染R)。

家用电器107(或另一个设备)可以包括最靠近用户101并且不包括任何扩音器的一个麦克风108，在这种情况下，存在这样一种情形，即对于该特定的音频环境和用户101的该特定位置，可能已经有优选的信号-回声比或言语-回声比(speech to echo ratio,SER)，所述SER无法通过改变由设备105和/或107的(多个)扬声器所再现的音频的音频处理来改进。在一些实施例中，不存在这样的麦克风。

一些公开的实施例提供可检测的和显著的SER性能影响。一些实施方式提供了这样的优势，而无需实施区位置和/或动态可变渲染的各个方面。然而，一些实施例实施音频处理变化，其涉及通过将声音对象(或音频对象)排斥或“扭曲”而远离设备来进行渲染。在一些实例中，扭曲来自特定音频设备、位置等的音频对象的原因可以是为了提高用于捕获人类言语的特定麦克风处的信号-回声比。这种扭曲可以涉及但可以不限于调低一个、两个、三个或更多个附近音频设备的回放水平。在一些情况下，可以通过区检测技术通知用于提高SER的音频处理变化，使得对其实施音频处理变化的一个、两个或更多个附近的音频设备(例如，被调低的)是最靠近用户、最靠近将用于捕获用户的言语的特定麦克风和/或最靠近感兴趣声音的那些设备。

一些实施例的各个方面涉及情境、决定和音频处理变化，其在本文中可以被称为“渲染改变”。在一些示例中，这些方面是：

情境(如位置和/或时间)。在一些示例中，位置和时间两者都是情境的一部分，并且各自可以通过各种方式获得或确定；

决定(其可以涉及阈值或对(多个)变化的连续调制)。该分量可以是简单的或复杂的，这取决于特定实施例。在一些实施例中，可以例如根据反馈在连续的基础上做出决定。在一些实例中，所述决定可以创建系统稳定性，例如，如下文所描述的良性反馈稳定性；以及

渲染((多个)音频处理变化的本质)。尽管在本文中表示为“渲染(rendering)”，(多个)音频处理变化可以涉及或可以不涉及(多个)渲染变化，这取决于特定实施方式。在一些实施方式中，音频处理变化有若干种选择，包括几乎察觉不到的音频处理变化的实施方式到渲染严重和明显的音频处理变化的实施方式。

在一些示例中，“情境”可以涉及关于位置和意图两者的信息。例如，情境信息可以至少包括用户的位置的粗略概念，如与用户的当前位置相对应的用户区的估计。情境信息可以与音频对象位置相对应，例如，与用户的唤醒词话语相对应的音频对象位置。在一些示例中，情境信息可以包括关于该对象或个人发出声音的定时和可能性的信息。

情境的示例包括但不限于以下：

A.知道可能的位置在何处。这可以基于

i)弱或低概率检测(例如，检测可能感兴趣但可能足够清晰或可能不够清晰以致于无法对其采取行动的声音)；

ii)特定激活(例如，说出并且清楚地检测到唤醒词)；

iii)习惯和模式(例如，基于模式识别，例如，某些位置(如靠近电视的沙发)可能与一个或多个人在电视上观看视频材料以及坐在沙发上收听相关音频相关联)；

iv)和/或基于其他方式(如一个或多个红外(IR)传感器、相机、电容传感器、射频(RF)传感器、热传感器、压力传感器(例如，在音频环境的家具中或家具上)、可穿戴信标等)的某种其他形式的接近度感测的整合；以及

B.知道或估计一个人可能想听的声音例如具有改进的可检测性的可能性。这可以包括以下各项中的一些或全部：

i)基于某种音频检测(如唤醒词检测)的事件；

ii)基于已知活动或事件序列的事件或情境，例如，视频内容显示的暂停、脚本式自动言语识别(ASR)风格交互内容中的用于交互的空间、或全双工通信活动的活动和/或对话动态的变化(如电话会议中一个或多个与会者的暂停)；

iii)其他方式的附加感觉输入；

iv)以某种方式持续改进收听的选择——提升准备或改进收听。

A(知道可能的位置在何处)与B(知道或估计想听的声音例如具有改进的可检测性的可能性)之间的关键区别在于A可能涉及特定位置信息或知识，但不一定知道是否还有可收听的内容，而B可能更专注于特定定时或事件信息，而不必确切地知道在何处收听。A和B的一些方面当然可以重叠，例如，唤醒词的弱检测或完全检测将具有关于位置和定时两者的信息。

对于一些用例，可能重要的是“情境”涉及关于位置(例如，人和/或附近麦克风的位置)和期望收听的定时两者的信息。该情境信息可以驱动一个或多个相关联的决定和一个或多个可能的音频处理变化(例如，一个或多个可能的渲染变化)。因此，各种实施例允许基于可以用于形成情境的各种类型的信息的许多可能性。

接下来描述“决定”方面。例如，该方面可以涉及确定其相关联的音频处理将被改变的一个、两个、三个或更多个输出设备。制定这种决定的一种简单方式是：

给定来自情境(例如，位置和/或事件(或在某种意义上相信该位置具有重要意义或重要性))的信息，在一些示例中，音频会话管理器可以确定或估计从该位置到音频环境中的一些或所有音频设备的距离。在一些实施方式中，音频会话管理器还可以为音频环境的一些或所有音频设备的每个扩音器(或扩音器组)创建激活电位集。根据一些这样的示例，激活电位集可以被确定为[f_1,f_2,...,f_n]并且不失一般性而位于[0..1]范围内。在另一个示例中，决定的结果可以描述每个设备对“渲染”方面的目标言语-回声比改进[s_1,s_2,...,s_n]。在进一步示例中，激活电位和言语-回声比改进都可以通过“决定”方面产生。

在一些实施例中，激活电位赋予“渲染”方面应确保在期望的麦克风位置改进SER的程度。在一些这样的示例中，f_n的最大值可以指示所渲染的音频被积极地回避或扭曲，或者在提供值s_n的情况下，音频被限制和回避以实现s_n的言语-回声比。在一些实施例中，f_n的中间值接近0.5指示仅需要中等程度的渲染变化，并且指示将音频来源扭曲到这些位置可能是合适的。此外，在一些实施方式中，f_n的低值可以被认为不是衰减的关键值。在一些这样的实施方式中，处于或低于阈值水平的f_n值可能无法断言。根据一些示例，处于或低于阈值水平的f_n值可以与将音频内容的渲染扭曲的位置相对应。在一些实例中，根据一些稍后描述的过程，与处于或低于阈值水平的f_n值相对应的扩音器甚至可以在回放水平上被提升。

根据一些实施方式，前述方法(或下面描述的替代方法之一)可以用于针对所有所选音频设备的每个所选音频处理变化来创建控制参数，例如，针对音频环境的每个设备、针对音频环境的一个或多个设备、针对音频环境的两个或更多个设备、针对音频环境的三个或更多个设备等。音频处理变化的选择可以根据特定实施方式而不同。例如，所述决定可以涉及确定：

-针对其改变音频处理的一组两个或更多个扩音器；以及

-针对所述一组两个或更多个扩音器改变音频处理的程度。在一些示例中，可以在设计的或确定的范围的情境中确定变化的程度，这可以至少部分地基于扩音器组中的一个或多个扩音器的能力。在一些实例中，每个扩音器的能力可以包括频率响应、回放水平限制和/或一个或多个扩音器动态处理算法的参数。

例如，设计选择可以是：在特定情况下的最佳选择是将扩音器调低。在一些这样的示例中，可以确定音频处理变化的最大和/或最小程度，例如，任何扩音器将被调低到的程度限于特定阈值，例如，15dB、20dB、25dB等。在一些这样的实施方式中，决定可以基于选择一个、两个、三个或更多个扩音器的启发法或逻辑，并且基于感兴趣活动的置信度、扩音器位置等。决定可以是将一个、两个、三个或更多个扩音器再现的音频按最小值和最大值的范围内(例如，介于0与20dB之间)的量进行回避。在一些实例中，决定方法(或系统元件)可以为每个配备扩音器的音频设备创建激活电位集。

在一个简单的示例中，决定过程可以简单到确定除一个音频设备之外的所有音频设备都具有渲染激活变化0，并且确定所述一个音频设备具有激活变化1。在一些示例中，(多个)音频处理变化的设计(例如，回避)和(多个)音频处理变化的程度(例如，时间常数等)可以独立于决定逻辑。这种方法创建了简单且有效的设计。

然而，替代性实施方式可以涉及选择两个或更多个配备扩音器的音频设备，并且改变所述两个或更多个配备扩音器的音频设备中的至少两个、至少三个(以及在一些实例中，全部)的音频处理。在一些这样的示例中，第一音频设备的音频处理变化中的至少一个音频处理变化(例如，回放水平降低)可以不同于第二音频设备的音频处理变化。在一些示例中，音频处理变化之间的差异可以至少部分地基于人的估计当前位置或相对于每个音频设备的位置的麦克风位置。根据一些这样的实施方式，音频处理变化可以涉及在不同的扩音器位置应用不同的扬声器激活，作为改变渲染过程的一部分以扭曲音频信号的渲染而远离感兴趣的人的估计当前位置。在一些示例中，音频处理变化之间的差异可以至少部分地基于扩音器能力。例如，如果音频处理变化涉及降低低音范围内的音频水平，则这种变化可以更积极地应用于包括能够在低音范围内进行高音量再现的一个或多个扩音器的音频设备。

接下来描述关于音频处理变化方面的更多细节，所述音频处理变化方面在本文中可以被称为“渲染变化”方面。本公开有时可以将该方面称为“将最近的调低”(例如，降低要由最近的一个、两个、三个或更多个扬声器播放的音频内容被渲染的音量)，尽管(如本文其他地方所述)更一般地，在许多实施方式中可能会影响的是音频处理的一个或多个变化，所述一个或多个变化旨在改进信号-回声比的总体估计、测量和/或标准，以捕获或感知期望的音频发射器(例如，说出唤醒词的人)。在一些情况下，音频处理变化(例如，“调低”渲染音频内容的音量)是影响量的一些连续参数或可以通过所述参数进行调整。例如，在将扩音器调低的情况下，一些实施方式可以能够应用可调整的(例如，连续可调整的)衰减量(dB)。在一些这样的示例中，可调整的衰减量可以具有针对刚好显著变化的第一范围(例如，0dB-3dB)和针对SER是特别有效的改进但是可能对收听者来说很明显的第二范围(例如，0dB-20dB)。

在实施所述方案(情境、决定和渲染或渲染变化)的一些实施例中，可能没有“最近”的特定硬边界(例如，对于与用户、或另一个个体或系统元件“最近的”扩音器或设备)，并且在不失一般性的情况下，渲染变化可以是或包括改变(例如，连续改变)以下各项中的一项或多项：

A.改变输出以减少来自一个或多个音频设备的音频输出的模式，其中，音频输出的(多个)变化可以涉及以下各项中的一项或多项：

i)降低音频设备输出的整体水平(将一个或多个扩音器调低，将其关闭)；

ii)例如使用基本上线性的均衡(EQ)滤波器来使一个或多个扩音器的输出的频谱成形，所述滤波器被设计用于产生与希望检测的音频频谱不同的输出。在一些实例中，如果输出频谱被成形以检测人类语音，则滤波器可以在大约500-3kHz范围内降低频率(例如，在频率范围的每一端加或减5％或10％)，或使响度成形以强调低频和高频，在中间频带(例如，在大约500-3kHz的范围内)留出空间；

iii)改变输出的上限或峰值以降低峰值水平和/或减少失真产物，其可能会另外地降低作为为音频检测创建实现的SER的整个系统的一部分的任何回声消除的性能，例如，时域动态范围压缩器或多频段频率依赖性压缩器。这种音频信号修改可以有效地降低音频信号的振幅，并且可以帮助限制扩音器的偏差；

iv)以倾向于降低一个或多个扩音器的输出到一个或多个麦克风的能量或耦接的方式在空间上操纵音频，系统(例如，音频处理管理器)在所述麦克风处实现更高的SER，例如，如本文所描述的“扭曲”示例；

v)使用瞬时时间切片或调整来创建足以获得音频的片段的‘间隙’或具有稀疏时频较低输出的周期，如下文所描述的间隙插入示例；和/或

vi)以上述方式的某种组合改变音频；和/或

B.在特定或广泛的一组收听位置处保存能量和/或创建连续性，例如，包括以下各项中的一项或多项：

i)在一些示例中，从一个扩音器移除的能量可以通过在另一个扩音器中或向另一个扩音器提供附加能量来补偿。在一些实例中，整体响度保持不变，或基本不变。这不是必不可少的特征，但可能是允许在不丢失内容的情况下对‘最近的’设备或最近的一组设备的音频处理进行更严格的改变的有效方式。然而，在处理复杂的音频输出和音频场景时，能量的连续性和/或保存可能特别相关；和/或

ii)激活的时间常数，特别是对音频处理的变化可能被应用得比它们返回到正常状态(例如，1000ms-10000ms)要快一些(例如，100ms-200ms)，使得音频处理的(多个)变化(如果明显的话)似乎是故意的，但是随后从(多个)变化的返回可能似乎与任何实际事件或变化(从用户的角度)无关，并且在一些实例中，可能慢到几乎不会被注意到。

现在呈现如何制定和确定情境和决定的另外的示例。

实施例A：

(情境)作为示例，情境信息可以在数学上用公式表示如下：

H(a,b)，设备a与b之间以米为单位的近似物理距离：

其中，D表示系统中所有设备的组。每个设备处的估计SER S可以表示如下：

确定H和S：

H是设备物理位置的属性，并且因此可以通过以下各项确定或估计：

(1)用户的直接指示，例如，使用智能电话或平板装置在平面图或环境的类似图解表示上标记或指示设备的大概位置。这种数字接口在管理智能家居设备的配置、分组、名称、用途和身份方面已经司空见惯。例如，这种直接指示可以通过Amazon Alexa智能电话应用程序、Sonos S2控制器应用程序或类似应用程序提供。

(2)使用常见无线通信技术(如蓝牙、Wi-Fi、ZigBee等)的测得的信号强度(有时被称为接收信号强度指示或RSSI)来解决基本的三边测量问题，以产生设备之间物理距离的估计，例如，如在J.Yang和Y.Chen,“Indoor Localization Using Improved RSS-BasedLateration Methods[使用改进的基于RSS的分层方法进行室内定位],”GLOBECOM2009-2009IEEE Global Telecommunications Conference[GLOBECOM 2009-2009IEEE全球电信会议],夏威夷火奴鲁鲁,2009,pp.1-6,doi:10.1109/GLOCOM.2009.5425237中公开的，和/或如在Mardeni,R.和Othman,Shaifull和Nizam,(2010)“Node Positioning in ZigBeeNetwork Using Trilateration Method Based on the Received Signal StrengthIndicator(RSSI)[基于接收信号强度指示符(RSSI)的三边测量法在ZigBee网络中进行节点定位]”46中公开的，所述文献都通过引用并入本文。

S(a)是设备a处的言语-回声比的估计。通过定义，以dB为单位的言语-回声比由下式给出：

在上述表达式中，

表示以dB为单位的言语能量的估计，并且

表示以dB为单位的回声消除后的残余回声能量的估计。本文公开了用于估计这些量的各种方法，例如：

(1)考虑到设备的麦克风与扬声器之间的声学耦接以及板载回声消除电路的性能，可以通过对特定设备执行的离线测量过程来估计言语能量和残余回声能量。在一些这样的示例中，平均言语能量水平“AvgSpeech”可以由设备在标称距离处测得的人类言语的平均水平来确定。例如，设备可以在生产期间记录少数人站在距离配备麦克风的设备1m处的言语，并且可以对能量求平均以产生AvgSpeech。根据一些这样的示例，平均残余回声能量水平“AvgEcho”可以通过在生产期间播放来自设备的音乐内容并且运行板载回声消除电路以产生回声残余信号来估计。对音乐内容的小样本的回声残余信号的能量求平均可以用于估计AvgEcho。当设备未播放音频时，AvgEcho可能会取代地设置为标称的低值，如-96.0dB。在一些这样的实施方式中，言语能量和残余回声能量可以表示如下：

(2)根据一些示例，平均言语能量可以通过取与由语音活动检测器(VAD)确定的用户的话语相对应的麦克风信号的能量来确定。在一些这样的示例中，当VAD不指示言语时，平均残余回声能量可以通过麦克风信号的能量来估计。如果x表示某采样率下设备a的麦克风脉冲编码调制(PCM)样本，并且V表示VAD标志，对于与语音活动相对应的样本取值为1.0，否则为0.0，则言语能量和残余回声能量可以表示如下：

(3)除了先前的方法之外，在一些实施方式中，麦克风中的能量可以被视为随机变量并且基于VAD确定来单独建模。言语和回声能量的统计模型Sp和E可以使用任何数量的统计建模技术来分别估计。然后可以分别从Sp和E中得出用于近似S(a)的以dB为单位的言语和回声两者的平均值。在统计信号处理领域中可以找到实现这一点的常用方法，例如：

·假设能量的高斯分布并且计算有偏二阶统计量

和

·构建离散装仓的能量值直方图以产生潜在的多模态分布，之后对混合模型(例如，高斯混合模型)应用期望最大化(EM)参数估计步骤，可以使用属于混合中任何子分布的最大平均值

(决定)如本文别处所述，在各种公开的实施方式中，决定方面确定哪些设备接收音频处理修改，如渲染修改，以及在一些实施例中，对期望的SER改进需要多少修改的指示。一些这样的实施例可以被配置为改进具有最佳初始SER值的设备处的SER，例如，如通过在集合D中的所有设备上找到S的最大值所确定的。其他实施例可以被配置为机会性地改进由用户定期寻址的设备处的基于历史使用模式确定的SER。其他实施例可以被配置为尝试改进多个麦克风位置处的SER，例如，出于以下讨论的目的而选择多个设备。

一旦确定了一个或多个麦克风位置，在一些这样的实施方式中，可以如下确定期望的SER改进(SERI)：

SERI＝S(m)-TargetSER[dB]

在前述表达式中，m表示正在改进的设备/麦克风位置，并且TargetSER表示阈值，其可以由使用中的应用程序来设置。例如，唤醒词检测算法可以容忍比大词汇言语识别器更低的操作SER。TargetSER的典型值可以为大约-6dB至12dB。如提到的，如果在一些实施例中S(m)未知或不易于估计，则基于在典型回声房间或环境中记录的言语和回声的离线测量，预设值可能就足够了。一些实施例可以通过将f_n指定为在0到1的范围来确定要为其修改音频处理(例如，渲染)的设备。其他实施例可以涉及指定音频处理(例如，渲染)应以言语-回声比改进分贝为单位来修改的程度，s_n，可能根据以下计算：

s_n＝SERI*f_n

一些实施例可以直接从设备几何结构计算f_n，例如，如下：

在前述表达式中，m表示将被选择用于最大音频处理(例如，渲染)修改的设备的索引，如上所述。其他实施方式可以涉及对设备几何形状的缓动函数或平滑函数的其他选择。

实施例B(参考用户区)：

在一些实施例中，本公开的情境和决定方面将在一个或多个用户区的情境中进行。如本文档稍后详述的，一组声学特征

可以用于估计某组区标签C_k的后验概率p(C_k|W(j))，对于k＝{1...K}，对于环境中的K个不同用户区域。每个音频设备与每个用户区的关联可以由用户自己提供作为本文档中描述的训练过程的一部分，或者替代性地通过应用程序(例如，Alexa智能电话app或Sonos S2控制器智能电话app)的方式提供。例如，一些实施方式可以将第j个设备与具有区标签C_k的用户区的关联表示为z(C_k，n)∈[0，1]。在一些实施例中，z(C_k,n)和后验概率p(C_k|W(j))可以被认为是情境信息。一些实施例可以改为将声学特征W(j)本身视为情境的一部分。在其他实施例中，这些量(z(C_k,n)、后验概率p(C_k|W(j))和声学特征W(j)本身)中的一个以上的量和/或这些量的组合可以是情境信息的一部分。

各种实施例的决定方面可以在设备选择中使用与一个或多个用户区相关的量。其中，z和p都可用，示例决定可以如下做出：

根据这样的实施例，与最有可能含有用户的用户区具有最高关联的设备将应用最多的音频处理(例如，渲染)变化。在一些示例中，δ可以是在[0.5,4.0]范围内的正数。根据一些这样的示例，δ可以用于在空间上控制渲染变化的范围。在这样的实施方式中，如果δ被选择为0.5，则更多设备将接收到更大的渲染变化，而值为4.0会将渲染变化限制为仅最靠近最可能的用户区的设备。

发明人还设想了另一类实施例，其中，在决定方面直接使用声学特征W(j)。例如，如果与话语j相关联的唤醒词置信度分数为w_n(j)，则可以根据以下表达式进行设备选择：

在前述表达式中，δ具有与先前示例相同的解释，并且进一步具有补偿特定唤醒词系统可能出现的典型唤醒词置信度分布的效用。如果大多数设备倾向于报告高唤醒词置信度，则δ可以选择为相对更高的数字，如3.0，以增加渲染变化应用程序的空间特异性。如果唤醒词的置信度随着用户更远离设备定位而迅速下降，则δ可以选择为相对较低的数字，如1.0或者甚至0.5，以便在渲染变化应用程序中包括更多设备。读者应理解，在一些替代性实施方式中，类似于上述针对声学特征的公式的公式，如对设备的麦克风处的言语水平的估计，和/或用户的话语的直接-混响比(direct to reverb ratio)可以替代唤醒词置信度。

图2A是示出能够实施本公开的各个方面的装置或系统的部件的示例的框图。与本文提供的其他图一样，图2A中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例，装置200可以是或者可以包括被配置用于执行本文公开的方法中的至少一些方法的设备。在一些实施方式中，装置200可以是或者可以包括智能扬声器、膝上型计算机、蜂窝电话、平板设备、智能家居中枢或被配置用于执行本文公开的方法中的至少一些方法的另一个设备。在一些实施方式中，装置200可以被配置为实施音频会话管理器。在一些这样的实施方式中，装置200可以是或者可以包括服务器。

在该示例中，装置200包括接口系统205和控制系统210。在一些实施方式中，接口系统205可以被配置用于与正在执行或被配置用于执行软件应用程序的一个或多个设备通信。这样的软件应用程序在本文中有时可以被称为“应用程序”或简称为“app”。在一些实施方式中，接口系统205可以被配置用于交换控制信息和与应用程序有关的相关联的数据。在一些实施方式中，接口系统205可以被配置用于与音频环境的一个或多个其他设备通信。在一些示例中，音频环境可以是家庭音频环境。在一些实施方式中，接口系统205可以被配置用于交换控制信息和与音频环境的音频设备相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置200被配置用于与其通信的一个或多个应用程序有关。

在一些实施方式中，接口系统205可以被配置用于接收音频数据。音频数据可以包括被安排由音频环境的至少一些扬声器再现的音频信号。音频数据可以包括一个或多个音频信号和相关联的空间数据。例如，空间数据可以包括声道数据和/或空间元数据。接口系统205可以被配置用于向环境的扩音器组中的至少一些扩音器提供经渲染的音频信号。在一些实施方式中，接口系统205可以被配置用于从环境中的一个或多个麦克风接收输入。

接口系统205可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统205可以包括一个或多个无线接口。接口系统205可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统205可以包括控制系统210与存储器系统(如图2A中示出的任选的存储器系统215)之间的一个或多个接口。然而，在一些实例中，控制系统210可以包括存储器系统。

控制系统210例如可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。

在一些实施方式中，控制系统210可以驻留在一个以上的设备中。例如，控制系统210的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统210的另一部分可以驻留在环境之外的设备中，如服务器、移动设备(例如，智能电话或平板电脑)等。在其他示例中，控制系统210的一部分可以驻留在本文描绘的环境之一内的设备中，并且控制系统210的另一部分可以驻留在环境的一个或多个其他设备中。例如，控制系统功能可以分布在环境的多个智能音频设备上，或者可以由编排设备(如本文中可以被称为音频会话管理器或智能家居中枢的设备)和环境的一个或多个其他设备共享。在一些这样的示例中，接口系统205还可驻留在一个以上的设备中。

在一些实施方式中，控制系统210可以被配置用于至少部分地执行本文所公开的方法。根据一些示例，控制系统210可以被配置用于实施音频会话管理方法，所述方法在一些实例中可以涉及确定要应用于渲染到音频环境的两个或更多个音频设备的扩音器馈送信号的音频数据的一种或多种类型的音频处理变化。根据一些实施方式，音频处理变化可以具有增加音频环境中在一个或多个麦克风处的言语-回声比的效果。

本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备等存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一种或多种非暂态介质可以例如驻留在图2A中示出的任选的存储器系统215和/或控制系统210中。因此，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，软件可以包括用于控制至少一个设备来实施音频会话管理方法的指令。在一些示例中，软件可以包括用于控制音频环境的一个或多个音频设备来获得、处理和/或提供音频数据的指令。在一些示例中，软件可以包括用于确定要应用于渲染到音频环境的两个或更多个音频设备的扩音器馈送信号的音频数据的一种或多种类型的音频处理变化的指令。根据一些实施方式，音频处理变化可以具有增加音频环境中在一个或多个麦克风处的言语-回声比的效果。例如，软件可以由如图2A的控制系统210等控制系统的一个或多个部件执行。

在一些示例中，装置200可以包括图2A中示出的任选的麦克风系统220。任选的麦克风系统220可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中，装置200可以不包括麦克风系统220。然而，在一些这样的实施方式中，装置200仍然可以被配置为经由接口系统210接收音频环境中的一个或多个麦克风的麦克风数据。

根据一些实施方式，装置200可以包括图2A中示出的任选的扩音器系统225。任选的扬声器系统225可以包括一个或多个扩音器。扩音器在本文中有时可以被称为“扬声器”。在一些示例中，任选的扩音器系统225的至少一些扩音器可以任意地定位。例如，任选的扩音器系统225的至少一些扬声器可以放置在不对应于任何标准规定的扬声器布局的位置，如杜比5.1、杜比5.1.2、杜比7.1、杜比7.1.4、杜比9.1、滨崎(Hamasaki)22.2等。在一些这样的示例中，任选的扩音器系统225的至少一些扩音器可以放置在对空间方便的位置(例如，在有空间容纳扩音器的位置)，但不在任何标准规定的扩音器布局中。在一些示例中，装置200可以不包括任选的扩音器系统225。

在一些实施方式中，装置200可以包括图2A中示出的任选的传感器系统230。任选的传感器系统230可以包括一个或多个相机、触摸传感器、手势传感器、运动检测器等。根据一些实施方式，任选的传感器系统230可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，任选的传感器系统230的一个或多个相机可以驻留在智能音频设备中，所述智能音频设备可以是单一用途音频设备或虚拟助理。在一些这样的示例中，任选的传感器系统230的一个或多个相机可以驻留在TV、移动电话或智能扬声器中。在一些示例中，装置200可以不包括传感器系统230。然而，在一些这样的实施方式中，装置200仍然可以被配置为经由接口系统210接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置200可以包括图2A中示出的任选的显示系统235。任选的显示系统235可以包括一个或多个显示器，如一个或多个发光二极管(LED)显示器。在一些实例中，任选的显示系统235可以包括一个或多个有机发光二极管(OLED)显示器。在其中装置200包括显示系统235的一些示例中，传感器系统230可以包括靠近显示系统235的一个或多个显示器的触摸传感器系统和/或手势传感器系统。根据一些这样的实施方式，控制系统210可以被配置用于控制显示系统235来呈现一个或多个图形用户界面(GUI)。

根据一些示例，装置200可以是或者可以包括智能音频设备。在一些这样的实施方式中，装置200可以是或可以(至少部分地)实施唤醒词检测器。例如，装置200可以是或可以(至少部分地)实施虚拟助理。

图2B是包括根据一些实施方式的音频会话管理方法的框的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法250的框。在一些实施方式中，方法250的一个或多个框可以同时执行。此外，方法250的一些实施方式可以包括比所示出和/或所描述的框更多或更少的框。方法250的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图2A中示出的和上文描述的控制系统210，或者其他公开的控制系统示例之一。根据一些实施方式，方法250的框可以至少部分地由实施本文中可以被称为音频会话管理器的设备来执行。

根据该示例，框255涉及从音频环境中的多个麦克风中的每个麦克风接收输出信号。在该示例中，多个麦克风中的每个麦克风驻留在音频环境的麦克风位置中，并且输出信号包括与人的当前话语相对应的信号。在一些实例中，当前话语可以是唤醒词话语。然而，输出信号还可以包括与人不说话的时间相对应的信号。例如，这种信号可以用于建立回声、噪声等的基线水平。

在该示例中，框260涉及基于输出信号确定与人相关的情境信息的一个或多个方面。在该实施方式中，情境信息包括人的估计当前位置和/或人与一个或多个麦克风位置的估计当前接近度。如上所述，如本文所使用的表达“麦克风位置”指示一个或多个麦克风的位置。在一些示例中，单个麦克风位置可以与驻留在单个音频设备中的麦克风阵列相对应。例如，麦克风位置可以是与包括一个或多个麦克风的整个音频设备相对应的单个位置。在一些这样的示例中，麦克风位置可以是与单个音频设备的麦克风阵列的质心相对应的单个位置。然而，在一些实例中，麦克风位置可以是单个麦克风的位置。在一些这样的示例中，音频设备可以仅具有单个麦克风。

在一些示例中，确定情境信息可以涉及对人当前所在的用户区做出估计。一些这样的示例可以涉及从每个麦克风的输出信号中确定多个当前声学特征以及将分类器应用于所述多个当前声学特征。应用分类器可以例如涉及应用在先前确定的声学特征上训练的模型，所述在先前确定的声学特征从人在环境中的多个用户区中作出的多个先前话语中得到。在一些这样的示例中，确定与所述人相关的情境信息的一个或多个方面可以涉及至少部分地基于来自所述分类器的输出来确定对所述人当前所在的用户区的估计。在一些这样的示例中，对用户区的估计可以是在不参考所述多个麦克风的几何位置的情况下确定的。根据一些示例，当前话语和先前话语可以是或可以包括唤醒词话语。

根据该实施方式，框265涉及至少部分地基于情境信息的一个或多个方面来选择音频环境的两个或更多个音频设备，所述两个或更多个音频设备各自包括至少一个扩音器。在一些示例中，选择所述音频环境的两个或更多个音频设备可以涉及选择所述音频环境的N个配备扩音器的音频设备，N为大于2的整数。在一些实例中，选择音频环境的两个或更多个音频设备或选择音频环境的N个配备扩音器的音频设备可以涉及选择音频环境的所有配备扩音器的音频设备。

在一些示例中，选择音频环境的两个或更多个音频设备可以至少部分地基于人的相对于麦克风位置和/或配备扩音器的音频设备位置的估计当前位置。一些这样的示例可以涉及确定对于人的估计当前位置或与所述人的估计当前位置最靠近的麦克风位置而言最近的配备扩音器的音频设备。在一些这样的示例中，所述两个或更多个音频设备可以包括所述最近的配备扩音器的音频设备。

根据一些实施方式，选择两个或更多个音频设备可以至少部分地基于确定信号-回声比估计是否小于或等于信号-回声比阈值。

根据该示例，框270涉及确定要应用于渲染到两个或更多个音频设备的扩音器馈送信号的音频数据的一种或多种类型的音频处理变化。在该实施方式中，音频处理变化具有增加在一个或多个麦克风处的言语-回声比的效果。在一些示例中，一个或多个麦克风可以驻留在音频环境的多个音频设备中。然而，根据一些实施方式，一个或多个麦克风可以驻留在音频环境的单个音频设备中。在一些示例中，(多个)音频处理变化可以使两个或更多个音频设备的扩音器的扩音器再现水平降低。

根据一些示例，第一音频设备的音频处理变化中的至少一个音频处理变化可以不同于第二音频设备的音频处理变化。例如，(多个)音频处理变化可以导致第一音频设备的第一扩音器的扩音器再现水平的第一降低，并且可以导致第二音频设备的第二扩音器的扩音器再现水平的第二降低。在一些这样的示例中，对于与人的估计当前位置(或与人的估计当前位置最靠近的麦克风位置)更靠近的音频设备，扩音器再现水平的降低可能相对更大。

然而，发明人考虑了在一些实例中可以进行的多种类型的音频处理变化。根据一些实施方式，一种或多种类型的音频处理变化可以涉及改变渲染过程以扭曲音频信号的渲染而远离人的估计当前位置(或远离最靠近人的估计当前位置的麦克风位置)。

在一些实施方式中，所述一种或多种类型的音频处理变化可以涉及频谱修正。例如，频谱修正可以涉及降低介于500Hz与3KHz之间的频带中的音频数据的水平。在其他示例中，频谱修正可以涉及降低具有较高最大频率和/或较低最小频率的频带中的音频数据的水平。根据一些实施方式，一种或多种类型的音频处理变化可以涉及将至少一个间隙插入到音频回放信号的至少一个所选频带中。

在一些实施方式中，确定一种或多种类型的音频处理变化可以基于成本函数的优化，所述优化至少部分地基于信号-回声比估计。在一些实例中，成本函数可以至少部分地基于渲染性能。

根据该示例，框275涉及使得应用一种或多种类型的音频处理变化。在一些实例中，框275可以涉及通过控制音频环境中的音频处理的一个或多个设备来应用一种或多种类型的音频处理变化。在其他实例中，框275可以涉及使得(例如，经由来自音频会话管理器的命令或控制信号)由音频环境的一个或多个其他设备应用一种或多种类型的音频处理变化。

方法250的一些实施方式可以涉及根据情境信息的一个或多个方面选择至少一个麦克风。在一些这样的实施方式中，方法250可以涉及根据人与一个或多个麦克风位置的估计的当前接近度来选择至少一个麦克风。方法250的一些实施方式可以涉及根据对用户区的估计选择至少一个麦克风。根据一些这样的实施方式，方法250可以涉及根据从(多个)所选麦克风接收的麦克风信号来至少部分地实施虚拟助理功能。在一些这样的实施方式中，方法250可以涉及提供至少部分地基于从(多个)所选麦克风接收的麦克风信号的电话会议功能。

一些实施例提供了这样的系统(包括两个或更多个设备，例如，智能音频设备)，其被配置为实施渲染和映射，并且被配置为使用软件或逻辑的其他表现形式(例如，包括实施逻辑的系统元件)用于改变音频处理(例如，调低一个、两个或更多个最近的扩音器)。所述逻辑可以实施监管器，如被配置为实施音频会话管理器的设备，在一些示例中，所述监管器可以与被配置用于渲染的系统元件分开运行。

图3A是被配置为跨多个设备实施单独的渲染控制和收听或捕获逻辑的系统的框图。与其他公开的图一样，图3A至图3C中示出的元件的数量、类型和布置仅仅是示例。其他实施方式可以包括更多、更少和/或不同类型的元件。例如，其他实施方式可以包括三个以上的音频设备、不同类型的音频设备等。

取决于特定示例，图3A至图3C中示出的模块与本公开中示出和描述的其他模块一样，可以经由硬件、软件、固件等来实施。在一些实施方式中，所公开的模块中的一个或多个模块(在一些实例中，在本文中可以被称为“元件”)可以经由如以上参考图2A描述的控制系统210等控制系统来实施。在一些这样的示例中，所公开的模块中的一个或多个模块可以根据由一个或多个这样的控制系统执行的软件来实施。

图3A的元件包括：

音频设备302、303和304(在一些示例中，其可以是智能音频设备)。根据该示例，音频设备302、303和304中的每一个包括至少一个扩音器和至少一个麦克风；

-元件300表示将在音频设备302、303和304中的一个或多个上播放的内容形式，包括音频数据。内容300可以是线性的或交互式内容，这取决于特定实施方式；

-模块301被配置用于音频处理，包括但不限于根据渲染逻辑进行渲染。例如，在一些实施例中，模块301可以被简单地配置为将内容300的音频(例如，单声道或立体声)均等地复制到所有三个音频设备302、303和304。在一些替代性实施方式中，音频设备302、303和304中的一个或多个可以被配置为实施音频处理功能，包括但不限于渲染功能；

-元件305表示分配给音频设备302、303和304的信号。在一些示例中，信号305可以是或可以包括扬声器馈送信号。如上所述，在一些实施方式中，模块301的功能可以经由音频设备302、303和304中的一个或多个来实施，在这种情况下，信号305对于音频设备302、303和304中的一个或多个可以是局部的。然而，所述信号在图3A中示出为一组扬声器馈送信号，因为一些实施例(例如，如下文参考图4所描述的)实施对信号305的简单最终截取或后处理；

-元件306表示由音频设备302、303和304的麦克风捕获的原始麦克风信号。

-模块307被配置为实施麦克风信号处理逻辑，并且在一些示例中，实施麦克风信号捕获逻辑。因为在该示例中，音频设备302、303和304中的每一个都具有一个或多个麦克风，所以捕获的原始信号306由模块307处理。在一些实施方式中，如这里，模块307可以被配置为实施回声消除和/或回声检测功能。

-元件308表示由模块301供应到模块307的局部和/或全局回声参考信号。根据该示例，模块307被配置为根据局部和/或全局回声参考信号308实施回声消除和/或回声检测功能。在一些实施方式中，麦克风捕获处理和/或原始麦克风信号的处理可以在音频设备302、303和304中的每一个上与局部回声消除和/或检测逻辑一起分布。捕获和捕获处理的特定实施方式对于计算和理解渲染的任何更改对整体SER的影响以及捕获处理和逻辑的功效的概念并不重要；

-模块309是实施捕获的音频的整体混合或组合(例如，出于使期望的音频被感知为从特定的单一或广泛位置发出的目的)的系统元件。在一些实施方式中，模块307还可以提供元件309的混合功能；并且

-模块310是系统元件，其实施处理检测到的音频的最后一个方面，以便做出关于所说的内容或音频环境中是否发生感兴趣的活动的某种决定。例如，模块310可以提供自动言语识别(ASR)功能、背景噪声水平和/或类型感测功能，例如，关于人们在音频环境中正在做什么的情境、音频环境中的总体噪声水平是什么等等。在一些实施方式中，模块310的一些或全部功能可以在音频设备302、303和304所在的音频环境之外实施，例如，在基于云的服务提供商的一个或多个设备(例如，一个或多个服务器)中。

图3B是根据另一个公开的实施方式的系统的框图。在该示例中，图3B中示出的系统包括图3A的系统的元件并且扩展了图3A的系统以包括根据一些公开的实施例的功能。图3B的系统包括用于实施情境、决定和渲染动作方面的元件，如应用于操作分布式音频系统。根据一些示例，对用于实施情境、决定和渲染动作方面的元件的反馈可以使得在有活动(例如，检测到的言语)时置信度增加，或者使得能够自信地降低活动感(活动的可能性低)，并且因此将音频处理返回到其初始状态。

图3B的元件包括以下各项：

-模块351是表示(并且实施)情境步骤的系统元件，例如，用于获得可能期望更好地检测音频的位置的指示(例如，以增加一个或多个麦克风处的言语-回声比)，以及想要收听的可能性或感觉(例如，言语(如唤醒词或命令)可以被一个或多个麦克风捕获的可能性)。在该示例中，模块351和353经由控制系统实施，在该实例中，所述控制系统是图2A的控制系统210。在一些实施方式中，框301和307也可以由控制系统实施，在一些实例中所述控制系统可以是控制系统210。根据一些实施方式，框356、357和358也可以由控制系统实施，在一些实例中所述控制系统可以是控制系统210；

-元件352表示到模块351的反馈路径。在该示例中，反馈352由模块310提供。在一些实施例中，反馈352可以与来自可能与确定情境相关的麦克风信号的捕获的音频处理(如ASR的音频处理)的结果相对应——例如，对唤醒词的弱检测或早期检测或言语活动的某种低检测的感觉可以用于开始提高希望改进收听的情境的置信度或感觉(例如，以增加一个或多个麦克风处的言语-回声比)；

-模块353是系统元件，在其中(或由其)形成关于针对哪个音频设备改变音频处理以及改变的量的决定。取决于特定实施方式，模块353可以或可以不使用特定音频设备信息，如音频设备的类型和/或能力(例如，扩音器能力、回声抑制能力等)、音频设备的可能取向等。如下文一些示例中所描述的，与智能扬声器或其他扩音器相比，用于耳机设备的模块353的(多个)决定制定过程可能非常不同；

-元件354是模块353的输出，所述元件在该示例中是一组控制函数，在图3B中表示为f_n值，经由控制路径355到单独的渲染框，所述控制路径也可以被称为信号路径355。所述一组控制函数可以被分布(例如，经由无线传输)成使得该信号路径355对于音频环境是局部的。在该示例中，控制函数被提供给模块356、357和358；并且

-模块356、357和358是被配置为影响音频处理的变化的系统元件，所述音频处理可能包括但不限于输出渲染(一些实施例的渲染方面)。在该示例中，模块356、357和358由输出354的控制函数(在该示例中，f_n值)在激活时控制。在一些实施方式中，模块356、357和358的功能可以经由框301来实施。

在图3B的实施例和其他实施方式中，可以出现反馈的良性循环。如果元件310(在一些实例中可以实施自动言语识别或ASR)的输出352检测到言语，即使是微弱的(例如，具有低置信度)，则根据一些示例，情境元件351可以基于音频环境中哪个(哪些)麦克风捕获声音(例如，哪个(哪些)麦克风具有除回声之外的最大能量)来估计位置。根据一些这样的示例，决定框353可以选择音频环境的一个、两个、三个或更多个扩音器并且可以激活与渲染的变化相关的小值(例如，f_n＝0.25)。在整体20dB回避的情况下，该值将然后在所选的(多个)设备处执行约5dB的音量降低，这对于普通人类收听者来说可以是明显的。当与时间常数和/或事件检测以及与再现类似内容的音频环境的其他扩音器组合时，水平的(多个)降低可能不太明显。在一个示例中，可能是音频设备303(与正在说话的人311最近的音频设备)被调低。在其他示例中，音频设备302和303两者都可以被调低，在一些实例中调低不同的量(例如，取决于与人311的估计接近度)。在其他示例中，音频设备302、303和304可以全部调低，在一些实例中调低不同的量。由于降低了音频设备302、303和304中的一个或多个音频设备的一个或多个扩音器的回放水平，可以在人311附近的一个或多个麦克风(例如，音频设备303的一个或多个麦克风)处增加言语-回声比。因此，如果人311继续说话(例如，重复唤醒词或发出命令)，则系统现在可以更好地“听到”人311。在一些这样的实施方式中，在下一个时间间隔期间(例如，在接下来的几秒钟期间)，并且在一些实例中以连续的方式，系统(例如，至少部分地经由框351和353实施的音频会话管理器)可以迅速趋向于例如通过选择f_2＝1来关掉人311附近的一个或多个扩音器的音量。

图3C是根据一个示例被配置为实施能量平衡网络的实施例的框图。图3C是系统的框图，所述系统包括图3B的系统的元件并且将图3B的系统扩展为包括用于实施能量补偿(例如，‘将其他设备调高一点’)的元件(例如，元件371)。

在一些示例中，被配置用于图3C的系统(或如图3C的系统)的音频会话管理的设备(音频会话管理器)可以评估由于音频处理的影响而在收听者(311)处丢失的分段能量(例如，降低应用于增加一个或多个麦克风处的言语-回声比的一个或多个所选扩音器(例如，接收控制信号的音频设备的扬声器，其中f_n>0)的水平)。然后，音频会话管理器可以对音频环境的其他扬声器应用水平提升和/或某种其他形式的能量平衡，以补偿基于SER的音频处理变化。

很多时候，当渲染稍微相关的内容并且存在由音频环境的多个扩音器再现的相关或频谱类似的音频分量时(简单的示例是单声道)，那么可能不需要做太多的能量平衡。例如，如果音频环境中有3个扩音器，其距离范围比例为从1至2，1为最接近，那么如果由扩音器再现相同的内容，则将最近的扩音器调低6dB将仅具有2dB-3dB影响。并且关闭最近的扩音器可能仅会对收听者处的声音产生3dB-4dB的整体影响。

在更复杂的情况下(例如，插入间隙或空间转向)，在一些示例中，能量保存和感知连续性的形式可以是更加多因素的能量平衡。

在图3C中，在一些示例中，用于实施情境的(多个)元件可以仅为唤醒词弱检测的音频水平(接近度的互易性)。换句话说，确定情境的一个示例可以基于通过检测到的回声检测任何唤醒词话语的水平。这种方法可以或可以不涉及实际确定言语-回声比，这取决于特定实施方式。然而，在一些示例中，简单地检测和评估在多个麦克风位置中的每一个麦克风位置处检测到的唤醒词话语的水平可以提供足够水平的情境。

由系统元件实施的用于实施情境(例如，在图3C的系统中)的方法的示例可以包括但不限于以下各项：

-在检测到部分唤醒词时，可以从唤醒词置信度推断与配备麦克风的音频设备的接近度。唤醒词话语的定时也可以从唤醒词置信度推断出来；并且

-除了应用于原始麦克风信号的回声消除和抑制之外，还可以检测某种音频活动。一些实施方式可以使用一组能量水平和分类来确定音频活动是语音活动的可能性(语音活动检测)。该过程可以确定语音活动的置信度或可能性。语音的位置可以基于针对类似交互情况的最佳麦克风的概率。例如，正在实施音频会话管理器的设备可能事先知道一个配备麦克风的音频设备最靠近用户，所述音频设备如位于或靠近用户的公共位置的桌面设备，而不是不在用户的公共位置附近的壁挂式设备。

用于实施决定的系统元件(例如，在图3C的系统中)的示例实施例是被配置用于确定关于语音活动的置信度值并且用于确定哪个是最近的配备麦克风的音频设备的元件。

在图3C的系统(和其他实施例)中，为了增加位置处的SER而应用的(多个)音频处理变化的量可以是关于语音活动的距离和置信度的函数。

用于(例如，在图3C的系统中)实施渲染的方法的示例包括：

仅调低dB；和/或

言语频带均衡(EQ)(例如，如下文参考图4所描述的)；和/或

渲染变化的时间调制(如参考图5所描述的)；和/或

使用瞬时时间切片或调整来创建(例如，插入音频内容)足以获得感兴趣音频片段的“间隙”或具有稀疏时频较低输出的周期。下文参考图9描述了一些示例。

图4是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的音频处理的示例的图。图4的图提供了频谱修正的示例。在图4中，频谱修正涉及降低已知与言语相对应的频率的水平，在这些示例中，所述频率是在大约200Hz与10KHz的范围内(例如，在范围的上限和/或下限频率的5％或10％内)的频率。其他示例可以涉及降低不同频带中的频率水平，例如，介于大约500Hz与3KHz之间(例如，在范围的上限和/或下限频率的5％或10％内)。在一些实施方式中，该范围之外的频率可以以更高的水平再现，以便至少部分地补偿由频谱修正导致的响度降低。

图4的元素包括：

601：表示平坦EQ的曲线；

602：表示指示的频率范围的部分衰减的曲线。这种部分衰减可以具有相对低的可察觉性，但可以对言语检测产生有用的影响；以及

603：表示指示的频率范围的显著更大衰减的曲线。像曲线603所表示的那样的频谱修正可以对听到言语有很大影响。在一些实例中，像曲线603所表示的那样积极的频谱修正可以提供显著降低所有频率的水平的替代方案。

在一些示例中，音频会话管理器可以致使与时变频谱修正相对应的音频处理变化，如由曲线601、602和603表示的序列。

根据一些示例，可以在其他音频处理变化的情境(如渲染变化的情境)中使用一个或多个频谱修正，以使再现音频“扭曲”而远离某个位置，如办公室、卧室、正在睡觉的婴儿等。与这种扭曲结合使用的(多个)频谱修正可以例如降低低音频率范围内的水平，例如，20Hz-250 Hz范围内。

图5是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理的图。在该示例中，竖直轴线表示在0至1范围内的“f”值，并且水平轴线表示时间，以秒为单位。图5是渲染效果的激活随时间变化的轨迹图(由曲线701指示)。在一些示例中，模块356、357或358中的一个或多个可以实施图5中表示的音频处理的类型。根据该示例，时间常数的不对称性(由曲线701指示)指示系统在短时间(例如，100ms到1秒)内调制到受控值(f_n)，但从值f_n(也标识为值703)回到零的速度要慢得多(例如，10秒或更多)。在一些示例中，介于2秒与N秒之间的时间间隔可以是多秒，例如，在4秒至10秒的范围内。

图5还示出了第二激活曲线702，其具有阶梯形状，在该示例中最大值等于f_n。根据该实施方式，阶梯升高与内容本身的水平(例如，语音起始或音节速率)的突然变化相对应。

如上所述，在一些实施方式中，瞬时时间切片或频率调整可以创建(例如，通过将间隙插入音频内容中)足以获得感兴趣音频片段的“间隙”或具有稀疏时频输出的周期(例如，增加或减少音频内容的“间隙”程度和其感知)。

图6图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理。图6是根据一个示例已在其中插入了强加间隙的经修改的音频回放信号的频谱图的示例。更具体地，为了生成图6的频谱图，强加间隙G1、G2和G3被插入到回放信号的频带中，由此生成经修改的音频回放信号。在图6中示出的频谱图中，沿水平轴线的定位指示时间，并且沿竖直轴线的定位指示在某个时刻处经修改的音频回放信号的内容的频率。

每个小区域(以具有竖直和水平坐标的点为中心的每个这种区域)中的点的密度指示在对应的频率和时刻处经修改的音频回放信号的内容的能量(密度较大的区域指示具有更大能量的内容，并且密度较小的区域指示具有更低能量的内容)。因此，间隙G1在比间隙G2或G3出现的时间(或出现间隙G2或G3的时间间隔)更早的时间(即，时间间隔中)出现，并且间隙G1已被插入到比已插入间隙G2或G3的频带更高的频带中。

将强加间隙引入到回放信号中与单工设备操作不同，在所述单工设备操作中，设备暂停内容的回放流(例如，以便更好地听到用户和用户的环境)。根据一些公开的实施例，将强加间隙引入到回放信号中可以被优化为显著降低(或消除)在回放期间由引入的间隙引起的伪像的可感知性，优选地，使得强加间隙对用户没有或仅有最小的可感知影响，但使得回放环境中麦克风的输出信号指示强加间隙(例如，因此可以利用间隙来实施普适收听方法)。通过使用根据一些公开的实施例引入的强加间隙，即使不使用声学回声消除器，普适收听系统也可以监测非回放声音(例如，指示回放环境中的背景活动和/或噪声的声音)。

根据一些示例，可以在来自单个声道的时间频谱输出中插入间隙，这可以产生稀疏感，即“通过间隙听到”的改进收听能力。

图7是图示了可以增加音频环境的一个或多个麦克风处的言语-回声比的另一种类型的音频处理的图。在该实施例中，音频处理变化涉及动态范围压缩。

该示例涉及动态范围限制的两个极端之间的转变。在由曲线801表示的一种情况下，音频会话管理器使得不应用动态范围控制，而在由曲线802表示的另一种情况下，音频会话管理器使得应用相对积极的限制器。与曲线802相对应的限制器可以将音频输出的峰值降低10dB或更多。根据一些示例，压缩比可以不超过3:1。在一些实施方式中，曲线802(或另一个动态范围压缩曲线)可以包括从设备的峰值输出值的在-20dB或大约-20dB处(例如，在+/-1dB内、在+/-2dB内、在+/-3dB内等)的拐点。

接下来，描述用于实施渲染的系统元件的实施例的另一个示例(音频处理变化具有增加一个或多个麦克风处的言语-回声比的效果，例如，在图3B或图3C系统中)。在该实施例中，执行能量平衡。如上所述，在一个简单的示例中，音频会话管理器可以评估在收听者的位置或区处由于用于增加音频环境的一个或多个麦克风处的SER的其他音频处理变化的影响而丢失的音频的分段能量。然后，音频会话管理器可以向其他扬声器添加增强，以弥补在收听者的位置或区处丢失的该能量。

很多时候，当渲染稍微相关的内容并且在多个设备中存在相关或频谱类似的分量时(简单的示例是单声道)，那么可能根本不需要做太多事情。例如，如果有3个扩音器，其距离范围比例为从1至2，1为最接近，那么将最近的扩音器调低6dB(如果由扩音器再现相同的内容)将仅具有2dB至3dB影响。并且关闭最近的扩音器将可能仅会对收听者的位置处的声音产生3dB至4dB的整体影响。

接下来描述附加实施例的方面。

1.定义‘最近’的二阶因子

如以下两个示例将说明的，“接近度”或“最近”的度量可以不是距离的简单度量，而是可以是涉及估计的言语-回声比的标量排名。如果音频环境的音频设备不相同，则每个配备扩音器的音频设备可以具有从其(多个)扩音器到其自己的(多个)麦克风的不同耦接，这对比率中的回声水平有很强的影响。同样，音频设备可以具有不同的麦克风布置，所述布置相对更适合或相对不太适合用于收听，例如，用于检测来自特定方向的声音、用于检测在音频环境的特定位置中或来自音频环境的特定位置的声音。因此，在一些实施方式中，计算(决定)可以不止考虑收听的接近度和互易性。

图8是其中要调低的音频设备可能不是最靠近正在讲话的人的音频设备的示例的图。在该示例中，音频设备802比音频设备805相对更靠近正在说话的人100。根据一些示例，在像图8中示出的情况下，与调低输出以更好地捕获人101的言语的好处相比，音频会话管理器可以考虑不同的基线SER和音频设备特性，并且关闭这样的(多个)设备，其具有降低输出对音频呈现的影响的最佳成本/收益比。

图8示出了其中“最近”的更大功能性度量可以具有复杂性和实用性的示例。在该实例中，存在发出声音(言语102)的人101，音频会话管理器被配置为捕获该声音，以及两者都具有扩音器(806和804)和麦克风(803和807)的两个音频设备802和805。鉴于麦克风803如此靠近更靠近人101的音频设备802上的扩音器804，可能不存在将产生可行SER的该设备的扩音器的调低量。在该示例中，音频设备805上的麦克风807被配置用于波束成形(平均产生更有利的SER)，并且因此将音频设备805的扩音器调低将具有比将音频设备802的扩音器调低更小的影响。在一些这样的示例中，最佳决定是将扩音器806调低。

将参考图9描述另一个示例。在该情况下，考虑可能在以下两个设备上发生的基线SER的最显著差异：一个是耳机，并且另一个是智能扬声器。

图9图示了其中SER非常高的设备非常靠近用户的情况。在图9中，用户101戴着耳机902并且说话(以由耳机902上的麦克风903并且也由智能扬声器设备904的麦克风两者捕获的方式发出声音102)。在该情况下，智能扬声器设备904还可以发出一些声音以匹配耳机(例如，针对沉浸式声音的近/远渲染)。显然耳机902是离用户101最近的输出设备，然而从耳机到最近的麦克风903几乎没有回声路径，因此，该设备的SER将非常高，并且如果将所述设备调低，则会产生巨大影响，因为耳机几乎是对收听者的全部渲染效果。在该情况下，调低智能扬声器904将更有益，尽管只是少量的并且不利于整体渲染的变化(附近的其他收听者听到声音)，可能没有决定实际行动——就调低扬声器或以其他方式改变音频处理参数而言，这可以以更好地改变音频环境中提供的音频的方式改善用户拾音的SER——在某种意义上，由于耳机中的固有设备SER，这已经非常实用。

关于具有多个扬声器和分布式麦克风的超过一定大小的设备，在一些情况下，可以将具有许多扬声器和许多麦克风的单个音频设备视为刚好刚性连接的一系列独立设备。在该情况下，关于调低的决定可以适用于个别扬声器。因此，在一些实施方式中，音频会话管理器可以将该类型的音频设备视为一组单独的麦克风和扩音器，而在其他示例中，音频会话管理器可以将该类型的音频设备视为具有复合扬声器和麦克风阵列的一个设备。同样，可以看出，将单个设备上的扬声器视为单独的设备与在单个多扩音器音频设备中一种渲染方法是空间转向的想法之间存在二重性，这必然会给单个音频设备上的扩音器的输出带来不同的变化。

关于最近的(多个)音频设备避免来自靠近移动的收听者的音频设备的空间成像敏感性的次要效应，在许多情况下，即使扩音器靠近移动的收听者，再现特定音频对象或从最近的(多个)扩音器输出的渲染材料也可能没有意义。这简单地与直接音频路径的响度以1/r²直接变化的事实有关，其中，r是声音传播的距离，并且随着扩音器变得靠近任何收听者(r->0)，该扩音器再现的声音的水平相对于整体混音的稳定性变差。

在一些这样的实例中，实施以下这样的实施例可能是有利的，其中(例如)：

-情境是一些一般的收听区域(例如，靠近电视的沙发)，在所述收听区域中，能够听到某人在电视上观看的节目的音频被认为总是有用的；

-决定：对于在一般收听区域(例如，靠近沙发)的咖啡桌上的具有扬声器的设备，设置f_n＝1；以及

-渲染：设备关闭，并且能量在别处渲染。

该音频处理变化的影响是让在沙发上的人更好地收听。如果咖啡桌在沙发的一侧，则该方法将避免收听者靠近该音频设备的敏感性。在一些实例中，虽然该音频设备可以有理想的位置用于例如环绕声道，但沙发与该扬声器之间可能存在20dB或更多的水平差异的事实意指除非知道收听者/说话者的确切位置，否则调低或关闭该最近的设备可能是个好主意。

图10是概述了可以由如图2A中示出的装置等装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1000的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1000涉及估计用户在环境中的位置。

在该示例中，框1005涉及从环境中的多个麦克风中的每个麦克风接收输出信号。在该实例中，多个麦克风中的每个麦克风驻留在环境的麦克风位置中。根据该示例，输出信号与用户的当前话语相对应。在一些示例中，当前话语可以是或可以包括唤醒词话语。例如，框1005可以例如涉及控制系统(如图2A的控制系统120)经由接口系统(如图2A的接口系统205)从环境中的多个麦克风中的每个麦克风接收输出信号。

在一些示例中，环境中的麦克风中的至少一些可以提供与由一个或多个其他麦克风提供的输出信号异步的输出信号。例如，多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样，并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。在一些实例中，环境中的麦克风中的至少一个可以被包括在智能音频设备中，或者被配置用于与智能音频设备进行通信。

根据该示例，框1010涉及从每个麦克风的输出信号中确定多个当前声学特征。在该示例中，“当前声学特征”是从框1005的“当前话语”得到的声学特征。在一些实施方式中，框1010可以涉及从一个或多个其他设备接收多个当前声学特征。例如，框1010可以涉及从由一个或多个其他设备实施的一个或多个唤醒词检测器接收多个当前声学特征中的至少一些。替代性地或另外地，在一些实施方式中，框1010可以涉及从输出信号确定多个当前声学特征。

无论声学特征是由单个设备或多个设备确定，声学特征都可以异步确定。如果由多个设备确定声学特征，则通常将异步确定声学特征，除非所述设备被配置为协调确定声学特征的过程。如果声学特征由单个设备确定，则在一些实施方式中，声学特征仍然可以异步确定，因为单个设备可以在不同时间接收每个麦克风的输出信号。在一些示例中，声学特征可以异步确定，因为环境中的麦克风中的至少一些可以提供与由一个或多个其他麦克风提供的输出信号异步的输出信号。

在一些示例中，声学特征可以包括唤醒词置信度度量、唤醒词持续时间度量和/或至少一个接收的水平度量。接收的水平度量可以指示麦克风检测到的声音的接收到的水平并且可以与麦克风的输出信号的水平相对应。

替代性地或另外地，声学特征可以包括以下各项中的一项或多项：

·沿与声学模型的1-best(维特比(Viterbi))对齐的每个唤醒词状态的平均状态熵(纯度)。

·针对唤醒词检测器的声学模型的CTC损失(联结时间分类损失(ConnectionistTemporal Classification Loss))。

·除了唤醒词置信度之外，还可以训练唤醒词检测器来提供说话者距麦克风的距离的估计和/或RT60估计。距离估计和/或RT60估计可以是声学特征。

·作为麦克风处的宽带接收的水平/功率的替代或补充，声学特征可以是多个对数/Mel/Bark间隔频带中的接收的水平。频带可以因特定实施方式而异(例如，2个频带、5个频带、20个频带、50个频带、1倍频程频带或1/3倍频程频带)。

·先前的点中的频谱信息的倒谱表示，所述倒谱表示通过对频带功率的对数进行DCT(离散余弦变换)来计算。

·针对人类言语加权的频带中的频带功率。例如，声学特征可以仅基于特定频带(例如，400Hz至1.5kHz)。在该示例中，可以忽略更高和更低的频率。

·每带或每仓(bin)的语音活动检测器置信度。

·声学特征可以至少部分地基于长期噪声估计以便忽略具有较差信噪比的麦克风。

·峰度(kurtosis)作为言语“峰(peakiness)”的度量。峰度可以是长混响尾拖尾的指示符。

·估计的唤醒词起始时间。将期望跨所有麦克风在一帧左右之内起始和持续时间是相等的。异常值可以提供不可靠估计的线索。这假设了某种程度的同步——不一定与样本同步——但是，例如，与几十毫秒的帧同步。

根据此示例，框1015涉及将分类器应用于多个当前声学特征。在一些这样的示例中，应用所述分类器可以涉及应用在先前确定的声学特征上训练的模型，所述声学特征从用户在环境中的多个用户区中作出的多个先前话语中得到。本文中提供了各种示例。

在一些示例中，用户区可以包括水槽区域、食物制备区域、冰箱区域、餐饮区域、沙发区域、电视区域、卧室区域和/或门道区域。根据一些示例，一个或多个用户区可以是预定用户区。在一些这样的示例中，在训练过程期间，一个或多个预定用户区可能已经是可由用户选择的。

在一些实施方式中，应用分类器可以涉及应用在先前话语上训练的高斯混合模型。根据一些这样的实施方式，应用分类器可以涉及应用在标准化唤醒词置信度、标准化平均接收水平或先前话语的最大接收水平中的一个或多个上训练的高斯混合模型。然而，在替代性实施方式中，应用分类器可以基于不同的模型，如本文所公开的其他模型之一。在一些实例中，可以使用标记有用户区的训练数据来训练模型。然而，在一些示例中，应用分类器涉及应用使用未标记的训练数据训练的模型，所述训练数据未标记用户区。

在一些示例中，先前话语可能已经是唤醒词话语或者可能包括唤醒词话语。根据一些这样的示例，先前话语和当前话语可能已经是相同唤醒词的话语。

在该示例中，框1020涉及至少部分地基于来自分类器的输出来确定用户当前所在用户区的估计。在一些这样的示例中，估计可以是在不参考多个麦克风的几何位置的情况下确定的。例如，可以在不参考单独的麦克风的坐标的情况下确定估计。在一些示例中，可以在不估计用户的几何位置的情况下确定估计。

方法1000的一些实施方式可以涉及根据估计的用户区选择至少一个扬声器。一些这样的实施方式可以涉及控制至少一个所选扬声器以向估计的用户区提供声音。替代性地或另外地，方法1000的一些实施方式可以涉及根据估计的用户区选择至少一个麦克风。一些这样的实施方式可以涉及将由至少一个所选麦克风输出的信号提供给智能音频设备。

图11是被配置为实施区分类器的实施例的一个示例的元件的框图。根据该示例，系统1100包括分布在环境(例如，如图1A或图1B中图示的环境)的至少一部分中的多个扩音器1104。在该示例中，系统1100包括多声道扩音器渲染器1101。根据该实施方式，多声道扩音器渲染器1101的输出用作扩音器驱动信号(用于驱动扬声器1104的扬声器馈送)和回声参考两者。在该实施方式中，回声参考经由多个扩音器参考声道1102提供给回声管理子系统1103，所述回声参考包括从渲染器1101输出的扬声器馈送信号中的至少一些。

在该实施方式中，系统1100包括多个回声管理子系统1103。根据该示例，回声管理子系统1103被配置为实施一个或多个回声抑制过程和/或一个或多个回声消除过程。在该示例中，每个回声管理子系统1103向唤醒词检测器1106之一提供对应的回声管理输出1103A。回声管理输出1103A已经相对于回声管理子系统1103中的相关回声管理子系统的输入衰减了回声。

根据该实施方式，系统1100包括分布在环境(例如，图1A或图1B中所示的环境)的至少一部分中的N个麦克风1105(N为整数)。麦克风可以包括阵列麦克风和/或点麦克风。例如，位于环境中的一个或多个智能音频设备可以包括麦克风阵列。在该示例中，麦克风1105的输出作为输入提供给回声管理子系统1103。根据该实施方式，每个回声管理子系统1103捕获单独的麦克风1105或麦克风1105的单独的组或子集的输出。

在该示例中，系统1100包括多个唤醒词检测器1106。根据该示例，每个唤醒词检测器1106从回声管理子系统1103之一接收音频输出并且输出多个声学特征1106A。从每个回声管理子系统1103输出的声学特征1106A可以包括(但不限于)：唤醒词置信度、唤醒词持续时间和接收水平的测量。尽管描绘三个声学特征1106A的三个箭头示出为从每个回声管理子系统1103输出，但在替代性实施方式中可以输出更多或更少的声学特征1106A。此外，尽管这三个箭头沿或多或少的竖直线碰撞到分类器1107上，这并不指示分类器1107必须同时从所有唤醒词检测器1106接收声学特征1106A。如本文别处所述，在一些实例中，声学特征1106A可以被异步地确定和/或提供给分类器。

根据该实施方式，系统1100包括区分类器1107，所述区分类器也可以被称为分类器1107。在该示例中，分类器从针对环境中的多个(例如，所有)麦克风1105的多个唤醒词检测器1106接收多个特征1106A。根据该示例，区分类器1107的输出1108与用户当前所在的用户区的估计相对应。根据一些这样的示例，输出1108可以与一个或多个后验概率相对应。根据贝叶斯统计，对用户当前所在的用户区的估计可以是或可以与最大后验概率相对应。

接下来描述分类器的示例实施方式，所述分类器在一些示例中可以与图11的区分类器1107相对应。设x_i(n)为在离散时间n处的第i个麦克风信号，i＝{1...N}(即，麦克风信号x_i(n)是N个麦克风1105的输出)。在回声管理子系统1103中对N个信号x_i(n)的处理生成‘干净的’麦克风信号e_i(n)，其中，i＝{1...N}，每个所述麦克风信号在离散时间n处。在该示例中，在图11中被称为1103A的干净的信号e_i(n)被馈送到唤醒词检测器1106。此处，每个唤醒词检测器1106产生在图11中被称为1106A的特征向量w_i(j)，其中，j＝{1...J}是与第j个唤醒词话语相对应的索引。在该示例中，分类器1107将聚合特征集

作为输入。

根据一些实施方式，针对k＝{1...K]的一组区标签C_k可以与环境中不同用户区的数量K相对应。例如，用户区可以包括沙发区、厨房区、阅读椅区等。一些示例可以定义厨房或其他房间内的一个以上的区。例如，厨房区域可以包括水槽区、食物制备区、冰箱区和餐饮区。类似地，客厅区域可以包括沙发区、电视区、阅读椅区、一个或多个门道区等。针对这些区的区标签可以是可由用户例如在训练阶段期间选择的。

在一些实施方式中，分类器1107例如通过使用贝叶斯分类器估计特征集W(j)的后验概率p(C_k|W(j))。概率p(C_k|W(j))指示用户在每个区域C_k中的概率(针对第j个话语和第k个区，针对每个区C_k，以及每个话语)，并且是分类器1107的输出1108的示例。

根据一些示例，可以通过提示用户选择或定义区(例如，沙发区)来收集(例如，针对每个用户区)训练数据。训练过程可以涉及提示用户在所选或定义的区附近发出训练话语，如唤醒词。在沙发区示例中，训练过程可以涉及提示用户在沙发的中心和极端边缘处发出训练话语。训练过程可以涉及提示用户在用户区内的每个位置处重复训练话语若干次。然后可以提示用户移动到另一个用户区并且继续直到所有指定的用户区都被覆盖。

图12是概述了可以由如图2A的装置200等装置执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1200的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1200涉及训练分类器以用于估计用户在环境中的位置。

在该示例中，框1205涉及提示用户在环境的第一用户区内的多个位置中的每一个位置处发出至少一个训练话语。在一些示例中，(多个)训练话语可以是唤醒词话语的一个或多个实例。根据一些实施方式，第一用户区可以是由用户选择和/或定义的任何用户区。在一些实例中，控制系统可以创建对应的区标签(例如，上文描述的区标签C_k之一的对应实例)并且可以将所述区标签与针对第一用户区获得的训练数据相关联。

可以使用自动化提示系统来收集这些训练数据。如上所述，装置200的接口系统205可以包括用于实施用户接口的一个或多个设备，如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。例如，在训练过程期间，装置200可以在显示系统的屏幕上向用户提供以下提示或使用户经由一个或多个扬声器听到所述提示被宣布：

·“移动到沙发。”

·“在活动你的头的同时把唤醒词说十次。”

·“移动到沙发与阅读椅中间的位置，并且把唤醒词说十次。”

·“站在厨房里就像正在做饭一样，并且把唤醒词说十次。”

在该示例中，框1210涉及从环境中的多个麦克风中的每个麦克风接收第一输出信号。在一些示例中，框1210可以涉及从环境中的所有活动麦克风接收第一输出信号，而在其他示例中，框1210可以涉及从环境中的所有活动麦克风的子集接收第一输出信号。在一些示例中，环境中的麦克风中的至少一些可以提供相对于由一个或多个其他麦克风提供的输出信号异步的输出信号。例如，多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样，并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。

在该示例中，多个麦克风中的每个麦克风驻留在环境的麦克风位置中。在该示例中，第一输出信号与从第一用户区接收到的检测到的训练话语的实例相对应。因为框1205涉及提示用户在环境的第一用户区内的多个位置中的每一个位置处发出至少一个训练话语，所以在该示例中，术语“第一输出信号”是指与针对第一用户区的训练话语相对应的所有输出信号的集合。在其他示例中，术语“第一输出信号”可以指与针对第一用户区的训练话语相对应的所有输出信号的子集。

根据该示例，框1215涉及从每个第一输出信号确定一个或多个第一声学特征。在一些示例中，第一声学特征可以包括唤醒词置信度度量和/或接收的水平度量。例如，第一声学特征可以包括归一化唤醒词置信度度量、归一化平均接收水平的指示和/或最大接收水平的指示。

如上所述，因为框1205涉及提示用户在环境的第一用户区内的多个位置中的每一个位置处发出至少一个训练话语，所以在该示例中，术语“第一输出信号”是指与针对第一用户区的训练话语相对应的所有输出信号的集合。因此，在该示例中，术语“第一声学特征”是指从与第一用户区的训练话语相对应的所有输出信号的集合中得到的声学特征集合。因此，在该示例中，第一声学特征集合至少与第一输出信号集合一样大。例如，如果从每个输出信号确定两个声学特征，则第一声学特征集合将是第一输出信号集合的两倍大。

在该示例中，框1220涉及训练分类器模型以在第一用户区与第一声学特征之间建立相关性。例如，分类器模型可以是本文公开的那些分类器模型中的任何一个。根据该实施方式，分类器模型是在不参考多个麦克风的几何位置的情况下训练的。换句话说，在该示例中，在训练过程期间，不向分类器模型提供关于多个麦克风的几何位置的数据(例如，麦克风坐标数据)。

图13是概述了可以由如图2A的装置200等装置执行的方法的另一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1300的框。例如，在一些实施方式中，框1325的声学特征确定过程的至少一部分可以在框1315或框1320之前执行。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1300涉及训练分类器以用于估计用户在环境中的位置。方法1300提供了将方法1200扩展到环境的多个用户区的示例。

在该示例中，框1305涉及提示用户在环境的用户区内的位置处发出至少一个训练话语。在一些实例中，除了框1305与用户区内的单个位置有关之外，框1305可以以上文参考图12的框1205描述的方式来执行。在一些示例中，(多个)训练话语可以是唤醒词话语的一个或多个实例。根据一些实施方式，用户区可以是由用户选择和/或定义的任何用户区。在一些实例中，控制系统可以创建对应的区标签(例如，上文描述的区标签C_k之一的对应实例)并且可以将所述区标签与针对用户区获得的训练数据相关联。

根据该示例，框1310基本上如上文参考图12的框1210所描述的那样执行。然而，在该示例中，框1310的过程被推广到任何用户区，不一定是为其获取训练数据的第一用户区。因此，在框1310中接收的输出信号是“来自环境中多个麦克风中的每个麦克风的输出信号，多个麦克风中的每个麦克风驻留在环境的麦克风位置，输出信号与从用户区接收到的被检测到的训练话语的实例相对应。”在该示例中，术语“输出信号”是指与用户区的位置中的一个或多个训练话语相对应的所有输出信号的集合。在其他示例中，术语“输出信号”可以指与用户区的位置中的一个或多个训练话语相对应的所有输出信号的子集。

根据该示例，框1315涉及确定是否已经针对当前用户区获取了足够的训练数据。在一些这样的示例中，框1315可以涉及确定是否已经针对当前用户区获得了与训练话语的阈值数量相对应的输出信号。替代性地或另外地，框1315可以涉及确定是否已经获得与当前用户区内的阈值数量的位置中的训练话语相对应的输出信号。如果没有，则在该示例中，方法1300返回到框1305，并且提示用户在同一用户区内的位置处发出至少一次额外的话语。

然而，如果在框1315中确定已经针对当前用户区获取了足够的训练数据，则在该示例中，过程继续到框1320。根据该示例，框1320涉及确定是否针对额外的用户区获得训练数据。根据一些示例，框1320可以涉及确定是否已经针对用户先前已经识别的每个用户区获得了训练数据。在其他示例中，框1320可以涉及确定是否已经针对最小数量的用户区获得了训练数据。用户可能已经选择了最小数量。在其他示例中，最小数量可以是每个环境的推荐最小数量、环境的每个房间的推荐最小数量等。

如果在框1320中确定应该针对额外的用户区获得训练数据，则在该示例中，过程继续到框1322，所述框涉及提示用户移动到环境的另一个用户区。在一些示例中，下一个用户区可以是可由用户选择的。根据该示例，在框1322的提示之后，过程继续到框1305。在一些这样的示例中，可以在框1322的提示之后提示用户确认用户已经到达新用户区。根据一些这样的示例，可以在提供框1305的提示之前要求用户确认用户已经到达新用户区。

如果在框1320中确定不应针对额外的用户区获得训练数据，则在该示例中，过程继续到框1325。在该示例中，方法1300涉及针对K个用户区获得训练数据。在该实施方式中，框1325涉及从与已经针对其获得了训练数据的第一到第K用户区中的每一个相对应的第一到第H输出信号确定第一到第G声学特征。在该示例中，术语“第一输出信号”是指与第一用户区的训练话语相对应的所有输出信号的集合，并且术语“第H输出信号”是指与针对第K用户区的训练话语相对应的所有输出信号的集合。类似地，术语“第一声学特征”是指从第一输出信号确定的声学特征集合，并且术语“第G声学特征”是指从第H输出信号确定的声学特征集合。

根据这些示例，框1330涉及训练分类器模型以分别在第一到第K用户区与第一到第K声学特征之间建立相关性。例如，分类器模型可以是本文所公开的分类器模型中的任何一个。

在前述示例中，用户区被标记(例如，根据上文描述的区标签C_k之一的对应实例)。然而，模型可以根据标记的或未标记的用户区进行训练，这取决于特定实施方式。在标记的情况下，每个训练话语可以和与用户区相对应的标签配对，例如，如下：

训练分类器模型可以涉及确定标记的训练数据的最佳拟合。不失一般性，针对分类器模型的适当分类方法可以包括：

·贝叶斯分类器，例如具有由多元正态分布、全协方差高斯混合模型或对角协方差高斯混合模型描述的每类分布；

·矢量量化；

·最近邻(k均值)；

·具有SoftMax输出层的神经网络，其中一个输出对应每个类；

·支持向量机(SVM)；和/或

·提升技术，如梯度提升机(GBM)

在实施未标记情况的一个示例中，数据可以自动拆分成K个聚类，其中，K也可能是未知的。例如，可以通过使用经典聚类技术，例如，k均值算法或高斯混合建模来执行未标记的自动拆分。

为了提高稳健性，可以将正则化应用于分类器模型训练，并且模型参数可以随着时间的推移随着新话语的发出而更新。

接下来描述实施例的进一步方面。

示例声学特征集(例如，图11的声学特征1106A)可以包括唤醒词置信度的可能性、在最确信唤醒词的估计持续时间上的平均接收水平和在最确信唤醒词的持续时间上的最大接收水平。针对每个唤醒词话语，特征可以相对于特征的最大值进行归一化。可以标记训练数据并且可以训练全协方差高斯混合模型(GMM)以最大化训练标签的期望值。估计区可以是最大化后验概率的类。

一些实施例的以上描述讨论了从在提示的收集过程期间收集的训练数据集合中学习声学区模型。在所述模型中，训练时间(或配置模式)和运行时间(或常规模式)可以被视为麦克风系统可以放置在其中的两种不同模式。该方案的扩展是在线学习，其中某些或全部声学区模型是在线学习或适配的(例如，在运行时间或在常规模式下)。换句话说，即使在“运行时间”过程中应用了分类器以估计用户当前所在的用户区之后(例如，根据图10的方法1000)，在一些实施方式中，训练分类器的过程可以继续。

图14是概述了可以由如图2A的装置200等装置执行的方法的另一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1400的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。在该实施方式中，方法1400涉及在估计用户在环境中的位置的“运行时间”过程期间对分类器的持续训练。方法1400是本文中被称为在线学习模式的示例。

在该示例中，方法1400的框1405与方法1000的框1005至框1020相对应。此处，框1405涉及至少部分地基于来自分类器的输出来提供用户当前所在的用户区的估计。根据该实施方式，框1410涉及获得关于框1405的估计的隐式或显式反馈。在框1415中，根据在框1405中接收到的反馈来更新分类器。例如，框1415可以涉及一种或多种强化学习方法。如从框1415到框1405的虚线箭头所表明的，在一些实施方式中，方法1400可以涉及返回到框1405。例如，方法1400可以涉及基于应用更新的模型来提供用户在该未来时间所在的用户区的未来估计。

用于获得反馈的明确技术可以包括：

·使用语音用户界面(UI)询问用户预测是否正确。(例如，可以向用户提供指示以下内容的声音：“我认为你在沙发上，请说‘对’或‘错’”)。

·使用语音UI通知用户可以随时校正错误的预测。(例如，可以向用户提供指示以下内容的声音：“当你和我说话时，我现在能够预测你在哪里。如果我预测错误，只需说‘阿曼达，我不在沙发上。我在阅读椅上’”之类的话)。

·使用语音UI通知用户正确的预测可以随时得到奖励。(例如，可以向用户提供指示以下内容的声音：“当你和我说话时，我现在能够预测你在哪里。如果我预测正确，你可以通过说‘阿曼达，没错。我在沙发上。’之类的话来帮助进一步改进我的预测。”)。

·包括用户可以操作以提供反馈的物理按钮或其他UI元素(例如，物理设备上或智能电话应用中的拇指向上和/或拇指向下按钮)。

预测用户所在的用户区的目标可以是通知麦克风选择或适应性波束成形方案，其尝试更有效地从用户的声学区拾取声音，例如，以便更好地识别跟在唤醒词之后的命令。

在这种场景中，用于获得区预测的质量的反馈的隐式技术可以包括：

·惩罚导致错误识别跟在唤醒词之后的命令的预测。可以指示错误识别的代理可以包括用户缩短语音助理对命令的响应，例如，通过发出反命令，例如“阿曼达，停止！”；

·惩罚导致低置信度的、言语识别器已成功识别命令的预测。许多自动语音识别系统具有可以用于该目的的返回置信度水平和其结果的能力；

·惩罚导致第二遍唤醒词检测器无法以高置信度回顾性地检测唤醒词的预测；和/或

·加强预测，从而高度自信地识别唤醒词和/或正确识别用户的命令。

以下是第二遍唤醒词检测器无法以高置信度回顾性地检测唤醒词的示例。假设在从环境中的麦克风获得与当前话语相对应的输出信号并且基于所述输出信号确定声学特征之后(例如，经由被配置用于与麦克风通信的多个第一遍唤醒词检测器)，声学特征被提供给分类器。换句话说，假定声学特征与检测到的唤醒词话语相对应。进一步假设分类器确定发出当前话语的人最有可能在区3中，所述区与该示例中的阅读椅相对应。例如，可能有已知当人在区3中时最适合用于收听人的语音的特定麦克风或学习到的麦克风组合，例如，以将所述人的语音发送到基于云的虚拟助理服务进行语音命令识别。

进一步假设在确定哪个(哪些)麦克风将用于语音识别之后，但是在人的语音实际发送到虚拟助理服务之前，第二遍唤醒词检测器对麦克风信号进行操作，所述麦克风信号与将要提交以供命令识别的区3的所选(多个)麦克风检测到的语音相对应。如果第二遍唤醒词检测器与唤醒词实际上是发出的您的多个第一遍唤醒词检测器不一致，那可能是因为分类器错误地预测了区。因此，分类器应该被惩罚。

用于在说出一个或多个唤醒词之后后验更新区映射模型的技术可以包括：

·高斯混合模型(GMM)或最近邻模型的最大后验(MAP)适应；和/或

·例如神经网络的强化学习，例如，通过将适当的“独热(one-hot)”(在正确预测的情况下)或“独冷(one-cold)”(在错误预测的情况下)地面实况标签与SoftMax输出相关联并且应用在线后向传播来确定新的网络权重。

在该上下文中，MAP适应的一些示例可以涉及每次说出唤醒词时调整GMM中的均值。以该方式，均值可以变得更像在说出后续唤醒词时观察到的声学特征。替代性地或另外地，这种示例可以涉及每次说出唤醒词时调整GMM中的方差/协方差或混合权重信息。

例如，MAP适应方案可以如下：

μ_i，new＝μ_i，old*α+x*(1-α)

在上述等式中，μ_i，old表示混合中第i个高斯的均值，α表示控制MAP适应应该发生的积极程度的参数(α可能在[0.9,0.999]范围内)，并且x表示新唤醒词话语的特征矢量。索引“i”将与在唤醒词时间返回包含扬声器位置的最高先验概率的混合元素相对应。

替代性地，每个混合元素可以根据其包含唤醒词的先验概率进行调整，例如，如下：

M_i，new＝μ_i，old*β_i*x(l-β_i)

在上述等式中，β_i＝α*(1-P(i))，其中，P(i)表示观察x是由于混合元素i的先验概率。

在一个强化学习示例中，可以存在三个用户区。假设对于特定唤醒词，模型预测三个用户区的概率为[0.2,0.1,0.7]。如果第二信息来源(例如，第二遍唤醒词检测器)确认第三个区是正确的，则地面实况标签可能是[0,0,1](“独热”)。区映射模型的后验更新可以涉及通过神经网络后向传播误差，这实际上意味着如果再次示出相同的输入，则神经网络将更强烈地预测区3。相反，如果第二信息来源示出区3是不正确的预测，则在一个示例中，地面实况标签可能是[0.5,0.5,0.0]。如果未来示出相同的输入，则通过神经网络后向传播误差将使模型不太可能预测区3。

灵活渲染允许在任意数量的任意放置的扬声器上渲染空间音频。鉴于音频设备(包括但不限于家庭中的智能音频设备(例如，智能扬声器))的广泛部署，需要实现允许消费类产品执行音频的灵活渲染以及如此渲染的音频的回放的灵活渲染技术。

已经开发了若干种技术来实施灵活渲染。他们将渲染问题视为成本函数最小化之一，其中，成本函数由两个项构成：第一项模拟渲染器试图实现的期望空间印象，并且第二项分配用于激活扬声器的成本。迄今为止，该第二项专注于创建稀疏解决方案，其中，仅激活与正在渲染的音频的期望空间位置非常靠近的扬声器。

在消费者环境中回放空间音频通常与放置在指定位置的指定数量的扩音器有关：例如，5.1和7.1环绕声。在这些情况下，内容是专门为相关联的扩音器编写的，并且编码为离散声道，每个扩音器一个(例如，杜比数字(Dolby Digital)或杜比数字+(Dolby DigitalPlus)等)。最近，引入了沉浸式、基于对象的空间音频格式(杜比全景声(Dolby Atmos))，其打破了内容与特定扩音器位置之间的该关联。相反，内容可以被描述为单独音频对象的集合，每个音频对象都具有可能随时间变化的元数据，所述元数据描述了所述音频对象在三维空间中的期望感知位置。在回放时间，内容由适配回放系统中的扩音器数量和位置的渲染器转换为扩音器馈送。然而，许多这样的渲染器仍将一组扩音器的位置限制为一组规定布局中的一个(例如，具有杜比全景声的3.1.2、5.1.2、7.1.4、9.1.6等)。

超越这种受限的渲染，已经开发出允许基于对象的音频在放置在任意位置的真正任意数量的扩音器上灵活地渲染的方法。这些方法要求渲染器了解收听空间中扩音器的数量和物理位置。为了使这种系统对普通消费者实用，期望用于定位扩音器的自动化方法。一种这样的方法依赖于使用可能与扩音器共同定位的多个麦克风。通过借助扩音器播放音频信号并且用麦克风录音，估计每个扩音器与麦克风之间的距离。从这些距离随后推导出扩音器和麦克风两者的位置。

在消费者空间引入基于对象的空间音频的同时，已经迅速采用了所谓的“智能扬声器”，如亚马逊回声(Amazon Echo)系列产品。这些设备的巨大流行可以归因于其通过无线连接和集成语音接口(例如，亚马逊的Alexa)提供的简单性和便利性，但是这些设备的声音能力通常是有限的，特别是在空间音频方面。在大多数情况下，这些设备受限于单声道或立体声回放。然而，将上述灵活渲染和自动位置技术与多个编排的智能扬声器相结合，可以产生具有非常复杂的空间回放功能的系统，并且对于消费者来说设置起来仍然非常简单。消费者可以根据需要在方便的任何地方放置或多或少的扬声器，由于无线连接而无需运行扬声器线，并且内置麦克风可以用于为相关联的灵活渲染器自动定位扬声器。

传统的灵活渲染算法旨在尽可能接近地实现特定的期望感知空间印象。在编排的智能扬声器系统中，有时，维持该空间印象可能不是最重要的或期望的目标。例如，如果有人同时尝试对集成语音助理说话，可能期望以降低某些麦克风附近的扬声器的相对回放水平的方式暂时改变空间渲染，以增加包括检测到的言语的麦克风信号的信噪比和/或信号-回声比(SER)。本文所描述的一些实施例可以被实施为对现有灵活渲染方法的修正，以允许例如出于实现一个或多个附加目标的目的而对空间渲染进行这种动态修正。

现有的灵活渲染技术包括质心振幅平移(CMAP)和灵活虚拟化(FV)。从高水平来看，这两种技术渲染一组的一个或多个音频信号，每个音频信号具有相关联的期望感知空间位置，用于在一组的两个或更多个扬声器上回放，其中，该组扬声器的相对激活是通过扬声器回放的所述音频信号的感知空间位置的模型以及音频信号的期望感知空间位置与扬声器位置的接近度的函数。所述模型确保收听者在其预期空间位置附近听到音频信号，并且接近度项控制使用哪些扬声器来实现该空间印象。具体地，接近度项有利于激活靠近音频信号的期望感知空间位置的扬声器。对于CMAP和FV两者，该函数关系可以方便地从成本函数中得到，所述成本函数写为两个项的和，一个项用于空间方面并且一个项用于接近度：

此处，集合

表示一组M个扩音器的位置，

表示音频信号的期望感知空间位置，并且g表示扬声器激活的M维向量。对于CMAP，矢量中的每个激活表示每个扬声器的增益，而对于FV，每个激活表示滤波器(在第二种情况下，g可以等效地被视为特定频率处的复值的矢量，并且跨多个频率计算不同的g以形成滤波器)。激活的最佳矢量是通过跨激活最小化成本函数找到的：

在成本函数的某些定义下，很难控制由上述最小化产生的最佳激活的绝对水平，尽管g_opt的分量之间的相对水平是适当的。为了解决该问题，可以执行g_opt的后续归一化，以便控制激活的绝对水平。例如，可能期望将矢量归一化为具有单位长度，这符合常用的恒定功率平移规则：

灵活渲染算法的确切行为取决于成本函数的C_spatial和C_proximity这两个项的特定构建。对于CMAP，C_spatial是从模型得到的，所述模型将从一组扩音器播放的音频信号的感知空间位置放置在由其相关联的激活增益g_i(矢量g的元素)加权的这些扩音器的位置的质心：

然后将等式3操纵成表示期望音频位置与由激活的扩音器产生的期望音频位置之间的平方误差的空间成本：

对于FV，成本函数的空间项被不同地定义。目标是在收听者的左耳和右耳处产生与音频对象位置

相对应的双耳响应b。概念上，b是滤波器的2×1矢量(每只耳朵一个滤波器)，但更方便地将其视为特定频率下的复值的2×1矢量。继续以特定频率进行该表示，可以从一组按对象位置索引的HRTF中取得期望的双耳响应：

同时，由扩音器在收听者的耳朵处产生的2×1双耳响应e被建模为2×M声学传输矩阵H乘以复扬声器激活值的M×1矢量g：

e＝Hg(6)

声学传输矩阵H是基于扩音器位置的集合

相对于收听者位置建模的。最后，成本函数的空间分量定义为期望的双耳响应(等式5)与扩音器产生的期望的双耳响应(等

式6)之间的平方误差：

方便地，等式4和7两者中定义的针对CMAP和FV的成本函数的空间项都可以重新布置为矩阵二次函数，作为扬声器激活g的函数：

其中，A是M×M正方矩阵，B是1×M矢量，并且C是标量。矩阵A的秩为2，并且因此当M>2时，存在无限多个空间误差项等于零的扬声器激活g。引入成本函数的第二项C_pro_ximity去除了该不确定性，并且产生了与其他可能的解相比具有感知上有益性质的特定解。对于CMAP和FV两者，C_pro_ximity被构建成使得位置

远离期望的音频信号位置

的扬声器的激活比位置靠近期望位置的扬声器的激活受到更多惩罚。该构建产生了稀疏的扬声器激活的最佳组，其中，仅靠近期望音频信号的位置的扬声器才会被显著激活，并且实际上导致音频信号的空间再现，这对于在扬声器组周围的收听者移动而言在感知上更加稳健。

为此，成本函数的第二项C_pro_ximity可以定义为扬声器激活的绝对值平方的距离加权和。这以矩阵形式简洁地表示为：

其中，D是期望的音频位置与每个扬声器之间的距离惩罚的对角矩阵：

距离惩罚函数可以采取许多形式，但以下是有用的参数化：

其中，

是期望的音频位置与扬声器位置之间的欧几里得距离，并且α和β是可调参数。参数α指示惩罚的全局强度；d₀与距离惩罚的空间范围相对应(在大约d₀距离处或更远的扩音器将受到惩罚)，并且β解释了在距离d₀处惩罚起始的突然性。

将等式8和9a中定义的成本函数的两个项相结合，得出总体成本函数：

C(g)＝g^*Ag+Bg+C+g^*Dg＝g^*(A+D)g+Bg+C (10)

将该成本函数关于g的导数设置为零并且求解g产生最佳扬声器激活解：

通常，等式11中的最佳解可以产生值为负的扬声器激活。对于灵活渲染器的CMAP构建，这样的负激活可能是不期望的，并且因此等式(11)可以在所有激活保持为正的情况下最小化。

图15和图16是图示一组示例扬声器激活和对象渲染位置的图。在这些示例中，扬声器激活和对象渲染位置与4、64、165、-87和-4度的扬声器位置相对应。图15示出了扬声器激活1505a、1510a、1515a、1520a和1525a，其包括针对这些特定扬声器位置的等式11的最佳解。图16将单独扬声器位置绘制为点1605、1610、1615、1620和1625，其分别与扬声器激活1505a、1510a、1515a、1520a和1525a相对应。图16还将大量可能的对象角度的理想对象位置(换句话说，要渲染音频对象的位置)示出为点1630a，并且将针对这些对象的对应实际渲染位置示出为点1635a，通过虚线1640a连接到理想对象位置。

一类实施例涉及用于渲染音频以供多个协调的(编排的)智能音频设备中的至少一个(例如，全部或一些)进行回放的方法。例如，用户的家庭中存在(在系统中)的一组智能音频设备可以被编排来处理各种同时用例，包括灵活渲染(根据实施例)用于由智能音频设备中的所有或一些(即，由智能音频设备的所有或一些的(多个)扬声器)回放的音频。考虑了与系统的许多交互，这些交互需要对渲染进行动态修正。这种修正可以但不一定专注于空间保真度。

一些实施例是用于渲染音频以由一组智能音频设备中的至少一个(例如，所有或一些)智能音频设备回放(或由另一组扬声器的至少一个(例如，全部或部分)扬声器回放)的方法。渲染可以包括成本函数的最小化，其中，成本函数包括至少一个动态扬声器激活项。这种动态扬声器激活项的示例包括(但不限于)：

·扬声器与一个或多个收听者的接近度；

·扬声器与吸引力或推斥力的接近度；

·扬声器关于一些位置(例如，收听者位置或婴儿房)的可听度；

·扬声器的能力(例如，频率响应和失真)；

·扬声器关于其他扬声器的同步；

·唤醒词性能；以及

·回声消除器性能。

(多个)动态扬声器激活项可以启用各种行为中的至少一种，包括将音频的空间渲染扭曲而远离特定智能音频设备，使得所述特定智能音频设备的麦克风可以更好地听到说话者或者使得可以更好地从智能音频设备的(多个)扬声器听到次级音频流。

一些实施例通过协调的(编排的)多个智能音频设备的(多个)扬声器实施用于回放的渲染。其他实施例通过另一组扬声器的(多个)扬声器实施用于回放的渲染。

将灵活渲染方法(根据一些实施例实施)与一组无线智能扬声器(或其他智能音频设备)配对可以产生非常有能力并且易于使用的空间音频渲染系统。在考虑与这种系统的交互时，显然期望对空间渲染进行动态修正，以便针对在系统使用期间可能出现的其他目标进行优化。为了实现该目标，一类实施例增强了现有的灵活渲染算法(其中扬声器激活是先前公开的空间项和接近度项的函数)，具有一个或多个附加的动态可配置功能，所述动态可配置功能取决于正在渲染的音频信号、扬声器组和/或其他外部输入的一个或多个属性。根据一些实施例，等式1中给出的现有灵活渲染的成本函数根据以下等式增加了这些一个或多个附加依赖项

在等式12中，项

表示附加成本项，并且

表示正在渲染的音频信号(例如，基于对象的音频节目)的一组的一个或多个性质，

表示正在渲染音频的扬声器的一组的一个或多个性质，并且

表示一个或多个附加外部输入。每个项

返回成本作为与音频信号、扬声器和/或外部输入的一个或多个属性的组合相关的激活g的函数，一般由集合

表示。应当理解，集合

至少包含来自

或

中的任何一个的一个元素。

的示例包括但不限于：

·音频信号的期望感知空间位置；

·音频信号的水平(可能随时间变化)；和/或

·音频信号的频谱(可能随时间变化)。

的示例包括但不限于：

·扩音器在收听空间中的位置；

·扩音器的频率响应；

·扩音器的回放水平限制；

·扬声器内部动态处理算法的参数，如限制器增益；

·从每个扬声器到其他扬声器的声学传输的测量或估计；

·扬声器上回声消除器性能的测量；和/或

·扬声器关于彼此的相对同步。

的示例包括但不限于：

·回放空间中一个或多个收听者或说话者的位置；

·从每个扩音器到收听位置的声学传输的测量或估计；

·从说话者到一组扩音器的声学传输的测量或估计；

·回放空间中其他一些地标的位置；和/或

·从每个扬声器到回放空间中一些其他地标的声学传输的测量或估计；

使用等式12中定义的新成本函数，可以通过如先前在等式2a和2b中指定的关于g的最小化和可能的后归一化来找到最佳的激活组。

图17是概述了可以由如图2A中示出的装置或系统等装置或系统执行的方法的一个示例的流程图。与本文所描述的其他方法一样，不必以所指示的顺序来执行方法1700的框。而且，这种方法可以包括比所示出和/或所描述的框更多或更少的框。方法1700的框可以由一个或多个设备执行，所述设备可以是(或可以包括)控制系统，如图2A中示出的控制系统210。

在该实施方式中，框1705涉及由控制系统并且经由接口系统接收音频数据。在该示例中，音频数据包括一个或多个音频信号和相关联的空间数据。根据该实施方式，空间数据指示与音频信号相对应的预期感知空间位置。在一些实例中，预期感知空间位置可以是明确的，例如，如由诸如杜比全景声位置元数据等位置元数据所指示的。在其他实例中，预期感知空间位置可以是隐式的，例如，预期感知空间位置可以是与根据杜比5.1、杜比7.1的声道或其他基于声道的音频格式相关联的假定位置。在一些示例中，框1705涉及经由接口系统接收音频数据的控制系统的渲染模块。

根据该示例，框1710涉及由控制系统经由环境的一组扩音器渲染音频数据用于再现以产生渲染的音频信号。在该示例中，渲染音频数据中包括的一个或多个音频信号中的每一个涉及通过优化成本函数来确定环境中一组扩音器的相对激活。根据该示例，当在环境中的一组扩音器上回放时，成本是音频信号的感知空间位置的模型的函数。在该示例中，成本也是音频信号的预期感知空间位置与所述一组扩音器中的每个扩音器的位置的接近度的测量的函数。在该实施方式中，成本也是一个或多个附加动态可配置功能的函数。在该示例中，动态可配置功能基于以下各项中的一项或多项：扩音器与一个或多个收听者的接近度；扩音器与吸引力位置的接近度，其中，吸引力是有利于对于更靠近吸引力位置的相对更高的扩音器激活的因素；扩音器与推斥力位置的接近度，其中，推斥力是有利于对于更靠近推斥力位置的相对较低的扩音器激活的因素；每个扩音器相对于环境中其他扩音器的能力；扩音器关于其他扩音器的同步；唤醒词性能；或回声消除器性能。

在该示例中，框1715涉及经由接口系统向环境的所述一组扩音器中的至少一些扩音器提供渲染的音频信号。

根据一些示例，感知空间位置的模型可以产生与收听者的左耳和右耳处的音频对象位置相对应的双耳响应。替代性地或另外地，感知空间位置的模型可以将从一组扩音器播放的音频信号的感知空间位置放置在由扩音器的相关联的激活增益加权的一组扩音器的位置的质心。

在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的水平。在一些实例中，一个或多个附加动态可配置功能可以至少部分地基于一个或多个音频信号的频谱。

方法1700的一些示例涉及接收扩音器布局信息。在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于每个扩音器在环境中的位置。

方法1700的一些示例涉及接收扩音器规格信息。在一些示例中，一个或多个附加动态可配置功能可以至少部分地基于每个扩音器的能力，所述能力可以包括以下中的一个或多个：频率响应、回放水平限制或一个或多个扩音器动态处理算法的参数。

根据一些示例，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到其他扩音器的声学传输的测量或估计。替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个人的收听者或扬声器位置。替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到收听者或扬声器位置的声学传输的测量或估计。声学传输的估计可以例如至少部分地基于墙、家具或可以驻留在每个扩音器与收听者或扬声器位置之间的其他物体。

替代性地或另外地，一个或多个附加动态可配置功能可以至少部分地基于环境中一个或多个非扩音器对象或地标的对象位置。在一些这样的实施方式中，一个或多个附加动态可配置功能可以至少部分地基于从每个扩音器到对象位置或地标位置的声学传输的测量或估计。

可以通过采用一个或多个适当定义的附加成本项来实施灵活渲染以实现许多新的和有用的行为。下文列出的所有示例行为都是为了在某些被认为不期望的条件下惩罚某些扩音器。最终结果是这些扩音器在一组音频信号的空间渲染中被较少激活。在许多这些情况下，人们可能会考虑简单地调低不期望的扩音器，而不取决于对空间渲染进行任何修正，但这种策略可能会显著降低音频内容的整体平衡。例如，混音的某些分量可能变得完全听不见。另一方面，对于所公开的实施例，将这些惩罚集成到渲染的核心优化中允许渲染适应并使用其余较少惩罚的扬声器来执行最佳可能的空间渲染。这是更优雅、更加能适应的、更有效的解决方案。

示例用例包括但不限于：

·在收听区域周围提供更平衡的空间呈现

ο已经发现，空间音频最好跨与预期收听区域距离大致相同的扬声器来呈现。可以构建成本，使得明显比扩音器到收听区域的平均距离更近或更远的扩音器被惩罚，因此减少所述扩音器的激活；

·将音频移动离开或朝向收听者或说话者

ο如果系统的用户正在试图与系统的或与系统相关联的智能语音助理说话，则创建惩罚更靠近说话者的扩音器的成本可能是有益的。通过该方式，这些扩音器更少激活，从而允许所述扩音器的相关联的麦克风更好地听到说话者；

ο为了为单个收听者提供更亲密的体验，即最小化收听空间中针对其他人的回放水平，远离收听者的位置的扬声器可能会受到严重惩罚，以便仅最靠近收听者的扬声器被最显著地激活；

·将音频移动离开或朝向地标、区或区域

ο收听空间附近的某些位置可以被认为是敏感的，如婴儿房、婴儿床、办公室、阅读区域、学习区域等。在这种情况下，可以构造这样的成本，其惩罚使用靠近该位置、区或区域的扬声器；

ο替代性地，对于上文的相同情况(或类似情况)，扬声器系统可以已经生成从每个扬声器到婴儿房中的声学传输的测量，特别是当扬声器(带有附接或关联的麦克风)之一驻留在所述婴儿房内时。在该情况下，不是使用扬声器与婴儿房间的物理接近度，而是可以构建这样的成本，其惩罚使用到房间的测量声学传输高的扬声器；和/或

·扬声器的能力的最佳使用

ο不同扩音器的能力可以显著变化。例如，一款流行的智能扬声器仅包含具有有限低频能力的单个1.6”全音域驱动器。另一方面，另一个智能扬声器包含更有能力的3”低音扬声器。这些能力通常反映在扬声器的频率响应中，并且如此，可以在成本项中利用与扬声器相关联的一组响应。在特定频率下，相对于其他扬声器能力较弱的扬声器(如根据其频率响应测得的)可能会被惩罚并且因此被更少程度地激活。在一些实施方式中，这种频率响应值可以用智能扩音器存储，并且然后报告给负责优化灵活渲染的计算单元；

ο许多扬声器包含一个以上的驱动器，每个驱动器负责播放不同的频率范围。例如，一种流行的智能扬声器是双向设计，包含用于较低频率的低音扬声器和用于较高频率的高音扬声器。通常，这种扬声器包含用于将全音域回放音频信号划分为适当的频率范围并且发送到相应的驱动器的分频器电路(crossover circuit)。替代性地，这种扬声器可以为每个单独驱动器提供灵活渲染器回放访问，以及关于每个单独驱动器的能力(如频率响应)的信息。通过应用如上文描述的成本项，在一些示例中，灵活渲染器可以基于其在不同频率下的相对能力在两个驱动器之间自动建立分频；

ο频率响应的上文描述的示例使用专注于扬声器的固有能力上，但可能没有准确地反映放置在收听环境中的扬声器的能力。在某些情况下，如在预期收听位置测得的扬声器频率响应可以通过一些校准程序获得。可以使用这种测量替代预先计算的响应以更好地优化扬声器的使用。例如，某个扬声器在特定频率下可以天生就非常有能力，但由于其放置(例如，在墙或一件家具后面)可能会在预期收听位置产生非常有限的响应。捕获该响应并且馈送到适当成本项中的测量可以防止这种扬声器的显著激活；

ο频率响应仅为扩音器的回放能力的一个方面。许多较小的扩音器开始失真，并且然后随着回放水平的增加而达到其偏移限制，特别是对于较低频率。为了减少这种失真，许多扩音器实施动态处理，所述动态处理将回放水平限制在可以随频率变化的某些限制阈值以下。在一扬声器接近或处于这些阈值而其他参与灵活渲染的扬声器未接近或处于这些阈值的情况下，在限制扬声器中降低信号水平并且将该能量转移到其他负担较轻的扬声器是有意义的。根据一些实施例，可以通过适当地配置相关联的成本项来自动实现这种行为。这种成本项可以涉及以下中的一项或多项：

·监测与扩音器的限制阈值相关的全局回放音量。例如，音量水平接近其限制阈值的扩音器可能会被惩罚更多；

·监测与扩音器限制阈值(可能随频率变化)相关的动态信号水平(也可能随频率变化)。例如，监测的信号水平接近其限制阈值的扩音器可能会被更多惩罚；

·直接监测扩音器的动态处理的参数，如限制增益。在一些这样的示例中，参数指示更多限制的扩音器可能会被更多惩罚；和/或

·监测放大器向扩音器传递的实际瞬时电压、电流和功率，以确定扩音器是否在线性范围内操作。例如，更少线性地操作的扩音器可能会被更多惩罚；

ο带有集成式麦克风和交互式语音助理的智能扬声器通常采用某种类型的回声消除来降低由录音麦克风拾取的扬声器播放的音频信号水平。该降低越大，扬声器听到和理解空间中说话者的机会就越大。如果回声消除器的残差始终很高，这可以指示扬声器正在被驱动到非线性区域中，在所述非线性区域中回声路径的预测变得具有挑战性。在这种情况下，将信号能量从扬声器转移出去可以是有意义的，并且如此，考虑回声消除器性能的成本项可以是有益的。这样的成本项可以将高成本分配给其相关联的回声消除器性能不佳的扬声器；

ο为了在多个扬声器上渲染空间音频时实现可预测的成像，通常需要跨越时间合理地同步在一组扩音器上的回放。对于有线扩音器来说，这是给定的，但对于大量无线扩音器来说，同步可能具有挑战性并且最终结果可变。在这种情况下，每个扩音器报告其与目标同步的相对程度可以是可能的，并且然后该程度可以馈送到同步成本项中。在一些这样的示例中，具有较低同步程度的扩音器可能会被更多惩罚，并且因此被排除在渲染之外。另外地，某些类型的音频信号可能不需要紧密同步，例如，旨在扩散或非定向的音频混合的分量。在一些实施方式中，可以如此用元数据对分量进行标记，并且可以修正同步成本项，使得惩罚减少。

接下来描述实施例的附加示例。与等式9a和9b中定义的接近度成本类似，将每个新的成本函数项

表达为扬声器激活的绝对值平方的加权和也可以是方便的，例如，如下：

其中，W_j是权重

的对角矩阵，描述与对于项j的激活扬声器i相关联的成本：

将等式13a和b与等式10中给出的CMAP和FV成本函数的矩阵二次版本相结合，产生等式12中给出的(一些实施例的)通用扩展成本函数的潜在有益实施方式：

C(g)＝g^*Ag+Bg+C+g^*Dg+∑_jg^*W_jg＝g^*(A+D+∑_jW_j)g+Bg+C (14)

有了新成本函数项的该定义，总体成本函数仍然是矩阵二次的，并且可以通过等式14的微分找到激活gopt的最佳组以产生

将权重项wij中的每一个视为扩音器中的每一个的给定连续惩罚值

的函数是有用的。在一个示例实施例中，该惩罚值是从(将被渲染的)对象到所考虑的扩音器的距离。在另一个示例实施例中，该惩罚值表示给定的扩音器无法再现一些频率。基于该惩罚值，权重项wij可以参数化为：

其中，α_j表示前置因子(其考虑了权重项的全局强度)，其中，τ_j表示惩罚阈值(约为或超过所述惩罚阈值，权重项变得显著)，并且其中，fj(x)表示单调增加函数。例如，有了

权重项具有以下形式：

其中，α_j、β_j、τ_j是可调参数，其分别指示惩罚的全局强度、惩罚起始的突然性和惩罚的程度。在设置这些可调值时应小心谨慎，使得成本项C_j相对于任何其他附加成本项以及C_spatial和C_proximity的相对影响适合用于实现期望的结果。例如，根据经验，如果一个人希望特定惩罚明显地支配其他惩罚，则将其强度α_j设置为下一个最大惩罚强度的大约十倍可能是适当的。

如果所有扩音器都被惩罚，则通常可以方便地在后处理中从所有权重项中减去最小惩罚，使得扬声器中的至少一个不会被惩罚：

w_ij→w′_ij＝w_ij-min_i(w_ij) (18)

如上所述，使用本文所描述的新成本函数项(以及根据其他实施例采用的类似的新成本函数项)可以实现许多可能的用例。接下来，用以下三个示例来描述更具体的细节：将音频移动朝向收听者或说话者、将音频移动离开收听者或说话者以及将音频移动离开地标。

在第一个示例中，在本文中将被称为“吸引力”的东西用于将音频拉动朝向某个位置，在一些示例中，所述位置可以是收听者或说话者的位置、地标位置、家具位置等。所述位置在本文中可以被称为“吸引力位置”或“吸引子位置”。如本文所使用的，“吸引力”是有利于对于更靠近吸引力位置的相对更高的扩音器激活的因素。根据该示例，权重w_ij采用等式17的形式，连续惩罚值p_ij由第i个扬声器距固定吸引子位置

的距离给出，并且阈值τ_j由所有扬声器的这些距离中的最大值给出：

为了说明将音频“拉动”朝向收听者或说话者的用例，特别地设置α_j＝20，β_j＝3，并且将

设置为与180度(绘图的底部中心)的收听者/说话者位置相对应的矢量。α_j、β_j和

的这些值仅为示例。在一些实施方式中，α_j可以在1至100的范围内并且β_j可以在1至25的范围内。图18是示例实施例中的扬声器激活的图。在该示例中，图18示出了扬声器激活1505b、1510b、1515b、1520b和1525b，其包括图15和图16中相同扬声器位置的成本函数的最佳解，加上由w_ij表示的吸引力。图19是示例实施例中的对象渲染位置的图。在该示例中，图19示出了针对大量可能的对象角度的对应理想对象位置1630b和针对那些对象的对应实际渲染位置1635b，通过虚线1640b连接到理想对象位置1630b。实际渲染位置1635b朝向固定位置

的倾斜取向说明了吸引子权重对成本函数的最佳解的影响。

在第二个和第三个示例中，“推斥力”用于将音频“推动”离开某个位置，所述位置可以是人的位置(例如，收听者位置、说话者位置等)或其他位置，如地标位置、家具位置等。在一些示例中，推斥力可以用于将音频推动离开收听环境的区域或区，如办公区域、阅读区域、床或卧室区域(例如，婴儿床或卧室)等。根据一些这样的示例，特定位置可以用作区或区域的代表。例如，表示婴儿床的位置可以是婴儿的头部的估计位置、与婴儿相对应的估计声源位置等。所述位置在本文中可以被称为“推斥力位置”或“推斥位置”。如本文所使用的，“推斥力”是有利于对于更靠近推斥力位置的相对更低的扩音器激活的因素。根据该示例，相对于固定推斥位置

定义p_ij和τ_j，类似于等式19中的吸引力：

为了说明将音频推动离开收听者或说话者的用例，在一个示例中，可以特别地设置α_j＝5，β_j＝2，并且将

设置为与180度(在绘图的底部中心)的收听者/说话者位置相对应的矢量。α_j、β_j和

的这些值仅为示例。如上所述，在一些示例中，α_j可以在1至100的范围内并且β_j可以在1至25的范围内。图20是示例实施例中的扬声器激活的图。根据该示例，图20示出了扬声器激活1505c、1510c、1515c、1520c和1525c，其包括如先前图的相同扬声器位置的成本函数的最佳解，加上由w_ij表示的推斥力。图21是示例实施例中的对象渲染位置的图。在该示例中，图21示出了针对大量可能对象角度的理想对象位置1630c和针对那些对象的对应实际渲染位置1635c，通过虚线1640c连接到理想对象位置1630c。实际渲染位置1635c离开固定位置

的倾斜取向说明了推斥子权重对成本函数的最佳解的影响。

第三个示例用例是将音频“推动”离开声学上敏感的地标，如通向睡着的婴儿的房间的门。与最后的示例类似，将

设置为与180度的门位置(绘图的底部中心)相对应的矢量。为了实现更强的推斥力并且将声场完全倾斜到主要收听空间的前部，设置α_j＝20，β_j＝5。图22是示例实施例中的扬声器激活的图。再次，在该示例中，图22示出了扬声器激活1505d、15l0d、1515d、1520d和1525d，其包括对同一组扬声器位置的最佳解，加上更强的推斥力。图23是示例实施例中的对象渲染位置的图。并且再次，在该示例中，图23示出了针对大量可能对象角度的理想对象位置1630d和针对那些对象的对应实际渲染位置1635d，通过虚线1640d连接到理想对象位置1630d。实际渲染位置1635d的倾斜取向说明了更强的推斥子权重对成本函数的最佳解的影响。

在图2B的方法250的进一步示例中，用例响应于音频环境中两个或更多个音频设备的选择(框265)并且对音频施加“推斥”力(框275)。根据先前的示例，在一些实施例中，两个或更多个音频设备的选择可以采用控制音频处理变化发生的程度的无单位参数值f_n的形式。许多组合都是可能的。在一个简单示例中，与推斥力相对应的权重可以直接选择为

惩罚如由“决定”方面选择的设备。

除了确定权重的先前示例之外，在一些实施方式中，可以如下确定权重：

在前述等式中，α_j、β_j、τ_j表示可调参数，其分别指示惩罚的全局强度、惩罚起始的突然性和惩罚的程度，如上文参考等式17所描述的。因此，上述等式可以理解为从多个同时用例产生的多个惩罚项的组合。例如，可以如前面的示例中描述的使用项p_ij和τ_j将音频“推动离开”敏感地标，同时也仍然被“推动离开”麦克风位置，期望在所述麦克风位置使用如由决定方面确定的项f_i来改进SER。

先前示例还引入了s_n，直接表达为言语-回声比改进分贝。一些实施例可以涉及基于以dB为单位的s_n值在一些部分中选择α和β(分别为惩罚的强度和惩罚起始的突然性)的值，并且先前指示的针对w_ij的公式可以分别使用α_ij和β_ij替代α_j和β_j。例如，s_i＝-20dB的值将与激活第i个扬声器的高成本相对应。在一些这样的实施例中，α_ij可以设置为比成本函数C_spatial和C_proximity中其他项的典型值高许多倍的数字。例如，可以通过

确定α的新值，所述等式对于s_i＝-20dB的值，将导致α_ij的值是通常在成本函数中的值的10倍。在一些实例中，将β_ij修正为将被设置为在0.5<β_ij<1.0范围内可以是基于s_i的大的负值的合适修正，“推动”音频离开第i个扬声器周围更大的区域。例如，可以根据以下将s_i的值映射到β_ij：

在该示例中，对于s_i＝-20.0dB，β_ij将为0.8333。

示例实施例的方面包括以下枚举的示例实施例(“EEE”)：

EEE1.一种用于改进信号-回声比以检测来自用户的语音命令的方法(或系统)，由此

a.存在多个设备用于创建输出音频节目素材

b.设备与收听者之间存在一组已知的距离或有序关系

c.系统选择性地降低与用户距离最小的设备的音量

EEE2.如EEE1所述的方法或系统，其中，信号的检测包括来自与所述一组设备具有已知距离关系的任何噪声发射对象或期望的音频监控点的信号。

EEE3.如EEE1或EEE2所述的方法或系统，其中设备的排序包括针对标称源距离的距离和设备的信号-回声比的考虑。

EEE4.如EEE1至EEE3中任一项所述的方法或系统，其中排序考虑了设备与用户的广义接近度以及所述广义接近度的近似互易性，用于估计最有效的信号-回声比改进并且在该意义上对设备进行排序。一些公开的实施方式的各个方面包括被配置(例如，被编程)为执行一个或多个公开的方法的系统或设备，以及存储用于实施一个或多个公开的方法或其步骤的代码的有形计算机可读介质(例如，盘)。例如，系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何一种，包括一种或多种所公开的方法或其步骤。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行一种或多种所公开的方法(或其步骤)。

一些公开的实施例被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，所述DSP被配置(例如，被编程的和以其他方式被配置)为对(多个)音频信号执行需要的处理，包括一个或多个公开的方法的执行。替代性地，一些实施例(或其元件)可以被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器用软件或固件编程和/或以其他方式配置为执行包括一种或多种公开的方法或其步骤的各种操作中的任何一种。替代性地，一些公开的实施例的元件被实施为被配置(例如，被编程)为执行一种或多种公开的方法或其步骤的通用处理器或DSP，并且所述系统还包括其他元件(例如，一个或多个扩音器和/或一个或多个麦克风)。被配置为执行一种或多种公开的方法或其步骤的通用处理器通常将耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

一些公开的实施方式的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，所述计算机可读介质存储用于执行一种或多种公开的方法或其步骤的任何实施例的代码(例如，可执行以执行一种或多种公开的方法或其步骤的任何实施例的编解码器)。

虽然在本文中已经描述了具体实施例和应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离在本文中描述的并要求保护的材料的范围的情况下，可以对本文所述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了某些实施方式，但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种音频会话管理方法，包括：

从音频环境中的多个麦克风中的每个麦克风接收输出信号，所述多个麦克风中的每个麦克风驻留在所述音频环境的麦克风位置中，所述输出信号包括与人的当前话语相对应的信号；

基于所述输出信号确定与所述人有关的情境信息的一个或多个方面，所述情境信息包括所述人的估计当前位置或所述人与一个或多个麦克风位置的估计当前接近度中的至少一者；

至少部分地基于所述情境信息的所述一个或多个方面来选择所述音频环境的两个或更多个音频设备，所述两个或更多个音频设备各自包括至少一个扩音器；

确定一种或多种类型的音频处理变化以应用于被渲染到所述两个或更多个音频设备的扩音器馈送信号的音频数据，所述音频处理变化具有增加一个或多个麦克风处的言语-回声比的效果；以及

使得应用所述一种或多种类型的音频处理变化。

2.如权利要求1所述的方法，其中，所述一种或多种类型的音频处理变化使所述两个或更多个音频设备的所述扩音器的扩音器再现水平降低。

3.如权利要求1或权利要求2所述的方法，其中，第一音频设备的音频处理变化中的至少一个音频处理变化不同于第二音频设备的音频处理变化。

4.如权利要求1至3中任一项所述的方法，其中，选择所述音频环境的两个或更多个音频设备包括选择所述音频环境的N个配备扩音器的音频设备，N为大于2的整数。

5.如权利要求1至4中任一项所述的方法，其中，选择所述音频环境的所述两个或更多个音频设备至少部分地基于所述人相对于麦克风位置或配备扩音器的音频设备位置中的至少一者的估计当前位置。

6.如权利要求5所述的方法，进一步包括确定最靠近所述人的所述估计当前位置或最靠近与所述人的所述估计当前位置最靠近的麦克风位置的最近的配备扩音器的音频设备，其中，所述两个或更多个音频设备包括所述最近的配备扩音器的音频设备。

7.如权利要求1至6中任一项所述的方法，其中，所述一种或多种类型的音频处理变化涉及改变渲染过程以扭曲音频信号的渲染而远离所述人的所述估计当前位置。

8.如权利要求1至7中任一项所述的方法，其中，所述一种或多种类型的音频处理变化涉及频谱修正。

9.如权利要求8所述的方法，其中，所述频谱修正涉及降低介于500Hz与3KHz之间的频带中的音频数据的水平。

10.如权利要求1至9中任一项所述的方法，其中，所述一种或多种类型的音频处理变化涉及将至少一个间隙插入到音频回放信号的至少一个所选频带中。

11.如权利要求1至10中任一项所述的方法，其中，所述一种或多种类型的音频处理变化涉及动态范围压缩。

12.如权利要求1至11中任一项所述的方法，其中，选择所述两个或更多个音频设备至少部分地基于针对一个或多个麦克风位置的信号-回声比估计。

13.如权利要求12所述的方法，其中，选择所述两个或更多个音频设备至少部分地基于确定所述信号-回声比估计是否小于或等于信号-回声比阈值。

14.如权利要求12所述的方法，其中，确定所述一种或多种类型的音频处理变化基于成本函数的优化，所述优化至少部分地基于所述信号-回声比估计。

15.如权利要求14所述的方法，其中，所述成本函数至少部分地基于渲染性能。

16.如权利要求1至15中任一项所述的方法，其中，选择所述两个或更多个音频设备至少部分地基于接近度估计。

17.如权利要求1至16中任一项所述的方法，进一步包括：

从每个麦克风的输出信号中确定多个当前声学特征；

将分类器应用于所述多个当前声学特征，其中，应用所述分类器涉及应用在先前确定的声学特征上训练的模型，所述先前确定的声学特征从所述人在所述环境中的多个用户区中作出的多个先前话语中得到；并且

其中，确定与所述人相关的情境信息的一个或多个方面涉及至少部分地基于来自所述分类器的输出，确定对所述人当前所在的用户区的估计。

18.如权利要求17所述的方法，其中，在不参考所述多个麦克风的几何位置的情况下确定对所述用户区的所述估计。

19.如权利要求17或权利要求18所述的方法，其中，所述当前话语和所述先前话语包括唤醒词话语。

20.如权利要求1至19中任一项所述的方法，进一步包括根据所述情境信息的所述一个或多个方面选择至少一个麦克风。

21.如权利要求1至20中任一项所述的方法，其中，所述一个或多个麦克风驻留在所述音频环境的多个音频设备中。

22.如权利要求1至20中任一项所述的方法，其中，所述一个或多个麦克风驻留在所述音频环境的单个音频设备中。

23.如权利要求1至22中任一项所述的方法，其中，所述一个或多个麦克风位置中的至少一个麦克风位置与单个音频设备的多个麦克风相对应。

24.一种被配置为执行如权利要求1至23中任一项所述的方法的装置。

25.一种被配置为执行如权利要求1至23中任一项所述的方法的系统。

26.一个或多个在其上存储有软件的非暂态介质，所述软件包括用于控制一个或多个设备执行如权利要求1至23中任一项所述的方法的指令。