CN109804559B

CN109804559B - 空间音频系统中的增益控制

Info

Publication number: CN109804559B
Application number: CN201780059882.0A
Authority: CN
Inventors: J·马基南; M·塔米; M-V·莱蒂南; J·维罗莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-09-28
Filing date: 2017-09-14
Publication date: 2023-08-15
Anticipated expiration: 2037-09-14
Also published as: JP7229925B2; CN109804559A; US10869155B2; EP3520216A4; US20190289420A1; JP2019535216A; GB201616479D0; EP3520216A1; WO2018060549A1; GB2554447A; JP2022062282A; EP3520216B1

Abstract

一种装置，该装置包括处理器，该处理器被配置为：提供针对至少一个声音源相对于参考位置的位置；分析与至少一个声音源相关联的至少一个输入音频信号，以基于至少一个输入音频信号和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值；以及基于至少一个输入音频信号、方向性传递函数对、至少一个增益值以及针对至少一个声音源相对于参考位置的位置来合成至少两个输出通道。

Description

空间音频系统中的增益控制

技术领域

本申请涉及用于通过使用头部追踪输入在音频系统中提供增益控制的装置和方法。本发明进一步涉及，但不限于，用于通过使用头部追踪输入在空间音频系统中提供增益控制以实现音频信号的空间再现的装置和方法。

背景技术

从空间场中的多个源捕获和呈现音频信号需要大量的处理工作。例如，要被呈现给收听者并且产生有效音频气氛的音频环境(诸如电影院或演讲厅)内的音频信号源(诸如演讲者或艺术家)的捕获和混合需要大量的处理。

通常实施的系统将是利用近距离或外部麦克风，例如由用户佩戴的Lavalier麦克风或被附接至话筒杆以捕获靠近演讲者的音频信号或者在空间音频信号外部的其它源的麦克风。这些信号然后可以与从麦克风阵列捕获到的并且基于来自用户的确定方向性输入而渲染给用户的空间(或环境或音频场)音频信号混合。

所捕获的音频内容的电平和动态根据记录情况变化很大。通常，必须使渲染的或混合的音频信号动态余量(headroom)(指在不通过切断而损坏播放系统或音频信号的情况下音频信号可以暂时超过“最大电平”的量)最小化以使得能够容易听到远的或无声的声音源。由于嘈杂的收听环境以及在耳机和扬声器输出中的声音压力限制，这对于便携式播放器特别重要。

在头部追踪系统上收听和经由耳机收听的用户通常具有混合的音频信号或被渲染为双耳格式的声景，该双耳格式基于他们头部的移动方式而移动。因此，收听的用户的位置(虽然通常仅考虑定向)对渲染的(双耳)音频信号的电平具有影响。例如，耳朵是否直接指向声音源并且因此将高频放大或者背离声音源并且因此将高频减弱都能改变输出电平。考虑到音频信号中的这种定向或位置可变性并且因此避免切断，对于音频内容需要附加的动态余量，这是不期望的。

此外，被用来平衡音频信号的“响度”的常规自动增益控制(AGC)和动态范围压缩(DRC)算法要求在处理和输出音频信号之前对音频信号应用延迟。这对于使用头部追踪输入来渲染声景是不可接受的。声景的运动理想地应该跟随头部的移动，不具有任何可感知的时间滞差，否则感知到的空间-音频质量便会严重降低。因此，对于渲染的音频信号，无法应用会引起可检测到的延迟的电平控制函数。

因此，需要开发在同时考虑到输入的复杂度并且不会向音频系统引入任何附加的延迟的情况下可以应用增益控制的解决方案。

发明内容

本申请涉及在收听者的位置对合成的音频的电平可能具有影响的空间音频再现系统中的增益控制。提供增益控制，使得合成的音频可以对改变后的位置做出反应，不存在为增益控制函数分配的附加的延迟。这已经通过如下实现：通过使用关于声音源的(估计或已知)位置的信息来估计渲染的双耳输出信号的电平，并且通过使用空间音频再现系统来应用增益。

根据第一方面，提供了一种装置，该装置包括处理器，该处理器被配置为：提供针对至少一个声音源相对于参考位置的位置；分析与至少一个声音源相关联的至少一个输入音频信号以基于至少一个输入音频信号和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值；以及基于至少一个输入音频信号、方向性传递函数对、至少一个增益值以及针对至少一个声音源相对于参考位置的位置来合成至少两个输出通道。

被配置为提供针对至少一个声音源相对于参考位置的位置的处理器可以被配置为分析至少两个麦克风音频信号，来确定针对声音源相对于参考位置的位置。

被配置为提供针对至少一个声音源相对于参考位置的位置的处理器可以被配置为从与至少一个输入音频信号相关联的元数据检索针对声音源相对于参考位置的位置。

与至少一个输入信号相关联的元数据可以包括元数据针对频带的方向性参数。

被配置为分析与至少一个声音源相关联的至少一个输入音频信号的处理器可以被配置为：确定至少一个输入音频信号电平，其中，可以基于至少一个输入音频信号电平和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值。

处理器可以被进一步配置为确定追踪器相对于参考位置的位置和/或定向。

处理器可以被进一步配置为基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益。

被配置为基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的处理器可以被配置为：基于至少一个输入音频信号电平来确定至少一个电平控制增益函数；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益，该差异被应用于至少一个电平控制增益函数。

处理器可以被配置为基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道。

被配置为确定追踪器的位置和/或定向的处理器可以被配置为接收以下中的至少一个：来自数字罗盘的方向；来自陀螺仪的方向；来自信标定位系统的方向；以及具有惯性和质量使得位置是将来实际追踪器位置的估计的建模方向。

被配置为基于针对至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的处理器可以被配置为：基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第一频带，确定与第一频带有关的电平控制增益；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第二频带，确定第二频带电平控制增益。

被配置为基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的处理器可以被配置为：基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第一输出通道，确定与第一输出通道有关的电平控制增益；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第二输出通道，确定与第二输出通道有关的电平控制增益。

被配置为基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道的处理器可以被配置为：通过将左电平控制增益值乘以基于至少一个声音源与追踪器的位置和/或定向之间的差异的第一头部相关传递函数和建模左耳位置的组合，来生成至少两个输出通道中的左输出通道音频信号，该差异被应用于输入音频信号；以及通过将右电平控制增益值乘以基于至少一个声音源与追踪器的位置和/或定向之间的差异的第二头部相关传递函数和建模右耳位置的组合，来生成至少两个输出通道中的右输出通道音频信号，该差异被应用于输入音频信号。

追踪器可以包括被配置为生成与追踪器相关联的方向的头带，该方向与用户的收听方向相关联。

处理器可以被进一步配置为限制至少两个输出通道的输出信号值，使得输出信号值范围落在定义的脉冲代码调制方案动态范围内。

至少两个输出通道可以具有最小化的开销。

参考位置可以是以下中的至少一个：针对至少一个在空间上捕获到的声音源的原始位置和/或定向；针对相机的原始位置和/或定向；以及针对至少一个声音源所在的声音场景的原始位置和/或定向。

根据第二方面，提供了一种方法，包括：提供针对至少一个声音源相对于参考位置的位置；分析与至少一个声音源相关联的至少一个输入音频信号，以基于至少一个输入音频信号和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值；以及基于至少一个输入音频信号、方向性传递函数对、至少一个增益值以及针对至少一个声音源相对于参考位置的位置来合成至少两个输出通道。

提供针对至少一个声音源相对于参考位置的位置可以包括：分析至少两个麦克风音频信号来确定针对声音源相对于参考位置的位置。

提供针对至少一个声音源相对于参考位置的位置可以包括：从与至少一个输入音频信号相关联的元数据检索针对声音源相对于参考位置的位置。

分析与至少一个声音源相关联的至少一个输入音频信号可以包括：确定至少一个输入音频信号电平，其中，确定至少一个增益值可以包括：基于至少一个输入音频信号电平和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值。

该方法可以包括：确定追踪器相对于参考位置的位置和/或定向。

该方法可以进一步包括：基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益。

基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益可以包括：基于至少一个输入音频信号电平来确定至少一个电平控制增益函数；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益，该差异被应用于至少一个电平控制增益函数。

该方法可以进一步包括：基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道。

确定追踪器的位置和/或定向可以包括接收以下中的至少一个：来自数字罗盘的方向；来自陀螺仪的方向；来自信标定位系统的方向；以及具有惯性和质量使得位置是将来实际追踪器位置的估计的建模方向。

基于针对至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益可以包括：基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第一频带，确定与第一频带有关的电平控制增益；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第二频带，确定第二频带电平控制增益。

基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益可以包括：基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第一输出通道，确定与第一输出通道有关的电平控制增益；以及基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第二输出通道，确定与第二输出通道有关的电平控制增益。

基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道可以包括：通过将左电平控制增益值乘以基于至少一个声音源与追踪器的位置和/或定向之间的差异的第一头部相关传递函数和建模左耳位置的组合，来生成至少两个输出通道中的左输出通道音频信号，该差异被应用于输入音频信号；以及通过将右电平控制增益值乘以基于至少一个声音源与追踪器的位置和/或定向之间的差异的第二头部相关传递函数和建模右耳位置的组合，来生成至少两个输出通道中的右输出通道音频信号，该差异被应用于输入音频信号。

该方法可以进一步包括：限制至少两个输出通道的输出信号值使得输出信号值范围落在定义的脉冲代码调制方案动态范围内。

该至少两个输出通道可以具有最小化的开销。

根据第三方面，提供了一种装置，包括：用于提供针对至少一个声音源相对于参考位置的位置的部件；用于分析与至少一个声音源相关联的至少一个输入音频信号，以基于至少一个输入音频信号和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值的部件；以及用于基于至少一个输入音频信号、方向性传递函数对、至少一个增益值以及针对至少一个声音源相对于参考位置的位置来合成至少两个输出通道的部件。

用于提供针对至少一个声音源相对于参考位置的位置的部件可以包括：用于分析至少两个麦克风音频信号来确定针对声音源相对于参考位置的位置的部件。

用于提供针对至少一个声音源相对于参考位置的位置的部件可以包括：用于从与至少一个输入音频信号相关联的元数据检索针对声音源相对于参考位置的位置的部件。

用于分析与至少一个声音源相关联的至少一个输入音频信号的部件可以包括：用于确定至少一个输入音频信号电平的部件，其中，用于确定至少一个增益值的的部件可以包括：用于基于至少一个输入音频信号电平和针对至少一个声音源相对于参考位置的位置来确定至少一个增益值的部件。

该装置可以包括：用于确定追踪器相对于参考位置的位置和/或定向的部件。

该装置可以进一步包括：用于基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的部件。

用于基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的部件可以包括：用于基于至少一个输入音频信号电平来确定至少一个电平控制增益函数的部件；以及用于基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的部件，该差异被应用于至少一个电平控制增益函数。

该装置可以进一步包括：用于基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道的部件。

用于确定追踪器的位置和/或定向的部件可以包括：用于接收以下中的至少一个的部件：来自数字罗盘的方向；来自陀螺仪的方向；来自信标定位系统的方向；以及具有惯性和质量使得位置是将来实际追踪器位置的估计的建模方向。

用于基于针对至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的部件可以包括：用于基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第一频带，确定与第一频带有关的电平控制增益的部件；以及用于基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对与输入音频信号相关联的第二频带，确定第二频带电平控制增益的部件。

用于基于至少一个声音源与追踪器的位置和/或定向之间的差异来确定电平控制增益的部件可以包括：用于基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第一输出通道，确定与第一输出通道有关的电平控制增益的部件；以及用于基于至少一个声音源与追踪器的位置和/或定向之间的差异，针对第二输出通道，确定与第二输出通道有关的电平控制增益的部件。

用于基于输入音频信号、方向性传递函数对、至少一个电平控制增益值以及至少一个声音源与追踪器的位置和/或定向之间的差异来合成至少两个输出通道的部件可以包括：用于通过将左电平控制增益值乘以基于至少一个声音源与被应用于输入音频信号的追踪器的位置和/或定向之间的差异的第一头部相关传递函数和建模左耳位置的组合，来生成至少两个输出通道中的左输出通道音频信号的部件；以及用于通过将右电平控制增益值乘以基于至少一个声音源与被应用于输入音频信号的追踪器的位置和/或定向之间的差异的第二头部相关传递函数和建模右耳位置的组合，来生成至少两个输出通道中的右输出通道音频信号的部件。

该装置可以进一步包括：用于限制至少两个输出通道的输出信号值使得输出信号值范围落在定义的脉冲代码调制方案动态范围内的部件。

该至少两个输出通道可以具有最小化的开销。

参考位置可以是以下中的至少一个：针对至少一个在空间上捕获到的声音源的原始位置和/或定向；针对相机的原始位置和/或定向；以及针对至少一个声音源所在的声音场景的原始位置和/或定向。存储在介质上的计算机程序产品可以使装置执行本文所描述的方法。

电子设备可以包括本文所描述的装置。

芯片集可以包括本文所描述的装置。

本申请的实施例旨在解决与本领域的状态相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例参照附图，在图中：

图1a和图1b示意性地示出了适合用于实施一些实施例的分布式音频捕获和处理系统和装置；

图2示意性地示出了声音源相对于麦克风阵列的示例定向；

图3示意性地示出了声音源相对于头部追踪器第一定向或参考定向的示例定向；

图4示意性地示出了声音源相对于头部追踪器第二定向或旋转定向的示例定向；

图5示意性地示出了针对示例音频信号并且相对于在第一和第二定向之间的头部追踪器定向差异的示例输出电平分布；

图6示意性地示出了基于在第一和第二定向之间的头部追踪器定向差异针对示例音频信号的示例输出电平频率分布；

图7更详细地示意性示出了图1b中所示的电平控制器；

图8示意性地示出了图7中所示的电平控制器的效果；以及

图9示出了适合用于实施实施例的示例电子设备。

具体实施方式

以下描述更详细地描述了用于在空间处理的音频信号中(并且特别是相对于基于来自追踪器的输入而被渲染的音频信号)提供对音频信号的有效增益控制的合适装置和可能的机构。例如，追踪器可以是监测收听者的头部定向的头部追踪器。在以下示例中，描述了音频信号和音频捕获信号。然而，要了解，在一些实施例中，该装置可以是被配置用于捕获音频信号或接收音频信号和其它信息信号的任何合适的电子设备或装置的一部分。

如前面所描述的，进行增益控制的常规方法是可以通过延迟线、增益(或动态范围)控制器和乘法器来实施响度控制的方法。增益或动态范围控制器可以确定输入信号的幅度，计算在将输入信号通过延迟线时将被应用于信号的增益，并且然后通过使用乘法器应用增益以调节输出信号的幅度。当输入信号的幅度超过预定阈值时，增益控制器将输出信号的幅度限制为低于预定阈值。这可以利用实施多频带增益或动态范围控制器系统来改进，该多频带增益或动态范围控制器系统可以通过使用多个控制器控制阈值和增益来提高输出信号的总体响度，各个控制器控制在定义的频率范围内的增益。当输入功率集中在一个频带中时，依赖于频率的控制可以允许输出信号的响度的提高，然而，其通常要求滤波或频分阶段，该滤波或频分阶段会增加系统的处理延迟和计算负载。

例如，下文详细讨论的构思可以被体现为空间音频再现系统的一部分。该系统可以是被配置为同时捕获外部(扬声器、仪器或其它源)音频信号和空间(音频场)音频信号的捕获系统的一部分。在本文所描述的实施例中，因此将增益控制系统集成到空间音频再现系统中以便使对动态余量的需要最小化并且使计算复杂度和时间延迟最小化。

本文所描述的实施例因此可以实施双耳空间音频再现方法，其中，该方法估计任何音频源的到达方向(DOA)以及直接(诸如音频源)和环境(或背景)分量的比率，并且通过使用该信息和收听者的头部追踪器输入的定向来合成双耳输出信号。

因此，集成式增益控制方法和装置使用有关声音源和收听(例如，从头部追踪器)输出信号的用户的位置的信息来估计渲染的双耳输出信号的电平。按照这种方式，该方法和装置可以将增益控制函数集成到空间音频处理和渲染系统中。

这可以带来两大主要益处。首先，可以使用空间音频再现系统的渲染函数，并且可以在不增加延迟或处理负载的情况下应用平滑增益变化和依赖于频率的增益。其次，可以“实现”最佳的动态余量配置。

下文描述了一种合适的用于增益控制的方法和装置，其被实施为分布式音频捕获系统的一部分。相对于直播内容的捕获和处理来描述下文中的示例。然而，可以采用另外的适合用于处理直播内容和录制内容(或仅录制内容)的示例。

下文更详细描述的方法包括：使用来自头部追踪装置的输出来修改与输出音频信号相关联的增益/处理参数。虽然以下示例中的捕获、混合器和输出系统被示出是分离的，但它们可以利用相同的装置实施或者可以分布在一系列在物理上是分离的但能够通信的装置之间。

此外，应当理解，以下装置的至少一些元件可以被实施在分布式计算系统(诸如，称为“云”)内。

相对于图1，示出了根据一些实施例的适合用于实施增益控制的示例分布式音频捕获和处理系统。

在以下示例中，示出了三个外部声音源，然而，可以捕获到比三个更多或比三个更少的声音源，并且可以应用以下装置和方法。例如，系统99包括第一声音源麦克风111。第一声音源麦克风111可以是Lavalier麦克风或者“近距离”声音源捕获装置的其它示例。例如，在一些实施例中，第一声音源麦克风可以是话筒麦克风或相似的邻近麦克风捕获系统。在一些实施例中，第一声音源麦克风111可以是麦克风阵列。如图1a所示，第一声音源麦克风111可以是与第一音频源(诸如歌手)相关联的麦克风。

系统99还可以包括第二声音源麦克风113。第二声音源麦克风113可以是与第二音频源(诸如，仪器)相关联的麦克风或麦克风阵列。例如，第二声音源麦克风是电吉他中的内部麦克风系统(拾音麦克风)。

系统99还可以包括第三声音源麦克风115。第三声音源麦克风115可以是与第三音频源相关联的麦克风或麦克风阵列。例如，第三声音源麦克风是与鼓相关联的麦克风。

应当理解，声音源麦克风111、113、115既可以动态地与它们相关联的声音源一起移动，也可以反映该源的动态音频输出。

声音源麦克风111、113、115可以被配置为将它们捕获的音频信号输出给处理器和渲染器100。例如，第一声音源麦克风111可以包括发送器单元(未示出)，该发送器单元将音频信号无线地传送给处理器和渲染器100上的接收器单元(未示出)。

系统99可以进一步包括空间音频捕获(SPAC)设备105。空间音频捕获设备105是‘音频场’捕获装置的示例，并且在一些实施例，可以是被配置为捕获与本文所描述的声音源和其它环境声音源所代表的环境声景相关联的音频信号的方向性或全向性麦克风阵列。空间音频捕获设备105可以被配置为将捕获到的音频信号输出给处理器和渲染器100。

在一些实施例中，空间音频捕获设备105被实施在移动设备内。空间音频捕获设备因此被配置为捕获空间音频，该空间音频在被渲染给收听者时使收听者能够感受到犹如他们置身于空间音频捕获设备所在位置一样的声场。

此外，空间音频捕获设备105可以包括位置确定器或位置追踪器(图1a中未示出)。位置追踪器或确定器可以被配置为生成合适的标识出针对声音源麦克风111、113、115(以及，因此，它们相关联的声音源)相对于空间音频捕获设备105的位置的输出，并且将该信息输出给处理器和渲染器100。图1a中所示的来自声音源麦克风111、113、115的虚线可以携带从位置追踪器或确定器到位置系统151的输出。在以下示例中，空间音频捕获设备被用作参考位置的示例，然而，可以将任何合适的对象位置用作参考。可以通过任何合适的部件或方法来实现位置确定/追踪。

例如，在一些实施例中，定位系统可以使用卫星定位信号(或者其它信标信号)来估计源和空间音频捕获设备(以及在一些实施例中，混合器)的位置。可以将这些估计的位置传送给位置确定器或位置追踪器，该位置确定器或位置追踪器被配置为接收位置，以及在一些实施例中，确定源相对于空间捕获设备(和/或混合器或混合控制器)的位置。

可以通过局部射频信号估计来实现位置确定。因此，例如，声音源麦克风可以包括位置标签。位置标签可以被配置为生成和传送射频信号，该射频信号可以被合适的接收器接收，该射频信号使接收器或位置确定器能够确定适合用于标识出声音源麦克风相对于接收器的位置或定位的信息。空间音频捕获设备105因此可以进一步包括位置标签接收器，该位置标签接收器被配置为从与声音源相关联的位置标签接收射频信号。空间音频捕获设备105可以进一步包括位置确定器，该位置确定器被配置为确定标签相对于空间音频捕获设备的位置的估计。由于人所佩戴的/位于仪器上的麦克风能够在声学空间中自由移动，所以位置确定器必须支持麦克风位置的持续感测。

在一些实施例中，接收器和/或位置追踪器或确定器可以与空间音频捕获设备105分离。在这种实施例中，空间音频捕获设备本身包括位置标签(或者与其相关联)，该位置标签生成射频信号，该射频信号使接收器/位置确定器能够估计空间音频捕获设备相对于位置确定器的位置。位置确定器然后可以确定声音源(或它们相关联的位置标签)和空间音频捕获设备(以及其相关联的位置标签)的(多个)相对位置。

在一些实施例中，通过使用高准确度室内定位(HAIP)系统或另一合适的室内定位技术来实施位置标签和位置确定器。因此，位置标签是HAIP标签，并且位置接收器和/或位置追踪器是被配置为追踪标签的位置的HAIP定位器。

在一些实施例中，除了基于射频的位置估计之外，位置确定器和/或位置追踪器可以使用视频内容分析和/或声音源定位。

因此，在一些实施例中，确定空间音频捕获设备的位置或定位。空间音频捕获设备的定位(在时间0处)可以表示为：

(x_S(0)，y_S(0))

在一些实施例中，可以实施有校准阶段或操作(换言之，限定出0时实例)，其中，第一声音源(S1)麦克风位于SPAC阵列前面一定距离处，在HAIP定位器的范围内。第一声音源麦克风的位置可以表示为：

(x_S1(0)，y_S1(0))

此外，在一些实施例中，该校准阶段可以确定空间音频捕获设备在HAIP坐标系中的‘前方向’。这可以通过首先由以下向量限定出阵列的前方向来进行：

(x_S1(0)-x_S(0)，y_S1(0)-y_S(0))

该向量可以使位置追踪器能够确定相对于阵列的方位角α_S1和距离d_S1。

例如，假设在时间t处是第一声音源麦克风位置：

(x_S1(t)，y_S1(t))

由向量限定出相对于阵列的方向：

(x_S1(t)-x_S(0)，y_S1(t)-y_S(0))

然后可以确定方位角α为：

α＝atan2(y_S1(t)-y_S(0)，x_S1(t)-x_S(0))-atan2(y_S1(0)-y_S(0)，x_S1(0)-x_S(0))

其中，atan2(y，x)是给出了在正x轴与点(x，y)之间的角度的“四象限反正切”。因此，第一项给出了在正x轴(在x_S(0)和y_S(0)处的原点)与点(x_S1(t)，y_S1(t))之间的角度，并且第二项是在x轴与初始位置(x_S1(0)，y_S1(0))之间的角度。可以通过从第二角度减去第一角度来得到方位角。

可以如下获得距离d：

在一些实施例中，由于HAIP位置数据可能有噪声，所以可以通过在几秒(例如，30秒)的时间窗内记录音频捕获设备和第一声音源的HAIP标签的位置并且然后将记录的位置平均以得到在上述等式中使用的输入来获得位置(x_S1(0),y_S1(0)和(x_S(0),y_S(0))。

在一些实施例中，可以通过SPAC设备(例如，移动设备)来初始化校准阶段，该SPAC设备被配置为输出语音或其它指令以指导(多个)用户在阵列前面停留30秒，并且在该时段已经结束时给出声音指示。

虽然上面所示的示例示出了位置确定器和/或位置追踪器生成两维的位置信息，但要理解，该位置信息可被推广到三维，在三维中，位置确定器和/或位置追踪器可以确定俯仰角、以及方位角和距离。

在一些实施例中，其它位置确定/追踪部件可以被用于定位和追踪移动的源。其它追踪部件的示例可以包括惯性传感器、雷达、超声感测、雷达或激光测距仪、视觉分析、音频分析等。

例如，可以执行视觉分析，以便定位和追踪预先定义的声音源，诸如人和乐器。可以对与空间音频一起被捕获到的全景视频应用视觉分析。该分析因此可以基于对人的视觉标识来标识和追踪携带声音源麦克风的人的位置。视觉追踪的优点在于：即使当声音源是无声的并且因此当难以依赖基于音频的追踪时，也可以使用视觉追踪。视觉追踪可以基于执行或运行检测器，该检测器是基于针对每个全景视频帧的合适数据集(诸如，包含行人的图像的数据集)而被训练的。在一些其它实施例中，可以实施追踪技术(诸如kalman滤波和粒子滤波)以通过视频帧获得人的正确轨迹。人相对于全景视频的前方向(与空间音频捕获设备的前方向一致)的定位然后可以被用作针对该源的到达方向。在一些实施例中，可以使用基于声音源麦克风外观的视觉标记器或检测器来帮助或提高视觉追踪方法的准确度。

在一些实施例中，视觉分析不仅能提供有关声音源的2D位置的信息(即，在全景视频帧内的坐标)，还能提供有关距离的信息，该距离与检测到的声音源的大小成正比，假设针对该声音源类的“标准”大小是已知的。例如，可以基于平均身高来估计‘任何’人的距离。备选地，可以通过假设系统知晓特定声音源的大小来实现更精确的距离估计。例如，系统可能知晓需要被追踪的每个人的身高或可能用需要被追踪的每个人的身高来训练。

在一些实施例中，可以通过使用深度感测设备来实现3D或距离信息。例如，可以使用‘Kinect’系统、飞行时间相机、立体相机或相机阵列来生成可以被分析的图像，并且可以根据来自多个图像的图像不均等性创建深度或者可以创建3D视景。可以通过相机来生成这些图像。

在一些实施例中，可以使用音频源位置确定和追踪来追踪源。例如，可以通过使用到达时间差(TDOA)方法来估计源方向。在一些实施例中，可以通过使用可控波束赋形器连同基于粒子滤波器的追踪算法来实施源位置确定。

在一些实施例中，可以使用音频自定位来追踪源。

在无线电技术和连接性解决方案中，存在还能够支持在能够通过消除音频相关分析中的时间偏移不确定性来简化距离测量的设备之间的高准确度同步的技术。已经针对多通道音频播放系统的将来WiFi标准化提出了这些技术。

在一些实施例中，可以同时使用来自室内定位、视觉分析和音频源定位的位置估计，例如，可以将每个确定器或估计器提供的估计平均以获得改进的位置确定和追踪准确度。此外，为了最小化视觉分析的计算负载(其通常比音频或HAIP信号的分析“重”得多)，可以仅对整个全景帧的对应于音频和/或HAIP分析子系统已经估计存在声音源的空间位置的部分进行视觉分析。

在一些实施例中，位置估计可以将来自多个源的信息相组合并且多个估计的组合具有用于为所提出的系统提供最准确的位置信息的可能性。然而，有益的是，系统可以被配置为使用位置感测技术的子集，以便即使是在较低的分辨率的情况下也能产生位置估计。

此外，系统99可以包括处理器和渲染器100，其被配置为接收声音源麦克风111、113、115和空间音频捕获设备105的输出。此外，在一些实施例中，处理器和渲染器100可以被配置为接收来自位置追踪器的声音源位置(和追踪信息)。

处理器和渲染器100可以被配置为处理声音源麦克风111、113、115和空间音频捕获设备105的输出并且将这些处理后的信号输出给耳机121。如本文所示的处理器和渲染器100可以被配置为接收来自输入控制器103和头部追踪器(或追踪器)101的输入并且基于下文将进一步详细描述的这些输入处理来自音频源/空间音频捕获设备(或装置)的音频信号。

此外，系统99可以包括输入控制器103。输入控制器103可以使收听处理器和渲染器100的音频输出的用户(例如，经由耳机121)能够控制对该输出的处理。在一些实施例中，输入控制器103因此可以被配置为向处理器和渲染器100提供合适的选择和控制输出以控制由处理器和渲染器100生成的音频源和空间音频捕获设备音频信号的处理(例如，混合)。输入控制器103可以具有物理控制器元件，例如，滑块、拨盘、按钮或可以是物理控制器元件的虚拟触屏表示。在一些实施例中，物理控制器元件可动态配置，使得相同的控制器元件可以在第一时间段期间控制第一参数或函数并且在第二时间段期间可以控制第二参数或函数。

此外，系统99可以包括头部追踪器(其也可以被称为声音源追踪器或简称为追踪器)101，该头部追踪器101可以是追踪收听输出的用户的头部定向的任何合适的惯性传感器。换言之，头部追踪器101可以是用于生成对方位和/或俯仰的测量的任何合适的部件。例如，头部追踪器可以是被附接至耳机121的传感器，该传感器被配置为监测收听输出的用户相对于定义的或参考定向(诸如，‘前’麦克风阵列方向)的定向和/或方位并且提供值或输入，该值或输入可以被输出给处理器和渲染器100。在一些实施例中，头部追踪器101可以通过至少一个陀螺仪和/或数字罗盘来实施。为了便于操作，头部追踪器和空间音频捕获设备麦克风阵列可以包括磁性罗盘来消除对专用手动校准步骤的需要。在不存在磁性罗盘的情况下，戴着头部追踪器的用户看向与音频捕获系统的参考轴相同的方向以用于校准系统。

相对于图1a，系统99还包括一对耳机121，其可以被戴在收听者的头部上并且包括经由合适的带子耦合的一对换能器。带子上可以安装有头部追踪器101。在一些实施例中，耳机121可以是耳塞、耳麦或用于将电信号转换为针对用户的声学输出的相似物。

图1b更详细地示出了示例处理器和渲染器100。处理器和渲染器100被配置为接收音频信号/流。例如，处理器和渲染器100可以被配置为接收来自麦克风阵列141(在空间音频捕获设备105内)或来自第一声音源麦克风111或第二声音源麦克风113或第三声音源麦克风115的音频信号。因此，输入可以包括麦克风阵列的两个或多个麦克风信号或者源自位于已知方向的Lavalier或乐器麦克风的一个或多个音频对象信号(在某些实施例中，具有相关联的位置值的任何其它音频信号可以被用作音频信号/流)。在一些实施例中，可以将输入‘记录’或存储为音频信号。例如，输入可以包括多通道扬声器信号，换言之，被布置成扬声器通道配置的音频信号。在一些实施例中，音频输入可以包括采样得到的音频信号和描述相对于收听者的音频源或对象方向或位置的元数据。在一些实施例中，音频输入信号可以包括其它可选参数(诸如增益值)、或者将被应用于音频信号的均衡滤波器。

在一些实施例中，处理器和渲染器100包括分析器131。分析器131被配置为分析音频输入以确定与音频源相关联的定向或位置。分析器131可以执行任何合适的方向或位置分析。例如，在一些实施例中，分析器131被配置为从空间音频捕获设备105接收定位系统151的输出并且从该信息确定源的定向或位置。

在一些实施例中，分析器131可以被配置为接收来自空间音频捕获设备105的音频信号，并且分析这些音频信号以确定与声景内的音频源或对象相关联的方向或位置信息。与前面已经描述的类似，声音源麦克风可以包括麦克风阵列，并且因此，分析器分析来自声音源麦克风的音频信号以确定在声景内的音频源/对象。

分析器131可以被配置为确定声音源的到达方向(DOA)。此外，分析器131可以被配置为确定有助于描述和限定声景的直接和环境分量或其它参数的比率。

例如，图2示出了存在单个声音源201和麦克风阵列200(例如，其可以是空间音频捕获设备105的麦克风阵列141)并且该麦克风阵列200包括M个麦克风的示例。麦克风阵列200可以被配置为提供麦克风信号x(m,n’)，其中，m和n’分别是针对麦克风和时间的索引。声音源201可以被示出为在球面坐标系中具有方位角Φ(k,n)和俯仰角θ(k,n)，并且其中k、m和n分别是针对频率、麦克风和时间的索引。

分析器131可以借助于短时傅里叶变换将输入信号变换成频域：

X(k,m,n)＝F(x(m,n’))，

其中，X表示变换后的信号。

用于确定针对声音源的到达方向有许多已知的方法。在本章节中，描述了一种用于确定方向信息的方法。该方法经证实是高效的。该方法仅仅是示例性的并且可以使用其它方法。该方法基于音频输入信号通道之间的相关性。在该方法中，针对B频域子带，独立地估计到达的声音的方向。想法是针对每个子带寻找从感知上主要的声音源的方向。在已经针对每个子带确定从感知上主要的声音源的方向之后，然后可以确定哪些地方存在多个声音源及其相关联的方向(如果该多个声音源占据了不同的子带)。

如上面指示的，使用傅立叶变换将每个输入信号m变换为频域，该傅立叶变换可以是DFT(离散傅立叶变换)或其它合适实施的变换。在示例性实施例中，变换加窗方法使用重叠率为50％且有效长度为20ms(毫秒)的正弦窗口。在一些实施例中，在实施傅立叶变换之前，将D_tot＝D_max+D_HRTF个零添加到窗口的末尾。D_max对应于麦克风之间的样本中的最大延迟。该最大延迟可如下得到：

其中，F_s是信号的采样率并且v是声音在空气中的速度。值D_HRTF是由可以在合成器和HRTF渲染器135内被实施的任何HRTF(头部相关传递函数)处理而对信号引起的最大延迟。

在DFT变换之后，针对所有麦克风m的频域表示X(k,m,n)，k＝0、...、N-1。N是考虑到了正弦窗口(长度N_s)和附加D_tot个零的窗口的总长度。

将频域表示划分成B个子带：

其中，k_b是第b个子带的第一个索引。例如，子带的宽度可以依循ERB(等效矩形带宽)标度。

对于每个子带，如下执行方向分析。

1.选择子带。

2.对子带中的信号执行方向分析。这种方向分析确定(例如，主要的)声音源的方向α_b。

3.确定是否已经选择了所有子带。如果没有，则选择新的子带，并且重复步骤2，否则处理确定的子带方向以确定主要的(和其它的)声音源方向。

可以将步骤2细分成以下子步骤或操作。

首先，利用两个麦克风信号(在本示例中是麦克风2和3)估计方向。对于这两个输入麦克风音频信号，消除在这些通道中的频域信号之间的时间差。任务是找到使针对子带b的两个通道之间的相关性最大化的延迟τ_b。

可以使用下式将例如的频域表示移动τ_b个时域样本：

然后从下式得到最佳延迟：

其中，Re指示结果的实数部分并且*表示复共轭。知/>被视为是具有长度为k_b+1-k_b个样本的向量。一个样本的分辨率通常适合用于延迟的搜索。也可以使用除了相关性之外的其它在感知上具有主动性的相似性测量。利用延迟信息，使用以下逻辑创建和(sum)信号：

其中，τ_b是前面定义的最佳延迟。

利用和信号，因此添加首先发生事件的麦克风的内容(即，频域信号)，而移动稍后发生事件的麦克风的内容(即，频域信号)以得到最佳匹配。

因此，声音源可以被认为是创建事件，该事件由在麦克风(例如，阵列中的第二麦克风)处接收到的示例性时域函数描述，该相同事件由第三麦克风接收。在理想场景中，在阵列中的第二麦克风处接收到的示例性时域函数简单地是在第三麦克风处接收到的函数的时移版本。这种情况被描述为理想是因为，在现实中，这两个麦克风可能会遇到不同的环境，例如，它们对事件的记录可能会受到阻断或增强来自事件的声音的相长或相消干涉或元件的影响。

移位τ_b指示第二源相较于第三麦克风有多更靠近第二麦克风(当τ_b为正时，第二源更靠近第二麦克风，而不是更靠近第三麦克风)。实际的距离差可以如下计算：

利用基本几何，可以确定到达的声音的角度等于

其中，d是麦克风之间的距离并且b是在声音源与最近的麦克风之间的估计距离。通常，可以将b设置为固定值。例如，b＝2米已经证实能提供稳定的结果。

注意，由于不能够仅利用两个麦克风确定出实际的方向，所以，为了得到到达的声音的方向，存在两种备选方法。

因此例如，可以利用另一麦克风(例如，在三个麦克风的阵列中的第一麦克风)来限定哪个符号(+或-)是正确的。在第一麦克风与这两个估计的声音源之间的距离可以被如下定义：

其中，h是由第一、第二和第三麦克风的示例布置限定的等边三角形的高度，在该示例布置中，麦克风位于该三角形的顶点处。在本示例中，h可以如下定义：

/>

其中的距离等于样本中的延迟：

在这两个延迟中，选择提供与和信号更好相关性的一个延迟。相关性如下获得：

现在，针对子带b的主要声音源，可以通过下式获得方向：

针对每个子带，重复相同的估计。

该方法可以被应用于同时存在‘水平’和‘垂直’移位以便可以确定方位和俯仰的麦克风阵列。

因此，可以在球面坐标系中按照方位角Φ(b，n)和俯仰角θ(b，n)表达声音源的方向，其中，b是子带(换言之，k个索引组成的多组)。分析器131因此可以处理输入并且提供描述声场的方向信息和其它元数据或参数。然后可以将该位置元数据转发给合成器/渲染器135和电平控制器133。

此外，如图1b所示，处理器和渲染器100可以包括合成器/渲染器135。合成器/渲染器135可以被配置为使用来自分析器131的方向元数据和输入信号X(k，n，m)、来自电平控制器133的增益或电平控制、以及头部追踪器定向来合成双耳输出音频信号。

合成器/渲染器135可以被配置为通过将头部相关传递函数(HRTF)应用于输入音频信号来生成或合成左右通道输出音频信号。HRTF表示人耳、头部、身躯等如何影响源自某个方向的声音。因此，如简述的，基于音频源的DOA和头部追踪器定向应用不同的HRTF。

相对于图3，示出了声音源相对于头部追踪器第一定向或参考定向的示例定向。在本示例中，声音源201被示出为被定位成相对于麦克风阵列200的参考定向300具有固定俯仰角(θ＝0)和方位角φ203。因此，当将头部追踪器定向在与麦克风阵列相同的‘参考’定向或方向上时，示例声音源201位于收听者的左侧。

在这种示例中，合成器135将被配置为将第一‘左通道’HRTF应用于输入音频信号以产生左通道双耳输出音频信号并且还将第二‘右通道’HRTF应用于输入音频信号以输出右通道双耳输出音频信号。

要理解，在上面所示出的示例中，收听者的头部会遮挡从音频源到右耳的直接路径并且对应HRTF的幅度响应会具有低通滤波器形状。相反，头部可能不会遮挡从音频源到左耳音频输出的路径并且对应HRTF的幅度响应不会具有该低通特点，并且高频率会更占主导。此外，按照以下方式来配置合成器/渲染器135：当收听者使用头部追踪器时，渲染的声景基于他们的头部移动而移动。

例如，图4示出了头部追踪器相对于第一或参考定向位于第二或旋转定向的示例。因此，例如，头部追踪器定向400相对于麦克风阵列参考定向300处于定向角度φ_head 401。声音源201相对于收听者的定向(其现在由定向400定义)可以被定义为φ-φ_head 403。在本示例中，合成器135现在将基于新方位角φ-φ_head的声音源输入定向而不是基于原始方位角φ通过使用HRTF′s来渲染音频信号。基于可变头部追踪器定向应用可变HRTF′s的效果是使得不仅相对于频率响应进行左右通道输出音频信号改变，而且还能改变输出电平。

图5中示出了输出电平变化作为方位角变化。图5示出了，用于声音源和头部追踪器定向变化φ-φ_head中的变化，针对左通道音频输出的示例输出电平分布。角度φ₀＝φ-φ_head是任意固定角度。最大输出电平可以在φ_Max 502处被听到并且低几分贝的输出电平在φ₀ 503处被听到。可以按照不超过最大期望输出电平的方式来选择图8中所示出的最佳曲线。

如本文所述，对于更高频率范围而言，输出电平变化更强。例如，图6示意性地示出了针对基于头部追踪器定向差φ-φ_head＝π/2 601以及针对φ-φ_head＝-π/2 603的示例音频信号的示例输出电平频率分布。如图可见，在本示例中，在左耳‘朝着’针对示例源的到达方向φ-φ_head＝π/2 601因此针对输出音频信号的频率响应对于大部分频谱而言较高的情况下的输出电平。在左耳‘背朝’针对示例源的到达方向φ-φ_head＝-π/2 603的情况下，头部遮挡效果导致针对频谱的输出电平降低并且，对于较高频率(例如，＞3500Hz)而言，该降低是明显的。

在增益控制和动态范围控制操作中，应该考虑到这些输出电平变化。

图7更详细地示出了图1b所示电平控制器。图1b中所示的电平控制器被配置为从分析器13接收输入音频信号X(k，n，m)以及与输入音频信号相关联的其它元数据(诸如，声音源的方向Φ(k，n))。此外，电平控制器133可以被配置为从头部追踪器Φ_HEAD(k，n)接收头部定向值701。

电平控制器133被配置为基于输入音频信号、声音源的方向和头部追踪器定向值生成增益值G(k，n)并且将增益值G(k，n)761输出给合成器/渲染器135。

合成器/渲染器135可以被配置为接收这些增益值并且将这些增益值应用于输入音频信号X(k，n，m)或应用于每个输出音频信号。

在一些实施例中，电平控制器133被配置为计算M个麦克风输入m＝[1，M]之上的输入电平估计X’(k，n)＝max(abs(X(k，m，n)))和输出增益，该输出增益根据由φ-φ_head定义的方位角提供在输入电平与输出电平之间的期望关系。在一些实施例中，该增益关系可以被表示为一系列函数(或曲线)，按照在角度φ(k)-φ_head(k)处不超过最大期望输出电平的方式来选择函数(或曲线)。在一些实施例中，可以基于诸如如图5所示的输出电平估计来生成函数或曲线。针对不同方位角φ-φ_head和频率范围k测量输入电平和输出电平关系并且确定提供该期望关系的增益。在一个示例实施例中，电平控制算法可以使用表查找函数来选择提供期望输入电平和输出电平关系的曲线。

增益曲线可以由两个或多个部分组成以便，例如，在低输入电平下提供恒定的增益而在更高的输入电平下提供更低的增益，以避免溢流。为了最小化动态余量，必须确定在最大期望输入电平下使用的增益g_MIN(k，φ)。如果系统阈值Y_THMAX(k)为左右输出定义了最大电平并且符号Y_MAX(k，φ)表示在最大期望输入电平下的输出电平，则增益为g_MIN(k，φ)＝Y_THMAX(k)/Y_MAX(k，φ)。其它增益曲线参数，例如恒定增益值，取决于使用的系统并且常常由主观确定。假设具有线性度，我们发现了针对输出电平的估计Y_EST(k，φ，n)＝C*X’(k，n)*Th(k，φ(n))。项Th(k，φ(n))将方位角依赖性添加到输出电平估计上并且C是标量常数。测量数据可以被用来确定C和Th值。

例如，图8示出了一系列示例函数，这些函数示出了针对单个频率范围以及针对一对方位角的增益函数曲线。因此，例如，直到定义的输入电平之前的增益函数800都是相同的并且独立于方位角。超过定义的输入电平后，增益函数根据方位角变动，使得最大输出电平增益函数803低于参考输出电平增益函数801。按照这种方式，通过使用位置和频率依赖性曲线，电平控制器可以最小化所需的动态余量。

在一些具有已知方向的近场麦克风的实施例中，电平控制器133可被配置为计算M个麦克风输入m＝[1，M]之上的输出电平估计Y_EST(k，n)＝sqrt(sum(abs(X(k，m，n))²*Th(k，φ(m，n)-φ_head(n))²))。

项Th(k，φ(m，n)-φ_head(n))补偿针对每个近场麦克风m的输入电平和输出电平关系的方位角依赖性。

因此，电平控制算法可以使用固定曲线，该固定曲线根据针对每个频率范围k的估计输出电平Y_EST来定义期望输出电平。

如前面讨论的，合成器/渲染器135可以被配置为接收增益输入G(k，n)并且使用乘法器将该增益应用于信号路径。在一些实施例中，由分析器131和合成器/渲染器135之间的乘法器块来应用增益。

在如上面描述的这种实施例中，系统可以实现系统的更低最小延迟和计算负担，这是因为对于应用电平控制函数不需要分离的缓冲、频率域变换或滤波器组。

此外，在一些实施例中，处理器和渲染器100可以包括限制器137。限制器137接收合成器/渲染器135的输出并且确保脉冲代码调制(PCM)信号适配期望的幅度范围并且因此使得能够使用略微更小的动态余量。为了避免增加系统延迟，限制器137可以利用合成器/渲染器135的输出缓冲。

在一些实施例中，可以修改本文所描述的电平控制器，使得能够针对特定的输入实施分离的级联电平控制器处理。例如，对于打击乐器或低音吉他。在一些实施例中，近麦克风输入(诸如，鼓)在被混合到输出信号之前可以具有分离的电平控制函数。

在一些实施例中，可以将从位置追踪器接收到的用户的头部定向/位置视为可以利用质量和惯性建模的连续函数。因此，可以从当前的头部位置/定向、从平移和/或旋转速度预测将来的头部位置/定向。在一些实施例中，电平控制器可以被配置为不仅针对当前的头部位置确定增益估计，还为预测的头部位置确定增益估计。例如，在收听者正将他们的耳朵转向声音源的情况下，电平控制器可以能够产生更平滑的控制曲线。

如早前描述的，虽然现有技术的增益控制方法会引起额外的延迟，这种延迟在头部追踪型双耳渲染中是非常不想要的，但上面详细描述的实施例通过将增益控制集成到空间声音处理中而避免了这个问题。

此外，现有技术的增益控制方法会引起额外的计算复杂度，这是因为它们需要独立的处理块。所提出的实施例可以通过将电平(增益)控制集成到空间声音渲染中来避免这个问题。因此，可以利用最少额外的处理来执行电平(增益)控制。

同样，现有技术的增益控制方法不考虑头部追踪信息，也不考虑DOA信息。因此，它们需要额外的动态余量或额外的延迟来避免切断。所提出的发明使用该信息，所以不需要额外的动态余量，也不需要额外的延迟。

在合成器/渲染器后使用附加的限制器的情况下，本文描述的实施例有望产生比现有技术的解决方案更好的输出音频质量，这是由于通常不常需要软限制函数。

关于图9，示出了可以被用作处理器和渲染器100的至少一部分或者被用作系统99的一部分的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1200是虚拟或增强现实捕获设备、移动设备、用户设备、平板计算机、计算机、音频播放装置等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如，数目M个)麦克风。然而，要理解，可以存在任何适合配置的麦克风和任何合适数目的麦克风。在一些实施例中，麦克风阵列1201与装置分离并且通过有线或无线耦合将音频信号传送给装置。在一些实施例中，麦克风阵列1201可以是如图1a所示的SPAC麦克风阵列144。

麦克风可以是被配置为将声波转换成合适的电音频信号的换能器。在一些实施例中，麦克风可以是固态麦克风。换言之，麦克风可以能够捕获音频信号和输出合适的数字格式信号。在一些其它实施例中，麦克风或麦克风阵列1201可以包括任何合适的麦克风或音频捕获部件，例如电容式(condenser)麦克风、电容式(capacitor)麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带式麦克风、碳麦克风、压电麦克风、或微机电系统(MEMS)麦克风。在一些实施例中，麦克风可以将音频捕获信号输出给模数转换器(ADC)1203。

设备1200可以进一步包括模数转换器1203。该模数转换器1203可以被配置为接收来自麦克风阵列1201中的每个麦克风的音频信号并且将它们转换成适合用于处理的格式。在麦克风是集成式麦克风的一些实施例中，不需要模数转换器。模数转换器1203可以是任何合适的模数转换或处理部件。模数转换器1203可以被配置为将音频信号的数字表示输出给处理器1207或输出给存储器1211。

在一些实施例中，设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实施的程序代码可以包括：例如，SPAC控制、电平控制、分析、以及诸如本文所描述的合成/渲染。

在一些实施例中，设备1200包括存储器1211。在一些实施例中，该至少一个处理器1207被耦合至存储器1211。存储器1211可以是任何合适的存储部件。在一些实施例中，存储器1211包括用于存储可在处理器1207上实施的程序代码的程序代码部分。此外，在一些实施例中，存储器1211可以进一步包括用于存储数据(例如，已经被处理的或根据本文所描述的实施例将被处理的数据)的存储数据部分。当需要时，可以经由存储器-处理器耦合，通过处理器1207来检索在程序代码部分内存储的所实施的程序代码和在数据存储部分内存储的数据。

在一些实施例中，设备1200包括用户界面1205。在一些实施例中，该用户界面1205可以被耦合至处理器1207。在一些实施例中，处理器1207可以控制用户界面1205的操作并且接收来自用户界面1205的输入。在一些实施例中，用户界面1205可以使用户能够向设备1200输入命令，例如，经由键盘。在一些实施例中，用户界面1205可以使用户能够从设备1200获得信息。例如，用户界面1205可以包括被配置为将来自设备1200的信息显示给用户的显示器。在一些实施例中，用户界面1205可以包括触摸屏或触摸界面，该触摸屏或触摸界面能够同时实现向设备1200录入信息并且进一步地向设备1200的用户显示消息。

在一些实施例中，设备1200包括收发器1209。在这种实施例中，该收发器1209可以被耦合至处理器1207并且被配置为实现与其它装置或电子设备通信，例如，经由无线通信网络。在一些实施例中，收发器1209或任何合适的收发器或发送器和/或接收器部件可以被配置为经由有线或无线耦合与其它电子设备或装置通信。

例如，如图9所示，收发器1209可以被配置为与头部追踪器101、SPAC设备105、或耳机121通信。

收发器1209可以通过任何合适的已知通信协议与另外的装置通信。例如，在一些实施例中，收发器209或收发器部件可以使用合适的通用移动通信网络(UMTS)协议、无线局域网(WLAN)协议(诸如，例如IEEE 802.X)、合适的短程射频通信协议(诸如蓝牙)、或红外数据通信通路(IRDA)。

在一些实施例中，设备1200可以被用作混合器和/或渲染器装置。如此，收发器1209可以被配置为接收音频信号和位置信息，并且通过使用执行合适代码的处理器1207来生成合适的音频信号渲染。设备1200可以包括数模转换器1213。该数模转换器1213可以被耦合至处理器1207和/或存储器1211并且可以被配置为将(诸如，在如本文描述的那样对音频信号进行音频渲染之后来自处理器1207的)音频信号的数字表示转换成适合用于经由音频子系统输出呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)1213或信号处理部件可以是任何合适的DAC技术。

此外，在一些实施例中，设备1200可以包括音频子系统输出1215。示例(诸如图9中所示)可以是音频子系统输出1215是被配置为实现与耳机121的耦合的输出插口。然而，音频子系统输出1215可以是任何合适的音频输出或与音频输出的连接。例如，音频子系统输出1215可以是与多通道扬声器系统的连接。

在一些实施例中，数模转换器1213和音频子系统1215可以被实施在物理上分离的输出设备内。例如，DAC 1213和音频子系统1215可以被实施为经由收发器1209与设备1200通信的无绳耳机。

虽然设备1200被示出为同时具有音频捕获和音频渲染组件，但要理解，在一些实施例中，设备1200可以仅包括音频捕获或音频渲染装置元件。

通常，本发明的各种实施例可以被实施在硬件或专用电路、软件、逻辑或其任何组合中。例如，一些方面可以被实施在硬件中，而其它方面可以被实施在可以被控制器、微处理器或其它计算设备执行的固件或软件中，尽管本发明不限于此。虽然本发明的各个方面可以被图示和描述为框图、流程图、或使用一些其它图形表示来图示和描述，但很好理解的是，本文所描述的这些块、装置、系统、技术或方法可以被实施在(作为非限制性示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合中。

本发明的示例可以通过由移动设备的数据处理器可执行的计算机软件来实施，诸如被实施在处理器实体中，或者通过硬件来实施，或者通过软件和硬件的组合来实施。进一步地，在这方面，应该注意，图中的逻辑流的任何框都可以表示程序步骤、或互连的逻辑电路、框和功能、或程序步骤和逻辑电路、框和功能的组合。软件可以被存储在这种物理介质上作为存储器芯片、或者被实施在处理器内的存储器块、磁性介质(诸如，硬盘或软盘)、以及光学介质(诸如，例如DVD)及其数据变体CD。

存储器可以是适合于本地技术环境的任何类型并且可以使用任何合适的数据存储技术(诸如，基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器)来实施。数据处理器可以是适合于本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个，作为非限制性示例。

本发明的实施例可以被实践在各种组件中，诸如集成电路模块。集成电路的设计是高度自动化的过程。复杂且强大的软件工具可用于将逻辑级设计转换成易于被蚀刻和形成在半导体衬底上的半导体电路设计。

程序(诸如，加利福尼亚州山景城的Synopsys公司、加利福尼亚州圣何塞的Cadence Design公司提供的程序)通过使用已经建立好的设计规则和预先存储的设计模块库来在半导体芯片上自动布线导体并且定位组件。一旦已经完成针对半导体电路的设计，便可以将产生的设计(标准化的电子格式(例如，Opus、GDSII等))传送给半导体制造设施或“厂”进行制造。

上述描述已经通过示例性且非限制性示例提供了对本发明的示例性实施例的充分且富有信息的描述。然而，对于相关领域中的技术人员而言，鉴于上述描述，在结合附图和随附权利要求阅读了上述描述时，各种修改和改编都可能变得明显。然而，本发明的教导的所有这种和相似的修改仍然将落在如随附权利要求书中定义的本发明的范围内。

Claims

1.一种用于在音频系统中提供增益控制的装置，所述装置包括处理器和渲染器，所述处理器和渲染器被配置为：

提供针对至少一个声音源相对于参考位置的位置和/或定向；

分析与所述至少一个声音源相关联的至少一个输入音频信号，以估计所述至少一个输入音频信号的至少一个最大输入电平；

确定用户的位置和/或定向；

确定针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异；

基于至少一个所估计的最大输入电平和所确定的差异来确定至少一个增益值，其中，所述至少一个增益值包括用于与所述至少一个输入音频信号相关联的至少第一频带的与至少第一频带有关的电平控制增益；以及

至少部分地基于所述至少一个输入音频信号、方向性传递函数对、所述至少一个增益值以及针对所述至少一个声音源的位置和/或定向来合成至少两个输出通道。

2.根据权利要求1所述的装置，其中，被配置为提供针对所述至少一个声音源的位置和/或定向的所述处理器进一步被配置为执行以下各项中的至少一项：

分析至少两个麦克风音频信号来确定针对所述至少一个声音源的位置和/或定向；或

从与所述至少一个输入音频信号相关联的元数据检索针对所述至少一个声音源的位置和/或定向，其中，所述元数据包括针对频带的方向性参数。

3.根据权利要求1所述的装置，其中，所述处理器被配置为：确定追踪器相对于所述参考位置的位置和/或定向，其中，确定所述用户的位置和/或定向包括：确定所述追踪器的位置和/或定向。

4.根据权利要求3所述的装置，其中，被配置为确定所述追踪器的所述位置和/或所述定向的所述处理器进一步被配置为接收以下各项中的至少一项：

来自数字罗盘的方向；

来自陀螺仪的方向；

来自信标定位系统的方向；或

具有惯性和质量使得建模位置是将来实际追踪器位置的估计的建模方向。

5.根据权利要求3所述的装置，其中，所述追踪器包括被配置为生成与所述追踪器相关联的方向的头带，其中，所述方向与所述用户的收听方向相关联。

6.根据权利要求1所述的装置，其中，所述处理器被配置为：进一步基于所述至少两个输出通道的相应的最大输出电平来确定所述至少一个增益值。

7.根据权利要求6所述的装置，其中，所述渲染器被配置为：基于所述至少一个输入音频信号、所述方向性传递函数对、与所述第一频带有关的电平控制增益以及针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异来合成所述至少两个输出通道。

8.根据权利要求6所述的装置，其中，所述至少一个增益值被配置为：当所述至少一个输入音频信号包括达到一个或多个所述至少一个所估计的最大输入电平的电平时，控制所述至少两个输出通道的相应的电平不超过相应的最大输出电平。

9.根据权利要求1所述的装置，其中，所述处理器被配置为确定以下各项中的至少一项：

基于针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异，针对与所述输入音频信号相关联的至少第二频带，确定与第二频带有关的电平控制增益；

基于针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异，针对第一输出通道，确定与第一输出通道有关的电平控制增益；或

基于针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异，针对第二输出通道，确定与第二输出通道有关的电平控制增益。

10.根据权利要求1所述的装置，其中，所述用户的位置和/或定向包括所述装置的至少一部分的位置和/或定向，并且其中，所述处理器被进一步配置为：限制所述至少两个输出通道中的至少一个输出通道的输出信号值，使得所述输出信号值落在定义的脉冲代码调制方案动态范围内。

11.根据权利要求1所述的装置，其中，所述参考位置是以下各项中的至少一项：

针对至少一个在空间上捕获到的声音源的原始位置和/或定向；

被配置为捕获所述至少一个输入音频信号的麦克风阵列的位置和/或定向；

针对相机的原始位置和/或定向；或

针对所述至少一个声音源所在的声音场景的原始位置和/或定向。

12.根据权利要求7所述的装置，其中，被配置为合成所述至少两个输出通道的所述渲染器被配置为：

基于将左电平控制增益值乘以使用针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异的第一头部相关传递函数和建模左耳位置的组合，来生成左输出通道音频信号；以及

基于将右电平控制增益值乘以使用针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异的第二头部相关传递函数和建模右耳位置的组合，来生成右输出通道音频信号。

13.一种用于在音频系统中提供增益控制的方法，包括：

提供针对至少一个声音源相对于参考位置的位置和/或定向；

分析与所述至少一个声音源相关联的至少一个输入音频信号以估计所述至少一个输入音频信号的至少一个最大输入电平；

确定用户的位置和/或定向；

14.根据权利要求13所述的方法，其中，提供针对所述至少一个声音源的位置和/或定向包括以下各项中的至少一项：

15.根据权利要求13所述的方法，进一步包括：

确定追踪器相对于所述参考位置的位置和/或定向，其中，确定所述用户的位置和/或定向包括：确定所述追踪器的位置和/或定向。

16.根据权利要求13所述的方法，其中，确定所述至少一个增益值进一步基于所述至少两个输出通道的相应的最大输出电平。

17.根据权利要求16所述的方法，其中，合成所述至少两个输出通道是基于所述至少一个输入音频信号、所述方向性传递函数对、与所述第一频带有关的电平控制增益以及针对所述至少一个声音源的位置和/或定向与所述用户的位置和/或定向之间的差异。

18.根据权利要求16所述的方法，其中，合成所述至少两个输出通道进一步包括以下各项中的至少一项：

19.根据权利要求17所述的方法，其中，合成所述至少两个输出通道进一步包括：

20.根据权利要求16所述的方法，其中，所述至少一个增益值被配置为：当所述至少一个输入音频信号包括达到一个或多个所述至少一个所估计的最大输入电平的电平时，控制所述至少两个输出通道的相应的电平不超过相应的最大输出电平。