CN109565629B

CN109565629B - 用于控制音频信号的处理的方法和装置

Info

Publication number: CN109565629B
Application number: CN201780049935.0A
Authority: CN
Inventors: S·S·梅特; A·勒蒂涅米; A·埃罗南; J·莱帕南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-06-20
Filing date: 2017-06-07
Publication date: 2021-02-26
Anticipated expiration: 2037-06-07
Also published as: EP3473019A1; WO2017220854A1; US11812235B2; GB201610733D0; GB2551521A; US20190149919A1; EP3473019A4; CN109565629A

Abstract

一种包括处理器的装置，该处理器被配置为确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置。处理器还被配置为确定与声源追踪器相关联的方向，基于对与声源追踪器相关联的方向、针对至少一个声源的位置以及声源追踪器的位置的分析来选择至少一个声源。该处理器还被配置为从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互，基于控制交互处理与所选择的声源相关联的至少一个音频信号，并且至少输出经处理的至少一个音频信号以进行渲染。

Description

用于控制音频信号的处理的方法和装置

技术领域

本申请涉及用于分布式音频捕获和混合的装置和方法。本发明还涉及但不限于用于音频信号的空间处理以使得音频信号能够空间再现的针对分布式音频捕获和混合的装置和方法。

背景技术

当多个源在空间场中移动时，从这些源捕获音频信号并将这些音频信号混合需要大量的手动操作。例如，在诸如剧院或演讲厅的音频环境内捕获并混合诸如扬声器或艺术家的音频信号源以呈现给收听者并产生有效的音频氛围需要在设备和训练方面进行大量投资。

通常实施的系统将是专业制作者利用靠近的或外部麦克风（例如由用户穿戴的Lavalier麦克风或附接到吊杆的麦克风）来捕获靠近扬声器或空间音频信号之外的其他源的音频信号。然后，制作者可以手动地将该音频信号与空间（或环境或音频场）音频信号混合，以便所产生的源看似来自预期的方向。如所预期的那样，手动将声源定位在空间音频场内需要大量时间和精力来手动完成。此外，这种专业制作的混合物不是特别灵活，并且不能够由终端用户容易地修改。例如，为了‘移动’环境内的靠近的麦克风的音频信号，需要进一步的混合调整，以便靠近的音频信号和音频场信号不会产生感知的冲突。

这种设置的问题是不能够以有效和直观的方式控制多个麦克风（其也可以是动态的）。使用具有大量声道的混合硬件的常规的方法需要大型用户界面和交互方法，这不够敏捷，无法考虑到许多的移动源。所需的大型用户界面仅适用于静态部署，并且如果在临时位置举行活动，则可能会阻碍活动的全面可见性。

因此，需要开发可以考虑移动的源的敏捷性的解决方案。

发明内容

根据第一方面，提供了一种包括处理器的装置，该处理器被配置为：确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置；确定与声源追踪器相关联的方向；基于对与声源追踪器相关联的方向、针对至少一个声源的位置和声源追踪器的位置的分析来选择至少一个声源；从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互；基于控制交互处理与所选择的声源相关联的至少一个音频信号；并且输出经处理的至少一个音频信号以进行渲染。

至少一个声源可以包括以下各项中的至少一项：外部麦克风声源；接近的麦克风声源；和空间音频捕获设备麦克风阵列声源。

声源追踪器可以包括以下各项中的至少一项：被配置为生成方向的数字罗盘；被配置为生成方向的陀螺仪；被配置为生成方向的信标定位系统；被配置为生成控制器的用户的方向的耳机。

被配置为基于对与声源追踪器相关联的方向、针对至少一个声源的位置和声源追踪器的位置的分析来选择至少一个声源的处理器可以被配置为确定至少一个声源相对于声源追踪器的方向。

被配置为确定至少一个声源相对于声源追踪器的方向的处理器可以被配置为基于至少一个声源追踪器的位置来偏移至少一个声源的位置。

基准位置可以是至少一个空间捕获声源的位置。

被配置为基于对与声源追踪器相关联的方向、针对至少一个声源的位置和声源追踪器的位置的分析来选择至少一个声源的处理器可以被配置为执行以下各项中的至少一项：当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差小于阈值时，选择该至少一个声源；当至少一个声源相对于所述声源追踪器的方向与关联于所述声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个声源。

被配置为确定针对至少一个声源相对于基准位置的位置的处理器还可以被配置为：确定至少一个空间捕获声源相对于基准位置的位置；并且确定该至少一个空间捕获声源相对于声源追踪器的方向。

处理器还可以被配置为基于与声源追踪器相关联的方向、和至少一个空间捕获声源的位置、以及声源追踪器的位置来选择至少一个空间捕获声源，处理器可以被配置为执行以下各项中的至少一项：当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差大于阈值时，选择该至少一个空间捕获声源；当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内大于阈值时，选择该至少一个空间捕获声源；当至少一个空间声音捕获源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个空间捕获声源；以及当至少一个空间捕获声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于的阈值时，选择该至少一个空间捕获声源。

被配置为从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互的处理器可以被配置为：向至少一个控制器指示对该至少一个声源的选择，使得至少一个控制器被配置为生成与所选择的至少一个声源相关联的至少一个处理参数值；从至少一个控制器接收该至少一个处理参数值，并且被配置为基于控制交互处理与所选择的声源相关联的至少一个音频信号的处理器可以被配置为基于该至少一个处理参数值来处理该至少一个音频信号。

处理器可以被配置为：确定与所选择的至少一个声源相关联的至少一个存储的处理参数值；向至少一个控制器指示该至少一个存储的处理参数值，其中至少一个控制器被配置为在控制器生成与所选择的至少一个声源相关联的至少一个处理参数值之前，显示该至少一个存储的处理参数值。

被配置为基于控制交互处理与所选择的声源相关联的至少一个音频信号的处理器可以包括以下各项中的至少一项：处理器被配置为过滤/均衡该至少一个音频信号；处理器被配置为延迟该至少一个音频信号；处理器被配置为将增益应用于该至少一个音频信号；处理器被配置为将与所选择的声源相关联的该至少一个音频信号混合到与至少一个空间捕获设备相关联的音频信号。

处理器可以被配置为基于以下各项中的至少一项来将所选择的至少一个声源取消选择：处理器被配置为从至少一个控制器接收取消选择指示符；处理器被配置为确定自接收到控制交互以来的时间段大于输入的取消选择时间段；处理器被配置为确定与声源追踪器相关联的方向上的改变大于取消选择的方向范围。

声源追踪器可以包括头带，该头带被配置为生成与声源追踪器相关联的方向，该方向与用户的观看方向相关联。

至少一个控制器可以包括用户输入设备，该用户输入设备被配置为生成与所选择的至少一个声源相关联的至少一个控制交互。

声源追踪器可以被集成在由用户穿戴的头带内，头带还集成了换能器对，其中处理器被配置为将经处理的至少一个音频信号输出到该换能器对以进行渲染。

根据第二方面，提供了一种用于控制至少一个音频信号的处理的方法，方法包括：确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置；确定与声源追踪器相关联的方向；基于对与声源追踪器相关联的方向、针对至少一个声源和声源追踪器的位置的分析来选择至少一个声源；从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互；基于控制交互处理与所选择的声源相关联的至少一个音频信号；并且输出经处理的至少一个音频信号以进行渲染。

确定与声源追踪器相关联的方向可以包括以下各项中的一项：从被集成在声源追踪器内的数字罗盘接收方向；从被集成在声源追踪器内的陀螺仪接收方向；以及从被集成在声源追踪器内的信标定位系统接收方向。

基于对与声源追踪器相关联的方向的分析来选择至少一个声源可以包括确定至少一个声源相对于声源追踪器的方向。

确定至少一个声源相对于声源追踪器的方向可以包括基于至少一个声源追踪器的位置来偏移至少一个声源的位置。

基准位置可以是至少一个空间捕获声源的位置。

基于对与声源追踪器相关联的方向的分析来选择至少一个声源可以包括以下各项中的至少一项：当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差小于阈值时，选择该至少一个声源；当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个声源。

确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置可以进一步包括：确定至少一个空间捕获声源相对于基准位置的位置；以及确定至少一个空间捕获声源相对于声源追踪器的方向。

方法还可以包括基于与声源追踪器相关联的方向、和至少一个空间捕获声源的位置、以及声源追踪器的位置来选择至少一个空间捕获声源，选择至少一个空间声源可以包括以下各项中的至少一项：当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差大于阈值时，选择该至少一个空间捕获声源；当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内大于阈值时，选择该至少一个空间捕获声源；当至少一个空间声音捕获源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个空间捕获声源；和当至少一个空间捕获声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个空间捕获声源。

从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互可以包括：向至少一个控制器指示对至少一个声源的选择，使得至少一个控制器被配置为生成与所选择的至少一个声源相关的至少一个处理参数值；从至少一个控制器接收该至少一个处理参数值，并且其中基于控制交互处理与所选择的声源相关联的至少一个音频信号可以包括基于该至少一个处理参数值来处理该至少一个音频信号。

方法还可以包括：确定与所选择的至少一个声源相关联的至少一个存储的处理参数值；向至少一个控制器指示该至少一个存储的处理参数值；在生成与所选择的至少一个声源相关联的至少一个处理参数值之前，使用至少一个控制器显示该至少一个存储的处理参数值。

基于控制交互处理与所选择的声源相关联的至少一个音频信号可以包括以下各项中的至少一项：过滤/均衡该至少一个音频信号；延迟该至少一个音频信号；将增益应用于该至少一个音频信号；将与所选择的声源相关联的该至少一个音频信号混合到与至少一个空间捕获设备相关联的音频信号。

方法还可以包括基于以下各项中的至少一项来将所选择的至少一个声源取消选择：从至少一个控制器接收取消选择指示符；确定自接收到控制交互以来的时间段大于输入的取消选择时间段；确定与声源追踪器相关联的方向上的改变大于取消选择的方向范围。

确定与声源追踪器相关联的方向可以包括确定用户的观看方向。

根据第三方面，提供了一种用于控制至少一个音频信号的处理的装置，装置包括：用于确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置的部件；用于确定与声源追踪器相关联的方向的部件；用于基于对与声源追踪器相关联的方向、针对至少一个声源的位置和声源追踪器的位置的分析来选择至少一个声源的部件；用于从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互的部件；用于基于控制交互处理与所选择的声源相关联的至少一个音频信号的部件；以及用于输出经处理的至少一个音频信号以进行渲染的部件。

用于确定与声源追踪器相关联的方向的部件可以包括以下各项中的一项：用于从被集成在声源追踪器内的数字罗盘接收方向的部件的部件；用于从被集成在声源追踪器内的陀螺仪接收方向的部件；以及用于从被集成在声源追踪器内的信标定位系统接收方向的部件。

用于基于对与声源追踪器相关联的方向的分析来选择至少一个声源的部件可以包括：用于确定至少一个声源相对于声源追踪器的方向的部件。

用于确定至少一个声源相对于声源追踪器的方向的部件可以包括：用于基于至少一个声源追踪器的位置来偏移至少一个声源的位置的部件。

基准位置可以是至少一个空间捕获声源的位置。

用于基于对与声源追踪器相关联的方向的分析来选择至少一个声源的部件可以包括以下各项中的至少一项：用于当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差小于阈值时，选择该至少一个声源的部件；以及用于当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个声源的部件。

用于确定针对至少一个声源相对于基准位置的位置，以及针对声源追踪器相对于基准位置的位置的部件可以进一步包括：用于确定至少一个空间捕获声源相对于基准位置的位置的部件；和用于确定至少一个空间捕获声源相对于声源追踪器的方向的部件。

装置还可以包括用于基于与声源追踪器相关联的方向、和至少一个空间捕获声源的位置、以及声源追踪器的位置来选择至少一个空间捕获声源的部件，用于选择至少一个空间声源的部件可以包括以下各项中的至少一项：用于当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差大于阈值时，选择该至少一个空间捕获声源的部件；用于当至少一个声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内大于阈值时，选择该至少一个空间捕获声源的部件；用于当至少一个空间声音捕获源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个空间捕获声源的部件；以及用于当至少一个空间捕获声源相对于声源追踪器的方向与关联于声源追踪器的方向之间的差在选择时间段内小于阈值时，选择该至少一个空间捕获声源的部件。

用于从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互的部件可以包括：用于向至少一个控制器指示对至少一个声源的选择，使得至少一个控制器被配置为生成与所选择的至少一个声源相关联的至少一个处理参数值的部件；用于从至少一个控制器接收该至少一个处理参数值的部件，并且其中用于基于控制交互处理与所选择的声源相关联的至少一个音频信号的部件可以包括用于基于该至少一个处理参数值来处理至少一个音频信号的部件。

装置还可以包括：用于确定与所选择的至少一个声源相关联的至少一个存储的处理参数值的部件；用于向至少一个控制器指示该至少一个存储的处理参数值的部件；以及用于在生成与所选择的至少一个声源相关联的至少一个处理参数值之前使用至少一个控制器显示该至少一个存储的处理参数值的部件。

用于基于控制交互处理与所选择的声源相关联的至少一个音频信号的部件可以包括以下各项中的至少一项：用于过滤/均衡该至少一个音频信号的部件；用于延迟该至少一个音频信号的部件；用于将增益应用于该至少一个音频信号的部件；和用于将与所选择的声源相关联的该至少一个音频信号混合到与至少一个空间捕获设备相关联的音频信号的部件。

装置还可以包括用于基于以下各项中的至少一项来将所选择的至少一个声源取消选择的部件：用于从至少一个控制器接收取消选择指示符的部件；用于确定自接收控制交互以来的时间段大于输入的取消选择时间段的部件；用于确定与声源追踪器相关联的方向上的改变大于取消选择的方向范围的部件。

用于确定与声源追踪器相关联的方向的部件可以包括用于确定用户的观看方向的部件。

根据第四方面，提供了一种包括处理器的装置，该处理器被配置为：确定针对至少一个声源相对于基准位置的位置；利用声源追踪器标识至少一个声源位置；基于声源追踪器的预定手势选择至少一个声源；从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互；基于控制器的至少一个控制交互来修改所选择的声源的至少一个音频信号；并且输出经修改的至少一个音频信号以进行渲染。

根据第五方面，提供了一种方法，该方法包括：确定针对至少一个声源相对于基准位置的位置；利用声源追踪器标识至少一个声源位置；基于声源追踪器的预定手势选择至少一个声源；从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互；基于控制器的至少一个控制交互来修改所选择的声源的至少一个音频信号；并且输出经修改的至少一个音频信号以进行渲染。

根据第六方面，提供了一种装置，该装置包括：用于确定针对至少一个声源相对于基准位置的位置的部件；用于利用声源追踪器标识至少一个声源位置的部件；用于基于声源追踪器的预定手势选择至少一个声源的部件；用于从至少一个控制器接收与所选择的至少一个声源相关联的至少一个控制交互的部件；用于基于控制器的至少一个控制交互来修改所选择的声源的至少一个音频信号的部件；以及用于输出经修改的至少一个音频信号以进行渲染的部件。

被存储在介质上的计算机程序产品可以使装置执行如本文所描述的方法。

电子设备可以包括如本文所描述的装置。

芯片组可以包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例参考附图，其中：

图1示意性地示出了根据一些实施例的适用于实施空间音频混合的分布式音频捕获和混合系统；

图2a示意性地示出了根据一些实施例的在如图1中所示的系统内实施的头部追踪器/头戴式耳机布置；

图2b示意性地示出了根据一些实施例的在如图1中所示的系统内实施的头部追踪器/头戴式耳机/用户输入布置；

图3示出了根据一些实施例的用于实施如图1中所示的空间音频混合的方法的流程图概述；

图4进一步详细地示意性地示出了适用于实施空间音频混合的如图1中所示的分布式音频捕获和混合系统；

图5示出了根据一些实施例的示例偏移调整器计算；

图6示出了根据一些实施例的位置系统输出；

图7示出了根据一些实施例的示例混合操作；

图8示出了根据一些实施例的示例音频混合器的操作的流程图；以及

图9示出了适用于实施实施例的示例电子设备。

具体实施方式

以下进一步详细描述了用于提供对来自多个源的音频信号进行有效混合的合适的装置和可能的机制。在以下示例中，描述了音频信号和音频捕获信号。然而，应当理解，在一些实施例中，装置可以是被配置成捕获音频信号或接收音频信号和其他信息信号的任何合适的电子设备或装置的一部分。

如先前所描述的，相对于音频背景或环境音频场信号捕获和混合音频源的常规的方法将是专业制作者利用外部和背景麦克风。外部麦克风(或由用户穿戴的靠近的麦克风或Lavalier麦克风或附接到吊杆的麦克风)捕获靠近音频或声源的音频信号。背景麦克风捕获环境或空间音频信号。然后可以手动地混合这些信号或音频轨以产生输出音频信号，使得产生的声音以音频源来自预期的(但不一定是原始的) 方向为特征。

正如预期的那样，正确地做需要大量的时间和努力和专业知识。类似地，如上面所讨论的，具有大量声道的混合硬件需要大型用户界面，这些用户界面通常不够敏捷，无法有效地考虑或控制许多移动源。此外，用于显示要被监视的大量声道的大型用户界面空间不适用于便携式或移动实施方式，并且仅适用于静态部署。如此，只有在单个位置处的单个用户才能够监视和混合音频源。

此后详细讨论的概念可以例如被实施成混合器(和相关联的混合器控制和混合器接口)系统。该混合器系统可以是被配置成捕获外部 (扬声器、乐器或其他源)音频信号和空间(音频场)音频信号两者的捕获系统的一部分。捕获系统还可以被配置成确定或分类源和/或源所在的空间。然后可以将该信息存储或传递到已经接收到音频信号的混合器，并且合适的混合器输入可以使用这些输入来生成该音频信号的适当混合。

此后描述的实施例允许将捕获的音频信号混合，而不需要大型用户界面和/或VR(虚拟现实)头戴式耳机。因此，这些使得能够从音频场景中的任何点来控制混合。此外，该系统允许针对执行混合的用户的临时混合位置，并且使得能够混合大量动态声源。

此后描述用于分布式音频捕获系统的敏捷的原位音频混合的合适的方法和装置。关于实时内容的混合来描述此后的示例。然而，可以采用适用于混合实时内容和记录的内容两者(或仅记录的内容)的其他示例，其中记录的内容与针对混合器的操作者的可标识视觉指示符相关联。

此后进一步详细描述的方法包括使用来自头部追踪或更一般地另一声源选择器机构的输出以及来自便携式控制器的输出，来修改与一个或多个所追踪的声源相关联的混合参数。由用户通过‘查看’声源并随后修改任何相关联的混合参数(例如，增益、滤波器参数)来选择要修改的声源。选择和控制的这种技术可以被描述为“看和做”。如果确定用户的头部位置在声源的确定的方向的预定阈值内，则选择该声源。执行混合的用户可以远离麦克风阵列(通常是针对分布式音频捕获系统的基准位置)并选择外部声源进行修改，但可以听到音频混合，就像他们位于麦克风阵列位置的中心一样。

在一些实施例中，然后基于来自控制器的控制输入在混合中处理或修改在用户的头部位置的方向上的声源(具有特写麦克风)。例如，音频或声源可以被加强。如果在‘所选择的’方向上没有音频源，则音频混合器可以修改混合中的音频参数，以用于在‘所选择的’方向上的麦克风阵列音频捕获。例如，麦克风阵列音频捕获可以被加强。可以预先定义用于选择的波束宽度(以及诸如加强的参数修改)，同时加强来自特写麦克风源或来自麦克风阵列的音频信号。

在另一实施例中，如果外部麦克风位置被分开小于预定阈值的距离/角度，则可以基于音频分类来分离或组合声源。例如，声源可以被分类成语音、声乐、乐器等。随后，执行混合的用户可以选择/取消选择所需的声源。例如，在合唱中，可以组合多个声源以用于联合控制。

尽管在以下示例中的捕获、混合器和渲染系统被示出为分离的，但是应当理解，它们可以利用相同的装置来实施，或者可以分布在一系列物理上分离但能够通信的装置上。

此外，应当理解，可以在诸如已知为‘云’的分布式计算系统内实施以下装置中的至少一些元件。

关于图1，示出了根据一些实施例的系统101，系统101包括适用于实施空间音频捕获、混合和渲染的捕获、混合和渲染的装置。

在以下示例中，示出了三个外部声源，然而可以捕获多于三个或少于三个声源，并且应用以下装置和方法。例如，系统101包括第一声源麦克风111。第一声源麦克风111可以是Lavalier麦克风或‘靠近的’声源捕获装置的其他示例。例如，在一些实施例中，第一声源麦克风可以是吊杆麦克风或类似的相邻麦克风捕获系统。在一些实施例中，第一声源麦克风111可以是麦克风阵列。如在图1中所示的第一声源麦克风111可以是与诸如歌唱者的第一音频源相关联的麦克风。

系统101还可以包括第二声源麦克风113。第二声源麦克风113可以是与诸如乐器的第二音频源相关联的麦克风或麦克风阵列。例如，如在图1中所示，第二声源麦克风是电吉他中的内部麦克风系统(拾音麦克风)。

系统101还可以包括第三声源麦克风115。第三声源麦克风115可以是与第三音频源相关联的麦克风或麦克风阵列。例如，如在图1中所示，第三声源麦克风是与鼓相关联的麦克风。

应当理解，声源麦克风111、113、115可以与它们相关联的声源一起动态地移动。因此，对于图1中所示的示例，当歌唱者(第一声源)移动时，第一声源麦克风111跟随歌唱者，当吉他移动时，第二声源麦克风113跟随吉他，并且当鼓移动时，第三声源麦克风115跟随鼓。

声源麦克风111、113、115可以被配置成将它们捕获的音频信号输出到混合处理器121。例如，第一声源麦克风111可以包括发射器单元(未被示出)，其将音频信号无线地发射到混合器121上的接收器单元(未被示出)。

系统101包括空间音频捕获(SPAC)设备117。空间音频捕获设备117是‘音频场’捕获装置的示例，并且在一些实施例中可以是方向的或全向麦克风阵列，其被配置成捕获与由本文所描述的声源和其他环境声源表示的环境声音场景相关联的音频信号。空间音频捕获设备117可以被配置成将捕获的音频信号输出到混合处理器121。

在一些实施例中，在移动设备内实施空间音频捕获设备117。因此，空间音频捕获设备被配置成捕获空间音频，当将空间音频渲染给收听者时，使得收听者能够体验声场，好像他们存在于空间音频捕获设备的位置中一样。

此外，空间音频捕获设备117可以包括位置确定器或追踪器。位置追踪器或确定器可以被配置为生成标识声源麦克风111、113、115 (以及因此它们相关联的声源)相对于空间音频捕获设备117的位置的合适的输出，并将该信息输出到混合处理器121。在以下示例中，空间音频捕获设备被用作基准位置的示例，然而，任何合适的对象位置可以被用作基准。可以通过任何合适的部件或方法来实现位置确定/追踪。

例如，在一些实施例中，定位系统可以使用卫星定位信号(或其他信标信号)来估计源和空间音频捕获设备(以及在一些实施例中的混合器)的位置。这些估计的位置可以被发射到被配置成接收位置的位置确定器或位置追踪器，并且在一些实施例中，确定源相对于空间捕获设备(和/或混合器或混合控制器)的位置。

可以通过本地射频信号估计来执行位置确定。因此，例如，声源麦克风可以包括位置标签。位置标签可以被配置为生成和发射可以由合适的接收器接收的射频信号，该射频信号使得接收器或位置确定器能够确定适用于标识声源麦克风相对于接收器的位置或方位的信息。因此，空间音频捕获设备117还可以包括被配置成从与声源相关联的位置标签接收射频信号的位置标签接收器。空间音频捕获设备117还可以包括被配置成确定标签相对于空间音频捕获设备的位置的估计的位置确定器。由于由人穿戴/位于乐器上的麦克风可以在声学空间中自由移动，因此位置确定器必须支持对麦克风位置的连续感测。

在一些实施例中，接收器和/或位置追踪器或确定器可以与空间音频捕获设备117分离。在这种实施例中，空间音频捕获设备本身包括 (或与之相关联)生成射频信号的位置标签，该射频信号使得接收器/ 位置确定器能够估计空间音频捕获设备相对于位置确定器的位置。然后，位置确定器可以确定声源(或其相关联的位置标签)和空间音频捕获设备(及其相关联的位置标签)的(多个)相对位置。

在一些实施例中，使用高精度室内定位(HAIP)系统或另一合适的室内定位技术来实施位置标签和位置确定器。因此，位置标签是 HAIP标签，并且位置接收器/追踪器是被配置成追踪标签位置的HAIP 定位器。

在一些实施例中，除了基于射频的位置估计之外，位置确定器/追踪器可以使用视频内容分析和/或声源定位。

因此，在一些实施例中，空间音频捕获设备的位置或方位被确定。空间音频捕获设备的位置可以被表示为(在0时刻)

(x_S(0)，y_S(0))。

在一些实施例中，可以实施校准阶段或操作(换言之，定义0时刻实例)，其中第一声源(s1)麦克风被定位在HAIP定位器的范围内的某个距离处的SPAC阵列的前面。第一声源麦克风的该位置可以被表示为 (x_S1(0)，y_S1(0))。

此外，在一些实施例中，该校准阶段可以确定HAIP坐标系中的空间音频捕获设备的‘前面方向’。这可以通过首先由以下的向量定义阵列前面方向来执行

(x_S1(0)-x_S(0)，y_S1(0)-y_S(0))。

该向量可以使得位置追踪器能够确定相对于阵列的方位角a_S1和距离d_S1。

例如，给定在t时刻的第一声源麦克风位置

(x_S1(t)，y_S1(t))。

由向量定义相对于阵列的方向

(x_S1(t)-x_S(0)，y_S1(t)-y_S(0))。

然后可以将方位角α确定为

α＝atan2(y_S1(t) y_S(0)，x_S1(t) x_S(0)) atan2(y_S1(0) y_S(0)，x_S1(0) x_S(0))

其中atan2(y，x)是“四象限反正切”，其给出正x轴和点(x，y) 之间的角度。因此，第一项给出正x轴(以x_S(0)和y_S(0)为原点)和点 (x_S1(t)，y_S1(t))之间的角度，并且第二项是x轴和初始位置(x_S1(0)，y_S1(0))之间的角度。可以通过从第二角度减去第一角度来获得方位角。

距离d可以被获得为

在一些实施例中，由于HAIP位置数据可能是有噪声的，因此可以通过在几秒(例如30秒)的时间窗口上记录音频捕获设备和第一声源的HAIP标签的位置来获得位置(x_S1(0)，y_S1(0))和(x_S(0)，y_S(0))，并且然后平均所记录的位置以获得在以上等式中使用的输入。

在一些实施例中，可以由SPAC设备(例如移动设备)初始化校准阶段，SPAC设备被配置成输出语音或其他指令以指示(多个)用户在阵列前停留30秒持续时间，并且在期限结束后给出声音指示。

尽管上面所示的示例示出了在二维中生成位置信息的位置确定器/ 追踪器，但是应当理解，这可以推广到三维，其中位置确定器/追踪器可以确定仰角以及方位角和距离。

在一些实施例中，其他位置确定/追踪部件可以被用于定位和追踪移动源。其他追踪部件的示例可以包括惯性传感器、雷达、超声波感测、激光雷达或激光测距仪、视觉分析、音频分析等。

例如，可以执行视觉分析以便定位和追踪预定义的声源，诸如人物和乐器。可以对与空间音频一起被捕获的全景视频应用视觉分析。因此，该分析可以基于人物的视觉标识来标识和追踪携带声源麦克风的人物的位置。视觉追踪的优点在于即使在声源安静时(并且因此在难以依赖基于音频的追踪时)也可以使用。视觉追踪可以基于针对每个全景视频帧执行或运行在适当数据集(诸如包含行人的图像的数据集)上训练的检测器。在一些其他实施例中，可以实施诸如卡尔曼 (kalman)滤波和粒子滤波的追踪技术，以通过视频帧获得人物的正确轨迹。然后，可以将人的相对于全景视频的前面方向的位置(与空间音频捕获设备的前面方向一致)用作针对该源的到达的方向。在一些实施例中，基于声源麦克风的外观的视觉标记或检测器可以被用来帮助或改进视觉追踪方法的准确性。

在一些实施例中，视觉分析不仅可以提供关于声源的2D位置的信息(即，全景视频帧内的坐标)，还可以提供关于距离的信息，该距离与所检测到的声源的大小成比例(假设已知该声源类的“标准”大小)。例如，可以基于平均高度来估计‘任何’人物的距离。备选地，通过假设系统知道特定声源的大小，可以实现更精确的距离估计。例如，系统可以知道需要追踪的每个人物的身高或利用其进行训练。

在一些实施例中，可以通过使用深度感测设备来实现3D或距离信息。例如，‘Kinect(体感)’系统、飞行时间相机、立体相机或相机阵列可以被用来生成可以被分析的图像，并且可以从来自多个图像的图像视差来创建深度或者3D视觉场景。可以由相机生成这些图像。

在一些实施例中，音频源位置确定和追踪可以被用来追踪源。例如，可以使用到达的时间差(TDOA)方法来估计源方向。在一些实施例中，可以使用导向波束形成器以及基于粒子滤波器的追踪算法来实施源位置确定。

在一些实施例中，可以使用音频自定位来追踪源。

无线电技术和连接解决方案中存在还可以支持设备之间的高精度同步的技术，这可以通过去除音频相关性分析中的时间偏移不确定性来简化距离测量。已经提出这些技术以用于针对多声道音频回放系统的未来WiFi标准化。

在一些实施例中，可以一起使用来自室内定位、视觉分析和音频源定位的位置估计，例如，可以对由每个确定器或估计器提供的估计进行平均以获得改进的位置确定和追踪精度。此外，为了最小化视觉分析的计算负载(其通常比对音频或HAIP信号的分析“更重”)，可以仅将视觉分析应用于整个全景帧的多个部分，该多个部分对应于音频和/或HAIP分析子系统已经估计到存在声源的空间位置。

在一些实施例中，位置估计可以组合来自多个源的信息，并且多个估计的组合具有用于为所提出的系统提供最准确的位置信息的潜力。然而，有益的是，系统可以被配置成使用位置感测技术的子集来产生位置估计，即使在较低分辨率下。

系统101还可以包括混合处理器121，其被配置成接收声源麦克风 111、113、115和空间音频捕获设备117的输出。此外，在一些实施例中，混合器121可以被配置成从位置追踪器接收声源位置(和追踪信息)。

混合处理器121可以被配置成混合声源麦克风111、113、115的输出和空间音频捕获设备117的输出，并将这些混合信号输出到渲染装置131。如本文所示的混合处理器121可以被配置成从混合控制器 (或渲染装置)131接收输入，并且混合处理器121可以基于来自混合控制器(渲染装置)131的输入进一步生成来自音频源/空间音频捕获设备(或装置)的音频信号的混合。

系统101还可以包括混合控制器(或渲染装置)131。在图1中所示的混合控制器(渲染装置)131被示出为增强型头戴式耳机用户输入设备，使得混合控制器(渲染装置)131的用户能够控制混合。在一些实施例中，混合控制器(渲染装置)131因此可以被配置成向混合处理器121提供合适的选择和控制输出，以控制由混合处理器生成的音频源和空间音频捕获设备音频信号的混合。此外，混合控制器(渲染装置)131可以被配置成接收混合的音频信号并经由合适的换能器部件将这些信号输出给用户。

关于图2a和图2b，更详细地示出了根据一些实施例的示例声源追踪器和混合控制器(以及渲染装置)131。关于图2a，示出了具有以一对头戴式耳机换能器203形式的集成的渲染装置的声源追踪器，其可以经由合适的带穿戴在用户的头部上。在一些实施例中，换能器203 可以是听筒、耳麦或适用于将电信号转换成用于用户的声输出的类似的换能器。此外，声源追踪器和混合控制器可以包括以头部追踪器201 形式的声源追踪器或选择器。

头部追踪器201可以是追踪用户头部定向的任何合适的惯性传感器。换言之，头部追踪器201可以是用于生成方位角(和/或仰角)的测量的任何合适的部件。例如，头部追踪器可以是被附接到头戴式耳机带的传感器，该传感器被配置成监视操作混合控制器并且还收听输出的混合音频信号的用户相对于定义的定向或基准定向(诸如，‘前面’205方向)的定向，并且提供可以被输出到混合处理器121的值或输入。在一些实施例中，可以由至少一个陀螺仪和/或数字罗盘实施头部追踪器201。为了便于操作，头部追踪器和空间音频捕获设备麦克风阵列可以包括磁罗盘，以去除对专用手动校准步骤的需要。在没有磁罗盘的情况下，具有头部追踪器的用户看向与用于校准系统的音频捕获系统的基准轴的相同方向。头部追踪器201可以被认为是与本文所描述的‘看和做’操作相关联的‘看’控制器。

声源追踪器可以被实施成适于指示与被‘指向’或‘导向’的装置的方向相关联的方向的任何合适的‘点’或手势装置。例如，声源追踪器可以被实施成任何合适的‘可穿戴’电子设备。

此外，图2b还示出了合适的混合控制器输入设备，其被示出为手持式控制器207。手持式控制器207可以具有物理控制器元件，例如滑块、拨盘、按钮或者可以是表示物理控制器元件的虚拟触摸屏。在一些实施例中，物理控制器元件是动态可重新配置的，以便相同的控制器元件在第一时间段期间可以控制第一参数或功能，并且在第二时间段期间可以控制第二参数或功能。在一些实施例中，输入设备、头部追踪器和头戴式耳机换能器可以直接与混合处理器通信(换言之，分离地)或者可以经由收发器(例如手持式控制器207内的收发器)与混合处理器通信。输入设备可以被认为是与本文所描述的‘看和做’操作相关联的‘做’控制器。

如本文所描述的，混合处理器121可以被配置成从以头部追踪器 201和输入设备(手持式控制器)207形式的混合控制器接收输入。如本文稍后进一步详细描述的，混合处理器121可以被配置成基于与源和空间音频捕获设备相关联的位置信息、头部追踪器输入和输入设备输入将音频信号(来自声源麦克风和空间音频捕获设备麦克风)混合在一起，以便生成混合的音频信号。混合的音频信号可以例如被传递到混合控制器并经由头戴式耳机203被输出。然而，输出的混合的音频信号可以被传递到任何其他合适的音频系统以进行回放(例如5.1 声道音频放大器)。

图3示出了根据一些实施例的用于使用‘看和做’方法来控制空间音频混合的方法的流程图概述，使用头部追踪器作为声源追踪器的示例，以及使用输入设备作为适于生成控制交互的控制器的示例来实施‘看和做’方法。尽管该示例关于音频混合示出了‘看和做’方法，但是可以采用‘看和做’方法来控制与关联于所选择的至少一个声源的至少一个音频信号相关联的参数，或者处理与所选择的至少一个声源相关联的至少一个音频信号。

在第一操作中，穿戴头部追踪器(作为声源追踪器)的用户看向在混合中用户想要改变的声源。

在图3中通过步骤301示出看向声源(或将头部追踪器朝向声源定向)的操作。

在已经定向了头部追踪器的情况下，换言之，声源追踪器生成方向性输出的情况下，然后将头部追踪器的定向与所确定的声源的位置进行比较。在头部追踪器的定向在关于声源位置中的一个的值的范围内的情况下，然后标识和/或选择声源。在头部追踪器的定向不在关于声源位置之一的值的范围内的一些实施例中，然后标识和/或选择空间音频捕获设备。然后可以将所标识和/或所选择的声源/空间音频捕获设备信息传递到输入设备(手持式控制器)。换言之，可以将与所选择或标识的声源/空间音频捕获设备相关联的当前混合参数输出到输入设备。在一些实施例中，声源追踪器或选择器或标识器(例如头部追踪器)可以被用来标识声源位置，并且然后基于来自声源追踪器的预定手势来选择声源。

在图3中通过步骤303示出从头部定向来标识和/或选择声源/空间音频捕获设备的操作。

然后，输入设备(手持式控制器)可以将其自身配置成使得能够对所标识/所选择的声源/空间音频捕获设备进行输入。在一些实施例中，输入设备上的控制元件被分配给所标识/所选择的声源/空间音频捕获设备，以使得用户能够改变用于混合的参数。输入设备可以被配置成显示与先前已经接收到混合参数或状态信息的所标识的声源/空间音频捕获设备相关联的当前已知状态和/或混合参数。例如，手持式控制器虚拟控制元件可以将它们自己设置成当前参数值。

在图3中通过步骤305示出针对所选择/所标识的声源/空间音频捕获设备配置输入设备或控制器的操作。

然后，用户可以通过改变被分配给所选择/所标识的声源/空间音频捕获设备的输入设备或控制器上的控制元件来修改混合参数。例如，用户可以与控制元件交互以便改变混合参数。

在图3中通过步骤307示出针对所选择/所标识的声源/空间音频捕获设备修改混合参数的操作。

然后可以在混合处理器中使用修改的混合参数来生成音频信号的新混合，并且通过将新混合传递到头戴式耳机来使新混合可听。这使得用户能够评估新混合并修改相同的声源/空间音频捕获设备(通过将声源/空间音频捕获设备保持在视线内)或修改另一声源(通过查看新的声源)。

在图3中通过步骤309示出生成新混合并使新混合可听的操作。然后操作可以返回到步骤301，其中用户能够‘看向声源’。

关于图4，示出了图1中所示系统的详细视图。如前所述，尽管此后的示例示出了关于来自各种声源的音频信号的混合的音频信号的处理，但是可以使用相同的装置和方法来单独地选择和处理与音频信号相关联的任何参数。

图4中示出了示例系统(在图4所示的示例中，其包括偏移调整器401、源选择器403、音频处理器405和渲染器431)，该示例系统包括被配置成将音频信号输出到混合处理器121的三个声源麦克风 111、113、115。

此外，图4中示出了包括空间音频捕获设备或装置117的系统。图4中示出了包括麦克风阵列453的空间音频捕获设备117。麦克风阵列453可以被配置成将音频信号输出到混合处理器121(并且在图4 中所示的示例中，混合处理器由通用音频处理器405表示)。此外示出了包括定位系统451的空间音频捕获设备117，定位系统451被配置成从声源麦克风111、113、115接收位置标签信号或者接收与声源麦克风111、113、115相关联的信号。定位系统451还可以被配置(如在图4中所示)接收来自输入设备的射频信号(表示混合控制器(或渲染装置)131的位置)。根据这些信号，定位系统451可以被配置成确定声源和渲染装置相对于空间音频捕获设备117的位置。在一些实施例中，该相对位置信息可以被传递到混合处理器121(并且具体地，如在图4中所示的，偏移调整器401)。

在图4内由头戴式耳机203、头部追踪器201和作为手持式控制器 207示出的输入设备来表示图1中所示的声源追踪器或选择器131。如本文所描述的，头戴式耳机203可以被连接到混合处理器(并且如在

图4中所示，渲染器431)并且被配置成接收混合音频信号，经由头戴式耳机203将该混合音频信号输出给控制混合的用户。此外，头部追踪器201可以被配置成输出方向性信息(例如，在穿戴/使用声源追踪器时，用户所观看的方向)到混合处理器121。在图4所示的示例中，头部追踪器201输出被传递到偏移调整器401，然而在一些实施例中，头部追踪器201输出可以被直接传递到源选择器403。

输入设备207还可以被配置成被连接到混合处理器121。在图4所示的示例中，输入设备可以被配置成从源选择器403接收反馈/信息，并且还生成用于控制音频处理器的控制信号405。

混合处理器121可以包括偏移调整器401。偏移调整器401可以被配置成从头部追踪器201(换言之，声源追踪器或确定器)接收方向性信息或信号，和/或还从定位系统451接收声源和混合控制器的相对位置信息。偏移调整器401可以被配置成对所确定的位置(例如，声源麦克风、声源追踪器和空间音频捕获设备的估计的位置)执行调整(或映射)，使得头部追踪器(声源追踪器)方向性输出和所确定的位置关于公共基准被对准。换言之，关于其中包括定位系统的空间音频捕获设备是公共基准的示例，头部追踪器方向性输出的定向与声源位置对准，使得头部追踪器和定位系统之间的位置中的差异被考虑在内。

例如，在一些实施例中，偏移调整器401可以关于空间音频捕获设备(包括定位系统)和声源追踪器(包括头部追踪器，或换言之，控制混合位置的用户)之间的位置中的差异来调整声源麦克风的‘相对’位置。随后，偏移调整使得源选择器能够相对于空间捕获装置确定感兴趣的声源(其由用户选择或取消选择)。

图5示出了来自空间音频捕获设备麦克风阵列的所追踪的声源和执行混合的用户(在图5中被称为混合器)的方位角以及偏移调整器 401的操作的示例。

如前面所讨论的，混合处理器可以确定空间音频捕获设备117的位置，用下式表示：

x_y(0)，y_y(0))。

第一声源麦克风111的位置可以用下式表示

(x_S1(t)，y_S1(t))。

声源追踪器131(即操作声源追踪器131(其在这些示例中是头部追踪器)的用户)用下式表示

(x_MixC(t)，y_MixC(t))。

可以如上面所讨论的通过任何合适的手段来确定声源追踪器的位置。例如，可以通过空间音频捕获设备定位系统以及通过为头部追踪器配备位置标签来确定位置，该位置标签生成由空间音频捕获设备接收的信号。

偏移调整器401可以相对于‘声源追踪器位置’确定声源与定义的基准轴的方位角β。在图5中所示的示例中，方位角α定义了在时间 t声源与所定义的基准轴(换言之，相对于空间音频捕获设备)的角度。

然后获得角度β_S1

βS1-ata2(y_S1(和)-y_MtxC(0)，x_S1(t)-x_MtxC(0))。

其中atan2(y，x)是“四象限反正切”，它给出正x轴和点(x，y)之间的角度。对于每一个α，都存在对应的β。换言之，对于来自空间音频捕获设备(或定位系统)的‘视点’的每个声源麦克风定向，可以从声源追踪器(头部追踪器)的用户的‘视点’确定定向。在定位系统的基准定向和声源追踪器的用户未对准的情况下，计算另外的偏移确定。该另外的偏移β_off可以如下式计算：

βoff＝β+dtfference(MtxC offset，Mtc array offset)。

MixC(声源追踪器)偏移和麦克风(Mic)阵列偏移是相对于公共基准(例如地磁北极)的偏移。

然后可以将偏移声源定向值和头部追踪器定向值传递到源选择器 403。

源选择器403可以被配置成接收偏移声源定向值和头部追踪器定向(或声源追踪器方向性)值，并且从这些来确定声源追踪器的用户是否正在查看声源以便选择该声源。基于偏移声源定向和头部追踪器方向的声源的选择可以是任何合适的选择操作。例如，当头部追踪器定向在偏移调整声源定向的确定的范围或定向值的阈值的任一侧内时，可以确定声源的选择。为了防止确定误报的选择或标识，源选择操作还可以包括基于时间的分量，其中头部追踪器定向必须在确定的时间段内保持在值的选择范围内。类似地，在一些实施例中，当头部追踪器定向在确定的时间段内在值的选择范围之外(或者可以大于或小于选择范围的单独的值的取消选择范围)时，然后可以将源取消选择。取消选择时间段可以与选择时间段相同，或者是大于或小于选择时间段的单独的取消选择时间段。在一些实施例中，可以在用户输入设备的帮助下执行选择或取消选择。例如，在需要多个源选择的情况下，用户可以看向并选择每个源，并且输入设备提供输入以保持(并且以及释放)选择。

源选择器403可以被配置成向音频处理器405输出指示符，该指示符指示当前是否存在被标识或选择的源(或多于一个源)，并且如果是，则指示哪个(哪些)源被标识/选择。此外，在一些实施例中，源选择器403可以被配置成向声源追踪器或控制器或控制混合的用户提供反馈(例如，可以将音频/振动信号输出到头部追踪器/头戴式耳机，以指示头部追踪器已经‘选择’了用户正在观看的源或该源在定向的选择/取消选择范围内)。在一些实施例中，源选择器还可以将任何所选择的源的标识输出到输入设备或控制器207。基于该标识信息，输入设备或控制器207可以向用户显示用于改变与在混合中的声源相关联的任何音频处理参数的合适接口。在一些实施例中，输入设备或控制器207还可以与音频处理器405(直接地或经由源选择器或任何合适的方式)通信以确定或获得与混合中的声源相关联的当前音频处理或混合参数并且将这些显示在界面上。

音频处理器405可以被配置成从源选择器403接收任何所标识/所选择的源的指示，并且还可以从声源麦克风111、113、115和空间音频捕获设备麦克风阵列453接收音频信号。音频处理器405被配置成基于各种处理/混合参数来处理和/或混合来自声源麦克风111、113、115 和空间音频捕获设备麦克风阵列453的音频信号。在以下示例中，可以通过在混合之前应用增益值来处理来自多个源和空间音频捕获设备麦克风的音频信号。然而，可以以类似的方式控制任何合适的处理/混合参数。处理/混合参数可以例如包括声源/空间捕获位置/定向值、均衡值、混响值、压缩值或延迟值。

在图4中由手持式控制器207表示的输入设备可以是如先前所描述的任何合适的接口，并且可以被配置成向音频处理器405输出对在音频处理/混合中所使用的参数的任何改变。在一些实施例中(如前所述)，接收与所选择的声源相关联的当前参数(例如当前增益值)并以使得用户能够与参数值交互并改变参数值的形式进行显示。

然后可以将与所选择的源相关联的参数值的任何改变传递到音频处理器405。

然后，音频处理器405可以关于所选择的声源和其他声源两者来应用参数，以生成混合的音频信号。

混合音频信号可以被输出到渲染器431。

渲染器431可以被配置成生成适于被输出到头戴式耳机的经渲染的音频输出。在一些实施例中，还可以基于声源的位置和头部追踪器 (或混合控制器)的位置和定向来生成渲染。例如，在一些实施例中，渲染器431被配置成为头戴式耳机生成双耳音频下混合，其中在下混合中反映针对声源的方向性参数。以这种方式，具有修改的参数的任何所选择的声源使音频处理器和渲染器生成音频环境的修改的混合，该修改的混合被呈现给混合控制器的用户，并且因此使得混合控制器的用户能够接收来自任何音频处理器参数改变的‘反馈’。

在一些实施例中，可以实施诸如公开的专利申请US20130044884 和US2012128174中的作为特征的音频处理。

类似地，音频渲染器可以采用已知的空间处理渲染方法和装置(以生成合适的双耳或其他多声道音频格式信号)。

因此，在一些实施例中，音频处理器和渲染器可以被配置成组合来自诸如麦克风的声源的音频信号和来自麦克风阵列的音频信号。这些音频信号可以被组合成可以通过头戴式耳机收听的单个双耳输出。

基于与声源/空间音频捕获设备相关联的参数值，可以将声源麦克风信号混合并处理成由空间音频捕获设备麦克风阵列音频信号定义的空间音频场。如上面所讨论的，在一些实施例中，还可以基于源位置和头部追踪器的位置/方向来实施渲染。在一些实施例中，通过使用具有固定位置的虚拟扬声器渲染空间音频信号来实施渲染，并且从时变位置渲染所捕获的音频源。因此，在一些实施例中，渲染器可以被配置成基于所追踪的位置信息来控制源的方位角、仰角和距离。

关于图6，更详细地示出了位置系统的输出的使用。以声源位置(被示出为声源S1和相对于麦克风阵列的方位角α_S1)形式的位置系统输出601可以在一个分支602上被传递到偏移调整器并且在另一分支612 上传递到音频处理器。然后，第一分支在603处生成偏移(角度)，以便它在604处将相对于用户混合控制器位置的声源位置β_S1传递到源选择器。然后，第一分支在605处使用相对于用户位置的声源位置来确定源选择和控制。第二分支在613处可以处理参数(例如相对于麦克风阵列的声源位置)中的改变。然后在614处，可以将经处理的声源位置传递到渲染器。然后，在615处，渲染器可以使用经处理的声源位置生成音频渲染，例如双耳音频下混合。因此，作为反馈的形式，响应于用户输入而渲染修改的音频场景。在最简单的情况下，这种反馈包括双耳音频，但也可能包括视觉或触觉指示。

关于图7，示出了简单处理操作的图。在该示例中，头部追踪器输出(来自声源追踪器的方向性输出)在0到360方位角之间变化，如由X轴所示的。第一条线700表示与源1相关联的声源麦克风，第二条线702表示与源2相关联的声源麦克风，第三条线704表示与源3 相关联的声源麦克风，以及第四条线706表示空间音频捕获设备麦克风阵列。声源位置由在声源相对于空间麦克风阵列的相对方位角偏移处的点表示。SW_i和SCW_i表示声源麦克风源(SW₁、SW₂、SW₃)和空间音频捕获设备(SCW₁、SCW₂、SCW₃)的混合增益权重，以用于在选择特定声源时执行混合。假设所有声源麦克风选择范围都是一定范围的方位角值或宽度(例如，在图7中针对第一声源的宽度由BW₁ 701示出，针对第二声源的宽度由BW₂ 703示出，以及针对第三声源的宽度由BW₃ 705示出)以用于执行混合。当没有选择声源麦克风时， SCW_solo是空间音频捕获设备的混合增益权重。因此，例如当选择声源 1时，当方位角值在由BW₁ 701所定义的范围内时，则音频处理器(或混合器处理器)被配置成生成第一源(使用增益SW₁)和空间音频捕获设备(使用增益SCW₁)的混合。当选择声源2时，当方位角值在由 BW₂ 703所定义的范围内时，则音频处理器(或混合器处理器)被配置成生成第二源(使用增益SW₂)和空间音频捕获设备(使用增益 SCW₁)的混合。当选择声源3时，当方位角值在由BW₃ 705所定义的范围内时，则音频处理器(或混合器处理器)被配置成生成第三源(使用增益SW₃)和空间音频捕获设备(使用增益SCW₃)的混合。否则，当没有选择声源时，当方位角值不在由BW₁701、BW₂ 703或BW₃ 705 所定义的范围内时，则音频处理器(或混合器处理器)被配置成生成空间音频捕获设备(使用SCW_solo)的混合。

在该示例中，为了生成混合，在混合中加强来自声源麦克风感兴趣的单独音频源的音频。在实施方式的一些实施例中，用户可以具有加强声源麦克风信号、替换麦克风阵列捕获信号或使特写麦克风静音的选项。

在偏移头部追踪器定向的方向(感兴趣的方向)中没有声源麦克风的一些实施例中，音频处理器和渲染器可以被配置成生成修改的音频信号以加强空间捕获音频装置麦克风阵列确定的具有特定的到达方向(相对于麦克风阵列)的(多个)声源。

图8呈现了根据一些实施例的方法的流程图。

在第一步中，获得用户头部定向。例如，确定头部追踪器定向或更一般地确定声源追踪器方向性输出。此外，获得了相对于声源追踪器的用户的位置的声源定向。例如，可以从将定位系统应用于渲染设备相对于定位系统偏移到声源的定向来确定这些值。

在图8中通过步骤801示出了从声源追踪器位置获得用户头部定向(或类似的声源追踪器定向)和声源定向的操作。

以下步骤是将用户头部定向(或通常声源追踪器方向)与声源定向(方位角)值进行比较以确定在与用户的头部(或声源追踪器)定向(或两个值之间的差小于阈值)‘相同’(或类似的)方向中是否存在任何声源的步骤。

在图8中通过步骤803示出了在以小于阈值角度差来确定声源的存在的形式中的比较定向/方向值的操作。

然后，关于声源是否在用户的头部方向内来测试该比较(换言之，声源是否被标识/选择)。

在图8中通过步骤805示出了在用户头部方向(或声源追踪器方向)上确定声源的操作。如先前所描述的，在一些情景下，然后可以通过检测合适的输入(诸如，从声源追踪器检测到的预定的手势)来进一步选择任何所标识的声源。

在存在所选择/标识的声源的情况下，输入设备(通过用户的控制交互)能够提供输入或控制交互，其控制(改变参数值)与所选择的声源相关联的音频信号的修改或处理。

在图8中通过步骤817示出将控制交互应用于所选择的源的操作。

在头部移动不释放源的情况下，然后用户可以经由输入设备应用另外的输入，如从步骤817到步骤817的循环所示的。

然后可以根据由用户的控制交互提供的新参数值来修改音频信号或音频信号的混合。然后，可以使修改的音频信号或音频信号的混合作为反馈对用户可用，以查明控制交互的影响。

在图8中通过步骤819示出基于由用户提供的参数值来修改音频信号或混合，或者基于所接收的用户控制参数值来改变声音场景内的音频信号的操作。

在图8中所示的示例中，基于用户头部移动不立即释放所选择的声源。这是因为四处移动头部是体验混合和进行混合的不可或缺的一部分。因此，在一些实施例中，仅在参数输入改变后的适当超时之后 (隐式释放)或者利用由用户释放所选择的源的显式输入(显式释放) 来释放所选择的声源。在一些实施例中，系统监视被应用到所标识/所选择的源的最后的控制的时间，并且当该确定的时间(自应用最后的控制以来)超过预定阈值(例如5秒或任何其他合适的值)时，系统释放或取消选择源。

在图8中通过步骤821示出释放所选择的声源的操作。

在没有所选择的声源(或在特定头部定向中的声源)的情况下，可以标识或选择和修改空间音频捕获信号以合并用户控制交互。

在一些实施例中，用户(或声源追踪器)的初始头部位置被设置成“虚拟声源”的位置。

在图8中通过步骤807示出将控制交互应用到空间音频捕获设备音频信号的操作。

在头部移动不释放‘源’的情况下，则用户可以经由输入设备应用另外的输入，如由从步骤807到步骤807的循环所示的。

根据由用户控制交互提供的参数值来修改音频混合。经修改的混合作为反馈对用户可用以查明控制交互的效果。

在图8中通过步骤809示出基于由用户提供的参数值来修改音频混合的操作。

释放以空间音频捕获设备的形式的‘虚拟源’也以与其他麦克风源相同的方式来完成。仅在参数输入改变后的适当超时之后(隐式释放)或由用户释放所选择的虚拟源的显式输入后(显式释放)才释放所选择的虚拟声源。

在图8中通过步骤811示出释放所选择的虚拟声源的操作。

关于图9，示出了可以被用作混合控制器131、混合处理器121或空间音频捕获设备117的至少一部分的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1200是虚拟或增强现实捕获设备、移动设备、用户设备、平板计算机、计算机、音频回放装置等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如，数目N个)麦克风。然而，应当理解，可以存在任何合适配置的麦克风和任何合适数目的麦克风。在一些实施例中，麦克风阵列1201与装置分离，并且音频信号通过有线或无线耦合被发射到该装置。在一些实施例中，麦克风阵列1201可以是SPAC麦克风阵列453，如在图4中所示的。

麦克风可以是被配置成将声波转换成合适的电音频信号的换能器。在一些实施例中，麦克风可以是固态麦克风。换言之，麦克风可能能够捕获音频信号并且输出合适的数字格式信号。在一些其他实施例中，麦克风或麦克风阵列1201可以包括任何合适的麦克风或音频捕获部件，例如电容式麦克风、电容器麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带式麦克风、碳麦克风、压电麦克风或微机电系统(MEMS)麦克风。在一些实施例中，麦克风可以将音频捕获信号输出到模数转换器(ADC)1203。

设备1200还可以包括模数转换器1203。模数转换器1203可以被配置成从麦克风阵列1201中的每个麦克风接收音频信号并将它们转换成适于处理的格式。在麦克风是集成麦克风的一些实施例中，不需要模数转换器。模数转换器1203可以是任何合适的模数转换或处理部件。模数转换器1203可以被配置成将音频信号的数字表示输出到处理器 1207或存储器1211。

在一些实施例中，设备1200包括至少一个处理器或中央处理单元 1207。处理器1207可以被配置成执行各种程序代码。所实施的程序代码可以包括例如SPAC控制、位置确定和追踪以及诸如本文所描述的其他代码例程。

在一些实施例中，设备1200包括存储器1211。在一些实施例中，至少一个处理器1207被耦合到存储器1211。存储器1211可以是任何合适的存储部件。在一些实施例中，存储器1211包括用于存储可在处理器1207上实施的程序代码的程序代码段。此外，在一些实施例中，存储器1211还可以包括用于存储数据(例如根据如本文所描述的实施例的已经被处理或待处理的数据)的存储数据段。在需要时，可以经由存储器-处理器耦合由处理器1207检索被存储在程序代码段内的所实施的程序代码和被存储在所存储的数据段内的数据。

在一些实施例中，设备1200包括用户界面1205。在一些实施例中，用户界面1205可以被耦合到处理器1207。在一些实施例中，处理器 1207可以控制用户界面1205的操作并从用户界面1205接收输入。在一些实施例中，用户界面1205可以使得用户能够例如经由键盘向设备 1200输入命令。在一些实施例中，用户界面205可以使得用户能够从设备1200获得信息。例如，用户界面1205可以包括被配置成将信息从设备1200显示给用户的显示器。在一些实施例中，用户界面1205 可以包括触摸屏或触摸界面，其能够使信息能够被输入到设备1200并且进一步向设备1200的用户显示信息。

在一些实施中，设备1200包括收发器1209。在这种实施例中，收发器1209可以被耦合到处理器1207，并且被配置成使得能够与其他装置或电子设备进行通信，例如经由无线通信网络。在一些实施例中，收发器1209或任何合适的收发器或发射器和/或接收器部件可以被配置成经由导线或有线耦合与其他电子设备或装置进行通信。

例如，如在图9中所示，收发器1209可以被配置成与诸如111和 113的声源进行通信。

收发器1209可以通过任何合适的已知通信协议与另外的装置进行通信。例如，在一些实施例中，收发器209或收发器部件可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(诸如IEEE 802.X)、合适的短程射频通信协议(诸如蓝牙)、或者红外数据通信路径(IRDA)。

在一些实施例中，设备1200可以被用作混合器和/或渲染装置。这样，收发器1209可以被配置成接收音频信号和位置信息，并且生成通过使用执行合适的代码的处理器1207进行渲染的合适的音频信号。设备1200可以包括数模转换器1213。数模转换器1213可以被耦合到处理器1207和/或存储器1211，并且被配置成将音频信号的数字表示(诸如，在如本文所描述的音频信号的音频渲染之后，来自处理器1207) 转换成适于经由音频子系统输出呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)1213或信号处理部件可以是任何合适的DAC 技术。

此外，在一些实施例中，设备1200可以包括音频子系统输出1215。诸如图9中所示的示例可以是音频子系统输出1215是被配置成使得能够与头戴式耳机121耦合的输出插座。然而，音频子系统输出1215可以是任何合适的音频输出或到音频输出的连接。例如，音频子系统输出1215可以是与多声道扬声器系统的连接。

在一些实施例中，可以在物理上分离的输出设备内实施数模转换器1213和音频子系统1215。例如，DAC 1213和音频子系统1215可以被实施成经由收发器1209与设备1200通信的无绳耳机。

尽管设备1200被示出具有音频捕获组件和音频渲染组件两者，但是应当理解，在一些实施例中，设备1200可以仅包括音频捕获装置元件或音频渲染装置元件。

通常，可以以硬件或专用电路、软件、逻辑或其任何组合来实施本发明的各种实施例。例如，一些方面可以以硬件来实施，而其他方面可以以固件或软件来实施，该固件或软件可以由控制器、微处理器或其他计算设备执行，但是本发明不限于此。尽管本发明的各种方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但是应当很好理解，作为非限制性示例，本文所描述的这些块、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其一些组合来实施。

本发明的实施例可以由移动设备的数据处理器可执行的计算机软件实施，诸如在处理器实体中，或通过硬件，或通过软件和硬件的组来实施。此外，在这方面，应当注意，如图中的逻辑流程的任何块可以表示程序步骤，或互连的逻辑电路、块和功能，或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如在处理器内所实施的存储器芯片或存储器块的物理介质上、诸如硬盘或软盘的磁介质上，以及诸如例如DVD及其数据变体CD的光学介质上。

存储器可以是适于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术(诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移除存储器)来实施。数据处理器可以是适于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具是可用的以用于将逻辑级设计转换成准备在半导体衬底上被蚀刻和形成的半导体电路设计。

程序(诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的那些)使用完善的设计规则以及预先存储的设计模块的库，自动在半导体芯片上布线导体和定位元件。在完成对半导体电路的设计之后，就可以将以标准化电子格式(例如，Opus、GDSII等)的所得设计传送到半导体制造设施或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和调整对于相关领域的技术人员来说可以变得明显。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种用于处理至少一个音频信号的装置，所述装置包括处理器，所述处理器被配置为：

确定至少一个声源相对于麦克风阵列的位置以及声源追踪器相对于所述麦克风阵列的位置；

确定与所述声源追踪器相关联的方向；

基于对与所述声源追踪器相关联的所确定方向、所述至少一个声源的所述位置和所述至少一个声源追踪器的所述位置，来选择所述至少一个声源；

从至少一个控制器接收与选择的所述至少一个声源相关联的至少一个控制交互；

基于所述控制交互来处理与选择的所述声源相关联的至少一个音频信号；以及

输出经处理的所述至少一个音频信号以进行渲染。

2.根据权利要求1所述的装置，其中所述至少一个声源包括以下各项中的至少一项：

外部麦克风声源；

接近的麦克风声源；以及

空间音频捕获设备麦克风阵列声源。

3.根据权利要求1所述的装置，其中所述声源追踪器包括以下各项中的至少一项：

被配置为生成方向的数字罗盘；

被配置为生成方向的陀螺仪；

被配置为生成方向的信标定位系统；以及

被配置为生成所述控制器的用户的方向的耳机。

4.根据权利要求1所述的装置，其中所述处理器被配置为选择所述至少一个声源，并且其中所述声源追踪器被配置为：确定所述至少一个声源相对于所述声源追踪器的所述方向。

5.根据权利要求4所述的装置，其中被配置为确定所述至少一个声源相对于所述声源追踪器的所述方向的所述处理器还被配置为：基于所述至少一个声源追踪器的所述位置来偏移所述至少一个声源的所述位置。

6.根据权利要求4所述的装置，其中对于所述至少一个声源的所确定位置包括至少一个空间音频捕获设备的所确定位置。

7.根据权利要求4所述的装置，其中被配置为选择所述至少一个声源的所述处理器还被配置为执行以下各项中的至少一项：

当所述至少一个声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的所述方向之间的差小于阈值时，选择所述至少一个声源；以及

当所述至少一个声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的所述方向之间的差在选择时间段内小于阈值时，选择所述至少一个声源。

8.根据权利要求4所述的装置，其中被配置为确定所述至少一个声源相对于所述麦克风阵列的所述位置的所述处理器还被配置为：

确定至少一个空间音频捕获设备声源相对于所述麦克风阵列的位置；

确定所述至少一个空间音频捕获设备声源相对于所述声源追踪器的方向。

9.根据权利要求8所述的装置，其中所述处理器还被配置为选择所述至少一个空间音频捕获设备声源，所述处理器被配置为执行以下各项中的至少一项：

当所述至少一个声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的所述方向之间的差大于阈值时，选择所述至少一个空间音频捕获设备声源；

当所述至少一个声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的所述方向之间的差在选择时间段内大于阈值时，选择所述至少一个空间音频捕获设备声源；

当所述至少一个空间音频捕获设备声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的方向之间的差小于阈值时，选择所述至少一个空间音频捕获设备声源；以及

当所述至少一个空间音频捕获设备声源相对于所述声源追踪器的所述方向和与所述声源追踪器相关联的方向之间的差在选择时间段内小于阈值时，选择所述至少一个空间音频捕获设备声源。

10.根据权利要求1所述的装置，其中被配置为从至少一个控制器接收所述至少一个控制交互的所述处理器还被配置为：

向所述至少一个控制器指示所述至少一个声源的所述选择，使得所述至少一个控制器被配置为生成与选择的所述至少一个声源相关联的至少一个处理参数值；

从所述至少一个控制器接收所述至少一个处理参数值；并且

基于所述至少一个处理参数值来处理所述至少一个音频信号。

11.根据权利要求10所述的装置，其中所述处理器还被配置为：

确定与选择的所述至少一个声源相关联的至少一个存储的处理参数值；

向所述至少一个控制器指示所述至少一个存储的处理参数值；并且

使用所述至少一个控制器显示所述至少一个存储的处理参数值。

12.根据权利要求1至11中任一项所述的装置，其中所述处理器被配置为处理所述至少一个音频信号，以执行以下各项中的至少一项：

对所述至少一个音频信号进行滤波/均衡；

延迟所述至少一个音频信号；

将增益应用于所述至少一个音频信号；以及

将与选择的所述声源相关联的所述至少一个音频信号混合到与所述至少一个空间音频捕获设备相关联的音频信号。

13.根据权利要求1至11中任一项所述的装置，其中所述处理器还被配置为将选择的所述至少一个声源取消选择，包括以下各项中的至少一项：

从所述至少一个控制器接收取消选择指示符；

确定自接收到控制交互以来的时间段大于输入的取消选择的时间段；

确定与所述声源追踪器相关联的所述方向的改变大于取消选择的方向范围。

14.根据权利要求1至11中任一项所述的装置，其中所述声源追踪器包括头带，所述头带被配置为生成与所述声源追踪器相关联的方向，所述方向与用户的观看方向相关联。

15.根据权利要求1至11中任一项所述的装置，其中所述至少一个控制器包括用户输入设备，所述用户输入设备被配置为生成与选择的所述至少一个声源相关联的所述至少一个控制交互。

16.根据权利要求1至11中任一项所述的装置，其中所述声源追踪器被集成在由用户穿戴的头带内，所述头带还集成了一对换能器，其中所述处理器被配置为向所述一对换能器输出经处理的所述至少一个音频信号以进行渲染。

17.一种用于控制至少一个音频信号的处理的方法，所述方法包括：

确定与所述声源追踪器相关联的方向；

基于对与所述声源追踪器相关联的所确定方向、所述至少一个声源的所述位置和所述声源追踪器的所述位置，来选择所述至少一个声源；

输出经处理的所述至少一个音频信号以进行渲染。

18.根据权利要求17所述的方法，其中从至少一个控制器接收与选择的所述至少一个声源相关联的至少一个控制交互包括：

从所述至少一个控制器接收所述至少一个处理参数值，并且其中

基于所述控制交互来处理与选择的所述声源相关联的至少一个音频信号包括：基于所述至少一个处理参数值来处理所述至少一个音频信号。

19.一种用于处理至少一个音频信号的装置，所述装置包括处理器，所述处理器被配置为：

确定至少一个声源相对于麦克风阵列的位置；

利用声源追踪器标识所述至少一个声源的位置；

基于所述声源追踪器的预定手势选择所述至少一个声源；

基于与所述控制器的所述至少一个控制交互来修改选择的所述声源的至少一个音频信号；以及

输出经修改的所述至少一个音频信号以进行渲染。

20.一种处理至少一个音频信号的方法，所述方法包括：

确定至少一个声源相对于麦克风阵列的位置；

利用声源追踪器标识所述至少一个声源的位置；

基于所述声源追踪器的预定手势选择所述至少一个声源；

输出经修改的所述至少一个音频信号以进行渲染。