CN108369811B

CN108369811B - 分布式音频捕获和混合

Info

Publication number: CN108369811B
Application number: CN201680072695.1A
Authority: CN
Inventors: A·埃罗南; J·勒帕南; A·勒蒂涅米; S·玛特; F·克里克里
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-10-12
Filing date: 2016-10-07
Publication date: 2022-09-09
Anticipated expiration: 2036-10-07
Also published as: US10645518B2; US20180295463A1; GB2543275A; CN108369811A; EP3363017A1; WO2017064367A1; GB201518023D0; EP3363017A4

Abstract

一种包括处理器的装置(103)，该处理器被配置为：接收与被配置为提供空间音频捕获的麦克风阵列相关联的空间音频信号和与附加麦克风(111)相关联的至少一个附加音频信号，该附加音频信号已经被延迟确定的可变延迟，使得该空间音频信号和该至少一个附加音频信号的共同分量被时间对齐；接收与该麦克风阵列相关联的第一位置和与该附加麦克风(111)相关联的第二位置(115)之间的相对位置；接收分类与该共同分量相关联的音频源的至少一个源参数和/或标识该音频源位于其中的环境的至少一个空间参数(109)；基于该至少一个源参数和/或该至少一个空间参数来确定至少一个处理效果规则集合(121)；并且通过基于该至少一个处理效果规则集合将至少一个处理效果混合并应用到该空间音频信号和该至少一个附加音频信号来生成至少两个输出音频通道信号(121、125)。

Description

分布式音频捕获和混合

技术领域

本申请涉及用于分布式音频捕获和混合的装置和方法。本发明进一步涉及但不限于用于分布式音频捕获和混合以用于音频信号的空间处理以能够实现音频信号的空间再现的装置和方法。

背景技术

当多个源在空间场中移动时，来自这些源的音频信号的捕获以及这些音频信号的混合需要大量的人工精力。例如，在诸如剧院或会堂的音频环境内的、将被呈现给听众并且产生有效的音频氛围的诸如扬声器或艺术家的音频信号源的捕获和混合需要在设备和训练方面进行重大的投资。

针对专业制作人员，通常的实现系统将是利用闭合麦克风，例如用户穿戴的颈挂式(Lavalier)麦克风或附接到臂杆的麦克风以捕获接近扬声器或其他源的音频信号，然后将该捕获的音频信号与合适的空间(或环境或音频场)音频信号进行手动地混合，使得所产生的声音来自预期的方向。如预期的那样，手动地定位空间音频场内的声源在需要大量的时间和精力进行手动操作。此外，这种专业生产的混合不是特别灵活，并且不容易被最终用户修改。例如，为了在环境内“移动”该闭合麦克风音频信号，需要进一步进行混合调整，以便源和音频场信号不会产生感知的冲突。

因此，需要开发自动化空间音频捕获、混合和声音轨道创建过程的部分或全部的解决方案。

发明内容

根据第一方面，提供了一种包括处理器的装置，该处理器被配置为：接收与被配置为提供空间音频捕获的麦克风阵列相关联的空间音频信号和与附加麦克风相关联的至少一个附加音频信号，该附加音频信号已经被延迟确定的可变延迟，使得空间音频信号和至少一个附加音频信号的共同分量被时间对齐；接收与所述麦克风阵列相关联的第一位置和与所述附加麦克风相关联的第二位置之间的相对位置；接收分类与所述共同分量相关联的音频源的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数；基于所述至少一个源参数和/或所述至少一个空间参数来确定至少一个处理效果规则集合；通过基于所述至少一个处理效果规则集合将至少一个处理效果混合并应用于所述空间音频信号和所述至少一个附加音频信号来生成至少两个输出音频通道信号。

被配置为确定至少一个处理效果规则集合的处理器可以被配置为基于至少一个源参数和/或至少一个空间参数来确定要被应用于至少一个附加音频信号的至少一个处理效果。

处理器还可以被配置为接收效果用户输入，其中处理器还可以被配置为基于效果用户输入来确定要应用于至少一个附加音频信号的至少一个处理效果。

被配置为确定至少一个处理效果规则集合的处理器还可以被配置为基于至少一个源参数和/或至少一个空间参数来确定针对控制至少一个处理效果的参数的可用输入的范围。

处理器还可以被配置为接收参数用户输入，其中处理器还可以被配置为基于参数用户输入从针对控制至少一个处理效果的参数的可用输入范围中确定参数值。

被配置为通过将所述至少一个处理效果混合和应用于所述空间音频信号和所述至少一个附加音频信号来生成所述至少两个输出音频通道信号的所述处理器还可以被配置为：基于与麦克风阵列相关联的第一位置和与附加麦克风相关联的第二位置之间的相对位置，来将所述至少一个处理效果混合和应用到空间音频信号和至少一个附加信号。

处理器还可以被配置为接收定义听众的取向的用户输入，并且被配置为通过将所述至少一个处理效果混合并应用到空间音频信号和至少一个附加音频信号来生成至少两个输出音频通道信号的处理器还可以被配置为：基于用户输入从空间音频信号和至少一个附加音频信号的混合中生成至少两个输出音频通道信号。

根据第二方面，提供了一种装置，该装置包括处理器，该处理器被配置为：确定由被配置为提供空间音频捕获的麦克风阵列在第一位置处捕获的空间音频信号；确定由附加麦克风在第二位置处捕获的至少一个附加音频信号；确定并跟踪所述第一位置与所述第二位置之间的相对位置；确定所述空间音频信号和所述至少一个附加音频信号之间的可变延迟，使得所述空间音频信号和所述至少一个附加音频信号的共同分量被时间对齐；将所述可变延迟应用于所述至少一个附加音频信号以基本上对齐所述空间音频信号和至少一个附加音频信号的共同分量；以及基于所述至少一个附加音频信号来确定分类与所述公共分量相关联的音频源的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数。

被配置为确定至少一个源参数和/或至少一个空间参数的处理器可以被配置为还基于以下项中的至少一项来确定至少一个源参数和/或至少一个空间参数：空间音频信号；以及至少一个相机图像。

被配置为确定至少一个空间参数的处理器可以被配置为确定与至少一个附加音频信号相关联的房间混响时间。

被配置为确定至少一个空间参数的处理器可以被配置为确定房间分类器，该房间分类器被配置为标识音频源位于其中的空间类型。

被配置为确定至少一个空间参数的处理器可以被配置为：基于所述至少一个附加音频信号来确定至少一个临时空间参数；基于对至少一个相机图像的分析来确定至少一个附加临时空间参数；并且基于所述至少一个临时空间参数和所述至少一个附加临时空间参数来确定至少一个最终空间参数。

被配置为确定至少一个源参数的处理器可以被配置为：基于至少一个附加音频信号的提取的特征分析来确定至少一个音频源是人声源还是乐器源；基于所述处理器确定所述至少一个音频源是人声源来确定所述至少一个音频源的临时人声分类，并且基于所述处理器确定所述至少一个音频源是乐器源来确定所述至少一个音频源的临时乐器分类。

被配置为确定至少一个源参数的处理器可以被配置为：从捕获至少一个音频源的相机接收至少一个图像；基于所述至少一个图像确定所述至少一个音频源的可视分类；基于临时人声分类和可视分类确定至少一个音频源的最终人声分类，或者基于临时乐器分类和可视分类确定最终乐器分类。

处理器可以被进一步配置为输出或存储：空间音频信号；至少一个附加音频信号；第一位置和第二位置之间的相对位置；以及至少一个源参数和/或至少一个空间参数。

麦克风阵列可以与标识第一位置的第一位置标签相关联，并且至少一个附加麦克风可以与标识第二位置的第二位置标签相关联，其中被配置为确定和跟踪第一位置和第二位置之间的相对位置位置的处理器可以被配置为基于第一位置标签和第二位置标签的比较来确定相对位置。

被配置为确定可变延迟的处理器可以被配置为确定空间音频信号与至少一个附加音频信号之间的最大相关值，并将可变延迟确定为与最大相关值相关联的时间值。

处理器可以被配置为在基于以时间值为中心的时间值范围上对空间音频信号和至少一个附加音频信号执行相关，所述时间值基于声音在第一位置和第二位置之间的距离上行进所需的时间。

被配置为确定并跟踪第一位置和第二位置之间的相对位置的处理器可以被配置为：确定定义麦克风阵列的位置的第一位置；确定定义所述至少一个附加麦克风的位置的第二位置；确定第一位置和第二位置之间的相对距离；并确定第一位置和第二位置之间的至少一个取向差。

装置可以包括如本文讨论的捕获装置和如本文讨论的渲染装置。

该至少一个附加麦克风可以包括以下项中的至少一项：与麦克风阵列物理分离的麦克风；麦克风阵列外部的麦克风；一个颈挂式麦克风；耦合到人的、被配置为捕获人的音频输出的麦克风；耦合到乐器的麦克风；手持麦克风；小型麦克风；以及另一个麦克风阵列。

根据第三方面，提供了一种方法，包括：接收与被配置为提供空间音频捕获的麦克风阵列相关联的空间音频信号和与附加麦克风相关联的至少一个附加音频信号，该附加音频信号已经被延迟确定的可变延迟，使得空间音频信号和至少一个附加音频信号的共同分量被时间对齐；接收与所述麦克风阵列相关联的第一位置和与所述附加麦克风相关联的第二位置之间的相对位置；接收分类与所述共同分量相关联的音频源的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数；基于所述至少一个源参数和/或所述至少一个空间参数来确定至少一个处理效果规则集合；通过基于所述至少一个处理效果规则集合将至少一个处理效果混合并应用于所述空间音频信号和所述至少一个附加音频信号来生成至少两个输出音频通道信号。

确定所述至少一个处理效果规则集合可以包括：基于至少一个源参数和/或至少一个空间参数来确定要被应用于至少一个附加音频信号的至少一个处理效果。

该方法可以进一步包括接收效果用户输入，其中确定要被应用于至少一个附加音频信号的至少一个处理效果还可以基于效果用户输入。

确定所述至少一个处理效果规则集合可以包括：基于至少一个源参数和/或至少一个空间参数来确定针对控制至少一个处理效果的参数的可用输入的范围。

该方法还可以包括接收参数用户输入，其中从针对控制至少一个处理效果的参数的可用输入的范围确定参数值还可以基于参数用户输入。

通过将所述至少一个处理效果混合并应用到所述空间音频信号并且所述至少一个附加音频信号来生成所述至少两个输出音频通道信号还可以包括：基于与麦克风阵列相关联的第一位置和与附加麦克风相关联的第二位置之间的相对位置来混合和应用所述至少一个处理效果。

该方法还可以包括接收定义听众的取向的用户输入，并且通过将所述至少一个处理效果混合并应用到空间音频信号和至少一个附加音频信号来生成至少两个输出音频通道信号还包括：基于用户输入从空间音频信号和至少一个附加音频信号的混合中生成至少两个输出音频通道信号。

根据第四方面，提供了一种方法，包括：确定由被配置为提供空间音频捕获的麦克风阵列在第一位置处捕获的空间音频信号；确定由附加麦克风在第二位置处捕获的至少一个附加音频信号；确定并跟踪所述第一位置与所述第二位置之间的相对位置；确定所述空间音频信号和所述至少一个附加音频信号之间的可变延迟，使得所述空间音频信号和所述至少一个附加音频信号的共同分量被时间对齐；将所述可变延迟应用于所述至少一个附加音频信号以基本上对齐所述空间音频信号和至少一个附加音频信号的共同分量；以及基于所述至少一个附加音频信号来确定分类与所述共同分量相关联的音频源的至少一个源参数和/或标识所述音频源所位于其中的环境的至少一个空间参数。

确定至少一个源参数和/或至少一个空间参数可以包括：还基于以下项中的至少一项来确定至少一个源参数和/或至少一个空间参数：空间音频信号；以及至少一个相机图像。

确定至少一个空间参数可以包括：确定与至少一个附加音频信号相关联的房间混响时间。

确定至少一个空间参数可以包括：确定房间分类器，该房间分类器被配置为标识音频源位于其中的空间类型。

确定所述至少一个空间参数可以包括：基于所述至少一个附加音频信号来确定至少一个临时空间参数；基于对至少一个相机图像的分析来确定至少一个附加临时空间参数；并且基于所述至少一个临时空间参数和所述至少一个附加临时空间参数来确定至少一个最终空间参数。

确定至少一个源参数可以包括：基于至少一个附加音频信号的提取的特征分析来确定至少一个音频源是人声源还是乐器源；并且基于确定所述至少一个音频源是人声源来确定所述至少一个音频源的临时人声分类，并且基于确定所述至少一个音频源是乐器源来确定所述至少一个音频源的临时乐器分类。

确定至少一个源参数可以包括：从捕获至少一个音频源的相机接收至少一个图像；基于所述至少一个图像来确定所述至少一个音频源的可视分类；以及基于临时人声分类和可视分类确定至少一个音频源的最终人声分类，或基于临时乐器分类和可视分类确定最终乐器分类。

该方法还可以包括输出或存储：空间音频信号；至少一个附加音频信号；第一位置和第二位置之间的相对位置；以及至少一个源参数和/或至少一个空间参数。

该方法还可以包括：将麦克风阵列与标识第一位置的第一位置标签相关联；以及将所述至少一个附加麦克风与标识所述第二位置的第二位置标签相关联，其中确定并跟踪所述第一位置和所述第二位置之间的相对位置可以包括比较所述第一位置标签和所述第二位置标签以确定所述相对位置。

确定可变延迟可以包括：确定空间音频信号与至少一个附加音频信号之间的最大相关值，并将可变延迟确定为与最大相关值相关联的时间值。

确定最大相关值可以包括：在以时间值为中心的时间值范围上对空间音频信号和至少一个附加音频信号执行相关，所述时间值基于声音在第一位置和第二位置之间的距离上行进所需的时间。

确定并跟踪第一位置和第二位置之间的相对位置可以包括：确定定义麦克风阵列的位置的第一位置；确定定义所述至少一个附加麦克风的位置的第二位置；确定第一位置和第二位置之间的相对距离；并确定第一位置和第二位置之间的至少一个取向差。

一种方法可以包括：如本文所述的渲染方法和如本文所述的捕获方法。

根据第五方面，提供了一种装置，包括：用于接收与被配置为提供空间音频捕获的麦克风阵列相关联的空间音频信号和与附加麦克风相关联的至少一个附加音频信号的部件，所述附加音频信号已经被延迟确定的可变延迟，使得空间音频信号和至少一个附加音频信号的公共分量被时间对齐；用于接收与所述麦克风阵列相关联的第一位置和与所述附加麦克风相关联的第二位置之间的相对位置的部件；用于接收分类与所述公共分量相关联的音频源的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数的部件；用于基于所述至少一个源参数和/或所述至少一个空间参数来确定至少一个处理效果规则集合的部件；用于通过基于所述至少一个处理效果规则集合将至少一个处理效果混合并应用到所述空间音频信号和所述至少一个附加音频信号来生成至少两个输出音频通道信号的部件。

用于确定所述至少一个处理效果规则集合的部件可以包括：用于基于至少一个源参数和/或至少一个空间参数来确定要被应用于至少一个附加音频信号的至少一个处理效果的部件。

该装置还可以包括用于接收效果用户输入的部件，其中用于确定要被应用于至少一个附加音频信号的至少一个处理效果的部件还可以基于效果用户输入。

用于确定所述至少一个处理效果规则集合的部件可以包括用于基于至少一个源参数和/或至少一个空间参数来确定针对控制至少一个处理效果的参数的可用输入的范围的部件。

该装置还可以包括用于接收参数用户输入的部件，其中用于从针对控制至少一个处理效果的参数的可用输入范围确定参数值的部件还可以基于参数用户输入。

用于通过将至少一个处理效果混合并应用到空间音频信号和至少一个附加音频信号来生成至少两个输出音频通道信号的部件可以进一步包括：用于基于与麦克风阵列相关联的第一位置和与附加麦克风相关联的第二位置之间的相对位置来混合和应用所述至少一个处理效果的部件。

该装置还可以包括用于接收定义听众的取向的用户输入的部件以及用于通过将所述至少一个处理效果混合并应用到空间音频信号和至少一个附加音频信号来生成至少两个输出音频通道信号的部件还可以包括：用于基于用户输入从空间音频信号和至少一个附加音频信号的混合中生成至少两个输出音频通道信号的部件。

根据第四方面，提供了一种装置，包括：用于确定由被配置为提供空间音频捕获的麦克风阵列在第一位置处捕获的空间音频信号的部件；用于确定由附加麦克风在第二位置处捕获的至少一个附加音频信号的部件；用于确定并且跟踪所述第一位置与所述第二位置之间的相对位置的部件；用于确定所述空间音频信号和所述至少一个附加音频信号之间的可变延迟，使得所述空间音频信号和所述至少一个附加音频信号的共同分量被时间对齐的部件；用于将所述可变延迟应用于所述至少一个附加音频信号以基本上对齐所述空间音频信号和至少一个附加音频信号的共同分量的部件；以及用于基于所述至少一个附加音频信号来确定分类与所述共同分量相关联的音频源的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数的部件。

用于确定至少一个源参数和/或至少一个空间参数的部件可以包括：用于还基于以下项中的至少一项来确定至少一个源参数和/或至少一个空间参数的部件：空间音频信号；以及至少一个相机图像。

用于确定至少一个空间参数的部件可以包括用于确定与至少一个附加音频信号相关联的房间混响时间的部件。

用于确定至少一个空间参数的部件可以包括：确定房间分类器，该房间分类器被配置为标识音频源位于其中的空间类型。

用于确定至少一个空间参数的部件可以包括：用于基于所述至少一个附加音频信号来确定至少一个临时空间参数的部件；用于基于对至少一个相机图像的分析来确定至少一个附加临时空间参数的部件；以及用于基于所述至少一个临时空间参数和所述至少一个附加临时空间参数来确定至少一个最终空间参数的部件。

用于确定所述至少一个源参数的部件可以包括：用于基于至少一个附加音频信号的提取的特征分析来确定至少一个音频源是人声源还是乐器源的部件；以及用于基于确定所述至少一个音频源是人声源来确定所述至少一个音频源的临时人声分类，并且基于确定所述至少一个音频源是乐器源来确定所述至少一个音频源的临时乐器分类的部件。

用于确定至少一个源参数的部件可以包括：用于从捕获至少一个音频源的相机接收至少一个图像的部件；用于基于所述至少一个图像来确定所述至少一个音频源的可视分类的部件；以及用于基于临时人声分类和可视分类来确定至少一个音频源的最终人声分类，或基于临时乐器分类和可视分类来确定最终乐器分类的部件。

该装置还可以包括用于输出或存储以下各项的部件：空间音频信号；该至少一个附加音频信号；第一位置和第二位置之间的相对位置；以及至少一个源参数和/或至少一个空间参数。

该装置还可以包括：用于将麦克风阵列与标识第一位置的第一位置标签相关联的部件；以及将所述至少一个附加麦克风与标识所述第二位置的第二位置标签相关联，其中所述用于确定并跟踪所述第一位置和所述第二位置之间的相对位置的部件可以包括用于比较所述第一位置标签和所述第二位置标签以确定相对位置的部件。

用于确定可变延迟的部件可以包括：用于确定空间音频信号与至少一个附加音频信号之间的最大相关值的部件；以及用于将可变延迟确定为与最大相关值相关联的时间值的部件。

用于确定最大相关值的部件可以包括：用于在以时间值为中心的时间值范围上对空间音频信号和至少一个附加音频信号执行相关的部件，所述时间值基于声音在第一位置和第二位置之间的距离上行进所需的时间。

用于确定和跟踪第一位置和第二位置之间的相对位置的部件可以包括：用于确定定义麦克风阵列的位置的第一位置的部件；用于确定定义所述至少一个附加麦克风的位置的第二位置的部件；用于确定第一位置和第二位置之间的相对距离的部件；以及用于确定第一位置和第二位置之间的至少一个取向差的部件。

存储在介质上的计算机程序产品可以使装置执行如本文所述的方法。

一种电子设备可以包括如本文所述的装置。

芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，在附图中：

图1示意性地示出了根据一些实施例的适合于实现空间音频捕获和渲染的捕获和渲染装置；

图2a示意性地示出了根据一些实施例的如在图1所示在内容分析器内实现的源分析器；

图2b示意性地示出了根据一些实施例的如在图1中所示的在内容分析器内实现的空间分析器；

图3示意性地示出了根据一些实施例的如在图1中所示的示例音频渲染器；

图4示出了根据一些实施例的如在图1中所示的示例捕获装置的操作的流程图；

图5示出了根据一些实施例的如在图2a中所示的示例源分析器的操作的流程图；

图6示出了根据一些实施例的如在图2b中所示的示例性空间分析器的操作的流程图；图7示出了根据一些实施例的如在图3中所示的示例音频渲染器的操作的流程图；

图8示出了根据一些实施例的在图1中示出的示例渲染装置；以及

图9示意性地示出了根据一些实施例的如在图1所示的另一示例渲染装置；

图10示出了根据一些实施例的在图8中所示的渲染装置的操作的流程图；以及

图11示意性地示出了适合于实现在图1中所示的捕获和/或渲染装置的示例设备。

具体实施方式

以下进一步详细描述了用于提供来自多个源的音频信号的有效捕获和这些音频信号的混合的合适的装置和可能的机制。在下面的示例中，描述了音频信号和音频捕获信号。然而，可以理解的是，在一些实施例中，该装置可以是被配置为捕获音频信号或接收音频信号和其他信息信号的任意合适的电子设备或装置的一部分。

如先前所描述的，针对专业制作者，用于音频源相对于音频背景或环境音频场信号的捕获和混合的常规方案将是利用闭合麦克风(“close microphone”)(由用户穿戴的颈挂式麦克风或附接到臂杆的麦克风)来捕获接近音频源的音频信号，并进一步利用“背景”麦克风来捕获环境音频信号。这些信号或音频轨道然后可以被手动混合以产生输出音频信号，使得所产生的声音具有来自预期(但不一定是原始)方向的音频源的特征。

如预期的那样，这需要大量的时间和精力以及专业知识来正确地操作。尽管已经描述了自动或半自动混合，但是这样的混合通常被认为是人工发声或者以其他方式在听时没有提供期望的感知效果。因此，这种混合存在一个问题，例如如何使声源更加真实地发生或以其他方式听起来更好，例如通过添加合适的效果或处理。

本文描述的概念可以被认为是对传统的空间音频捕获(SPAC)技术的增强。空间音频捕获技术可以将经由麦克风阵列捕获的音频信号处理为空间音频格式。换言之，生成具有空间感知能力的音频信号格式。该概念因此可以以音频信号可以被捕获的形式被实施，使得当渲染给用户时，用户可以体验声音场，就好像他们存在于捕获设备的位置处一样。可以针对移动设备中建构的麦克风阵列实现空间音频捕获。另外，从空间音频捕获导出的音频处理可以用在诸如诺基亚OZO设备的存在捕获设备内。

在本文描述的示例中，音频信号被渲染为合适的双耳形式，其中空间感觉可以使用渲染诸如通过头部相关传递函数(HRTF)对合适的音频信号进行滤波来创建。

如关于本文的实施例描述的概念使得能够更有效和高效地捕获并重新混合近距离和环境音频信号。

该概念可以例如被实施为捕获系统，该捕获系统被配置为捕获近(扬声器、乐器或其他源)音频信号和空间(音频场)音频信号两者的。捕获系统还可以被配置为确定或分类源和/或源所在的空间。然后该信息可以被存储或传递到合适的渲染系统，已经接收到音频信号和信息(源和空间分类)的合适的渲染系统可以使用该信息来生成到用户的音频信号的合适的混合和渲染。此外，在一些实施例中，渲染系统可以使得用户能够输入合适的输入来控制混合，例如通过使用导致混合被改变的头部跟踪或其他输入。

此外，该概念通过用于分析生成近音频信号的颈挂式麦克风的输出以用于确定分布式捕获和混合系统中的高质量混合所需参数的的能力来实施。这可以通过被配置为分析源描述信息的设备和方法来实施，例如源发声类型或源是人声还是器乐，以及空间的特征，诸如空间是室内还是室外空间。然后将该信息被信号传送到渲染器或混合器，该渲染器或混合器应用合适的效果来增加自动混合的真实感或感知质量。例如，使用颈挂式麦克风捕获音频信号的典型混合可能听起来很暗/干/不适合整体混合。改进真实感的示例效果或处理可以包括当用户正在唱歌时自动启用混响效果，或者在用户讲话时不启用混响或稍微使用混响。如本文所述的实施例的一个方面是分析器可以被配置为确定源和空间/情况的特定分类或“描述”，并且渲染器然后可以利用它具有的、用于施加效果或处理以增强信号以适应捕获情况或增强其美学质量的任意手段。

应当相信，本文描述的实施例的主要益处是导致更高质量自动混合的合适效果的选择。

虽然以下示例中的捕获和渲染系统被示出为是分离的，但是应当理解，它们可以用相同的装置来实现，或者可以分布在一系列物理上分离但可通信的装置上。例如，诸如诺基亚OZO设备的存在捕获设备可以被配备有用于分析颈挂式麦克风源的附加接口，并且可以被配置为执行捕获部分。捕获部分的输出可以是空间音频捕获格式(例如，作为5.1通道降混)、被时延补偿以匹配空间音频时间的颈挂式源、以及诸如源的分类和其中源被发现的空间的其他信息。

在一些实施例中，由阵列麦克风捕获的原始空间音频(而不是被处理为5.1的空间音频)可以被发送给渲染器，并且渲染器执行诸如本文所述的空间处理。

如本文所述的渲染器可以是具有运动跟踪器的耳机集合以及能够进行双耳音频渲染的软件。通过头部跟踪，空间音频可以以关于地球的固定取向被渲染，而不是随着人的头部一起旋转。

此外，应当理解，以下捕获和渲染装置的至少一些元件可以在诸如被称为“云”的分布式计算系统内被实现。

关于图1，示出了根据一些实施例的包括适合于实现空间音频捕获和渲染的捕获101和渲染103的装置的系统。在以下示例中，仅示出了一个近音频信号，但是可以捕获多于一个的近音频信号并且将下面的装置和方法应用于更近的音频信号。例如，在一些实施例中，一个或多个人可以配备有麦克风以为每个人(本文仅描述其中一个)生成近音频信号。

例如，捕获装置101包括颈挂式麦克风111。颈挂式麦克风是“近”音频源捕获装置的示例，并且在一些实施例中可以是臂杆式麦克风或类似的相邻麦克风捕获系统。虽然下面的示例是关于颈挂式麦克风并因此是颈挂式音频信号来描述的，但是该概念可以扩展到任意麦克风，其在被配置为捕获空间音频信号的麦克风或麦克风阵列的外部或者与被配置为捕获空间音频信号的麦克风或麦克风阵列分离。因此，除了SPAC麦克风阵列外，该概念还适用于任意外部/附加麦克风，无论是颈挂式麦克风、手持麦克风、安装麦克风、还是其他任意麦克风。外部麦克风可以由人穿戴/携带，也可以被安装为用于乐器的特写麦克风或在设计者希望准确捕获的某些相关位置的麦克风。颈挂式麦克风111在一些实施例中可以是麦克风阵列。颈挂式麦克风通常包括戴在耳朵周围或以其他方式接近嘴部的小麦克风。对于诸如音乐乐器的其他声源，音频信号可以由Lavalie麦克风或乐器的内部麦克风系统(例如，在电吉他的情况下为拾音麦克风)提供。

颈挂式麦克风111可以被配置为将捕获的音频信号输出到可变延迟补偿器117。颈挂式麦克风可以连接到发射机单元(未示出)，该发射机单元将音频信号无线发送到接收机单元(未示出)。

此外，捕获装置101包括颈挂式(或近源)麦克风位置标签112。颈挂式麦克风位置标签112可被配置为确定标识颈挂式麦克风111或其他近麦克风的位置或地点的信息。需要注意的是，人们穿戴的麦克风可以在声学空间中自由移动，并且支持穿戴式麦克风的系统必须支持用户或麦克风的位置的连续感测。颈挂式麦克风位置标签112可以被配置为将该颈挂式麦克风的位置的这个确定输出到位置跟踪器115。

捕获设备101包括空间音频捕获(SPAC)设备113。空间音频捕获设备是“音频场”捕获设备的示例，并且在一些实施例中可以是定向或全向麦克风阵列。空间音频捕获设备113可以被配置为将捕获的音频信号输出到可变延迟补偿器117。

此外，捕获设备101包括空间捕获位置标签114。空间捕获位置标签114可被配置为确定标识空间音频捕获设备113的位置或地点的信息。空间捕获位置标签114可被配置为向位置跟踪器115输出空间捕获麦克风的位置的该确定。

在一些实施例中，空间音频捕获设备113被实现在移动设备内。空间音频捕获设备因此被配置为捕获空间音频，其在被渲染给听众时使得听众能够体验声音场，就好像它们存在于空间音频捕获设备的位置中一样。这种实施例中的颈挂式麦克风被配置为捕获高质量的特写音频信号(例如来自关键人物的声音或音乐乐器)。当混合到空间音频场时，可以调整诸如增益和空间位置的关键源的属性，以便为听众提供更真实的沉浸式体验。另外，能够产生更多点状的听觉目标，从而提高参与度和清晰度。

此外，捕获装置101可以包括位置跟踪器115。位置跟踪器115可以被配置为接收标识颈挂式麦克风111和空间音频捕获设备113的位置的位置标签信息，并且生成标识颈挂式麦克风111相对于空间音频捕获设备113的相对位置的合适输出，并且将其输出到渲染装置103，并且具体地在该示例中输出到音频渲染器121。此外，在一些实施例中，位置跟踪器115可以被配置为将跟踪的位置信息输出到可变延迟补偿器117。

因此，在一些实施例中，颈挂式麦克风(或携带它们的人)相对于空间音频捕获设备的位置可被跟踪并用于混合源以纠正空间位置。在一些实施例中，使用高精度室内定位(HAIP)或其他合适的室内定位技术来实现位置标签、麦克风位置标签112和空间捕获位置标签114。在一些实施例中，除HAIP之外或代替HAIP，位置跟踪器可以使用视频内容分析和/或声源定位。

在下面的示例中，位置跟踪使用HAIP标签被实现。如图1所示，颈挂式麦克风111和空间捕获装置113都配备有HAIP标签(分别为112和114)，然后位置跟踪器115(其可以是HAIP定位器)被配置为跟踪两个标签的位置。

在一些其他实现中，HAIP定位器可以被放置接近于或附接到空间音频捕获设备和与空间音频捕获设备113对齐的跟踪器115坐标系。在这样的实施例中，位置跟踪器115将仅跟踪颈挂式麦克风位置。

在一些实施例中，位置跟踪器包括绝对位置确定器。绝对位置确定器被配置为接收HAIP定位器标签并且从标签信息生成绝对位置信息。

绝对位置确定器然后可以将该信息输出到相对位置确定器。

在一些实施例中，位置跟踪器115包括相对位置确定器，该相对位置确定器被配置为接收SPAC设备和颈挂式麦克风的绝对位置并确定并跟踪每个的相对位置。该相对位置然后可以被输出到渲染装置103。

因此在一些实施例中，空间音频捕获设备的位置或地点被确定。空间音频捕获设备的位置可以被表示为(在时间0)

(x_s(0)，y_s(0))

在一些实施例中，可以实现校准阶段或操作(换言之，定义0时间实例)，其中颈挂式麦克风被定位在SPAC阵列的前面的HAIP定位器的范围内的某个距离处。颈挂式麦克风的这个位置可以被表示为

(x_L(0)，y_L(0))

此外，在一些实施例中，该校准阶段可以确定HAIP坐标系中的空间音频捕获设备的“前方”。这可以通过首先通过以下向量定义阵列前方来执行

(x_L(0)-x_S(0)，y_L(0)-y_S(0))

该向量可以使位置跟踪器能够确定相对于阵列的方位角α和距离d。

例如，给定在时间t处的颈挂式麦克风位置

相对于阵列的方向由以下向量定义

(x_L(t)-x_S(0)，y_L(t)-y_S(0))

然后可以将方位角α确定为

α＝atan2(y_L(t)-y_S(0)，x_L(t)-x_S(0))-atan2(y_L(0)-y_S(0)，x_L(0)-x_S(0))

其中atan2(y，x)是一个“四象限反正切”，它给出正x轴与点(x，y)之间的角度。因此，第一项给出正x轴(在x_s(0)和y_s(0)处的原点)与点(x_L(t),y_L(t))之间的夹角，第二项是x轴和初始位置(x_L(0),y_L(0))之间的角度。方位角可以通过从第二角度减去第一角度来获得。

距离d可以被获得为

在一些实施例中，由于HAIP位置数据可能是嘈杂的，因此位置(x_L(0)，y_L(0))和(x_s(0)，y_s(0))可以通过以下获得：记录在几秒(例如30秒)的时间窗口上音频捕获设备和颈挂式源的HAIP标签的位置，然后对记录的位置进行平均以获得以上等式中使用的输入。

在一些实施例中，校准阶段可以由SPAC设备(例如移动设备)初始化，该SPAC设备被配置为输出语音或其他指令以指令用户在阵列的前方停留30秒的持续时间，以及在期限结束后给出声音指示。

尽管上面示出的示例示出了位置跟踪器115以二维方式生成位置信息，但是应当理解，这可以被一般化到三维，其中位置跟踪器可以确定仰角以及方位角和距离。

在一些实施例中，可以使用其他位置跟踪部件来定位和跟踪移动源。其他跟踪部件的示例可以包括惯性传感器、雷达、超声波感测、激光雷达或激光测距仪等等。

在一些实施例中，除了室内定位之外或者替代室内定位，使用可视分析和/或音频源定位。

例如，可视分析可以被执行以便于定位和跟踪预定义的声源，诸如人员和音乐乐器。可视分析可应用于与空间音频一起捕获的全景视频。因此，该分析可以基于人的可视标识来标识和跟踪携带颈挂式麦克风的人的位置。可视跟踪的优势在于，其可以即使在声源是无声的并且因此很难依赖基于音频的跟踪时被使用。可视跟踪可以是基于针对每个全景视频帧执行或运行在合适的数据集合(例如包含行人的图像的数据集合)上训练的检测器。在一些其他实施例中，可以实现诸如卡尔曼滤波和粒子滤波的跟踪技术以通过视频帧获得人的正确轨迹。然后可以将人员相对于与空间音频捕获设备的前向一致的全景视频的前方向的位置用作该源的到达方向。在一些实施例中，可以使用基于颈挂式麦克风的外观的可视标记或检测器来帮助或改进可视跟踪方法的准确性。

在一些实施例中，可视分析不仅可以提供关于声源的2D位置(即，全景视频帧内的坐标)的信息，而且还可以提供关于距离的信息，该距离与检测到的声源的大小成比例，假定该声源类的“标准”大小是已知的。例如，可以基于平均身高来估计“任意”人的距离。备选地，通过假定系统知道特定声源的大小，可以实现更精确的距离估计。例如，系统可以知道每个需要被跟踪的人的身高或用每个需要被跟踪的人的身高来训练。

在一些实施例中，3D或距离信息可以通过使用深度感测设备来实现。例如，可以使用‘Kinect’系统、飞行时间相机、立体相机或相机阵列来生成可以被分析的图像，并且可以从来自多个图像的图像视差来创建深度或3D可视场景。这些图像可以由相机107生成。

在一些实施例中，音频源位置确定和跟踪可以被用于跟踪源。例如，可以使用到达时间差(TDOA)方法来估计源方向。在一些实施例中，源位置确定可以使用转向波束形成器以及基于粒子滤波器的跟踪算法来实现。

在一些实施例中，音频自我定位可以被用于跟踪源。

在无线技术和连接解决方案中存在可以进一步支持设备之间的高精度同步的技术，其可以通过移除音频相关性分析中的时间偏移不确定性来简化距离测量。这些技术已被提议用于多通道音频回放系统的未来WiFi标准化。

在一些实施例中，可以一起使用来自室内定位、可视分析和音频源定位的位置估计，例如，可以对由每个提供的估计进行平均以获得改进的位置确定和跟踪精度。此外，为了最小化可视分析的计算负载(其通常比音频或HAIP信号的分析“更重”)，可视分析可以仅被应用于整个全景框的、与音频和/或HAIP分析子系统估计声源的存在的空间位置对应的部分。

在一些实施例中，位置估计可以组合来自多个源的信息，并且多个估计的组合可能为所建议的系统提供最精确的位置信息。然而，有利的是，系统可以被配置为使用位置感测技术的子集来在即使较低分辨率下也产生位置估计。

此外，捕获装置101可以包括可变延迟补偿器117，其被配置为接收颈挂式麦克风111和空间音频捕获设备113的输出。此外，在一些实施例中，可变延迟补偿器117可以被配置为从位置跟踪器115接收源位置和跟踪信息。可变延迟补偿器117可以被配置为确定近音频源信号和空间捕获音频信号之间的任意定时不匹配或缺乏同步，并确定定时延迟，定时延迟将被需要用于恢复信号之间的同步。在一些实施例中，可变延迟补偿器117可以被配置为在将信号输出到渲染装置103并且具体在该示例中到音频渲染器121之前，将延迟应用于信号中的一个。此外，时间延迟颈挂式麦克风和空间音频信号可以被传递到分析器109。

定时延迟可以被认为是相对于音频信号的正时间延迟或负时间延迟。例如，用x表示第一(空间)音频信号，用y表示另一(颈挂式)音频信号。可变延迟补偿器117被配置为试图找出延迟T，使得x(n)＝y(n-T)。本文，延迟T可以是正值或负值。

在一些实施例中，可变延迟补偿器117包括时间延迟估计器。时间延迟估计器可以被配置为接收空间编码音频信号的至少一部分(例如，5.1通道格式空间编码通道的中间通道)。此外，时间延迟估计器被配置为从颈挂式麦克风111接收输出。此外，在一些实施例中，时间延迟估计器可以被配置为从位置跟踪器115接收输入。

由于颈挂式麦克风或近麦克风可能改变其位置(例如因为穿戴麦克风的人在说话时移动)，所以捕获装置101可被配置为随时间跟踪近麦克风的位置或地点(相对于空间音频捕获设备)。此外，近麦克风相对于空间捕获设备的时间变化位置在来自颈挂式麦克风的音频信号与由SPAC生成的音频信号之间引起时间变化延迟。可变延迟补偿器117被配置为对信号中的一个应用延迟以便补偿空间差异，使得由空间音频捕获设备和颈挂式麦克风捕获的音频源的音频信号相等(假设当由空间音频捕获设备捕获时，颈挂式源是听得见的)。如果颈挂式麦克风源在空间音频捕获设备中不可听见或几乎听不到，则可基于位置(或HAIP位置)数据来近似地完成延迟补偿。

因此，在一些实施例中，时间延迟估计器可以估计颈挂式麦克风和空间音频捕获设备之间的近源的延迟。

在一些实施例中，时间延迟可以通过将颈挂式麦克风信号与空间音频捕获信号互相关来实现。例如5.1格式空间音频捕获音频信号的中间通道可以与颈挂式麦克风音频信号相关。而且，由于延迟是随时间变化的，因此相关性随时间而被执行。例如，短时间帧(例如4096个样本)可以被相关。

在这样的实施例中，在时间n处的、被表示为a(n)的空间音频中间通道的帧被零填充为其长度的两倍。此外，在时间n处、被表示为b(n)的颈挂式麦克风捕获的信号的帧也被零填充到其长度的两倍。互相关可以被计算为

corr(a(n)，b(n))＝ifft(fft(a(n))^*conj(fft(b(n))))

其中fft表示快速傅里叶变换(FFT)，ifft表示其逆，conj表示复数共轭。

相关值中的峰值可以用于指示其中信号是最相关的延迟，并且这可以被传递到可变延迟线路，以用颈挂式麦克风需要被延迟的量来设置可变延迟线路以便于匹配空间音频捕获的音频信号。

在一些实施例中，可以应用各种加权策略来强调与感兴趣的期望声源的信号延迟估计最相关的频率。

在一些实施例中，来自位置跟踪器115的位置或地点差异估计可以被用作初始延迟估计。更具体地说，如果颈挂式源与空间音频捕获设备的的距离是d，则可以计算初始延迟估计。计算相关性的帧因此可以被定位使得其中心与初始延迟值对应。

在一些实施例中，可变延迟补偿器117包括可变延迟线路。可变延迟线路可以被配置为从颈挂式麦克风111接收音频信号并且延迟音频信号由时间延迟估计器估计的延迟值。换句话说，当“最优”延迟已知时，颈挂式麦克风捕获的信号会被延迟相应的量。

然后，如本文所讨论的那样，延迟的颈挂式麦克风111音频信号可以被输出以被存储或处理。

捕获装置101还可以包括被配置为生成图像的一个或多个相机107。一个或多个相机可以被配置为生成与空间音频一起被捕获的图像的全景图像或图像的视频。相机107因此在一些实施例中可以是被配置为捕获空间音频信号的相同装置的一部分，例如配备有麦克风阵列和一个或多个相机的移动电话或用户。

在一些实施例中，相机可以被配备有深度感测部件或增加有深度感测部件。例如，相机可以是用于生成可以被分析的图像的‘Kinect’系统、飞行时间相机、立体相机或相机阵列，并且可以从来自多个图像的图像视差来创建深度或3D可视场景。

图像可以被传递到分析器109。

捕获装置101可以包括分析器109。在一些实施例中，分析器109被配置为从相机107接收图像，并且从可变延迟补偿器117接收音频信号。此外，分析器109被配置为从接收到的输入来生成源和空间参数。源和空间参数可以被传递给渲染装置103。

在一些实施例中，渲染装置103包括头部跟踪器123。头部跟踪器123可以是用于生成位置输入的任意合适的部件，例如附连到头戴式耳机集合的传感器，其被配置为监视听众相对于定义的或参考取向的取向，并且提供可以由音频渲染器120使用的值或输入。在一些实施例中，头部跟踪器123可以由至少一个陀螺仪和/或数字罗盘来实现。

渲染装置103包括音频渲染器121。音频渲染器121被配置为从捕获装置101接收音频信号、位置信息以及源和空间参数。音频渲染器121还可以被配置为从头部跟踪器123接收输入。此外，音频渲染器121可以被配置为接收其他用户输入。如稍后本文进一步详细描述的，音频渲染器121可以被配置为基于位置信息、头部跟踪器输入以及源和空间参数将音频信号、颈挂式麦克风音频信号和空间音频信号混合在一起，以便于生成混合音频信号。混合音频信号例如可以传递给头戴式耳机125。然而，输出混合音频信号可以传递到用于回放的任意其他合适的音频系统(例如5.1通道音频放大器)。

在一些实施例中，音频渲染器121可以被配置为对来自麦克风阵列和来自近麦克风的音频信号执行空间音频处理

来自颈挂式麦克风的颈挂式音频信号和由麦克风阵列捕获并用空间分析处理的空间音频可以在一些实施例中由音频渲染器组合成可以通过头戴式耳机收听的单个双耳输出。

在下面的示例中，空间音频信号被转换成多通道信号。多通道输出然后可以被双耳渲染，并且与双耳渲染的颈挂式源信号相加。

可以首先关于单个(单)通道描述渲染，该单通道可以是来自空间音频信号或来自颈挂式源之一的多通道信号之一。多通道信号集合中的每个通道可以以类似的方式被处理，其中对颈挂式音频信号和多通道信号的处理具有以下差异：

1)颈挂式音频信号具有时间变化的位置数据(到达方向和距离)，而多通道信号是从固定位置被渲染的。

2)合成的“直接”和“环境”分量之间的比率可以用来控制颈挂式源的距离感知，而多通道信号以固定比例被渲染。

3)用户可调节颈挂式信号的增益，而多通道信号的增益保持不变。

关于图8，示例音频渲染器121或渲染装置103关于针对单个单通道的示例渲染被进一步详细示出，该单个单通道可以是来自SPAC或颈挂式源之一的多通道信号中的一个。

音频渲染器的目标是能够在期望的方向和距离上产生听觉对象的感知。用这个示例处理的声音是使用头戴式耳机再现的。在一些实施例中，正常的双耳渲染引擎与特定的解相关器一起使用。双耳渲染引擎产生方向的感知。解相关器引擎可以包括与静态头部相关传输函数(HRTF)卷积的几个静态解相关器以产生距离的感知。这可以通过引起耳间水平差异(ILD)的波动来实现，这已经被发现是外部化双耳声音所需要的。当这两种引擎以适当的比例被混合时，结果是在期望的方向上感知到外部化的听觉对象。

本文所示的示例采用静态解相关引擎。输入信号可以在与某个方向相关的增益相乘之后被路由到每个解相关器。可以基于听觉对象的相对方向与静态解相关器的方向有多接近来选择增益。结果，可以避免当旋转头部时的插值假象，同时仍然具有解相关内容的方向性，这已经被发现可以提高输出的质量。

图8所示的音频渲染器显示了单通道音频信号输入和到达输入的相对方向。在一些实施例中，相对方向是基于世界坐标系中的确定的期望方向(基于空间捕获阵列和颈挂式麦克风之间的相对方向)和头部的取向(基于头部跟踪器输入)确定的。

图8的上部路径示出了传统的双耳渲染引擎。输入信号经由应用g_dry的增益的放大器1601被传送给头部相关传递函数(HRTF)内插器1605。HRTF内插器1605可以包括数据库中的头部相关传递函数(HRTF)的集合，HRTF滤波器系数是基于到达输入的方向来从其中选择。输入信号然后可以与内插的HRTF卷积以生成传递到左输出组合器1641和右输出组合器1643的左右HRTF输出。

图8的较低路径示出了输入信号经由应用g_wet增益的第二放大器1603被传送到多个解相关器路径。在图6所示的示例中，存在示出的两个解相关器路径，然而应当理解，可以实现任意数目的解相关器路径。解相关器路径可以包括解相关器放大器1611、1621，其被配置为应用解相关器增益g₁、g₂。解相关器增益g₁、g₂可以由增益确定器1631确定。

解相关器路径可以进一步包括解相关器1613、1623，其被配置为接收解相关器放大器1611、1621的输出并对信号进行解相关。解相关器1613、1623基本上可以是任意类型或种类的解相关器。例如，解相关器被配置为在不同频带处应用不同延迟，只要在解相关器的开始处存在预延迟。此延迟应至少为2毫秒(即，当求和本地化结束时，优先效应开始)。

解相关器路径可以进一步包括HRTF滤波器1615、1625，HRTF滤波器1615、1625被配置为接收解相关器1613、1623的输出并且应用预定的HRTF。换言之，解相关信号与预先确定的HRTF进行卷积，该预先确定HRTF被选择为覆盖听众周围的整个球体。在一些实施例中，解相关器路径的示例数量是12(但是在一些实施例中可以在大约6和20之间)。

然后，每个解相关器路径可以将左和右路径通道音频信号输出到左输出组合器1641和右输出组合器1643。

左输出组合器1641和右输出组合器1643可以被配置为接收“湿”和“干”路径音频信号并将它们组合以生成左输出信号和右输出信号。

增益确定器1631可以被配置为基于源的方向确定每个解相关器路径的增益g_i，例如使用以下表达式来：

g_i＝0.5+0.5(S_xD_x，i+S_vD_v，i+S_zD_z，i)

其中S＝[S_x S_y S_z]是源的方向向量，D_i＝[D_x，i D_y，i D_z，i]是解相关器路径i中的HRTF的方向向量。

在一些实施例中，可以控制应用g_dry增益的放大器1601和应用g_wet增益的第二放大器1603，使得可以基于“多少”外在化被期望来选择“干”路径和“湿”路径的增益。增益的比率影响听觉对象的感知距离。在实践中，已经注意到，好的值包括g_dry＝0.92和g_wet＝0.18。应当注意的是，解相关器路径的数量还影响g_wet的合适值。

此外，由于g_dry和g_wet之间的比率影响感知距离，因此控制它们可用于控制感知距离。

图10中示出了图8的较低路径的操作。

较低路径的方法可以包括接收到达方向参数。

该方法可以进一步包括为每个解相关路径或分支计算或确定解相关器放大器增益g_i。

针对每个解相关路径或分支，计算或确定解相关器放大器增益gi的操作在图10中由步骤1801示出。

此外，在与接收到达方向参数并行的一些实施例中，该方法还包括接收输入音频信号。

该方法可以进一步包括将接收到的音频信号乘以距离控制增益g_wet。

将输入音频信号与距离控制增益g_wet相乘的操作在图10中由步骤1803示出。

该方法可以进一步包括将前一步骤的输出与步骤1801中计算出的解相关分支或解相关路径特定增益相乘。

将前一步骤的输出与解相关分支或解相关路径特定增益相乘的操作在图10中通过步骤1803示出。

该方法还可以包括将前一步骤的输出与分支(或路径)特定解相关器进行卷积并且应用解相关分支或路径预定的HRTF。

将解相关分支特定放大器输出与分支(或路径)特定解相关器卷积并应用解相关分支或路径预定HRTF的操作在图10中通过步骤1805示出。

然后可以针对每个解相关重复将前一步骤的输出与解相关分支或解相关路径特定增益相乘并且将输出与分支(或路径)特定解相关器卷积并且应用解相关分支或路径预定HRTF的步骤，如循环箭头所示。

每个分支左信号的输出可以被求和并且每个分支右信号的输出可以被求和以进一步与“干”双耳左和右音频信号组合以生成一对输出信号

对每个分支左信号求和并对每个分支右信号求和的操作在图10中通过步骤1807示出。

图9示出了配置为渲染完整输出的音频渲染器。该示例中的全部输出包括一个或多个颈挂式信号，在这个示例中包括两个颈挂式信号，并且还包括以5.1多通道信号格式输出空间音频信号。

在示出的示例音频渲染器中，存在七个渲染器，其中示出了五个双耳渲染器。每个双耳渲染器可以类似于图6中所示的、被配置为渲染单个或单通道通道音频信号的双耳渲染器示例。换句话说，双耳渲染器1701、1703、1705、1707和1709中的每一个可以是与图8所示相同的装置，但是具有不同的输入集合，诸如本文所描述的。

在图9所示的示例中，存在两个来自颈挂式源音频信号。对于颈挂式信号，到达方向信息是时间相关的，并且从本文描述的定位方法获得。此外，用于捕获空间音频信号的颈挂式麦克风和麦克风阵列之间确定的距离被用于控制“直接/干”和“湿”路径之间的比率，更大的距离增加了“湿”路径的比例并减少“直接/干”的比例。相应地，距离可能会影响颈挂式源的增益，距离越短增益越大，距离越远增益越少。此外，用户还可以调整颈挂式源的增益。在一些实施例中，可以自动设置增益。在自动增益调整的情况下，可以使增益匹配，使得颈挂式源的能量与总信号能量的某个期望比例相匹配。可选地或除此之外，在一些实施例中，系统可匹配每个颈挂式信号的响度，使得其匹配其他信号(颈挂式信号和多通道信号)的平均响度。

因此，在一些实施例中，到第一颈挂式源双耳渲染器1701的输入是：来自第一颈挂式麦克风的音频信号；从第一颈挂式麦克风到麦克风阵列的、用于捕获空间音频信号的距离；用于信号能量调整的或用于聚焦于源的第一增益；以及基于第一颈挂式麦克风与用于捕获空间音频信号的麦克风阵列之间的取向的第一到达方向。如本文所述，第一到达方向可以进一步基于诸如来自头部跟踪器的用户输入。

此外，在一些实施例中，到第二颈挂式源双耳渲染器1703的输入是：来自第二颈挂式麦克风的音频信号；从第二颈挂式麦克风到用于捕获空间音频信号的麦克风阵列的距离；用于信号能量调整或用于聚焦源的第二增益；以及基于所述第二颈挂式麦克风与用于捕获所述空间音频信号的所述麦克风阵列之间的取向的第二到达方向。如本文所述，第二到达方向可以进一步基于诸如来自头部跟踪器的用户输入。

此外，还有5个双耳渲染器，其中的左前方、中央和后方环绕(或右后方)被示出。因此空间音频信号以5.1多通道格式表示，省略低频通道的每个通道用作到相应的双耳渲染器的单个音频信号输入。因此，信号及其到达方向是

左前方：30度

中央：0度

右前方：-30度

左后方：110度

右后方：-110度

然后可以由左通道组合器1711和右通道组合器1713组合来自每个渲染器的输出音频信号以生成双耳左输出通道音频信号和右输出通道音频信号。

注意，以上只是一个示例。例如，颈挂式源和SPAC捕获的空间音频可能会被不同地渲染。

例如，可以获得空间音频和每个颈挂式信号的双耳降混，然后可以对这些信号进行混合。因此，在这些实施例中，所捕获的空间音频信号被用于直接从麦克风阵列的输入信号来创建双耳降混，并且然后将其与颈挂式信号的双耳混合进行混合。

在一些进一步的实施例中，可以使用振幅平移技术将颈挂式音频信号上混到5.1多通道输出格式。

此外，在一些实施例中，空间音频也可以以诸如7.1或4.0的任意其他基于通道的格式来表示。空间音频也可以以任意已知的基于对象的格式来表示，并且被存储、发送或与颈挂式信号组合以创建基于对象的表示。

在这样的实施例中，来自接近麦克风的(时间延迟的)音频信号可以用作中信号(M)分量输入。类似地，空间音频信号用作侧信号(S)分量输入。位置或跟踪信息可以用作方向信息(a)输入。以这种方式，可以使用音频信号来采用实现中间-侧-方向(M-S-a)空间音频约定的任意合适的空间处理应用。例如可以实现诸如以US20130044884和US2012128174为特征的空间音频处理。

类似地，音频渲染器121可以采用诸如以已知空间处理(诸如以上明确特征化的那些)为特征的渲染方法和设备来生成合适的双耳或其他多通道音频格式信号。

音频渲染器121因此在一些实施例中可以被配置为将来自接近或颈挂式源的音频信号和来自麦克风阵列的音频信号进行组合。这些音频信号可以组合成可以通过头戴式耳机收听的单个双耳输出。

渲染装置103在一些实施例中包括头戴式耳机125。听众可以使用头戴式耳机来使用来自音频渲染器121的输出来生成音频体验。

因此，基于源和空间参数，颈挂式麦克风信号可以被混合并处理到空间音频场中。此外，在一些实施例中的渲染还可以基于源位置和头部跟踪输入来实现。在一些实施例中，通过使用具有固定位置的虚拟扬声器来渲染空间音频信号来实现渲染，并且从时变位置渲染所捕获的颈挂式源。因此，在一些实施例中，音频渲染器121可以被配置为基于跟踪的位置数据来控制颈挂式或接近源的方位角、仰角和距离。

此外，可以允许用户使用来自头部跟踪器123的输出来调整颈挂式源的增益和/或空间位置。例如，头部跟踪器输入可以用于改进双耳再现的质量。对双耳渲染(用于头戴式耳机)的备选，可以采用5.1通道格式或其他格式的空间降混。在这种情况下，在一些实施例中，颈挂式或接近源可以使用已知的振幅平移技术来被混合到其“合适的”空间位置。

关于图2a，进一步详细示出了在分析器109内实现的源分析器201的示例。源分析器201被配置为执行内容分析以对源进行分类。例如，分类可以确定声源的类型。

源分析器的输入是颈挂式麦克风音频信号。在一些实施例中，源分析器201可以可选地接收空间音频信号、来自相机的图像(视频)帧以及可选地接收深度数据。

源分析器201可以被配置为首先通过音频分类器对音频信号进行分类以确定最可能的人类发声类型和乐器类型。相应地，视频帧可以首先由可视分析器分析以确定最可能的人类类别和乐器类型。这些第一级或主分类器的输出可以被馈送到第二级分类器或辅分类器，其对源身份做出最终决定。

备选地，在一些实施例中，源分析器201可以是单个多模式分类器，其接收所有输入数据类型(音频、视频、深度)并直接输出最终决定。

在一些实施例中，源分析器201包括梅尔频率倒谱系数(mel-frequency cepstralcoefficient，MFCC)特征提取器211。在一些实施例中，MFCC特征提取器211被配置为接收音频信号输入并生成梅尔频率倒谱系数及其一阶时间导数。

MFCC特征提取器211可以在信号的短帧中生成。例如，20ms和40ms级别的帧长度适用于该任务。MFCC分析可以包括借助快速傅立叶变换(FFT)计算每帧的功率谱。然后，MFCC特征提取器可以被配置为通过将属于每个通道的功率谱短区相加以获得通道能量来将Mel滤波器组应用于功率谱。然后，MFCC特征提取器211可以取滤波器组能量的自然对数，并将离散余弦变换(DCT)应用于对数滤波器组能量。在一些实施例中，MFCC特征提取器然后可保留前20个DCT系数但丢弃与通道增益对应的第零个系数。

此外，MFCC的一阶时间导数可以由MFCC特征提取器211获得，作为拟合在每个MFCC系数的时间轨迹上的5点线的斜率。

MFCC特征提取器211然后可以被配置为针对每个帧生成包括20个静态MFCC系数以及20个导数系数的特征向量。

在一些实施例中，MFCC特征提取器211可以被之前已经从训练数据中学习到的任意合适的特征替换。

特征向量然后可以被传递给人声/乐器确定器213。

在一些实施例中，源分析器201可以包括人声/乐器确定器213。人声/乐器确定器被配置为接收提取的特征向量并且确定该帧是人类发声还是乐器中的任一类。在一些实施例中，这是通过训练支持向量分类器以在这两个类之间进行分类而获得的。发声类是通过人类发声数据库进行训练的，其包含语音、歌唱和其他人类创造的声音，如吹口哨。乐器类用包含在独奏设置中的独奏音符或独奏音乐演奏的不同乐器的声音的大型数据库训练。

在人声/乐器确定器213确定该帧是人类发声的情况下，则特征向量被传递到主发声分类器219。在人声/乐器确定器213确定该帧是乐器的情况下，特征向量被传递到主乐器分类器215。

在一些实施例中，源分析器201包括主发声分类器219。主发声分类器219可以被配置为接收特征向量并进一步对帧进行分类。例如，主发声分类器219可以被配置为将帧分类为男性言语、女性言语、男性唱歌、女性唱歌、儿童言语、儿童歌唱、其他男性发声、其他女性发声、其他儿童发声。这种分类可以通过使用注释音频样本的数据库作为训练数据来训练上面每个类别的高斯混合模型来完成。

然后可以将该帧的分类传递给辅发声分类器225。

在一些实施例中，源分析器201包括主乐器分类器215。主乐器分类器215可以被配置为接收特征向量并进一步对帧进行分类。例如，主乐器分类器215可以被配置为将该帧分类为：手风琴、民谣吉他、班卓斯、贝司、铜管、钟琴、鼓、电吉他、键盘、打击乐器、钢琴、萨克斯、弦乐、合成器和木管乐器。

该分类可以使用申请日期2014年12月22日的PCT/FI2014/051036申请中所述的方法来执行。

然后可以将该帧的分类传递给辅乐器分类器217。

在一些实施例中，源分析器201包括可视特征提取器221，该可视特征提取器221被配置为接收图像数据并提取合适的可视特征，合适的可视特征可以被传递到辅乐器分类器217和辅发声分类器225。

可视特征提取器221可以被配置为对来自相机的(全景)视频或图像数据执行图像分析，以便于识别驻留在颈挂式麦克风的方向上的对象的类别。

例如，在一些实施例中，可视特征提取器221可以被配置为提取传递给可视分类器223的可视特征元素。

可视特征可以是手工制作或确定的(如时空兴趣点)，也可以从大型视频数据集合中自动学习或确定的。

在一些实施例中，源分析器201包括可视分类器223。可视分类器223可以被配置为接收由可视特征提取器提取的特征并将可视对象识别器功能应用于特征以便确定输出分类。可视对象识别器功能可以通过在诸如ImageNet数据集合或PASCAL可视对象类数据集合的标记数据集合上训练可视对象识别器来开发。例如，识别器功能可以被训练以关于“人声”类别和不同音乐乐器的识别类别[人][男性][女性]。例如，识别器功能可以例如被训练成识别与如用于上所述音频分类器相同的乐器类别集合。

可视分类器223可以进一步能够对用户活动进行分类，然后用于控制音频渲染和混合过程中的若干参数。例如，如果一个人正在说话并进食(在交替的时间)，系统可以应用音频过滤器，该音频过滤器强调饮食噪音(例如，咀嚼噪音)上的声音。此外，音频混合参数和可视特征之间的关联可以例如通过执行回归分析来自动从训练数据中学习。

在一些实施例中，可视分类器223可以被配置为确定对象的取向的分类。例如，确定并输出人脸相对于相机的方向，无论它们面向相机、侧向相机、还是背向相机。例如，该信息可以用于调制在混合过程期间由颈挂式麦克风捕获的信号的直达环境声音参数的增益和/或比率。例如，当用户背对照相机时，声音可能变得不那么响亮，并且间接声音与直接声音的比例可能会增加。

在一些实施例中，可视特征提取器221可以被进一步配置为提供要在混合中使用的附加属性。例如，可由可视特征提取器221定义的属性或特征可以是用户活动(例如步行、跑步或跳舞)。

这些分类可以通过提取静态可视特征(换言之，仅从个体帧)或动态可视特征(换言之，描述相邻帧内的人和物体的运动的信息)来执行。

这些分类可以基于分类结果被传递到辅发声分类器225和辅乐器分类器217。

在一些实施例中，源分析器201包括辅发声分类器225。辅发声分类器225可以被配置为接收来自可视分类器223和主要发声分类器219的输出。

在一些实施例中，源分析器201包括辅乐器分类器217。辅乐器分类器217可以被配置为接收来自可视分类器223和主乐器分类器215的输出。

辅分类器可以配置为基于音频分析和可视分析两者来确定关于源类型的最终决定。在一些实施例中，可以通过神经网络分类器或支持向量机来实现辅分类器217(乐器)、225(发声)，该神经网络分类器或支持向量机将来自可视分类器和音频分类器的概率作为输入。辅分类器可以通过使用注释数据集合作为示例以及可视和音频分类器的概率作为特征来训练。

然后可以输出辅分类。

关于图2b，更详细地示出了在分析器109内实现的空间分析器251的示例。空间分析器251被配置为执行内容分析以对源位于其中的空间进行分类。例如，分类可以确定空间的类型。

在一些实施例中，空间分析器251包括基于音频的空间分析器261。基于音频的空间分析器261可以被配置为接收捕获的音频信号并对其进行分析以确定适合传递给房间混响分析器263的音频信号。

在一些实施例中，空间分析器251包括房间混响分析器263。房间混响分析器263可以被配置为接收提取的音频信号分量，其上可以确定房间的混响时间。例如，房间的混响时间可以根据Sampo Vesa，Aki

于2005年3月18-23日在Proc.IEEE ICASSP声学、语音和信号处理中的“Automatic Estimation of Reverberation Time From BinauralSignals”的方法来确定。在这种方法中，使用空间处的混响时间(RT)的估计可以通过使用短时间能量和通道间相干性测量，紧跟有Schroeder积分法、线拟合和最后的统计分析，基于定位用于RT分析的合适声音段来测量。线拟合用于估计衰减的斜率。斜率可以在最大化最小二乘法的相关系数的区域中被估计，并且使得估计结果比如果使用固定限制更精确，例如在衰减曲线上-5至-25dB，这是由于缺少由衰减曲线弯曲引起的系统误差。

混响时间因此描述了房间的特征，其中较大的空间具有比较小的空间更大的混响。然而，在户外环境中，可能没有任何混响。

这些值可以被传递到辅空间和混响分析器275。

在一些实施例中，空间分析器251包括基于可视的空间分析器271。基于可视的空间分析器271可以被配置为从相机接收捕获的图像，从可以传递给可视空间分类器273的图像来确定参数的合适特征。

在一些实施例中，空间分析器251包括可视空间分类器273。以类似于识别可视对象的方式，训练可视分类器以将不同场所分类以用于声音捕获。例如，可视空间分类器273可以被配置为将可视图像分类为体育场、音乐厅、不同房间、室外环境等中的一个。

在一些实施例中，假定空间在图像捕获过程期间不会随时间改变，并且因此可以通过对来自多个采样帧的静态特征进行分类来完成。然而，在空间改变的一些实施例中(例如当捕获剧场动作时，其中编舞可能改变空间特性)，则特征提取和分类可以以规则间隔或基于可视改变检测结果来被执行。

然后可以将来自可视空间分类器273的分类结果传递到辅空间和混响分析器275。

在一些实施例中，空间分析器251包括辅空间和混响分析器275。辅空间和混响分析器275可以被配置为接收可视空间分类结果和房间混响分析器263的输出。辅空间和混响分析器在一些实施例中被配置为输出空间的辅分类或最终分类。例如，最终分类可以通过将输入应用于用来自可视空间分类器和基于音频的混响时间估计器的特征来训练的神经网络来确定。

辅空间和混响分析器275因此可以输出关于空间类型(室内、室外、小房间、中等房间、大房间、教堂、体育场、小型音乐厅、中型音乐厅、大型音乐厅)以及以秒为单位的混响时间的最终决定。

与基于可视或基于音频的估计中的任一个将被单独使用的情况相比，辅空间和混响分析器275的目的可以是改进空间分类和混响时间估计的准确性。

关于图3，示出了根据一些实施例的示例渲染装置103。

渲染装置103在一些实施例中包括规则集合选择器303。规则集合选择器303可以被配置为接收确定的分类或由捕获装置内的分析器109确定的源和空间参数。此外，规则集合选择器303可以被配置为与用户界面和/或存储器交互，以便相对于处理或渲染操作来取回用户偏好集合311。

规则集合选择器303还可以被配置为与存储器交互以确定可用效果或处理313可以实现的例程或代码。

规则集合选择器303因此可以获得源和空间的类别的信息作为输入。该信息在图1所示的示例中由音频捕获设备(颈挂式麦克风、空间音频捕获设备等)信号传送，但是在一些实施例中可以由专用音频源和空间(环境)分析器信号传送。在一些实施例中，专用分析器可以是与捕获装置101和渲染装置103分离的设备，例如基于云或基于服务器的分析器。此外在一些实施例中，专用分析器可以与音频混合器/渲染器装置组合在一起。

在一些实施例中，类别信息可以是形式的指示

source_type：女声歌唱

source_style：正常唱歌

source-loudness：90

space_type：中等房间

reverberation_time：0.8秒

activity_type：跳舞

facing_camera：真

因此，在这个示例中，关于源是乐器还是发声、以及语音或乐器类型的子分类的源类型在字段source_type中被定义。源类型字段source_style还定义了源。源响度字段source-loudness定义源的音量或功率。空间类型字段space_type定义了源所在的环境的类型。混响时间字段reverberation_time定义了房间或环境的混响时间。活动类型字段activity_type定义源的活动或期望的移动的类型。此外，面向相机字段facing_camera定义了源是否位于朝向相机，并且因此指示源面向或背离捕获空间音频信号的麦克风阵列。

在一些实施例中，可以将信息以合适的XML/SDP/JSON格式封装，用于通过如SIP/HTTP/RTSP或任意合适的传输协议的合适的传输格式信号传送该信息。

在一些实施例中，规则集合选择器可以被配置为从存储的规则集合来确定基于信号传送的源和空间参数来应用的适用的处理或效果，规则集合定义在不同情况下应用什么类型的处理。

例如，由规则集合选择器303应用的简单规则集合可以确定对于语音源类型没有效果被应用。类似地，规则集合选择器303可以确定对于唱歌源类型，可以启用混响效果。此外，规则集合选择器303可以基于空间类型和/或混响时间来确定指令要被控制的混响量的设置。

例如，诸如freeverb(https://ccrma.stanford.edu/～jos/pasp/Freeverb.html)的某些混响实现允许提供模拟房间的大小作为百分比。例如，0％可能对应一个衣柜，100％对应一个巨大的大教堂或大礼堂。空间类型和/或混响时间可以被映射到百分比，并提供给混响算法，并用于处理颈挂式源。

在一些实施例中，源相对于空间捕获麦克风的取向(如在以上示例中由facing_camera字段所指示的)可以用于定义用于改变最终混合中的间接声音(音频环境)的量规则集合。这可以通过调整诸如本文所述的渲染方法的直接增益g_dry和湿增益g_wet之间的比率来完成。

在一些实施例中，由规则集合选择器303定义的由渲染器应用的可能的效果或处理的确定还可以基于用户偏好。在一些实施例中，规则集合选择器303可以被配置为根据初始或“工厂”设置初始操作，但是用户然后可以根据他们自己的偏好进行定制。

规则集合选择器303可以被配置为基于源和空间参数来启用任意合适的效果或过程。例如，可以实现诸如延迟或自动调谐的其他效果。例如，规则集合选择器303可以定义每当输入源被指示为歌唱源(男性、女性或儿童)时，则自动调谐效果被应用。作为另一个示例，如果用户活动正在跑步或跳舞，则该移动很可能会影响歌唱性能。在这种情况下，规则集合选择器303可以被配置为启用自动调谐和可能的噪声消除处理，以便增加歌唱纯度并去除由跳舞/移动活动引起的一些不想要的噪声。

此外，在一些实施例中，规则集合选择器303可以被配置为基于源和/或空间参数来改变或定义效果设置。例如，效果设置可以被确定为基于歌唱/说话的响度和风格。因此，例如，在规则集合选择器303确定源是包括‘正常唱歌’、‘假唱歌’和‘咆哮’的风格的情况下，则规则集合选择器303可以确定压缩设置取决于歌唱音量。作为另一个示例，在规则集合选择器303确定源是包括‘正常唱歌’、‘假唱歌’和，‘咆哮’的风格的情况下，规则集合选择器303可以在来源是“正常唱歌”类型或“假唱”类型的情况下确定自动调谐效果的设置或可用设置的范围不同。此外，在相同示例中，规则集合选择器303可以确定自动调谐可以在“咆哮”歌唱中被完全绕过。

类似地，规则集合选择器303可以被配置为基于乐器身份来选择要应用的效果集合(以及可用于效果的设置或设置范围)，使得被定义的效果适合于该乐器和/或乐器被演奏的空间。

这些定义或选择的规则集合可以被传递给渲染器处理器315。

在一些实施例中，渲染器装置103包括渲染器处理器315。渲染器处理器315可被配置为接收由规则集合选择器303定义的所选效果或处理、可用效果或处理代码或例程313、以及要被渲染的音频信号。

渲染装置103然后可以被配置为生成音频信号(颈挂式或者接近音频源音频信号和空间音频信号)的混合或者渲染，并且进一步地至少基于在颈挂式或关闭音频源音频信号来应用如由规则集合选择器303所定义的任意合适的处理或者效果。

如本文所讨论的，所渲染的音频信号然后可以被输出到合适的音频信号呈现输出，诸如头戴式耳机或耳机或者用于从所渲染的音频信号生成音频体验的环绕声装置。

关于图4至7，示出了示出上述组件的操作的示例流程图。

例如，图4示出了音频捕获和分析操作的流程图。

在一些实施例中，捕获装置被配置为捕获来自麦克风的空间阵列的音频信号。

图4中通过步骤401示出了捕获来自空间阵列的音频信号的操作。

此外，捕获设备还被配置为标记或确定空间阵列的位置。

标记或确定空间阵列的位置的操作在图4中通过步骤407示出。

在一些实施例中，捕获装置被配置为捕获来自颈挂式麦克风的音频信号。

图4中通过步骤403示出了捕获来自颈挂式麦克风音频信号的操作。

此外，捕获装置还被配置为标记或确定颈挂式麦克风的位置。

在图4中通过步骤409示出了标记或确定颈挂式麦克风的位置的操作。

捕获装置然后可以使用标记或位置信息来确定并跟踪麦克风相对于空间阵列的相对位置。

图4中通过步骤411示出了确定和跟踪颈挂式或近麦克风相对于空间音频捕获设备或空间阵列的相对位置的操作。

然后可以(向渲染装置103)输出颈挂式或近麦克风相对于空间音频捕获设备或空间阵列的相对位置。

图4中由步骤413示出了输出所确定或跟踪的相对位置的操作。

捕获装置然后可以生成音频信号之间的时间延迟的估计。该时间延迟可以基于信号之间的互相关确定。

图4中通过步骤421示出了生成时间延迟的估计的操作。

捕获装置可以将时间延迟应用于颈挂式麦克风音频信号。

图4中通过步骤423示出了将延时应用于颈挂式麦克风音频信号的操作。

捕获装置然后可以输出时间延迟颈挂式麦克风音频信号和空间音频信号(到渲染装置103)。

图4中通过步骤425示出了输出时间延迟颈挂式麦克风音频信号和空间音频信号的操作。

捕获装置可以进一步捕获视频图像。

图4中通过步骤405示出了捕获视频图像的操作。

然后可以分析视频图像和音频信号以确定或分类源或者确定与源相关联的任意参数。

图4中通过步骤431示出了对视频图像和音频信号执行源分析以识别和分类源的操作。

捕获装置然后可以将源参数和/或分类输出到渲染装置。

图4中由步骤433示出了输出源参数的操作。

还可以分析视频图像和音频信号以确定或分类源位于其中的空间或确定与该空间相关联的任意参数。

图4中通过步骤441示出了对视频图像和音频信号执行空间分析以标识和分类空间的操作。

捕获装置然后可以将空间参数和/或分类输出到渲染装置。

图4中通过步骤443示出了输出空间参数的操作。

关于图5，示出如图2a所示的源分析器的操作的流程图被示出。

源分析器201可以被配置为接收音频信号。

图5中由步骤501示出了接收音频信号的操作。

源分析器201还可以被配置为提取合适的音频特征，诸如梅尔频率倒谱系数(MFCC)特征

图5中通过步骤505示出了提取诸如MFCC特征的音频特征的操作。

此外，源分析器201可以被配置为确定当前正被分析的音频信号或音频信号的帧是人类发声还是音乐乐器类别中的任一种。

在图5中通过步骤509示出了确定音频信号是人类发声还是乐器类别中的任一种的操作。

在分析器确定音频信号(帧)是人类发声的情况下，则分析器可以进一步确定音频信号(帧)的初始或主要语音分类，其可以包括确定与分类相关联的参数。

主语音分类的这种确定在图5中由步骤513示出。

在分析器确定音频信号(帧)是音乐乐器的情况下，分析器可以进一步确定音频信号(帧)的初始或主乐器分类，其可以包括确定与分类相关联的参数。

图5中由步骤515示出了主乐器分类的这种确定。

此外，源分析器可以例如从相机接收视频或图像帧。

图5中通过步骤503示出了接收视频或图像帧的操作。

源分析器然后可以从图像提取合适的图像或可视特征。

图5中通过步骤507示出了提取合适的可视或图像特征的操作。

源分析器然后可以被配置为使用提取的可视或图像特征来确定源的基于可视的分类并且基于分类输出这个分类或基于分类的参数。

图5中通过步骤511示出了基于可视特征对源进行分类的操作。

在如上所述的一些实施例中，源分析器然后可以基于主语音分类和可视分类信息来确定最终或辅语音分类。

图5中通过步骤517示出了辅话音分类的这种确定。

然后辅语音分类和任意相关联的源参数可以被输出到渲染器装置或被存储。

图5中通过步骤521示出了源的语音分类的输出。

在如上所述的一些实施例中，对于乐器源，源分析器可以基于主乐器分类和可视分类信息来确定最终乐器分类或辅乐器分类。

图5中通过步骤519显示了辅乐器分类的这种确定。

然后辅乐器分类和任意相关联的源参数可以被输出到渲染器装置或被存储。

图5中通过步骤523示出了乐器(针对来源)的分类输出。

关于图6，示出了在分析器109内实现的空间分析器251的操作的示例。

如本文所讨论的，空间分析器251可以被配置为接收音频信号。

图6中由步骤601示出了接收音频信号的操作。

空间分析器251然后可以执行内容分析以对空间进行分类和/或确定房间混响参数。

图6中由步骤603示出了分析音频信号以提取合适的音频特征的操作。

空间分析器251然后可以确定“房间”或空间的混响时间，其也可以被用于定义空间或对空间进行分类。

图6中由步骤605示出了房间混响时间的确定。

此外，空间分析器251可以诸如从相机接收视频或图像帧。

图6中通过步骤611示出了接收视频或图像帧的操作。

空间分析器251然后可以执行内容分析以提取合适的可视特征。

图6中通过步骤613示出了分析视频或图像以提取合适的可视特征的操作。

空间分析器251然后可以基于提取的可视特征来确定或分类空间。

图6中由步骤615示出了基于可视的空间分类的确定。

此外，基于可视的分类和基于音频的分类和混响时间被进一步比较和分析以确定辅空间分类或最终的空间分类和混响时间。

图6中通过步骤617示出了空间的辅分类或最终分类(以及与分类相关联的其他参数，诸如混响时间)的确定。

空间分析器251然后可以将最终分类和任意其他空间参数输出到渲染装置。

图6中通过步骤619示出了诸如空间的最终分类的空间参数的输出。

关于图7，示出了渲染装置103的操作的示例。

渲染装置103可以接收源和空间参数。例如，渲染装置103可以接收音频源的分类、空间的分类以及“房间”的混响时间。

图7中通过步骤701示出了接收源和空间参数的操作。

渲染装置103还可以接收用户偏好。例如，用户偏好可以从用户界面接收，或者可以被存储在存储器中(并且包括初始或工厂定义的用户偏好)。图7中通过步骤703示出了接收用户偏好的操作。

渲染装置103还可以被配置为确定可用于被使用效果或处理操作或例程。图7中通过步骤705示出了确定用于处理音频信号的可用效果或例程的操作。

渲染装置103然后可以基于源和空间参数、用户偏好和可用效果来确定或选择用于处理音频信号的处理或效果规则集合。图7中通过步骤709示出了至少基于源和空间参数来确定效果/处理规则的操作。

在一些实施例中，渲染装置103接收音频信号(例如来自捕获装置101)。在图7中通过步骤707示出了接收音频信号的操作。

渲染装置103然后可以被配置为执行可以根据用于处理和效果的所确定的规则集合来处理的音频信号的合适的混合/渲染。

图7中通过步骤711示出了使用可用效果/处理和规则来渲染音频信号的操作。

关于图11，示出了可以用作捕获设备101和/或渲染装置103的至少一部分的示例电子设备。例如，示例电子设备可以被用作SPAC设备。该设备可以是任意合适的电子设备或装置。例如，在一些实施例中，设备1200是移动设备、用户设备、平板计算机、计算机、音频回放设备等

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如N个)麦克风。然而，可以理解的是，可以有任意合适的麦克风配置和任意合适数量的麦克风。在一些实施例中，麦克风阵列1201与装置和通过有线或无线耦合被发送到装置的音频信号分离。如图1所示，麦克风阵列1201在一些实施例中可以是SPAC麦克风阵列113。

麦克风可以是被配置为将声波转换为合适的电音频信号的换能器。在一些实施例中，麦克风可以是固态麦克风。换句话说，麦克风可以能够捕获音频信号并输出合适的数字格式信号。在一些其他实施例中，麦克风或麦克风阵列1201可以包括任意合适的麦克风或音频捕获部件，例如电容麦克风、电容式麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带状麦克风、碳麦克风、压电麦克风或微电-机械系统(MEMS)麦克风。在一些实施例中，麦克风可以将音频捕获信号输出到模数转换器(ADC)1203。

SPAC设备1200可以进一步包括模数转换器1203。模数转换器1203可以被配置为从麦克风阵列1201中的每个麦克风接收音频信号并且将它们转换为适合于处理的格式。在麦克风是集成麦克风的一些实施例中，模数转换器不是必需的。模数转换器1203可以是任意合适的模数转换或处理部件。模数转换器1203可以被配置为将音频信号的数字表示输出到处理器1207或存储器1211。

在一些实施例中，设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实现的程序代码可以包括例如SPAC控制、位置确定和跟踪以及诸如本文所述的其他代码例程。

在一些实施例中，设备1200包括存储器1211。在一些实施例中，至少一个处理器1207被耦合到存储器1211。存储器1211可以是任意合适的存储部件。在一些实施例中，存储器1211包括用于存储可在处理器1207上实现的程序代码的程序代码段。此外，在一些实施例中，存储器1211还可以包括用于存储数据的存储数据段，例如根据本文描述的实施例的已经处理或待处理的数据。存储在程序代码段中的所实现的程序代码和存储在存储数据段中的数据可以在需要时经由存储器-处理器耦合由处理器1207取回。

在一些实施例中，设备1200包括用户界面1205。用户界面1205可以在一些实施例中被耦合到处理器1207。在一些实施例中，处理器1207可以控制用户界面1205的操作并从用户界面1205接收输入。在一些实施例中，用户界面1205可以使用户能够例如经由小键盘向设备1200输入命令。在一些实施例中，用户界面205可以使用户能够从设备1200获得信息。例如，用户界面1205可以包括被配置为向用户显示来自设备1200信息的显示器。在一些实施例中，用户界面1205可以包括能够使信息被输入到设备1200并且进一步向设备1200的用户显示信息的触摸屏或触摸界面。

在一些实现方式中，设备1200包括收发机1209。在这样的实施例中，收发机1209可以被耦合到处理器1207并且被配置为能够例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机1209或任意合适的收发机或发射机和/或接收机部件可以被配置为经由线或有线耦合与其他电子设备或装置进行通信。

例如，如图11所示，收发机1209可以被配置为与渲染装置103通信。

收发机1209可以通过任意合适的已知通信协议与附加装置进行通信。例如，在一些实施例中，收发机209或收发机部件可以使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的适当的短程射频通信协议、或红外数据通信路径(IRDA)。

在一些实施例中，设备1200可以被用作渲染装置。这样，收发机1209可以被配置为从捕获装置101接收音频信号和位置信息，并且通过使用执行合适的代码的处理器1207来生成合适的音频信号渲染。设备1200可以包括数模转换器1213。数模转换器1213可以耦合到处理器1207和/或存储器1211并且被配置为将音频信号的数字表示(诸如来自处理器1207，在本文描述的音频信号的音频渲染之后)转换为适合于经由音频子系统输出呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)1213或信号处理部件可以是任意合适的DAC技术。

此外，在一些实施例中，设备1200可以包括音频子系统输出1215。诸如图8中所示的示例可以是音频子系统输出1215是被配置为能够实现与耳机121耦合的输出插座的位置。然而，音频子系统输出1215可以是任意合适的音频输出或到音频输出的连接。例如，音频子系统输出1215可以是到多通道扬声器系统的连接。

在一些实施例中，数模转换器1213和音频子系统1215可以在物理上分离的输出设备内实现。例如，DAC 1213和音频子系统1215可以被实现为经由收发机1209与设备1200通信的无绳耳机。

尽管示出的设备1200具有音频捕获和音频渲染组件两者，但是应当理解，在一些实施例中，设备1200可以仅包括音频捕获或音频渲染装置元件。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任意组合来实现。例如，一些方面可以用硬件来实现，而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管可以将本发明的各个方面示出和描述为框图、流程图或使用某些其他图形表示，但是很好理解的是，本文描述的这些框、设备、系统、技术或方法可以作为非限制性示例被实现在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其一些组合。

本发明的实施例可以由移动设备的数据处理器执行的计算机软件来实现，诸如在处理器实体中、或者通过硬件、或者通过软件和硬件的组合来实现。进一步在这方面，应当注意的是，如附图中的逻辑流的任意框可以表示程序步骤或互连的逻辑电路、框和功能、或程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片、处理器内实现的存储器块，诸如硬盘或软盘的磁介质、以及诸如例如DVD及其数据变体CD的光介质的物理介质上。

存储器可以是适用于本地技术环境的任意类型，并且可以使用任意合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适用于本地技术环境的任意类型，并且可以包括以下项中的一项或多项：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路以及基于多核处理器架构的处理器，作为非限制性示例。

本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计大体上是高度自动化过程。复杂和强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

诸如加利福尼亚州Mountain View的Synopsys公司和加利福尼亚州圣何塞的Cadence设计公司提供的程序使用已建立的设计规则以及预先存储的设计模块的库来自动路由导体并在定位半导体芯片上的组件。一旦半导体电路的设计已经完成，以标准化电子格式(例如，Opus、GDSII等)的所得到的设计可以被发送到半导体制造设施或“fab”以用于制造。

以上描述已经通过示例性和非限制性示例的方式提供了本发明的示例性实施例的完整且信息性的描述。然而，当结合附图和所附权利要求阅读时，结合前面的描述，各种修改和适应对于相关领域的技术人员来说可以变得显而易见。然而，对于本发明的教导的所有这些和类似的修改仍然落入如所附权利要求所限定的本发明的范围内。

Claims

1.一种用于处理音频信号的装置，包括：

至少一个处理器，以及

至少一个非暂态存储器，包括计算机程序代码，至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：

接收与被配置为提供空间音频捕获的麦克风阵列相关联的空间音频信号和与附加麦克风相关联的至少一个附加音频信号，所述附加音频信号已经被延迟确定的可变延迟，使得所述空间音频信号和所述至少一个附加音频信号的共同分量被时间对齐；

接收与所述麦克风阵列相关联的第一位置和与所述附加麦克风相关联的第二位置之间的相对位置以用于音频信号的渲染；

接收对与所述共同分量相关联的音频源进行分类的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数；

基于所述至少一个源参数和/或所述至少一个空间参数来确定至少一个处理效果规则集合；以及

通过基于所述至少一个处理效果规则集合将至少一个处理效果混合并且应用到所述空间音频信号和所述至少一个附加音频信号来生成至少两个输出音频通道信号。

2.根据权利要求1所述的装置，其中被配置为确定所述至少一个处理效果规则集合的所述装置被配置为：基于所述至少一个源参数和/或所述至少一个空间参数来确定要被应用于所述至少一个附加音频信号的所述至少一个处理效果。

3.根据权利要求2所述的装置，其中所述装置还被配置为接收效果用户输入，并且其中所述装置还被配置为基于所述效果用户输入来确定要被应用于所述至少一个附加音频信号的所述至少一个处理效果。

4.根据权利要求2所述的装置，其中被配置为确定所述至少一个处理效果规则集合的所述装置还被配置为：基于所述至少一个源参数和/或所述至少一个空间参数，来确定针对控制所述至少一个处理效果的参数的可用输入的范围。

5.根据权利要求4所述的装置，其中所述装置还被配置为接收参数用户输入，并且其中所述处理器还被配置为：基于所述参数用户输入从针对控制所述至少一个处理效果的参数的所述可用输入的范围中确定参数值。

6.根据权利要求1-5中任一项所述的装置，其中被配置为通过将所述至少一个处理效果混合并且应用到所述空间音频信号和所述至少一个附加音频信号来生成所述至少两个输出音频通道信号的所述装置还被配置为：基于与所述麦克风阵列相关联的所述第一位置和与所述附加麦克风相关联的所述第二位置之间的所述相对位置，来将所述至少一个处理效果混合并且应用到所述空间音频信号和所述至少一个附加信号。

7.根据权利要求1所述的装置，其中所述装置是渲染装置。

8.一种用于处理音频信号的装置，包括：

至少一个处理器，以及

确定由被配置为提供空间音频捕获的麦克风阵列在第一位置处捕获的空间音频信号；

确定由附加麦克风在第二位置处捕获的至少一个附加音频信号；

确定并且跟踪所述第一位置与所述第二位置之间的相对位置；

确定所述空间音频信号和所述至少一个附加音频信号之间的可变延迟，使得所述空间音频信号和所述至少一个附加音频信号的共同分量被时间对齐；

将所述可变延迟应用于所述至少一个附加音频信号以基本上对齐所述空间音频信号和至少一个附加音频信号的所述共同分量；

基于所述至少一个附加音频信号来确定对与所述共同分量相关联的音频源进行分类的至少一个源参数和/或标识所述音频源位于其中的环境的至少一个空间参数；以及

向渲染装置输出彼此时间对齐的所述空间音频信号和所述至少一个附加音频信号，所述第一位置与所述第二位置之间的所述相对位置，所述至少一个源参数和所述至少一个空间参数。

9.根据权利要求8所述的装置，其中被配置为确定所述至少一个源参数和/或所述至少一个空间参数的所述装置被配置为：还基于以下项中的至少一项来确定所述至少一个源参数和/或所述至少一个空间参数：

所述空间音频信号；以及

至少一个相机图像。

10.根据权利要求8和9中任一项所述的装置，其中被配置为确定所述至少一个空间参数的所述装置被配置为：执行以下项中的至少一项：

确定与所述至少一个附加音频信号相关联的房间混响时间；

确定房间分类器，所述房间分类器被配置为标识所述音频源位于其中的空间类型；

基于所述至少一个附加音频信号来确定至少一个临时空间参数，基于对至少一个相机图像的分析来确定至少一个附加临时空间参数，并且基于所述至少一个临时空间参数和所述至少一个附加临时空间参数来确定至少一个最终空间参数；

基于所述至少一个附加音频信号的提取的特征分析来确定所述至少一个音频源是人声源还是乐器源，基于所述处理器确定所述至少一个音频源是人声源来确定所述至少一个音频源的临时人声分类，并且基于所述处理器确定所述至少一个音频源是乐器源来确定所述至少一个音频源的临时乐器分类；

从捕获所述至少一个音频源的相机接收至少一个图像，基于所述至少一个图像来确定所述至少一个音频源的可视分类，以及基于所述临时人声分类和所述可视分类来确定所述至少一个音频源的最终人声分类，或者基于所述临时乐器分类和所述可视分类来确定最终乐器分类。

11.根据权利要求8所述的装置，其中所述装置是捕获装置。

12.一种用于处理音频信号的方法，包括：

通过基于所述至少一个处理效果规则集合将至少一个处理效果混合并应用到所述空间音频信号和所述至少一个附加音频信号来生成至少两个输出音频通道信号。

13.根据权利要求12所述的方法，其中确定所述至少一个处理效果规则集合包括：基于所述至少一个源参数和/或所述至少一个空间参数来确定要被应用于所述至少一个附加音频信号的所述至少一个处理效果。

14.根据权利要求13所述的方法，还包括接收效果用户输入，其中确定要被应用于所述至少一个附加音频信号的所述至少一个处理效果还可以基于所述效果用户输入。

15.根据权利要求13所述的方法，其中确定所述至少一个处理效果规则集合包括：基于所述至少一个源参数和/或所述至少一个空间参数来确定针对控制所述至少一个处理效果的参数的可用输入的范围。

16.根据权利要求15所述的方法，还包括接收参数用户输入，其中从针对控制所述至少一个处理效果的参数的所述可用输入的范围确定参数值还可以基于所述参数用户输入。

17.根据权利要求12至16中任一项所述的方法，其中通过将所述至少一个处理效果混合并且应用到所述空间音频信号和所述至少一个附加音频信号来生成所述至少两个输出音频通道信号还可以包括：基于与所述麦克风阵列相关联的所述第一位置和与所述附加麦克风相关联的所述第二位置之间的所述相对位置，来将所述至少一个处理效果混合和应用到所述空间音频信号和所述至少一个附加信号。

18.一种用于处理音频信号的方法，包括：

确定并跟踪所述第一位置与所述第二位置之间的相对位置；

19.根据权利要求18所述的方法，其中确定所述至少一个源参数和/或所述至少一个空间参数包括：还基于以下项中的至少一项来确定所述至少一个源参数和/或所述至少一个空间参数：

所述空间音频信号；以及

至少一个相机图像。

20.根据权利要求18和19中任一项所述的方法，其中确定所述至少一个空间参数包括以下项中的至少一项：

确定与所述至少一个附加音频信号相关联的房间混响时间；确定房间分类器，所述房间分类器被配置为识别所述音频源位于其中的空间类型；基于所述至少一个附加音频信号来确定至少一个临时空间参数，基于对至少一个相机图像的分析来确定至少一个附加临时空间参数，以及基于所述至少一个临时空间参数和所述至少一个附加临时空间参数来确定至少一个最终空间参数；

基于所述至少一个附加音频信号的提取的特征分析来确定所述至少一个音频源是人声源还是乐器源，以及基于确定所述至少一个音频源是人声源来确定所述至少一个音频源的临时人声分类，并且基于确定所述至少一个音频源是乐器源来确定所述至少一个音频源的临时乐器分类；以及