CN109791769B

CN109791769B - 使用自适应捕捉从麦克风阵列生成空间音频信号格式

Info

Publication number: CN109791769B
Application number: CN201780059645.4A
Authority: CN
Inventors: J·维卡莫; M-V·莱蒂南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-09-28
Filing date: 2017-09-22
Publication date: 2024-05-07
Anticipated expiration: 2037-09-22
Also published as: EP3520104A1; WO2018060550A1; US20210281964A1; US11671781B2; US11317231B2; EP3520104A4; JP6824420B2; GB2554446A; US20220174444A1; GB201616478D0; JP2019530389A; CN109791769A

Abstract

一种装置，包括处理器，所述处理器被配置为：接收至少两个麦克风音频信号；确定与所述至少两个麦克风音频信号相关联的空间元数据；以及基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号，以便输出预定阶的空间音频信号格式。

Description

使用自适应捕捉从麦克风阵列生成空间音频信号格式

技术领域

本申请涉及用于使用自适应信号处理技术从麦克风阵列生成球面谐波信号的装置和方法。

背景技术

现有两种不同类型的空间声音捕捉和再现，它们涉及到以下公开：

1)高保真立体声(ambisonics)，其中使用麦克风阵列线性地(非自适应地)捕捉球面谐波信号。球面谐波信号可以使用传统的非自适应方法被解码到扬声器或者以双声道的方式被解码到耳机。在双声道再现中，球面谐波信号可以使用旋转矩阵、基于收听者的头部方位而被旋转，并且经旋转的信号可以随后以线性方式被双声道解码。

2)自适应空间音频捕捉(SPAC)方法，其采用对来自麦克风阵列信号的感知相关空间信息(例如，频带中到来声音的方向)的动态分析。该信息——经常被称作空间元数据——被应用于动态合成在感知上类似于原始录制的声场的空间再现。当被妥善实施时，对于大多数实际设备而言，这样的自适应方法在感知上优于高保真立体声，并且还能够应用于更广泛的捕捉设备类型。

高保真立体声音频格式(或球面谐波信号)是一种传统的空间音频信号表示。近年来，这种信号表示(或格式)也已经成为了用于空间音频传输的普遍实施的选择。其由不同阶的球面谐波所构成。零阶谐波(＝零空间频率)由全向信号所表示。一阶谐波由双极模式表示，并且更高阶则具有四极，等等。以下公开中的术语更高阶高保真立体声(HOA)是指使用零阶至二阶(或更高阶)球面谐波信号的技术。对于球面谐波信号具有许多变体或配置。例如，球面谐波的相对振幅或排序在不同定义下可能有所变化。任何这样的变体之间的转换通常使用线性(矩阵)运算是直截了当的。

高保真立体声音频格式(或球面谐波信号)也可以被用作用来传送空间音频的格式。例如，YouTube 3D音频/视频服务已经开始使用由一个全向信号(零阶)和三个双极信号(一阶)构成的一阶高保真立体声格式(球面谐波信号)来流传输空间音频。虽然该方法对于质量或比特率而言都不是最优的，但是现有的流服务显示该方法实际上为终端用户产生了令人满意的体验。此外，高保真立体声音频格式是一种直截了当的且完全定义的格式。因此，这对于诸如YouTube等的服务是一种有用的音频格式并且相同地使用。使用已知方法，高保真立体声音频格式信号可以在接收器端被线性解码并且被渲染至耳机(双声道)或扬声器。

球面谐波信号的生成存在着问题。为了生成球面谐波信号，可能需要专业麦克风阵列形式的专业装置使用线性手段来捕捉信号。用于使用常规或一般的麦克风布置来生成球面谐波信号并且随后使用线性组合处理麦克风信号的其它方式可能产生导致不佳质量结果的球面谐波信号。

发明内容

根据第一方面，提供了一种装置，包括处理器，所述处理器被配置为：接收至少两个麦克风音频信号；确定与所述至少两个麦克风音频信号相关联的空间元数据；以及基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式。

所述处理器可以进一步被配置为从麦克风阵列接收所述至少两个麦克风音频信号。

所述处理器可以被配置为分析所述至少两个麦克风音频信号以确定所述空间元数据。

所述处理器可以被配置为进一步接收与所述至少两个麦克风音频信号相关联的空间元数据。

所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为：针对所述至少一个麦克风音频信号的第一部分和所述空间元数据来自适应地合成所述多个球面谐波音频信号；使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号；以及组合所述球面谐波音频信号。

所述至少一个麦克风音频信号的第一部分可以是所述至少一个麦克风音频信号的第一频带，并且所述至少一个麦克风音频信号的第二部分可以是所述至少一个麦克风音频信号的第二频带。

所述处理器可以进一步被配置为基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带。

被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为：基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分，针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号；使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号；以及将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合。

所述处理器可以进一步被配置为基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号。

被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以被配置为：基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分，针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号；使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号；以及将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合。

被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为：基于所述至少一个麦克风音频信号和所述空间元数据的位置部分来生成多个定义位置合成的通道音频信号；对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号。

被配置为基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的所述处理器可以进一步被配置为：基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分；基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移(amplitude-pan)以生成定义位置合成的通道音频信号的定向部分；对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成；以及将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号。

被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以被配置为：基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合；基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合；以及将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号。

所述处理器可以进一步被配置为基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分。

被配置为基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的所述处理器可以进一步被配置为：基于所述元数据的定向部分确定至少一个经建模的移动源权重；以及从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合。

被配置为基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的所述处理器可以进一步被配置为对球面谐波音频信号的氛围集合进行解相关合成。

被配置为基于至少一个麦克风音频信号和所述空间元数据合成多个球面谐波音频信号的所述处理器可以进一步被配置为：基于所述元数据确定目标随机属性；分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性；基于所述短时间随机特性和所述目标随机属性生成优化权重集合；以及基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号。

与所述至少一个麦克风音频信号相关联的空间元数据可以包括以下项的至少一项：频带的空间元数据的定向参数；和所述频带的空间元数据的比率参数。

所述至少两个麦克风可以包括外部麦克风、设备麦克风、或者外部麦克风和设备麦克风的组合。

所述至少一个麦克风音频信号可以包括外部通道或至少两个麦克风音频信号之一。

根据第二方面，提供了一种方法，包括：接收至少两个麦克风音频信号；确定与所述至少两个麦克风音频信号相关联的空间元数据；以及基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式。

所述方法可以进一步包括从麦克风阵列接收所述至少两个麦克风音频信号。

确定与所述至少两个麦克风音频信号相关联的空间元数据可以进一步包括分析所述至少两个麦克风音频信号以确定所述空间元数据。

确定与所述至少两个麦克风音频信号相关联的空间元数据可以进一步包括接收与所述至少两个麦克风音频信号相关联的空间元数据。

所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括：针对所述至少一个麦克风音频信号的第一部分和所述空间元数据自适应地合成所述多个球面谐波音频信号；使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号；以及组合所述球面谐波音频信号。

所述方法可以进一步包括基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带。

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括：基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分，针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号；使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号；以及将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合。

所述方法可以进一步包括基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号。

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括：基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分，针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号；使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号；以及将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合。

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括：基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号；以及对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号。

基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号可以进一步包括：基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分；基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移以生成定义位置合成的通道音频信号的定向部分；对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成；以及将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号。

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括：基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合；基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合；以及将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号。

所述方法可以进一步包括基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分。

基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合可以进一步包括：基于所述元数据的定向部分确定至少一个经建模的移动源权重；以及从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合。

基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合可以包括对球面谐波音频信号的氛围集合进行解相关合成。

基于至少一个麦克风音频信号和所述空间元数据合成多个球面谐波音频信号可以进一步包括：基于所述元数据确定目标随机属性；分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性；基于所述短时间随机特性和所述目标随机属性生成优化权重集合；以及基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号。

根据第三方面，提供了一种装置，包括：用于接收至少两个麦克风音频信号的部件；用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件；和用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式的部件。

所述用于接收至少两个麦克风音频信号的部件可以进一步从麦克风阵列接收所述音频信号。

所述用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件可以进一步包括用于分析所述至少两个麦克风音频信号以确定所述空间元数据的部件。

所述用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件可以进一步包括用于接收与所述至少两个麦克风音频信号相关联的空间元数据的部件。

所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以包括：用于针对所述至少一个麦克风音频信号的第一部分和所述空间元数据自适应地合成所述多个球面谐波音频信号的部件；用于使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号的部件；和用于组合所述球面谐波音频信号的部件。

所述装置可以进一步包括用于基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带的部件。

所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括：用于基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号的部件；用于使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号的部件；和用于将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合的部件。

所述装置可以进一步包括用于基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号的部件。

所述用于基于至少一个麦克风音频信号和所述空间元数据自适应地合成多个球面谐波音频信号的部件可以进一步包括：用于基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号的部件；用于使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号的部件；和用于将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合的部件。

所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括：用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的部件；和用于对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号的部件。

所述用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的部件可以进一步包括：用于基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分的部件；用于基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移以生成定义位置合成的通道音频信号的定向部分的部件；用于对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成的部件；和用于将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号的部件。

所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括：用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的部件；用于基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的部件；和用于将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号的部件。

所述装置可以进一步包括用于基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分的部件。

所述用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的部件可以进一步包括：用于基于所述元数据的定向部分确定至少一个经建模的移动源权重的部件；和用于从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合的部件。

所述用于基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的部件可以进一步包括用于对球面谐波音频信号的氛围集合进行解相关合成的部件。

所述用于基于至少一个麦克风音频信号和所述空间元数据来合成多个球面谐波音频信号的部件可以进一步包括：用于基于所述元数据确定目标随机属性的部件；分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性；用于基于所述短时间随机特性和所述目标随机属性生成优化权重集合的部件；和用于基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号的部件。

一种存储在介质上的计算机程序产品可以使得装置执行如本文所描述的方法。

一种电子设备可以包括如本文所描述的装置。

一种芯片组可以包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例参考附图，其中：

图1a和图1b示意性地示出了适于实施一些实施例的分布式音频捕捉和处理系统和装置；

图2示意性地示出了根据一些实施例的如图1b所示的合成器的第一示例；

图3示意性地示出了根据一些实施例的如图1b所示的合成器的第二示例；

图4示意性地示出了根据一些实施例的如图1b所示的合成器的第三示例；

图5示意性地示出了根据一些实施例的如图1b所示的示例混合合成器；和

图6示意性地示出了适于实施实施例的装置。

具体实施方式

下文进一步详细描述了用于从麦克风阵列提供有效的球面谐波信号生成的适当装置和可能机制。在以下示例中，描述了音频信号和音频捕捉信号。然而，将要意识到的是，在一些实施例中，该装置可以是被配置为捕捉音频信号或者接收音频信号和其它信息信号的任意适当电子设备或装置的一部分。在下文中，术语球面谐波表示空间上的谐波。此外，如随后进一步详细解释的，自适应部件表示处理关于所处理信号的属性是自适应的。因此，如随后所描述的，可以从音频信号提取特征，并且信号根据这些特征以不同方式被处理。本文所描述的实施例在至少一些频带和/或球面谐波阶和/或空间维度的方面描述了自适应处理。因此，与常规的高保真立体声相比，在输出和输入之间并没有线性对应性。

以下公开具体描述了自适应SPAC技术，其表示用于先于扬声器或耳机从麦克风阵列进行空间音频捕捉的方法。如下文所描述的实施例涉及到使得SPAC捕捉方法能够与球面谐波信号表示相兼容。换句话说，为了使得采用动态SPAC分析的系统的输出能够与现有的高保真立体声解码器相兼容。空间音频捕捉(SPAC)在这里是指使用自适应频率分析和处理以从配备有麦克风阵列的任意设备提供高感知质量的空间音频再现的技术，所述设备例如是诺基亚OZO或移动电话。对于水平面中的SPAC捕捉至少需要3个麦克风，而对于3D捕捉而言则需要至少4个麦克风。SPAC方法是自适应的，换句话说，它们使用非线性方法对现有技术的传统线性捕捉技术的空间准确性加以改善。

传统的(用于从麦克风阵列捕捉球面谐波信号的)线性操作和方法的问题在于，为了准确地捕捉音频信号而针对麦克风阵列的要求是严格的。例如，一阶球面谐波音频信号捕捉将要求具有方向传感器的B格式麦克风。

可替换地，对于诸如诺基亚OZO或智能电话的刚性设备而言，全向麦克风(传感器)可以被安装在设备的表面上。原则上，基于麦克风信号，可以使用线性方法得到球面谐波信号。实际上，如将在下文进一步详细讨论的，线性方法对于许多有关的实际使用情形提出了过于严格的要求。

第一种线性方法是对麦克风信号应用所指定的线性滤波器的矩阵从而获得球面谐波分量。一种等效的备选线性方法是将麦克风信号变换至时频域，并且针对每个频带使用指定混合矩阵以在时频域中获得球面谐波信号。在时频域中所得到的球面谐波信号随后被反向变换回时域PCM信号。

然而，由于(下文进一步详细讨论的)线性空间音频捕捉的根本约束，设备首先必须要足够大以便进行低频捕捉(例如，OZO的大小大约为260×170×160mm)，并且麦克风间距必须足够密集以便进行高频捕捉(例如，分隔2cm)。这产生了对于大量麦克风的要求。同时令人满意地满足这两项属性的设备的示例是32个麦克风的Eigenmike，这是一种仅音频的解决方案。

对例如具有8个麦克风的OZO尺寸的设备应用线性方法的问题在于，中到高的听觉频率(例如，高于1.5kHz)具有与麦克风间隔相比过小的波长。在这些频率下，出现公知的空间假频的效应。这意味着球面谐波音频信号不再保留它们所预期的空间捕捉模式，并且作为结果，这样的信号针对扬声器或耳机的任何解码在这些频率下都将是空间错误的。例如，可能发生的是，所再现的声音被感知为来自于错误的方向，或者定向感知是模糊的。换句话说，传统的线性方法无法使得能够使用OZO或任何类似设备在令人满意的听觉带宽中捕捉球面谐波音频信号。

小型设备的问题是低频下关于阵列尺寸的大的波长。在低频(例如，200Hz)下，音频波长为1.7米。可以作为智能电话的小型设备可以将麦克风定位在2cm分隔。由于音频波长很长，所以到达不同麦克风的声音非常相似。一阶和更高阶的球面谐波从麦克风信号之间的差别所构建，并且在小型设备的情况下该差别信号的振幅关于麦克风的自身噪声或其它干扰而言非常小。例如，在200Hz，所假设的小型设备会被一阶球面谐波下大约20dB的有所减小的信噪比所影响。该效应对于越高阶的球面谐波越大。更高阶的线性捕捉也要求许多的麦克风(例如，9个或更多)，这对于小型设备而言是不切实际的。换句话说，传统的线性方法无法使得能够使用移动设备或任何类似设备在令人满意的听觉带宽中捕捉球面谐波音频信号。

作为上文的概括，在OZO设备的情况下，麦克风对于较高频率过于稀疏，而对于诸如移动电话的小型设备来说，阵列大小对于低频又太小。

换句话说，对于诸如32个麦克风的Eigenmike的高端阵列以外的设备，很大比例的听觉频率范围无法利用传统的线性方法妥善捕捉。这一问题在所有的线性——即非自适应的——空间捕捉技术中是等同的，而并非仅是在采用球面谐波表示时才出现。因此，对于大部分实际的设备类别而言，要求采用自适应SPAC方法进行空间音频捕捉，在生成球面谐波的情境中同样如此。

虽然为了克服该问题并且在令人满意的带宽下以线性方式获得球面谐波信号，一种方法可以是为OZO类型的相机配备以许多高质量的麦克风，诸如32个或更多，但是这产生了复杂且明显更加昂贵的设备。这些实施例中的概念是要构建具有较少——诸如8个——麦克风的设备，其更加简单并且更加成本有效。对于诸如手持球面相机或智能电话之类的小型设备而言，现有技术并没有可用的这种线性捕捉选项。

类似地，虽然对于音频/视频捕捉而言，除视频捕捉部件之外可以使用支持线性球面谐波捕捉的外部高质量麦克风阵列，但是直接使用安装在视频设备自身上的麦克风更加便利。

现有许多用于自适应感知激励的空间音频捕捉的高质量方法。如本文进一步详细描述的概念是在从麦克风阵列生成球面谐波音频信号时使用SPAC方法。特别地，在一些实施例中，为了使用SPAC方法来使得能够利用麦克风阵列生成球面谐波信号，针对所述麦克风阵列，至少在一些频率下不可能令人满意地以线性方式得到球面谐波信号。

术语SPAC在本文中被用作覆盖提供空间音频捕捉的任何自适应阵列信号处理技术的一般化术语。范围中的方法在频带信号中应用分析和处理，因为这是对于空间听觉感知而言有意义的域。诸如到来声音的方向和/或确定所录制声音的方向性或无方向性的比率或能量参数之类的空间元数据可以在频带中被动态分析。该元数据在再现阶段被应用，从而以超过使用等效麦克风阵列利用高保真立体声所能够获得的空间准确性、针对耳机或扬声器而动态合成空间声音。例如，到达阵列的平面波可以在接收器端被再现为点式源，这与非常高阶的高保真立体声再现的性能相当。

一种空间音频捕捉(SPAC)再现的方法是定向音频编码(DirAC)，这是一种使用声场强度和能量分析来提供能够针对扬声器或耳机进行高质量的自适应空间音频合成的空间元数据的方法。另一个示例是谐波平面波扩展(Harpex)，这是一种能够同时分析两个平面波的方法，其可以进一步改善某些声场条件下的空间精度。另外一种方法是主要意在用于移动电话空间音频捕捉的方法，其使用麦克风之间的延迟和相干分析来获得空间元数据，以及其针对诸如OZO之类的包含更多麦克风和阴影体(shadowing body)的设备的变体。虽然在以下示例中描述了两种变体，但是可以使用被应用于获得空间元数据的任何适当方法。如此的概念是，在其来自麦克风信号的情况下，从麦克风音频信号对空间元数据的集合(诸如声音在频带中的方向，以及诸如混响之类的非定向声音的相对数量)进行分析，并且其使得能够对空间声音进行自适应的准确合成。

SPAC方法的使用对于小型设备也是鲁棒的，这是出于两种原因：首先，它们通常使用短时间随机分析，这意味着噪声对于估计的影响被降低。其次，它们通常被设计用于分析声场的感官相关的属性，这是空间音频再现的主要兴趣所在。相关属性通常是到来声音的(多个)方向和它们的能量，以及非定向氛围能量的数量。能量参数可以以许多方式来表达，诸如关于方向与总量比率(direct-to-total ratio)参数、氛围与总量比率(ambience-to-total ratio)参数等。该参数在频带中被估计，因为在这样的形式下，这些参数对于人的空间收听是特别相关的。该频带可以是巴克(Bark)带、等效矩形带(ERB)或者任意其它感官激励的非线性标度。而且，能够应用线性频率标度，但是在这种情况下，期望分辨率足够精细以便也覆盖人的听力最经常选择的低频。

因此，SPAC分析的使用提供了感官相关的动态空间元数据，例如频带中的(多个)方向和(多个)能量比率。SPAC合成是指对音频信号的处理以针对所再现的声音获得根据所分析的空间元数据的感知空间特性。例如，如果SPAC分析提供了频带中的声音从特定方向到达麦克风阵列的信息，则SPAC合成阶段例如可以向信号应用与该方向相对应的头相关传输函数(HRTF)。作为结果，以该频率在耳机上再现的声音在感知上类似于实际声音以所分析的方向到达的情形。相同的过程也可以(通常独立地)且随时间自适应地被应用于所有其它频带。

类似地，许多SPAC分析和合成方法还根据空间元数据在时间上并且在频率上自适应地考虑诸如混响之类的氛围信号，其通常在合成阶段在空间上分布再现。

因此如参考图1a、图1b、图2至图5所描述的示例示出了其中SPAC方法被应用以从麦克风阵列自适应地合成任意阶球面谐波信号的实施例，利用所述麦克风阵列，至少针对一些频率不可能获得一阶球面谐波表示。

例如，如之前所描述的，空间假频会妨碍一阶球面谐波音频信号的生成，或者设备形状(例如，小型设备)会妨碍在该设备的窄方向的轴处生成实际上可用的球面谐波分量(由于SNR)。

在本文所描述的实施例中：

首先，通过分析来自所捕捉的麦克风音频信号的频带信号而确定空间元数据(例如，(多个)方向、(多个)比率)。

其次，该空间元数据信息随后在从至少一个麦克风阵列频带信号合成球面谐波频带信号时被应用。

通过实施这样的实施例，可能使得能够通过诸如YouTube之类的通道针对诸如OZO、移动电话、Ricoh Theta型设备等的各类设备进行空间声音再现，而其中现有技术至少在一些频率下是无能为力的。

如随后在一些实施例中进一步详细示出的，可以采用混合方法进行空间声音再现，其中对于一些频率和/或球面谐波阶和/或空间轴，麦克风音频信号可以使用线性方法被处理，而对于其它一些频率和/或球面谐波阶和/或空间轴，麦克风音频信号可以利用动态(即，自适应)处理而被处理。该混合方法对于其中例如线性方法仅可以针对某些频率和/或某些球面谐波阶和/或某些空间轴产生非常高质量的球面谐波分量的配置会是有利的。

参考图1a，其示出了适于实施一些实施例的示例音频捕捉和处理系统99。

系统99可以进一步包括空间音频捕捉(SPAC)设备105。空间音频捕捉设备105在一些实施例中可以包括定向或全向麦克风阵列141，定向或全向麦克风阵列141被配置为捕捉与例如由(多个)声源和氛围声音所表示的声场相关联的音频信号。空间音频捕捉设备105可以被配置为将所捕捉的音频信号输出至处理器和合成器100。

在一些实施例中，空间音频捕捉设备105被实施在移动设备/OZO内，或者具有或不具有相机的任何其它设备内。该空间音频捕捉设备因此被配置为捕捉空间音频，所述空间音频在向收听者渲染时使得收听者能够体验到类似于他们处于该空间音频捕捉设备的位置的情况下的空间声音。

系统99另外可以包括处理器和合成器100，处理器和合成器100被配置为接收空间音频捕捉设备105的麦克风阵列141的输出。

处理器和合成器100可以被配置为处理(例如，自适应混合)空间音频捕捉设备105的输出，并且将这些经处理的信号作为要内部存储或传送至其它设备(例如，要被解码并向用户渲染)的球面谐波音频信号进行输出。通常，该处理是自适应的并且在频带中进行。

图1b更为详细地示出了示例的处理器和合成器100。处理器和合成器100被配置为接收音频信号/流。例如，处理器和合成器100可以被配置为从(空间音频捕捉设备105内的)麦克风阵列141接收音频信号。在一些实施例中，该输入可以是被“录制”或存储的音频信号。在一些实施例中，该音频输入可以包括所采样的音频信号以及描述音频源或者对象方向或位置的元数据，或者诸如所分析的SPAC元数据之类的其它定向参数，例如包括频带中的定向参数和能量比率参数。在一些实施例中，该音频输入信号(其包括与麦克风相关联的音频输入信号)可以包括其它可选参数，诸如增益值或者要被应用于音频信号的均衡滤波器。

如果该输入信号还包含扬声器信号或音频对象信号，则这样的信号可以使用常规方法被处理为球面谐波信号，换句话说，通过对输入通道信号应用根据(多个)空间方向的球面谐波变换权重来处理。这样的处理是简单的且不同于SPAC处理，SPAC处理依赖于频带中感知激励的空间元数据分析。

在一些实施例中，处理器和合成器100包括滤波器组131。滤波器组131使得时域麦克风音频信号能够被变换为频带信号。这样，可以对麦克风信号应用任何适当的时域到频域变换。在一些实施例中可以实施的典型滤波器组是短时傅里叶变换(STFT)，其涉及分析窗口和FFT。替代STFT的其它适当变换可以是复杂调制的正交镜像滤波器(QMF)组。该滤波器组可以产生复杂数值的频带信号，其指示作为时间和频率的函数的输入信号的相位和振幅。该滤波器组在其频率分解中可以是统一的，这支持高度有效的信号处理结构。然而，统一频带可以被分组为非线性频率分解，这类似于人类空间听力的谱分解。

例如，其中空间音频捕捉设备105的麦克风阵列141包括M个麦克风。滤波器组131可以接收麦克风信号x(m,n’)，其中m和n’分别是麦克风的索引和时间，并且利用短时傅里叶变换将输入信号变换为频带信号

X(k,m,n)＝F(x(m,n’))

其中X表示变换后的频带信号，并且k表示频带索引，而n则表示时间索引。

这些信号随后可以被输出至合成器135和分析器133。

在一些实施例中，处理器和合成器100包括分析器133，分析器133被配置为分析来自滤波器组131的音频信号并且确定与录制位置处的声场相关联的空间元数据。

SPAC分析(任何这样的技术)可以被应用于频带信号(或它们的群组)以获得空间元数据。空间元数据的典型示例是每个频率间隔以及每个时间帧的(多个)方向和(多个)方向与总能量比率。例如，一种选项是基于麦克风间的延迟分析来得到定向参数，这进而可以例如通过构建具有不同延迟的信号的交叉相关性并且找出最大相关性来执行。另一种得到定向参数的方法是使用声场强度矢量分析，这是在定向音频编码(DirAC)中应用的过程。

在(高于空间假频频率的)较高频率下，一种方案是针对诸如OZO的一些设备使用设备声影从而获得定向信息。麦克风信号能量通常在设备上大多数声音到达的一侧较高，因此能量信息可以提供对于定向参数的估计。

在阵列信号处理的领域中存在许多另外的用于估计到达方向的方法。

还有一种方案是使用麦克风间的相干分析来估计每个时频间隔的非定向氛围的数量(换句话说，能量比率参数)。该比率参数也可以利用其它方法来估计，诸如使用定向参数的稳定性测量，等等。被应用以获得空间元数据的具体方法并非当前范围的主要兴趣所在。

在该部分，描述一种使用基于音频输入信号通道之间的关联的延迟估计的方法。在该方法中，针对B个频域子带独立地估计到来声音的方向。其思想是针对每个子带找出可能是实际声源的方向的至少一个方向参数，或者近似于多个声源的组合方向性的方向参数。例如，在一些情况下，方向参数可以直接指向单个活动源，而在其它情况下，方向参数例如可以在两个活动声源之间近似地以弧线进行波动。在存在房间反射和混响的情况下，方向参数可能波动更大。因此，方向参数可以被认为是感知激励的参数：虽然例如在具有若干活动源的情况下时频间隔下的一个方向参数可能并不指向这些活动源中的任何一个活动源，但是其近似于录制位置处的空间声音的主要方向性。连同比率参数一起，该定向信息大致地捕捉多个同时活动的源的组合感知空间信息。这样的分析在每个时频间隔执行，并且作为结果，在感知意义上对声音的空间方面加以捕捉。该定向参数非常快地进行波动，并且表达出声音能量如何波动经过录制位置。这为收听者进行再现，并且收听者的听力系统因此得到空间感知。在一些时频情形中，一个源可能非常突显，并且定向估计确切地指向该方向，但是这并不是一般的情况。

频带信号表示被标示为X(k,m,n)，其中m是麦克风索引，k是频带索引{k＝0,…,N-1}，并且其中N是时频变换信号的频带的数量。该频带信号表示被分组为B个子带，其中每个子带具有较低频带索引和较高频带索引/>子带/>的宽度例如可以近似于ERB(等效矩形带宽)标度或巴克标度。

该方向分析可以表征以下的操作。在这种情况下，假设具有三个麦克风的平板移动设备。该配置可以提供水平面中的定向参数以及比率参数等的分析。

首先，利用两个麦克风信号(在该示例中，是在捕捉设备的相对边缘处位于该设备的水平面中的麦克风2和3)来估计水平方向。对于两个输入麦克风音频信号，估计那些通道中的频带信号之间的时间差。任务是要针对子带b找出使得两个通道之间的关联最大化的延迟τ_b。

频带信号X(k,m,n)可以使用下式而被移位τ_b个时域样本，

其中f_k是组k的中心频率并且f_s是采样速率。针对子带b的最优延迟和时间索引n随后从下式得出：

其中Re指示结果的实数部分并且*表示复共轭，而D_max是样本中的最大延迟，其可以是分数，并且在声音确切地到达麦克风对所确定的轴时出现。虽然上文例示了一个时间索引n上的延迟估计的示例，但是在一些实施例中，可以通过同样在该轴中对估计进行平均或相加而在若干索引n上执行延迟参数的估计。对于τ_b而言，大约一个样本针对许多智能电话的解析对于延迟的搜索而言是令人满意的。而且可以使用关联以外的其它感知激励的相似性量度。

作为麦克风所捕捉的音频能量的表示的“声源”因此可以被认为创建了示例性时域函数所描述的事件，所述时域函数在例如阵列中的第二麦克风的麦克风处被接收，并且相同的事件被第三麦克风所接收。在理想情形中，在阵列中的第二麦克风处被接收的示例性时域函数简单地就是在第三麦克风处所接收的函数的时间移位版本。这种情形之所以被描述为是理想的，是因为在现实中两个麦克风将可能体验到不同的环境，例如在它们对事件的录制会被构造性或破坏性干扰或者阻挡或提升来自事件的声音的要素所影响，等等。

移位τ_b指示相比第三麦克风而言、声源有多么更接近第二麦克风(当τ_b为正时，声源相比第三麦克风更接近于第二麦克风)。在-1和1之间，归一化的延迟可以被构建为

利用基本几何形状并且假设声音是到达水平面的平面波，则可以确定到达声音的水平角度等于

注意到，对于到达声音的方向有两种备选，因为仅利用两个麦克风无法确定确切的方向。例如，处于设备前方或后方的镜面对称角度的源可能产生相同的麦克风间延迟估计。

因此可以利用另外的麦克风——例如三个麦克风的阵列中的第一麦克风——来限定哪个符号(+或-)是正确的。该信息在一些配置中可以通过估计麦克风对之间的延迟参数而获得，所述麦克风对中的一个麦克风(例如，第一麦克风)处于智能电话的后侧而另一个麦克风(例如，第二麦克风)处于智能电话的前侧。设备的该纤薄轴处的分析对于产生可靠的延迟估计而言可能构成噪声。然而，如果在设备的前侧或后侧找到最大关联，则整体趋势可以是鲁棒的。利用该信息，可以解析两个可能方向的模糊性。而且可以应用其它方法来解析该模糊性。

针对每个子带重复相同的估计。

等效的方法可以被应用于其中存在“水平”和“垂直”位移从而能够确定方位和高度的麦克风阵列。对于具有四个或更多麦克风(它们在垂直于以上所描述方向的平面中相互位移)的设备或智能电话，也可以执行高度分析。在该情况下，例如，延迟分析可以首先在水平平面并且接着在垂直平面中被构建。随后，基于两个延迟估计，能够找出估计的到达方向。例如，可以执行类似于GPS定位系统中的延迟至定位的分析。同样在这种情况下，存在方向的前后模糊性，其例如如上文所描述的那样被解析。

在一些实施例中，可以根据以下方法生成表达非定向和定向声音的相对比例的比率元数据。

1)对于具有最大相互距离的麦克风，构建最大关联延迟值和相对应的关联值c。关联值c是归一化关联，其对于完全关联的信号为1而对于不相干信号为0。

2)针对每个频率，根据麦克风距离构建扩散场关联值(c_diff)。例如，在高频下，c_diff≈0。对于低频，其可以是非零值。

3)对关联值进行归一化以找出比率参数：ratio＝(c-c_diff)/(1-c_diff)

所产生的比率参数随后在0和1之间被截取。利用这样的估计方法：

当c＝1时，则ratio＝1。

当c≤c_diff时，则ratio＝0。

当c_diff<c<1时，则0<ratio<1。

以上的简单公式提供了比率参数的近似。在极值处(完全定向和完全非定向的声场条件)，该估计为真。极值之间的比率估计根据声音到达角度可能具有一些偏差。然而，可以论证以上公式的准确性在这些条件下实际上也是令人满意的。还能够应用用于生成定向和比率参数(或者根据所应用分析技术的其它空间元数据)的其它方法。

SPAC分析方法的类别中的上述方法意在主要用于诸如智能电话的平板设备。该设备的纤薄轴被确定为仅适用于二进制的前后选择，因为更加准确的空间分析在该轴处可能并不鲁棒。使用上述延迟/关联分析以及相应的定向估计，所分析的空间元数据主要出于设备的较长轴。

下文描述另外一种用于估计空间元数据的方法，其提供了两个麦克风通道的实际最小值的示例。具有不同定向模式的两个定向麦克风例如可以分开20cm进行放置。等同于之前的方法，可以使用麦克风对的延迟分析来估计两个可能的水平到达方向。随后能够使用麦克风方向性来解析前后模糊性：如果一个麦克风具有更多朝向前方的衰减而另一个麦克风具有更多朝向后方的衰减，则例如能够通过测量麦克风频带信号的最大能量来解析前后模糊性。例如使用如之前所描述的相似方法，能够使用麦克风对之间的关联分析来估计比率参数。

清楚的是，其它空间音频捕捉方法也可以适用于获得空间元数据。特别地，对于诸如球面设备的非平板设备，其它方法可能更加适合，例如通过使得参数估计能够有更高的鲁棒性。文献中的公知示例是定向音频编码(DirAC)，以其典型的形式，它包括以下步骤：

1)获取B格式信号，其等同于一阶球面谐波信号。

2)根据该B格式信号在频带中估计声场强度矢量和声场能量：

a.强度矢量可以使用W(零阶)信号和X,Y,Z(一阶)信号之间的短时间交叉关联估计而获得。到达方向是声场强度矢量的相反方向。

b.从声场强度和声场能量的绝对值，可以估计出扩散度(即，氛围与总量比率)参数。例如，在强度矢量的长度为零时，扩散度参数为1。

因此，在一个实施例中，能够应用根据DirAC范例的空间分析以产生空间元数据，因此最终使得能够进行球面谐波信号的合成。换句话说，定向参数和比率参数可以通过若干种不同的方法来估计。

为了进一步阐明DirAC分析中的上述处理步骤，将指明所输入的B格式(即，球面谐波或高保真立体声格式)信号与整体实施例的所再现的输出球面谐波信号之间的差别。例如，如果已经从紧凑的麦克风阵列获取到该信号，则所输入的B格式信号针对X,Y,Z分量可能具有在低频下的过多噪声。然而，该噪声对于DirAC空间元数据分析仅具有微小影响，因为该元数据是从短时间随机估计进行分析。具体而言，随机分析减少了噪声对于估计的影响。因此，使用DirAC分析技术的实施例可以1)鲁棒地估计定向参数，并且2)使用可用的高SNR W信号(零阶信号)合成球面谐波输出信号。因此，所输出的球面谐波信号可以比所输入的球面谐波信号具有更高的感知保真度。

在一个实施例中，处理器和合成器100包括合成器135。合成器135可以被配置为接收频带信号表示和空间元数据，并且被配置为生成球面谐波信号。合成器135参考图2至图5所示的示例进一步详细描述。在一些实施例中，球面谐波频带信号被输出至反向滤波器组137。虽然合成器135可以完全在频域中操作，诸如图1b所示，但是在诸如下文图2所示的示例中所示出的一些实施例中，它可以部分在频带域而部分在时域中操作。例如，合成器135可以包括向反向滤波器组137输出频带域信号的第一部分或频带域部分，以及从反向滤波器组137接收时域信号并且输出适当的时域球面谐波信号的第二部分或时域部分。

在一些实施例中，处理器和合成器100包括反向滤波器组137。反向滤波器组137可以接收所生成的球面谐波频带信号并且对它们执行频域至时域变换以便生成该球面谐波信号的时域表示。

参考图2，示出了合成器135的第一示例。该合成器示例被配置为使得在拥有可从SPAC分析获得的空间元数据的情况下，该合成器首先合成中间虚拟多通道扬声器信号，例如在3D中覆盖球体的14个虚拟扬声器通道，并且对该信号应用球面谐波变换。

合成器135因此可以包括定向分频器201。定向分频器201可以被配置为接收频带表示以及与音频信号的定向分量相关联的比率数值。定向分频器201随后可以对每个带应用比率数值以便生成音频信号的定向部分和非定向(或氛围)部分。例如，根据比率参数的乘法器可以被构建并且被应用于所输入的频带信号以生成定向部分和非定向部分。该定向部分可以被送至振幅平移合成器203，并且该非定向部分可以被送至解相关合成器205。

合成器135可以进一步包括振幅平移合成器203。振幅平移合成器203被配置为接收音频信号的定向部分并且还有空间元数据的定向信息部分，并且从这些生成或合成“虚拟”扬声器信号。在一些实施例中，有14个“虚拟”扬声器通道被布置在3D空间中。这14个通道例如可以被定位为使得有6个通道布置在水平平面中，4个通道位于该平面上方并且4个通道位于其下方。然而，这仅是一个示例，并且可能实施任何其它数量或布置的虚拟扬声器通道。

该振幅平移合成器例如可以在每个频带处应用基于矢量的振幅平移(VBAP)从而在空间元数据所确定的方向上再现声音的定向部分。虚拟扬声器信号随后可以被输出至组合器207。虽然虚拟扬声器信号可以由VBAP所生成，但是可以采用任何其它适当的虚拟通道信号生成方法。术语“虚拟”是指该扬声器信号是一种中间表示。

合成器135可以进一步包括解相关合成器205。解相关合成器205可以被配置为接收音频信号的非定向部分并且生成氛围或非定向分量以便与虚拟扬声器信号进行组合。例如，氛围部分例如可以使用解相关器来合成以将声音能量分布至所有或许多的虚拟扬声器。氛围部分可以被输出至组合器207。

合成器135可以进一步包括组合器207。组合器207可以被配置为接收虚拟扬声器信号和氛围部分，并且使用虚拟扬声器布置生成经组合的定向和氛围表示。该经组合的虚拟扬声器频带表示可以被送至反向滤波器组137。

在该布置中，反向滤波器组137可以将与虚拟扬声器表示相关联的时域信号送至球面谐波变换器209。

合成器135可以进一步包括球面谐波变换器209。球面谐波变换器209可以被配置为接收与虚拟扬声器表示相关联的时域信号并且通过任意已知方法将该虚拟扬声器信号变换为球面谐波分量。例如，每个虚拟扬声器信号被加权(利用特定权重)并且被输出至每个球面谐波输出。该权重可以被应用于宽带信号。该权重根据虚拟扬声器的方位和高度而被构建。

虽然图2所示的示例示出了在时域中生成球面谐波变换，但是所要理解的是，在一些实施例中，球面谐波变换在频域(或频带域)中应用。换句话说，球面谐波变换器209是频带信号变换器，并且位于反向滤波器组137之前且在组合器207之后。该权重在该示例中可以被应用于频带信号。

参考图3，示出了第二示例合成器135。在该示例中，球面谐波信号可以(使用空间元数据)直接合成，即没有中间的虚拟扬声器布局表示。

合成器135因此可以包括定向分频器301。定向分频器301可以被配置为接收频带表示以及与音频信号的定向分量相关联的比率数值。定向分频器135随后可以将该比率数值应用于每个带以便生成音频信号的定向部分和非定向(或氛围)部分。定向部分可以被送至移动源合成器303，而非定向部分则可以被送至解相关合成器305。

合成器135可以进一步包括移动源合成器303。移动源合成器303被配置为接收音频信号的定向部分并且还有空间元数据的定向信息部分，并且基于定向分析从这些生成与经建模的移动源相关联的球面谐波变换权重。例如，音频信号的(多个)定向部分可以被认为是(多个)虚拟移动源。定向元数据可以确定移动源的方向，并且能量元数据(例如，比率参数)确定在该方向所再现的能量的数量。在一些实施例中，该定向估计被平滑(例如，在时间或频带上被低通滤波)以便减少输出中的突发听觉波动。虚拟源的位置因此可以在每个频带信号的时刻潜在地发生变化。由于虚拟移动源的方向可以根据频率而潜在变化，所以独立地针对每个频带以及球面谐波权重执行球面谐波变换，此时能够生成在时间和频率上是自适应的所述球面谐波变换并且将其连同音频信号一起送至球面谐波变换器306。

在一些实施例中，合成器135包括球面谐波变换器306，球面谐波变换器306被配置为接收所确定的权重和音频信号并且生成频带球面谐波信号的定向部分。该频带球面谐波信号的定向部分随后可以被送至组合器307。在一些实施例中，移动源合成器303和球面谐波变换器306的操作可以在单个操作或模块中执行。

合成器135可以进一步包括解相关合成器305。解相关合成器305可以被配置为直接合成信号能量的氛围部分。这之所以可以执行，是因为根据球面谐波信号的定义，它们在理想的氛围或扩散声场中——例如在混响中——是互相不相干的。因此，可以通过对所输入的麦克风频带信号进行解相关以获得不相干的球面频带信号，从而合成氛围部分。这些信号可以利用针对每个球面谐波系数的权重进行加权。这些基于球面谐波系数的权重是根据球面谐波阶的标量，并且取决于所应用的归一化方案。示例的归一化方案是使得每个球面谐波(SH)阶对于氛围总体上具有相同的信号能量。因此，如果零阶具有1个单位的能量，则三个一阶的SH信号将均具有1/3个单位的能量，五个二阶的SH信号将均具有1/5个单位的能量，等等。氛围部分还可以另外被输出至组合器307。所要理解的是，该归一化方案并不仅应用于氛围部分，而是相同的加权被整合为针对定向信号部分构建球面变换系数的一部分。

合成器135可以进一步包括组合器307。组合器307可以被配置为接收直接确定的球面谐波信号的氛围部分和定向部分，并且将这些进行组合以生成组合频域球面谐波信号。该组合的球面谐波频带表示可以被送至反向滤波器组137。

在该布置中，反向滤波器组137可以输出时域球面谐波表示。

参考图4，示出了第三示例合成器135。在该示例中，诸如最小平方优化解决方案的优化混合技术被用来基于空间元数据和频带中的麦克风信号生成球面谐波信号。该方法与之前示例有所不同，是因为它

-并不应用任何虚拟源(移动的或静止的)，并且

-在统一步骤中合成定向部分和氛围部分，即并不是单独地合成。

合成器135可以进一步包括短时间随机分析器403。短时间随机分析器403可以被配置为接收频域表示并且执行短时间随机分析，以便针对频带麦克风信号确定协方差矩阵。该协方差矩阵可以被送至最小平方优化矩阵生成器405。

合成器135可以包括目标随机属性确定器401。目标随机属性确定器401可以被配置为基于空间元数据以及从短时间随机分析所确定的整体频带能量信息而确定球面谐波信号的预期均方差矩阵。球面谐波信号的该预期目标均方差矩阵可以通过以下而获得：首先针对对应于空间元数据所确定的方向的定向能量部分构建协方差矩阵，接着通过针对氛围(或非定向)能量部分构建协方差矩阵，并且将这些矩阵相组合从而形成预期目标协方差矩阵。氛围部分协方差矩阵是对角线矩阵，其表明氛围的球面谐波信号是互相不相干的。对角线系数的相对能量是根据如之前所描述的归一化机制。类似地，定向部分协方差矩阵是根据所分析的空间元数据而使用(受归一化机制所影响)球面谐波权重来构建。

该目标属性随后可以被送至最小平方优化矩阵生成器405。

最小平方优化矩阵生成器405可以采取来自短时间随机分析器403的随机估计以及来自属性确定器401的目标属性，并且应用最小平方(或其它适当优化)方法来确定可以被送至信号混合器和解相关器407的适当混合系数。换句话说，示例实施方式将对频带麦克风信号执行短时间随机(协方差矩阵)分析，针对球面谐波输出信号构建预期目标协方差矩阵，并且使用最小平方优化矩阵生成器405(例如，使用如US20140233762A1中所描述的方法或者与其中所描述的方法相类似的方法)至少基于这两个矩阵获得处理增益。所产生的处理增益被用作要由信号混合器和解相关器407所应用的加权数值。

这些实施例因此可以被应用以便从麦克风信号合成球面谐波信号。信号混合器和解相关器407的输出被送至反向滤波器组137。

反向滤波器组137在该布置中可以输出时域球面谐波表示。

如之前所描述的，在一些实施例中，可以实施一种混合方法，其中针对一些频率该装置将使用传统的线性方法，而在其它频率下则将使用如上文所描述的SPAC方法，以获得球面谐波分量。例如，对于诺基亚OZO设备，可以使用线性方法在大约200-1500Hz的频率下获得达一阶的球面谐波，而在其它频率下则使用SPAC方法。

图5中示出了混合配置的示例框图。

在该示例中，该系统包括频带路由器，频带路由器被配置为将一些频带表示引向自适应球面谐波信号生成器或合成器505并且将一些频带表示引向线性球面谐波信号生成器503，所述自适应球面谐波信号生成器或合成器505可以是如图2至图4中所示的示例自适应谐波信号合成器的任何示例。

自适应球面谐波信号生成器或合成器135和线性球面谐波信号生成器503的输出随后被送至组合器507，所述组合器507随后将经组合的球面谐波音频信号表示输出至反向滤波器组137。该组合在自适应和线性处理具有不同时延的情况下可能要求信号的时间对准。

换句话说，部分频带利用自适应方法处理，而其它频带则利用线性方法处理。

在一些实施例中，诸如图5所示的混合方法可以被应用于音频信号的空间划分而不是音频信号的频率划分，或者被应用于音频信号的空间划分和频率划分二者。因此，这样的实施例中的线性方法可以被用来获得一些较低阶的球面谐波，并且使用诸如所描述的自适应SPAC类型的方法来合成较高阶的球面谐波。例如，对于诺基亚OZO设备而言，在大约200-1500Hz下，可以使用线性方法获得零阶和一阶球面谐波，并且使用SPAC方法来合成二阶或者还有更高阶的球面谐波。

在一些实施例中，自适应合成器和线性方法合成器可以被实施为顺序地工作。例如，在200-1500Hz下，该装置可以首先生成一阶球面谐波信号，并且基于该一阶球面谐波信号而使用本领域已知的自适应方法合成更高阶，或者在高于空间假频频率(对于OZO而言为～1500Hz)的情况下，应用本文所描述的自适应方法。在一些频率下生成中间的一阶信号表示(并且因此利用现有技术)可以是可选步骤。

在本文所描述的任意实施例中，所产生的球面谐波信号可以为任意(预定)阶。一阶、二阶、三阶或更高阶谐波都是可能的。此外，所要理解的是，还可以提供混合阶的输出。例如，在一些情况下，对于一些阶，并非所有的球面谐波输出信号都要被处理。作为示例，在一些用例中，可能期望在水平方向拥有比垂直方向更高阶的球面谐波表示。一种这样的用例是在球面谐波信号已知要针对具有大多为水平扬声器的扬声器设置进行解码时。

在一些实施例中，该混合方法可以基于设备的空间轴来应用。例如，具有不规则阵列的移动电话因此可能在不同轴下具有不同尺寸。因此，在不同轴下，该混合方法可以以不同方式应用，或者仅被用于一些轴。例如，在智能电话的宽度轴下，可以在一些频率下使用线性方法来获得一阶球面谐波信号，而在智能电话的纤薄轴下，则应用SPAC方法来形成零阶以上的所有阶的球面谐波信号。

用于实施混合方法的整体动机主要是因为线性方法的简便性：虽然线性方法无法针对宽的带宽而被应用于典型的麦克风阵列，也无法产生高阶的SH系数，但是在它们的典型工作范围下，它们会是鲁棒且计算轻量级的。因此，该混合方法对于一些设备而言会是优选配置。

该混合方法可能要求线性信号分量和非线性信号分量之间在时间和/或相位方面的对准，从而避免任何时域或频谱伪像。这是因为线性方法与自适应方法相比可能具有不同且通常更小的时延。

在一些实施例中，可以基于麦克风阵列的至少两个麦克风信号来分析空间元数据，并且球面谐波信号的空间合成可以基于该元数据以及相同阵列中的至少一个麦克风信号来执行。例如，在智能电话的情况下，所有或一些麦克风可以被用于元数据分析，并且例如仅前方麦克风可以被用于球面谐波信号的合成。然而，所要理解的是，在一些实施例中，被用于分析的麦克风可能并不同于被用于合成的麦克风。麦克风也可以是不同设备的一部分。例如，可以基于具有冷却风扇的存在捕捉设备的麦克风信号来执行空间元数据分析。虽然获得了该元数据，但是这些麦克风信号例如可能由于风扇噪声而具有低保真度。在这样的情况下，一个或多个麦克风可以被置于该存在捕捉设备之外。来自这些外部麦克风的信号可以根据使用来自该存在捕捉设备的麦克风信号获得的空间元数据来处理。

现有可以被用来获得麦克风信号的各种配置。

还要理解的是，本文所讨论的任何麦克风信号都可以是经预处理的麦克风信号。例如，麦克风信号可以是设备的实际麦克风信号的自适应或非自适应的组合。例如，可能存在彼此邻近的若干个麦克风胶囊，它们被组合以提供具有改善SNR的信号。

麦克风信号也可以被预处理，诸如被自适应或非自适应地均衡，或者利用去噪处理进行处理。此外，在一些实施例中，麦克风信号可以是波束成形信号，换句话说，是通过组合两个或更多麦克风信号所获得的空间捕捉模式信号。

因此要理解的是，现有许多配置、设备和方法来获得麦克风信号以用于根据本文所提供的方法的处理。

在一些实施例中，可能仅有一个麦克风或音频信号，并且相关联的空间元数据已经被事先分析。例如，在使用至少两个麦克风对空间元数据进行分析之后，为了传输或存储，麦克风信号的数量可能已经减少为仅一个通道。在传输之后，在这样的示例配置中，解码器仅接收到一个音频通道和空间元数据，并且随后使用本文所提供的方法来执行球面谐波信号的空间合成。显然，也可以有两个或更多的经传送的音频信号，并且事先分析的元数据在这样的情况下也可以被应用于球面谐波信号的自适应合成。

在一些实施例中，空间元数据是从至少两个麦克风信号所分析，并且该元数据连同至少一个音频信号被传送至远程服务器或者被存储。换句话说，该音频信号和空间元数据可以以不同于球面谐波信号格式的中间格式被存储或传送。例如，该格式可以是以与球面谐波信号格式相比更低的比特率为特征。至少一个所传送或存储的音频信号可以基于同样适用其获得空间元数据的相同麦克风信号，或者基于来自声场中的其它麦克风的信号。在解码器处，该中间格式可以被转码为球面谐波信号格式，由此使得能够与诸如YouTube的服务相兼容。换句话说，在接收器或解码器处，所传送或存储的至少一个音频通道利用相关联的空间元数据并且使用本文所描述的方法而被处理为球面谐波信号表示。在被传送或存储的同时，在一些实施例中，(多个)音频信号例如可以使用AAC被编码。在一些实施例中，该空间元数据可以被量化、编码和/或嵌入到AAC比特流中。在一些实施例中，AAC或以其它方式编码的音频信号和空间元数据可以被嵌入到诸如MP4媒体容器的容器之中。在一些实施例中，例如MP4的媒体容器可以包括视频流，诸如经编码的球面谐波视频流。现有许多其它用于传送或存储音频信号以及相关联的空间元数据的配置。

无论所应用以传送或存储音频信号和空间元数据的方法如何，在接收器(或者解码器或处理器)处，本文所描述的方法提供了用于基于空间元数据和至少一个音频信号自适应地生成球面谐波信号的手段。换句话说，对于本文所给出的方法，其实际上与音频信号和/或空间元数据是直接还是间接从麦克风信号所获得并不相关，所述间接获得例如是通过编码、传送/存储以及解码。参考图6，示出了可以被用作处理器和合成器100的至少一部分或者系统99的一部分的示例电子设备1200。该设备可以是任意适当的电子设备或装置。例如，在一些实施例中，设备1200是虚拟或增强现实捕捉设备、移动设备、用户设备、平板计算机、计算机、音频播放装置等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如数量为M)麦克风。然而，所要理解的是，可能有任意适当配置的麦克风和任意示例数量的麦克风。在一些实施例中，麦克风阵列1201与装置分离并且音频信号通过有线或无线耦合被传送至该装置。在一些实施例中，麦克风阵列1201可以是如图1a所示的SPAC麦克风阵列144。

麦克风可以是被配置为将声波转换为适当电音频信号的换能器。在一些实施例中，麦克风可以是固态麦克风。换句话说，麦克风可以能够捕捉音频信号并且输出适当的数字格式信号。在一些其它实施例中，麦克风或麦克风阵列1201可以包括任意适当的麦克风或音频捕捉部件，例如电容麦克风、电容器麦克风、静电麦克风、驻极体电容麦克风、动圈式麦克风、铝带式麦克风、碳粒式麦克风、压电麦克风，或微机电系统(MEMS)麦克风。在一些实施例中，麦克风可以向模数转换器(ADC)1203输出音频捕捉信号。

设备1200可以进一步包括模数转换器1203。模数转换器1203可以被配置为从麦克风阵列1201中的每个麦克风接收音频信号，并且将它们转换为适于处理的格式。在一些实施例中，在麦克风是集成式麦克风的情况下，并不需要模数转换器。模数转换器1203可以是任意数量的模数转换或处理部件。模数转换器1203可以被配置为将音频信号的数字表示输出至处理器1207或存储器1211。

在一些实施例中，设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实施的程序代码例如可以包括SPAC分析，以及如本文所描述的合成。

在一些实施例中，设备1200包括存储器1211。在一些实施例中，至少一个处理器1207耦合至存储器1211。存储器1211可以是任意适当的存储部件。在一些实施例中，存储器1211包括用于存储能够在处理器1207上实施的程序代码的程序代码区段。此外，在一些实施例中，存储器1211可以进一步包括用于存储数据的存储数据区段，所述数据例如已经依据本文所描述的实施例被处理或者要依据本文所描述的实施例被处理。存储在程序代码区段内的所实施程序代码和存储在存储数据区段内的数据可以由处理器1207在任何需要的时候经由存储器-处理器耦合所获取。

在一些实施例中，设备1200包括用户接口1205。在一些实施例中，用户接口1205可以耦合至处理器1207。在一些实施例中，处理器1207可以控制用户接口1205的操作并且接收来自用户接口1205的输入。在一些实施例中，用户接口1205可以使得用户能够例如经由键盘而向设备1200输入命令。在一些实施例中，用户接口1205可以使得用户能够从设备1200获得信息。例如，用户接口1205可以包括被配置为向用户显示来自设备1200的信息的显示器。在一些实施例中，用户接口1205可以包括能够使得信息被输入到设备1200并且进一步向设备1200的用户显示信息的触摸屏或触摸界面。

在一些实现中，设备1200包括收发器1209。在这样的实施例中，收发器1209可以耦合至处理器1207并且被配置为使得能够例如经由无线通信网络而与其它装置或电子设备进行通信。在一些实施例中，收发器1209或任意适当收发器或者发射器和/或接收器部件可以被配置为经由有线或无线耦合与其它电子设备或装置进行通信。

收发器1209可以通过任意适当的已知通信协议与另外的装置进行通信。例如，在一些实施例中，收发器1209或收发器部件可以使用适当的通用移动电信系统(UMTS)协议、例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的适当短距离射频通信协议、或者红外数据通信路径(IRDA)。

在一些实施例中，设备1200可以被用作合成器装置。由此，收发器1209可以被配置为接收音频信号并且确定诸如位置信息和比率的空间元数据，并且通过使用执行适当代码的处理器1207来生成适当的音频信号渲染。设备1200可以包括数模转换器1213。数模转换器1213可以耦合至处理器1207和/或存储器1211，并且被配置为将(诸如在如本文所描述的音频信号的音频渲染之后来自处理器1207的)音频信号的数字表示转换为适于经由音频子系统输出进行呈现的适当模拟格式。在一些实施例中，数模转换器(DAC)1213或信号处理部件可以是任意适当的DAC技术。

此外，在一些实施例中，设备1200可以包括音频子系统输出1215。诸如图6所示的示例可以是其中音频子系统输出1215是被配置为使得能够与耳机121耦合的输出插口。然而，音频子系统输出1215可以是任意适当的音频输出或者到音频输出的连接。例如，音频子系统输出1215可以是到多通道扬声器系统的连接。为了通过扬声器或耳机被再现，之前所描述的球面谐波信号首先使用球面谐波解码器(或高保真立体声解码器)被解码。现有用于扬声器播放以及双耳式耳机播放二者的高保真立体声解码器。

在一些实施例中，数模转换器1213和音频子系统1215可以被实施在物理分离的输出设备中。例如，DAC 1213和音频子系统1215可以被实施为经由收发器1209与设备1200通信的无绳耳机。

虽然设备1200被示为同时具有音频捕捉组件和音频渲染组件，但是将要理解的是，在一些实施例中，设备1200可以仅包括音频捕捉或音频渲染装置元件。

通常，本发明的各个实施例可以以硬件或专用电路、软件、逻辑或者它们的任意组合来实施。例如，一些方面可以以硬件实施而其它方面则可以以可由控制器、微处理器或其它计算设备执行的固件或软件来实施，但是本发明并不局限于此。虽然本发明的各个方面可以被图示并描述为框图、流程图或者使用一些其它的图形表示，但是将要理解的是，作为非限制性示例，这里所描述的这些模块、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或者它们的一些组合形式来实施。

本发明的实施例可以由诸如在处理器实体中能够由电子设备的数据处理器所执行的计算机软件来实施，或者由硬件或者由软件和硬件的组合来实施。另外，在这方面应当注意的是，如附图中的逻辑流程的任何框都可以表示程序步骤，或者互连的逻辑电路、模块和功能，或者程序步骤与逻辑电路、模块和功能的组合。软件可以被存储在诸如存储器芯片或实施于处理器之内的存储器模块的物理介质上，诸如硬盘或软盘的磁性介质上，以及例如DVD及其数据变体CD的光学介质上。

存储器可以是适于本地技术环境的任意类型并且可以使用任意适当数据存储技术来实施，诸如基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适用于本地技术环境的任意类型，并且作为非限制示例，可以包括以下项中的一项或多项：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路以及基于多核处理器架构的处理器。

本发明的实施例可以以诸如集成电路模块之类的各种组件进行实践。集成电路的设计是通过且很大程度上是高度自动化的过程。复杂且强有力的软件工具可用于将逻辑层面的设计转换为准备在半导体衬底上蚀刻并形成的半导体电路设计。

诸如加利福尼亚Mountain View的Synopsys公司以及加利福尼亚San Jose的Cadence Design所提供的那些程序使用良好建立的设计规则以及预先存储的设计模块库自动在半导体芯片上对导线进行布线并且定位组件。一旦完成了半导体电路的设计，标准化电子格式(例如，Opus、GDSII等)的结果设计就可以被传送至半导体制作机构或“制造工厂(fab)”以便进行制作。

以上利用示例性和非限制性示例所提供的描述是本发明的全面且信息性的描述。然而，当结合附图和所附权利要求阅读时，考虑到以上描述，各种修改和调整对于本领域技术人员将变为显而易见的。然而，对本发明教导的所有这样和类似的修改仍然将落入如所附权利要求所限定的本发明的范围之内。

Claims

1.一种用于生成空间音频信号格式的装置，所述空间音频信号格式包括多个球面谐波音频信号分量，所述装置包括处理器，所述处理器被配置为：

接收至少两个麦克风音频信号；

确定空间元数据，所述空间元数据是来自对所述至少两个麦克风音频信号的多个频带中的一个频带的动态分析的感知相关的空间信息；以及

基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号，以便输出预定阶的空间音频信号格式，其中，自适应地合成所述多个球面谐波音频信号包括：

基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分，自适应地合成至少一个球面谐波音频信号分量；

使用线性运算，基于所述至少一个麦克风音频信号的第二频带部分，合成至少一个另外的球面谐波音频信号分量；以及

组合所述至少一个球面谐波音频信号分量和所述至少一个另外的球面谐波音频信号分量。

2.根据权利要求1所述的装置，其中，所述处理器进一步被配置为以下项中的至少一项：

从麦克风阵列接收所述至少两个麦克风音频信号；

分析所述至少两个麦克风音频信号以确定所述空间元数据；以及

接收与所述至少两个麦克风音频信号相关联的所述空间元数据。

3.根据权利要求1所述的装置，其中，所述处理器进一步被配置为：基于生成所述至少一个麦克风音频信号的所述至少一个麦克风的物理布置来确定所述第一频带部分。

4.根据权利要求1所述的装置，其中，与所述至少一个麦克风音频信号相关联的所述空间元数据包括以下项中的至少一项：

所述空间元数据针对频带的定向参数；和

所述空间元数据针对所述频带的比率参数。

5.一种用于生成空间音频信号格式的方法，所述空间音频信号格式包括多个球面谐波音频信号分量，所述方法包括：

接收至少两个麦克风音频信号；

6.根据权利要求5所述的方法，其中，确定与所述至少两个麦克风音频信号相关联的空间元数据进一步包括以下项中的一项：

分析所述至少两个麦克风音频信号以确定所述空间元数据；以及接收与所述至少两个麦克风音频信号相关联的空间元数据。

7.根据权利要求5所述的方法，其中，所述方法进一步包括：

基于生成所述至少一个麦克风音频信号的所述至少一个麦克风的物理布置来确定所述第一频带部分。

8.根据权利要求5所述的方法，其中，与所述至少一个麦克风音频信号相关联的所述空间元数据包括以下项中的至少一项：

所述空间元数据针对频带的定向参数；和

所述空间元数据针对所述频带的比率参数。