CN108702566A

CN108702566A - 用于有效记录3d声场的圆柱形麦克风阵列

Info

Publication number: CN108702566A
Application number: CN201680082365.0A
Authority: CN
Inventors: 马克·波莱蒂
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-04-08
Filing date: 2016-12-29
Publication date: 2018-10-23
Anticipated expiration: 2036-12-29
Also published as: US10492000B2; EP3440845A1; CN108702566B; US20170295429A1; WO2017176338A1

Abstract

提供了用于使用在不同高度处具有多个圆形阵列的垂直定向的圆柱形阵列来记录三维(3D)声场的方法、系统、和装置。所述圆柱形阵列的设计非常适用于提供高方位角分辨率和降低的高程分辨率，并且提供优于现有3D声音再现系统的改进性能。与对于所有尺寸具有相同孔径的球形阵列相反，所述方法、系统和装置提供比水平孔径更大的垂直孔径，并且进一步提供混合阶球形分解的替代形式。提供了用于记录三维声场的装置，所述装置包括：圆柱形挡板(320)；以及多个线阵列(330)，所述多个线阵列分布在所述圆柱形挡板(320)的圆周周围，每个线阵列(330)包括在所述圆柱形挡板的纵向方向上彼此间隔开(z)的麦克风元件，其中所述线阵列(330)中的每个产生垂直波束形成器响应集合，所述响应集合在指定到达方向和指定高程具有最大响应。还提供了用于记录三维声场的方法，所述方法包括：在圆柱形音频记录设备(300)的多个垂直波束形成器处接收以指定仰角到达的平面波；以及基于以所述指定仰角到达的所述平面波的方位角分解来生成所述仰角的圆柱形系数。

Description

用于有效记录3D声场的圆柱形麦克风阵列

相关申请的交叉引用

本申请是2016年4月8日提交的美国申请第15/094,772号的继续申请并且要求其优先权，其公开内容通过引用的方式全部并入本文。

背景技术

在较高的水平上，可以使用不同的坐标系来描述声音。例如，可以使用笛卡尔坐标系(例如，x、y、和z坐标)，或者球坐标系(例如，两个角、与垂直轴的一个角、和旋转x角以及半径)。还存在圆柱坐标系，该圆柱坐标系可以被认为是笛卡尔坐标系和球坐标系的组合。

针对环绕声的常规方法通常基于球坐标，并且利用球形麦克风来记录声音。然而，收听环绕声的大多数用户不使用球形扬声器系统来再现声音，并且即使他们这样做，这种系统也将需要大量的扬声器以工作得较好而不发生空间混叠。另外，将使用的球形麦克风将需要大量球谐函数(spherical harmonics)来描述在高程面以及水平面中的声场，其中，扬声器阵列的分辨率足够(应该注意，对于较小的扬声器阵列，只有相应较少数量的球谐函数信号可以与其一起使用)。

立体声音频再现允许从两个扬声器之间的任何角创建声音。然而，立体声再现不能产生从两个扬声器相对的角之外到达的声音。

环绕声系统旨在通过使得能够创建从收听者周围的所有方向到达的声波来向用户提供更加身临其境的声音体验。二维(2D)系统可以在水平面中生成从超过360度的角到达的声波，并且此外，三维(3D)阵列可以生成从收听者之上的高程到达的声波(并且在特殊用途的再现空间(诸如，消声室)中生成从收听者之下到达的声波)。

环绕声再现系统通常由2D或者3D阵列中的L个扬声器组成。例如，通用格式是在收听者周围具有圆形阵列中的L＝5个扬声器。扬声器定位成：中央扬声器在收听者前方，左边的扬声器和右边的扬声器在任意一侧+/-30度，以及一对后置环绕扬声器处于+/-110度。

通常，直接在录音室中生成用于扬声器的声音信号，其中，可获得例如，从电子声音设备或者从记录的乐器获得的大量音频“轨道”。使用现有的环绕声再现原理，可以按照与立体声情况相似的方式来以任何角度对声音进行定位，包括扬声器之间的角度。该定位(通常称为“平移”)是针对具有已知几何结构的L个扬声器的环绕系统进行的，而对于给定音频信号轨道，通过对具有L个不同振幅加权的音频轨道进行振幅加权并且将所得到的L个加权音频信号馈送至全部L个扬声器来进行。

在一些情况下，可以实施“成对平移”，其中，按照与立体声相似的方式来将音频信号发送至仅两个扬声器以在两个扬声器之间创建源位置。实现该操作的一般方法是基于矢量的振幅平移。还可以对音频信号进行其它修改(诸如，本领域的技术人员所理解的滤波)以改善再现信号的质量。该混合操作的最终结果是通过按照所需几何结构定位的扬声器播放以产生期望的声场的L个扬声器信号的集合。

在一些实例中，使用多个麦克风来从现场录音获得平移的音频轨道。例如，可以将麦克风放置在正在播放的每个乐器附近以捕获由该单独乐器产生的音频信号。

在其它场景中，可以使用环绕声系统来再现已经使用单个麦克风系统记录的现场录音，该单个麦克风系统试图在单个收听者周围再现空间声场。在这种情况下，录音麦克风必须足够详细地捕获声场的空间属性以允许环绕声再现系统重建声场。经常使用来按照这种方式重建声场的技术是高阶高保真度立体声响复制(HOA)。HOA将使用麦克风系统记录的声场分解为信号集合，该信号集合是从(典型的)球坐标中对声场的描述获得的，并且允许使用任意几何结构和数量的扬声器来再现声场。等效方法是波场合成(Wave FieldSynthesis)，在该波场合成中，声压和空间体积表面上的速度的法向分量允许在该空间体积内再现声场。

上述基于物理的方法的替代方法是基于感知的方法，在该基于感知的方法中，仅记录感知上相关的那些空间线索。这种方法包括：例如，狄拉克(Dirac)、双耳线索编码、和在MPEG环绕编码中采用的方法。

用于记录声场的麦克风可以具有多个输出，该多个输出中的每个输出表示空间声场的分量。这些分量通常被称为声场的圆柱形模式或者球形模式。最早的现有环绕声麦克风之一产生四个音频输出，该四个音频输出表示声压和声速的三个分量。从处于四面体构造的四个压力盒的紧凑重合阵列获得这些信号。最近，已经使用通常安装在实心或者空心的球形或者圆柱形挡板上的压力麦克风的圆形或者球形阵列构建了高阶环绕声麦克风系统。

已经使用了换能器的圆形阵列来确定到达方向。已经将没有圆柱形挡板的定向麦克风的开放式圆形阵列特别应用于声场记录。还证明了定向麦克风的开放式阵列对于声场分解是有用的，主要是因为它们消除或者减少了压力麦克风的开放式阵列发生的响应中的零点。其它方法提出了使用沿z轴间隔开的多个圆形阵列、每个元件本身是能够产生多个定向输出的高阶麦克风的开放式阵列、和安装在球形挡板上的圆形阵列。

大多数现有的麦克风阵列使用基于电容或者电感换能原理的传统麦克风元件。最近，已经开发了微机电系统(MEMS)，该微机电系统(MEMS)在硅中实施小型换能器。这些设备通常成本较低并且大小较小，并且通常用于移动电话。已经将MEMS麦克风阵列应用于对阵列的设计以便对声音进行定位。在一些情况下，这些设备具有板上模数转换器，并且产生单比特(Sigma Delta或者脉冲密度调制)输出。在一些情况下，输出是模拟信号的脉冲编码调制(PCM)表示的串行表示。这种设备非常适用于构建大型阵列，在该大型阵列中，输出可以在不需要大量的外部模数转换器的情况下直接接口连接至数字处理器。

3D声场的球谐函数分解

HOA的标准格式基于对球谐函数的使用。球坐标中在正谐波角频率ω下的声压可以表示为：

其中，

是第(n,m)归一化复合球谐函数。

方程式(1)的替代描述基于声场的平面波扩展。赫格洛茨分布给出了波动方程的一般解：

平面波项的扩展是：

此外，可以根据球谐函数将平面波振幅函数扩展为：

将在方程式(4)和(5)中示出的表达式代入方程式(3)得到平面波扩展：

该方程式与方程式(1)相同，其中，

因此，可以将如通常在高保真度立体声响复制中使用的平面波系数简单地转换为方程式(1)中的一般系数，反之亦然。

在高保真度立体声响复制中，根据从方程式(2)的实部和虚部获得的实际球谐函数来描述方程式(6)中的声场。遵循2D情况下的术语学，可以将复合球谐函数称为“相位模式”，并且可以将实际球谐函数可以被称为“振幅模式”。本领域的技术人员应该理解，平面波扩展(如在方程式(6)中示出的)等效于方程式(1)。进一步地，本领域的技术人员还应该理解，根据实际球谐函数的其它扩展也可以是等效的，并且本文详细呈现的各种结论可以同等地应用于这些其它描述。

可以使用例如，实心球形挡板或者定向(例如，面向外的)麦克风的连续分布(通常为心形)来确定方程式(1)中的系数。具有来自方程式(1)的入射场的开球或者刚球的表面上的复合声压具有通用形式：

其中，例如，

其中，h_n(.)是第二种球形汉克尔函数(应该注意，其它阵列将产生其它b_n函数)。优选地，通过将p_S(a,θ,φ,k)乘以期望的球谐函数并且对球体进行积分来获得声场系数：

可以将方程式(1)中的总和限制为给定最大半径r和最大波数k的最大阶其中，表示四舍五入到最接近的整数。在这种情况下，声场的扩展中存在总共(N+1)²个项。每个项与表示时域中的频率相关扩展项的音频信号对应。因此，存在表示声场的N阶近似所需的总共(N+1)²个音频信号。

离散球形阵列

在实践中，使用M个麦克风元件的离散阵列来实施球形阵列。对球形阵列的设计涉及选择足够大小的球体来记录声场，选择若干(M个)麦克风元件，和用于将这些麦克风定位在球体的表面上的采样方案，使得可以通过离散近似以足够的精确度生成球谐函数。通常，麦克风的数量必须大于(N+1)²，并且必须有规律地放置在球体的整个表面上以使在估计球谐系数高达N阶时的误差最小化。

离散阵列的结果是：对于麦克风分开大于半波长的频率，无法明确地确定球体上的声压。因此，存在阵列可以正确操作的最大频率，被称为空间混叠频率或者—遵循1D信号的等效采样定理—被称为空间奈奎斯特频率。可以如下针对球体近似地确定混叠频率。如果球体具有半径a，则表面积为4πa²。然后，对于均匀几何结构的麦克风之间的近似间隔为并且空间奈奎斯特频率为：

例如，在半径为0.1米(m)的球体上的M＝32个麦克风的阵列产生2.7千赫的空间奈奎斯特频率。8千赫的空间奈奎斯特频率需要M＝275个麦克风。因此，需要大量麦克风来产生高空间奈奎斯特频率。这意味着球形阵列具有用于在音频范围上记录3D场的足够大小的构造是具有挑战性的。

2D声场的球谐函数分解

大多数环绕声再现系统是2D的，并且在水平面中产生期望的声场。这比3D阵列的安装更简单并且更实用。此外，已经表明：人类的空间敏锐度对于水平面中的声源是最好的。在一些实例中，使用提供了用于产生高程线索的能力的再现阵列。因此，记录和再现2D声场或者水平面中具有更大精确度的声场可以产生更有效并且在感知上相关的结果。

可以使用球谐函数来记录和再现2D声场。已经表明：n＝|m|并且仅在水平面中具有很大量级的扇形球谐函数足以允许水平面中再现声压。用于2D声音记录和再现(例如，使用2.5D方法)的总音频信号的分数为在图1的图形表示100中图示的(2N+1)/(N+1)²。

通过表示100清楚的是：随着记录的声场的阶数增加，扇区分量变为总音频信道的一小部分(百分比)。例如，第10阶声场使用21个扇形信号来表示水平面，并且使用另外100个信道来包括高程信息。当声音再现系统是2D阵列时，这意味着83％的音频信号是不必要的。

还可以使用球谐函数来记录和再现声场，这样做在水平面中具有更大的分辨率，而在高程下具有有限的分辨率。这些“混合阶高保真度立体声响复制(mixed-orderAmbisonics)”方法记录了扇形函数的高阶，非扇形函数的受限子集。

混合阶高保真度立体声响复制通常使用刚性球形麦克风阵列，并且确定允许以最小的误差来确定混合阶球谐函数的给定集合的换能器布局。

一种现有方法使用圆柱形麦克风，圆柱体轴线沿水平x轴定向。该圆柱体具有多个圆形阵列，该多个圆形阵列允许对声场进行圆柱形分解，其中，高程分辨率由每个环中的麦克风的数量决定，并且方位角分辨率由环的数量和环之间的间隔决定。由于可以独立于每个环的麦克风数量来设置环的数量，因此，可以独立地控制方位角分辨率和高程分辨率。

发明内容

本发明内容按照简化的形式介绍了一些概念以提供对本公开的一些方面的基本理解。本发明内容不是本公开的广泛概述，并且不旨在识别本公开的关键元件或者重要元件或者描绘本公开的范围。本发明内容仅仅呈现了本公开的一些概念作为下面提供的详细描述的前序。

本公开大体上涉及音频信号处理。更具体地，本公开的各个方面涉及使用圆柱形麦克风阵列的空间音频记录。

本公开的一个实施例涉及一种用于记录三维声场的装置，该装置包括：圆柱形挡板；以及多个线阵列，该多个线阵列分布在圆柱形挡板的圆周周围，每个线阵列包括在圆柱形挡板的纵向方向上彼此间隔开的麦克风元件，其中，线阵列中的每个线阵列产生垂直波束形成器响应集合，该响应集合在指定到达方向和指定高程处具有最大响应。

在另一实施例中，该装置的圆柱形挡板具有用于控制衍射效应的至少一个圆形端部。

在另一实施例中，该用于记录三维声场的装置包括一个或者多个垂直波束形成器以减小在圆柱形挡板的一端或者两端的衍射效应。

在再一实施例中，该装置的多个线阵列绕着圆柱形挡板的圆周定位在规则地间隔开的角处。

在又一实施例中，该装置的每个线阵列的麦克风元件在圆柱形挡板的纵向方向上彼此等间隔的分开。

在再一实施例中，该装置的每个线阵列的麦克风元件在圆柱形挡板的纵向方向上彼此非线性地间隔开，使得相邻麦克风元件之间的距离朝着阵列的一端或者两端增加。

本公开的另一实施例涉及一种用于记录三维声场的方法，该方法包括：在圆柱形音频记录设备的多个垂直波束形成器处接收以指定仰角到达的平面波；以及基于以指定仰角到达的平面波的方位角分解来生成仰角的圆柱形系数。

在另一实施例中，该用于记录三维声场的方法进一步包括：生成方位角模式分解；以及向方位角模式分解中的每个方位角模式分解应用模式均衡器。

在另一实施例中，该用于记录三维声场的方法中生成方位角模式分解包括：向与指定高程相关联的垂直波束成形的输出的集合指派权重；以及组合加权输出以产生方位角模式分解。

本公开的再一实施例涉及一种用于记录三维声场的系统，该系统包括：系统存储器；至少一个处理器，该至少一个处理器耦合至系统存储器；以及与至少一个处理器相关联的非暂时性计算机可读介质，该非暂时性计算机可读介质具有存储于其上的指令，该指令在由至少一个处理器执行时使至少一个处理器：在圆柱形音频记录设备的多个垂直波束形成器处选择以指定仰角到达的平面波；以及基于以指定仰角到达的平面波的方位角分解来生成仰角的圆柱形系数。

在另一实施例中，使该用于记录三维声场的系统的至少一个处理器：生成方位角模式分解；以及向方位角模式分解中的每个方位角模式分解应用模式均衡器。

在再一实施例中，使该用于记录三维声场的系统的至少一个处理器：向与指定高程相关联的垂直波束成形的输出的集合指派权重；以及组合加权输出以产生方位角模式分解。

在一个或者多个其它实施例中，本文描述的方法、系统、和装置可以可选地包括以下附加特征中的一个或者多个：以方位角处理每个垂直波束形成器响应集合以产生声场在指定高程下的圆柱形系数；每个麦克风元件是微机电系统(MEMS)麦克风；应用于方位角模式分解中的每个方位角模式分解的模式均衡器特定于方位角阶数和指定高程；多个垂直波束形成器被配置为表示声场中用于指定再现扬声器阵列的高程信息；和/或多个垂直波束形成器被配置为表示声场中用于声音在高程下的规定的最大主观分辨率的高程信息。

应该注意，本文公开的一些或者所有处理器和存储器系统的实施例还可以被配置为执行上面公开的一些或者所有方法实施例。另外，上面公开的一些或者所有方法的实施例还可以表示为体现在暂时性或者非暂时性处理器可读存储介质(诸如，光学存储器或者磁存储器)上的指令和/或信息，或者表示为经由通信网络(诸如，例如，互联网或者电话连接)提供至处理器或者数据处理设备的传播信号。

本公开的方法、系统、和装置的进一步适用范围将通过下面给出的详细描述而变得显而易见。然而，应该理解，详细描述和具体示例虽然指示了方法、系统、和装置的实施例，但是仅通过说明的方式给出详细描述和具体示例，因为在本文所公开的概念的精神和范围内的各种改变和修改将通过该详细描述而对于本领域的技术人员而言变得显而易见。

附图说明

通过结合随附权利要求书和附图研究以下详细描述，本公开的这些和其它目的、特征、和特性对于本领域的技术人员而言将变得更显而易见，该权利要求书和附图都形成本说明书的一部分。在附图中：

图1是图示了扇形的球谐函数的分数的图形表示。

图2是图示了根据本文描述的一个或者多个实施例的圆柱坐标和有限高度的圆柱体几何结构的示意图。

图3是图示了根据本文描述的一个或者多个实施例的具有规则地间隔开的线阵列麦克风元件的示例圆柱形麦克风阵列的示意图。

图4是图示了根据本文描述的一个或者多个实施例的具有不统一间隔开的线阵列麦克风元件的示例圆柱形麦克风阵列的示意图。

图5是图示了根据本文描述的一个或者多个实施例的示例麦克风处理系统的框图。

图6是图示了根据本文描述的一个或者多个实施例的空间处理的示例形式的框图。

图7是图示了根据本文描述的一个或者多个实施例的用于使用垂直定向的圆柱形阵列来记录3D声场的示例方法的流程图。

图8是图示了根据本文描述的一个或者多个实施例的布置用于使用具有布置在不同高度的多个圆形阵列的垂直定向的圆柱形阵列来记录3D声场的示例计算设备的框图。

本文提供的标题仅为了方便起见，而不一定影响本公开内容中要求保护的范围或者含义。

在附图中，为了便于理解和方便，相同的附图标记和任何首字母缩略词识别具有相同或者相似结构或者功能的元件或者动作。将在以下详细描述的过程中详细描述附图。

具体实施方式

现在将描述本公开的方法、系统、和装置的各种示例和实施例。以下描述提供具体细节以便彻底理解并且实现对这些示例的描述。然而，相关领域的技术人员要明白，可以在没有很多这些细节的情况下实践本文描述的一个或者多个实施例。同样，相关领域的技术人员还要明白，本公开的一个或者多个实施例可以包括本文未详细描述的其它特征。此外，下面不会详细示出或者描述一些熟知的结构或者功能以避免不必要地模糊相关描述。

如上所述，用于空间音频记录的现有方法在其能力上有限制(例如，不能在高程下执行波束成形)，或者对于许多应用而言是不切实际的。鉴于上述现有方法中的一些方法被认为是仅记录在感知上相关的那些空间线索的基于感知的方法，本公开涉及记录和再现空间声音的基于物理的高阶高保真度立体声响复制方法。

鉴于用于空间音频记录的现有方法的各种限制，本公开的实施例涉及用于使用在不同高度处具有多个圆形阵列的垂直定向的圆柱形阵列来记录3D声场的方法、系统、和装置。本文描述的技术和设计非常适用于提供高方位角分辨率和降低的高程分辨率，并且提供优于现有3D声音再现系统的改进性能，该现有3D声音再现系统通常仅在两个或者三个高度处具有扬声器。本公开提供了混合阶球形分解的替代形式，并且与球形阵列相比较，允许不那么复杂并且成本更低的制造。

例如，一个或者多个实施例涉及使用低成本的硅麦克风，该硅麦克风提供数字输出并且可以容易地接口连接至数字处理器，并且随后连接至数字存储设备，而不需要大量的模数转换器。本文描述的方法、系统、和装置的一个优点是：与对于所有尺寸具有相同孔径的球形阵列相反，它们提供比水平孔径更大的垂直孔径。这尤其与由多个环(例如，三个)组成的扬声器再现阵列相关，在该多个环中，环之间的垂直间隔相对较小，要求在在高程下但是具有少量的期望方向(例如，三个)的情况下对声场进行高分辨率分解。

图2图示了圆柱坐标和有限高度的圆柱体几何结构200。根据本公开的至少一个实施例，在没有源的空间区域内的圆柱坐标(R,φ,z)(例如，如在图2中示出的)中的波动方程的解(例如，“内部解(interiorsolution)”)具有平面波形式(从等效的圆柱形赫格洛茨分布获得的方程式(6)的圆柱形等效物)：

其中，J_m(.)是圆柱形贝塞尔函数，B_m(k_z,ω)是第m个声场扩展函数，k_z是矢量波数的z分量，并且圆柱形描述在方位角下具有三角形扩展，但是在k_z′下具有连续分布。然后，平面波系数是k_z的连续函数。

对于有限波数k和半径R，可以按照与在球形情况中使用的方式相似的方式来将方程式(12)截断为最大阶

对于由从与z轴的角θ_i到达的平面波组成的入射场，k_z＝kcosθ_i，并且k_R＝ksinθ_i。可以通过替代物k_z＝kcosθ_i来将方程式(12)中的积分变换为：

对于由从与z轴的角θ_i单独到达的平面波组成的入射场，声压(方

程式(13))简化为：

如果入射角是θ_i＝π/2，则平面波分布是独立于z的，并且

这是无源区域中的2D声场的波动方程的解，系数为i^mB_m(ω)。

可以按照与球形分解相似的方式根据振幅模式来表示声场的圆柱形分解。组合方程式(13)中的负m项和正m项得到：

其中，C₀(θ,ω)＝B₀(θ,ω)，并且

C_m(θ,ω)＝B_m(θ,ω)+B_-m(θ,ω) (17)

D_m(θ,ω)＝i(B_m(θ,ω)-B_-m(θ,ω)) (18)

对于在高程θ_i处的平面波，振幅模式扩展简化为(遵循方程式(14))：

方程式(19)提供了使用球谐函数来记录3D声场的替代方法，在该球谐函数中，可以独立于方位角分辨率来选择声场在高程下的分辨率。可以为Q个角θ_q的集合确定场分量，该集合中的每个角具有方程式(19)的形式的扩展。

根据本文描述的一个或者多个实施例，可以使用由绕着圆柱体放置的垂直线阵列集合组成(例如，绕着如在图3中示出的圆柱形挡板320的圆周分布的垂直线阵列330，下面将对其进行更详细地描述)的圆柱形麦克风阵列来实施高程分解。在实践中，圆柱体可以具有有限的高度，并且圆柱体的一端或者两端可以是圆形的以控制边缘处的衍射效应。

例如，根据至少一个实施例，圆柱体的两个圆形端部(或者一个端部)可以是半球形的，使得从圆柱体的侧面到圆形端部的过渡平滑以使来自圆柱体的侧面和圆形端部的接合的衍射最小化。然而，对于更紧凑的实施方式，圆形端部中的一个或者两个可以更平坦。应该注意，在大多数实施方式中，圆柱体的两端应该具有圆形端部，因为来自顶部或者底部的高阶衍射会影响阵列的模式响应。

为了记录用于单个收听者收听的声场，根据至少一个实施例，圆柱体直径应该是与人类头部相似或者比人类头部更大的大小。如果圆柱体的直径等于平均人类头部直径，则来自阵列的相对侧的几对麦克风信号可以提供双耳记录的近似值，这提供了对麦克风的替代使用。圆柱体高度应足够大，使得麦克风阵列不怎么受来自任意一端的衍射的影响。例如，圆柱体可以具有180毫米的直径和394毫米的高度(包括圆形端部)。作为第二示例，圆柱体直径可以是175毫米，并且圆柱体高度可以是450毫米。在实践中，在需要非常紧凑的麦克风的情况下，阵列的模式响应将与假设无限高度圆柱体并且在这种情况下，必须使用声学模拟软件用数字来确定的理论值不同，该声学模拟软件实施技术，诸如，但不限于，等效源方法、有限差分时域方法、或者边界元法。

下面描述了根据本公开的一个或者多个实施例的按照方程式(19)的格式来记录声场。应该注意，下面的描述基于圆柱形麦克风阵列具有无限高度的初始假设。

在半径为a并且具有无限高度的刚性圆柱体上的声压具有振幅模式形式：

其中，

是圆柱体模式响应。

原则上，可以通过将压力(方程式(20))乘以exp(-ikzcosθ_i)并且对z进行积分来确定系数C_m(θ,ω)和D_m(θ,ω)：

这仅选择由具有仰角θ_i的平面波组成的声场的那些分量。

应该理解，在实践中，可以不实施方程式(22)，因为可在从有限数量的麦克风获得的z中获得有限数量的压力样本。可以通过包括一般孔径加权f(z)来解释该限制，该一般孔径加权f(z)可以包括用于描述z中的离散阵列的Δ函数。对于z得到的积分为：

其中，

是在角频率ω下对z的积分产生的垂直响应。该扩展描述了实施垂直波束成形的圆柱形麦克风阵列的输出(其中，波束成形是指对麦克风阵列的输出进行操作的时空滤波器的设计)。如本领域的技术人员理解的，波束形成器是与麦克风阵列一起使用以提供空间滤波能力(诸如，例如，从特定方向提取信号并且减少来自其它方向的不期望的干扰信号)的信号处理器。麦克风阵列产生传播波的空间样本，然后信号处理器操纵该空间样本以产生波束形成器输出信号。在至少一个示例中，通过对麦克风信号进行滤波并且组合输出以根据其空间位置提取(例如，使用建设性组合)期望的信号并且拒绝(例如，使用破坏性组合)干扰信号来实现波束成形。取决于特定布置，波束形成器可以使具有源自不同空间位置的重叠频率内容的源分离。通常，通过向每个麦克风信号应用延迟来实现波束成形滤波，使得麦克风输出对于期望的位置是同相的并且相应地，对于其它空间位置是异相的。还可以应用振幅加权以限制有限阵列大小的影响并且减少波束形成器的极性响应中的旁瓣。返回到实施垂直波束成形的圆柱形麦克风阵列的输出，如果波束形成器被设计为主要响应于θ＝θ_i，则输出近似于方程式(22)中的扩展。可以使用一致性来获得在指定高程下的对应近似声场系数：

按照

然后，可以选择期望的仰角的集合θ_i＝θ_q,q＝1,...,Q(包括水平面，θ_q＝π/2)以允许将3D声场表示为水平场加上有限数量的高程场。3D场产生近似于处于高程的全3D场的稀疏平面波。在至少一个实施例中，可以选择数量Q以适应再现阵列，该再现阵列由处于有限数量的仰角的扬声器组成。根据至少一个其它实施例，可以选择数量Q以最佳地表示人类对高程的敏锐度。

在实践中，模式响应函数b_m(θ_q,ω)在低频下较小并且用于较大的m，因此，可以使用逆正则化来实施均衡：

其中，λ是防止在b_m(θ_q,ω)较小的频率下增益过度的正则化参数。

应该注意，模式响应b_m(θ_q,ω)可能并非精确地等于方程式(21)，因为圆柱体的高度不是无限的。有限圆柱形挡板的作用是产生模式响应的附加变化。通过使用挡板上的圆形端部来减少模式响应变化。通过垂直波束成形来进一步减小有限长度的影响，该垂直波束成形倾向于使从挡板的端部到达的声音衰减。

根据至少一个实施例，使用处于方位角的麦克风来实施对处于方位角的每个高程声场的分解。因此，圆柱形麦克风阵列由绕着圆柱体等距间隔开的L_φ个线阵列组成，其中每个线阵列具有L_z个元件。因此，存在总共L_M＝L_φL_z个麦克风。

通过麦克风之间间隔2πa/L_φ获得方位角下的空间奈奎斯特频率：

图3图示了根据本公开的一个或者多个实施例的圆柱形麦克风阵列300。该圆柱形麦克风阵列300包括具有圆形端部的圆柱形挡板320(例如，一端或者两端可以是圆形的)，麦克风绕着圆周定位在L_φ个角处，优选地，定位在一般形式φ_v＝2πv/L_φ,v＝0,1,...L_φ-1的规则地间隔开的角处。圆柱形挡板320可以是实心的、中空的、或者某一其它形式，只要圆柱形挡板320对撞击波具有无限的声阻抗。在每个角φ_v下，对由L_z个麦克风组成的垂直线阵列330进行定位。根据至少一个实施例，线阵列330麦克风元件可以在高度上以麦克风间间隔z规则地间隔开。然后，用于高程下的波束成形的空间混叠(例如，半波长)频率为：

图4图示了根据本公开的至少一个其它实施例的包括圆柱形挡板420和垂直线阵列430的圆柱形麦克风阵列400。虽然圆柱形麦克风阵列400在形式和功能上与(上面描述的并且在图3中示出的)圆柱形麦克风阵列300相似，但是在圆柱形麦克风阵列400中，垂直线阵列430非线性地或者非均匀地间隔开，使得相邻麦克风之间的距离(例如，麦克风间间隔z)朝着阵列的一端或者两端增加，从而允许在低频下实现更大的孔径，这为频率不变的波束成形提供了最大能力。

还应该注意，根据至少一个实施例，定位在圆柱形挡板上的麦克风元件(例如，如分别在图3和图4中示出的圆柱形挡板320或者420)可以在垂直尺寸上不对齐(例如，在垂直阵列中未对齐)。例如，阵列中的一个麦克风元件可以在一个方向上未对准(或者偏离中心)，而阵列中的下一麦克风元件在相反方向上在相同或者相似的程度上未对准。应该理解，除了上述示例布置之外或者代替上述示例布置，可以按照各种其它方式来将麦克风元件布置或者定位在圆柱形挡板上。

在至少一个实施例中，麦克风具有L_φ＝32个线阵列，并且在每个方位角下，存在处于高程的L_z＝5个麦克风，例如，按照距离中心麦克风位置±20毫米和±60毫米的距离。

每个麦克风可以是：例如，具有匹配良好的频率响应特性(例如，通常在彼此的±1分贝内)的MEMS麦克风。根据至少一个实施例，每个MEMS麦克风可以具有将MEMS机构的模拟输出转换为声压的数字表示的数字输出。根据至少一个实施例，可以可选地将两个麦克风数据信号复用到单条数据线上，使得数据线的总数为L_φL_z/2。数据线连接至处理数据的中央处理器单元。在Sigma Delta或者脉冲密度调制比特流的情况下，处理器可以对比特流进行下采样并且将其转换为脉冲编码调制(PCM)数据格式。

在至少一个实施例中，可以经由串行接口(诸如，例如，以太网连接)来将PCM数据直接传输至接收并且存储麦克风信号的计算设备。计算机可以向每个线阵列应用Q个垂直波束形成器，从而为每个线阵列产生表示从仰角θ_q到达麦克风的声音的Q个输出。然后，将Q个输出进一步分解为2M+1个方位角模式。每种模式都具有应用于产生期望的混合阶高保真度立体声响复制表示的模式均衡器(EQ)。

根据一个或者多个其它实施例，麦克风阵列内的数字处理器向每个线阵列应用为每个线阵列产生Q个输出的Q个垂直波束形成器，该Q个输出中的每个输出表示从仰角θ_q到达麦克风的声音。然后，将Q个输出进一步分解为2M+1个方位角模式。每种模式都具有应用于产生期望的混合阶高保真度立体声响复制表示的模式均衡器。然后，可以经由串行接口(诸如，例如，以太网连接)来将Q(2M+1)个信号传输至接收并且存储高程高保真度立体声响复制信号的计算设备。

图5图示了如上所述的这种麦克风处理系统500的示例，并且图6示出了可以由布置在这种系统中的数字处理器执行的高程和方位角处理的细节。

L_φL_z个麦克风(该L_φL_z个麦克风可以是：例如，MEMS麦克风)优选地产生连接至数字处理器520的串行数字输出(530)。处理器520将麦克风信号处理成馈送至数字数据记录设备550(例如，计算机)的单条数据线(540)(该单条数据线(540)本身可以由两条或者更多条串行数据线组成)(该处理可以可选地包括对信号进行复用(例如，使用可选的多路复用器560))。处理器520可以可选地直接向串行Sigma Delta或者脉冲密度比特流应用延迟以实施垂直波束成形，并且然后实施将串行数据转换为多比特格式。然后可以向多比特信号应用振幅阴影以进一步控制垂直波束成形响应。

图6图示了根据本文描述的一个或者多个实施例的可以由数字处理器(例如，如在图5中示出的数字处理器520)执行的空间处理的示例形式。将每个线阵列信号集合(例如，线阵列1到线阵列L_φ)馈送至Q个垂直波束形成器620集合中，每个垂直波束形成器620设计成优先检测到达方向θ_q。Q个波束形成器620可以使用延迟的比特流来提供延迟，或者可以直接对转换的多比特信号实施这些延迟。

进一步处理Q个波束形成器输出以产生方位角模式分解，通常通过按照cos(mφ_l)和sin(mφ_l)形式的权重在线阵列角φ_l下对与高程q相关联的L_φ个输出的集合进行加权并且进行添加以产生第m种模式的单个模式响应信号来进行。然后，例如，如在方程式(31)中给出的，通过特定于方位角阶数m和高程q的模式均衡器来使每个模式响应信号均衡。根据至少一个实施例，模式均衡器可以实施为产生接近方程式(31)中的响应的频率响应的有限脉冲响应(FIR)数字滤波器。可以通过本领域的技术人员已知的方法来设计该FIR滤波器，诸如，例如，按照离散频率用数字表示方程式(31)，并且然后，使用傅里叶逆变换来产生离散FIR脉冲响应，或者使用最小二乘设计方法。

图7是使用垂直定向的圆柱形阵列来记录3D声场的示例过程700。

在框705中，可以在多个垂直波束形成器(例如，垂直波束形成器的集合)(例如，如在图6中示出的垂直波束形成器620)处接收(例如，选择)以指定仰角到达的平面波。根据至少一个实施例，垂直波束形成器可以是圆柱形音频记录设备的一部分(例如，如分别在图3和图4中示出并且上面详细描述的圆柱形麦克风阵列300或者400)。

在框710中，可以使用(例如，基于)以指定仰角到达的平面波的方位角分解来为指定仰角生成圆柱形系数。根据本文描述的至少一个实施例，框710还可以包括：向方位角模式分解中的每个方位角模式分解应用模式均衡器。例如，应用于方位角模式分解中的每个方位角模式分解的模式均衡器可以特定于方位角阶数和指定高程。另外，可以通过向与指定高程相关联的垂直波束成形的输出的集合指派权重并且组合(例如，相加)加权输出以产生方位角模式分解来生成方位角模式分解。

根据至少一个实施例，示例过程700可以可选地包括：在框715中，将(例如，在框710中生成的)系数存储在存储设备中或者传输至存储设备。

应该注意，在至少一个实施例中，多个垂直波束形成器(例如，该多个垂直波束形成器是圆柱形音频记录设备的一部分，诸如，例如，如在图6中示出的垂直波束形成器620)可以被配置为表示声场中用于指定再现扬声器阵列或者用于声音在高程下的规定的最大主观分辨率的高程信息。

图8是根据本文描述的一个或者多个实施例的布置用于使用在不同高度处具有多个圆形阵列的垂直定向的圆柱形阵列(例如，如分别在图3和图4中示出的圆柱形阵列300或者400)来记录3D声场的示例性计算装置(800)的高级框图。例如，根据至少一个实施例，计算设备(800)可以是如在图5中示出并且上面详细描述的数字处理器520和/或数字记录设备550(或者可以是数字处理器520和/或数字记录设备550的一部分或者包括数字处理器520和/或数字记录设备550)。

在非常基础的配置(801)中，计算设备(800)通常包括一个或者多个处理器(810)和系统存储器(820)。存储器总线(830)可以用于在处理器(810)和系统存储器(820)之间进行通信。根据期望的配置，处理器(810)可以是任何类型的处理器，包括但不限于：微处理器(μΡ)、微控制器(μC)、数字信号处理器(DSP)等、或者其任何组合。处理器(810)可以包括超过一个级别的缓存，诸如，一级缓存(811)和二级缓存(812)、处理器核(813)、和寄存器(814)。处理器核(813)可以包括算数逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSPCore)等、或者其任何组合。存储控制器(815)还可以和处理器(810)一起使用，或者在一些实施方式中，存储控制器(815)可以是处理器(810)的内部部分。

根据期望的配置，系统存储器(820)可以是任何类型的存储器，包括但不限于：易失性存储器(诸如，RAM)、非易失性存储器(诸如，ROM、闪速存储器等)或者其任何组合。系统存储器(820)通常包括操作系统(821)、一个或者多个应用(822)、和程序数据(824)。应用(822)可以包括用于记录3D声场的系统(823)。根据本公开的至少一个实施例，用于记录3D声场的系统(823)设计成使用在不同高度处布置有多个圆形阵列的垂直定向的圆柱形阵列来记录并且处理一个或者多个音频信号，这提供了高方位角分辨率和降低的高程分辨率。

程序数据(824)可以包括存储的指令，该存储的指令在由一个或者多个处理设备执行时实施系统(823)和用于记录3D声场的方法。此外，根据至少一个实施例，程序数据(824)可以包括音频信号数据(825)，该音频信号数据(825)可以涉及例如，从位于垂直定向的圆柱形阵列的某一接近度内的源生成的声音。根据至少一个实施例，应用(822)可以布置为与操作系统(824)上的程序数据(821)一起操作。

计算设备(800)可以具有附加特征或者功能、和附加接口以促进基础配置(801)与任何需要的设备和接口之间的通信。

系统存储器(820)是计算机存储介质的示例。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪速存储器或者其它存储技术、CD-ROM、数字通用盘(DVD)或者其它光学存储设备、磁带盒、磁带、磁盘存储设备或者其它磁存储设备、或者可以用于存储期望的信息并且可由计算设备800访问的任何其它介质。任何这种计算机存储介质都可以是设备(800)的一部分。

计算设备(800)可以实施为小形状因子便携式(或者移动)电子设备(诸如，手机、智能电话、个人数字助理(PDA)、个人媒体播放器设备、平板计算机(平板)、无线网络观看设备、个人耳机设备、专用设备、或者包括上述功能中的任何功能的混合设备)的一部分。另外，计算设备(800)还可以实施为包括膝上型计算机和非膝上型计算机配置的个人计算机、一个或者多个服务器、物联网系统等。

前面描述的详细描述已经经由使用框图、流程图、和/或示例对设备和/或过程的各种实施例进行了阐述。在这种框图、流程图和/或示例包含一种或者多种功能和/或操作的情况下，本领域技术人员要明白，在这种框图、流程图、或者示例中的各种功能和/或操作可以由许多硬件、软件、固件、或者几乎其任何组合来单独地和/或共同地实施。根据至少一个实施例，可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或者其它集成格式来实施本文描述的主题的多个部分。然而，本领域的技术人员要认识到，本文所公开的实施例的一些方面能够整体地或者部分地在集成电路中等效地实施为在一个或者多个计算机上运行的一个或者多个计算机程序、在一个或者多个处理器上运行的一个或者多个程序、固件、或者其任何虚拟组合，并且根据本公开，设计电路系统和/或写入软件和/或固件的代码也将在本领域的技术人员的技术范围内。

另外，本领域的技术人员要了解，能够将本文描述的主题的机制分布为各种格式的程序产品，并且在不考虑用于实际执行该分布的非暂时性信号承载介质的特定类型的情况下，本文描述的主题的说明性实施例都适用。非暂时性信号承载介质的示例包括但不限于以下：可记录型介质(诸如，软盘、硬盘驱动器、压缩盘(CD)、数字视频盘(DVD)、数字磁带、计算机存储器等)；以及传输型介质(诸如，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路等)。

根据实施例，提供了用于使用在不同高度处具有多个圆形阵列的垂直定向的圆柱形阵列来记录三维(3D)声场的方法、系统、和装置。圆柱形阵列的设计非常适用于提供高方位角分辨率和降低的高程分辨率，并且提供优于现有3D声音再现系统的改进性能。与对于所有尺寸具有相同孔径的球形阵列相反，该方法、系统、和装置提供比水平孔径更大的垂直孔径，并且进一步提供混合阶球形分解的替代形式。

在下面概述了进一步示例实施例。

示例1：一种用于记录三维声场的装置，该装置包括：圆柱形挡板；以及多个线阵列，该多个线阵列分布在圆柱形挡板的圆周周围，每个线阵列包括在圆柱形挡板的纵向方向上彼此间隔开的麦克风元件，其中，线阵列中的每个线阵列产生垂直波束形成器响应集合，该响应集合在指定到达方向和指定高程具有最大响应。

示例2：根据示例1的装置，其中，以方位角处理每个垂直波束形成器响应集合以产生声场在指定高程处的圆柱形系数。

示例3：根据示例1或者2的装置，其中，圆柱形挡板具有用于控制衍射效应的至少一个圆形端部。

示例4：根据示例1、2或者3的装置，进一步包括：

一个或者多个垂直波束形成器，该一个或者多个垂直波束形成器适用于减小在圆柱形挡板的一端或者两端的衍射效应。

示例5：根据示例1至4中任一项的装置，其中，多个线阵列绕着圆柱形挡板的圆周定位在规则地间隔开的角处。

示例6：根据示例1至5中任一项的装置，其中，每个线阵列的麦克风元件在圆柱形挡板的纵向方向上彼此等间隔地分开。

示例7：根据示例1至6中任一项的装置，其中，每个线阵列的麦克风元件在圆柱形挡板的纵向方向上彼此非线性地间隔开，使得相邻麦克风元件之间的距离朝着阵列的一端或者两端增加。

示例8：根据示例1至7中任一项的装置，其中，每个麦克风元件是微机电系统(MEMS)麦克风。

示例9：一种用于记录三维声场的方法，该方法包括：在圆柱形音频记录设备的多个垂直波束形成器处接收以指定仰角到达的平面波；以及基于以指定仰角到达的平面波的方位角分解来生成仰角的圆柱形系数。

示例10：根据示例9的方法，进一步包括：生成方位角模式分解；以及向方位角模式分解中的每个方位角模式分解应用模式均衡器。

示例11：根据示例9的方法，其中，应用于方位角模式分解中的每个方位角模式分解的模式均衡器特定于方位角阶数和指定高程。

示例12：根据示例10或者11的方法，其中，生成方位角模式分解包括：向与指定高程相关联的垂直波束成形的输出的集合指派权重；以及组合加权输出以产生方位角模式分解。

示例13：根据示例9至12中任一项的方法，其中，多个垂直波束形成器被配置为表示声场中用于指定再现扬声器阵列的高程信息。

示例14：根据示例9至13中任一项的方法，其中，多个垂直波束形成器被配置为表示声场中用于声音在高程下的最大分辨率的高程信息。

示例15：一种用于记录三维声场的系统，该系统包括：系统存储器；至少一个处理器，该至少一个处理器耦合至系统存储器；以及与至少一个处理器相关联的非暂时性计算机可读介质，该非暂时性计算机可读介质具有存储于其上的指令，该指令在由至少一个处理器执行时使至少一个处理器：选择在圆柱形音频记录设备的多个垂直波束形成器处以指定仰角到达的平面波；以及基于以指定仰角到达的平面波的方位角分解来生成仰角的圆柱形系数。

示例16：根据示例15的系统，其中，使至少一个处理器：生成方位角模式分解；以及向方位角模式分解中的每个方位角模式分解应用模式均衡器。

示例17：根据示例16的系统，其中，应用于方位角模式分解中的每个方位角模式分解的模式均衡器特定于方位角阶数和指定高程。

示例18：根据示例16或者17的系统，其中，使至少一个处理器：向与指定高程相关联的垂直波束成形的输出的集合指派权重；以及组合加权输出以产生方位角模式分解。

示例19：根据示例15至18的系统，其中，多个垂直波束形成器表示声场中用于指定再现扬声器阵列的高程信息。

示例20：根据示例15至19中任一项的系统，其中，多个垂直波束形成器被配置为表示声场中用于声音在高程下的最大分辨率的高程信息。

关于本文大幅度使用的任何复数的和/或单数的术语，由于适用于上下文和/或本申请，因此，本领域的技术人员可以从复数转化为单数和/或从单数转化为复数。为了清楚起见，本文可以对各种单/复数置换进行清楚地阐述。

因此，已经描述了本主题的特定实施例。其它实施例在以下权利要求书的范围内。在一些情况下，可以按照不同的顺序来执行权利要求书中叙述的动作并且仍然实现期望的结果。另外，附图中描绘的过程不一定需要所示的特定顺序或者相继顺序以实现期望的结果。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种用于记录三维声场的装置，所述装置包括：

圆柱形挡板；以及

多个线阵列，所述多个线阵列分布在所述圆柱形挡板的圆周周围，每个线阵列包括在所述圆柱形挡板的纵向方向上彼此间隔开的麦克风元件，其中

所述线阵列中的每个线阵列产生垂直波束形成器响应集合，所述响应集合在指定到达方向和指定高程具有最大响应。

2.根据权利要求1所述的装置，其中，以方位角处理每个垂直波束形成器响应集合以产生所述声场在所述指定高程处的圆柱形系数。

3.根据权利要求1所述的装置，其中，所述圆柱形挡板具有适用于控制衍射效应的至少一个圆形端部。

4.根据权利要求1所述的装置，进一步包括：

一个或者多个垂直波束形成器，所述一个或者多个垂直波束形成器适用于减小在所述圆柱形挡板的一端或者两端的衍射效应。

5.根据权利要求1所述的装置，其中，所述多个线阵列绕着所述圆柱形挡板的所述圆周定位在规则地间隔开的角处。

6.根据权利要求1所述的装置，其中，每个线阵列的麦克风元件在所述圆柱形挡板的所述纵向方向上彼此等间隔地分开。

7.根据权利要求1所述的装置，其中，每个线阵列的麦克风元件在所述圆柱形挡板的所述纵向方向上彼此非线性地间隔开，使得相邻麦克风元件之间的距离朝着所述阵列的一端或者两端增加。

8.根据权利要求1所述的装置，其中，每个麦克风元件是微机电系统(MEMS)麦克风。

9.一种用于记录三维声场的方法，所述方法包括：

在圆柱形音频记录设备的多个垂直波束形成器处接收以指定仰角到达的平面波；以及

基于以所述指定仰角到达的所述平面波的方位角分解来生成所述仰角的圆柱形系数。

10.根据权利要求9所述的方法，进一步包括：

生成方位角模式分解；以及

向所述方位角模式分解中的每个方位角模式分解应用模式均衡器。

11.根据权利要求10所述的方法，其中，应用于所述方位角模式分解中的每个方位角模式分解的所述模式均衡器特定于方位角阶数和指定高程。

12.根据权利要求10所述的方法，其中，生成所述方位角模式分解包括：

向与所述指定高程相关联的垂直波束成形的输出的集合指派权重；以及

组合加权的输出以产生所述方位角模式分解。

13.根据权利要求9所述的方法，其中，所述多个垂直波束形成器被配置为表示所述声场中用于指定再现扬声器阵列的高程信息。

14.根据权利要求9所述的方法，其中，所述多个垂直波束形成器被配置为表示所述声场中用于声音在高程下的最大分辨率的高程信息。

15.一种用于记录三维声场的系统，所述系统包括：

系统存储器；

至少一个处理器，所述至少一个处理器耦合至所述系统存储器；以及

与所述至少一个处理器相关联的非暂时性计算机可读介质，所述非暂时性计算机可读介质具有存储于其上的指令，所述指令在由所述至少一个处理器执行时使所述至少一个处理器：

选择在圆柱形音频记录设备的多个垂直波束形成器处以指定仰角到达的平面波；以及

16.根据权利要求15所述的系统，其中，所述至少一个处理器被使得：

生成方位角模式分解；以及

17.根据权利要求16所述的系统，其中，应用于所述方位角模式分解中的每个方位角模式分解的所述模式均衡器特定于方位角阶数和指定高程。

18.根据权利要求16所述的系统，其中，所述至少一个处理器被使得：

组合加权的输出以产生所述方位角模式分解。

19.根据权利要求15所述的系统，其中，所述多个垂直波束形成器表示所述声场中用于指定再现扬声器阵列的高程信息。

20.根据权利要求15所述的系统，其中，所述多个垂直波束形成器表示所述声场中用于声音在高程下的最大分辨率的高程信息。