CN106658342A

CN106658342A - 用于渲染音频声场表示以供音频回放的方法和设备

Info

Publication number: CN106658342A
Application number: CN201710147809.0A
Authority: CN
Inventors: 约翰内斯·伯姆; 弗洛里安·凯勒
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-07-16
Filing date: 2013-07-16
Publication date: 2017-05-10
Anticipated expiration: 2033-07-16
Also published as: US20210258708A1; EP3629605B1; HK1210562A1; CN107071685A; JP7119189B2; BR122020017399B1; US20170289725A1; BR112015001128B1; BR112015001128A2; AU2017203820A1; KR20230003380A; JP2015528248A; EP4013072B1; US12108236B2; US20180206051A1; JP6696011B2; JP6230602B2; KR102079680B1; AU2021203484B2; CN107071687B

Abstract

本发明公开了用于渲染音频声场表示以供音频回放的方法和设备。在针对任意的空间扩音器设置渲染音频声场表示的方法中，通过以下步骤获得用于渲染到目标扩音器的给定布置的解码矩阵(D)：获得目标扬声器的数目(L)、它们的位置(I)、球形建模网格的位置(II)以及HOA阶数(N)，根据建模网格的位置(II)和扬声器的位置(I)来生成(141)混合矩阵(G)，根据球形建模网格的位置(II)和HOA阶来生成(142)模式矩阵(III)，根据混合矩阵(G)和模式矩阵(III)计算(143)第一解码矩阵(IV)，以及使用平滑和缩放系数来平滑和缩放(144、145)第一解码矩阵(IV)。

Description

用于渲染音频声场表示以供音频回放的方法和设备

本申请是申请号为201380037816.5、申请日为2013年7月16日、发明名称为“用于渲染音频声场表示以供音频回放的方法和设备”的发明专利申请的分案申请。

技术领域

本发明涉及一种用于渲染(render)音频声场表示(具体地，涉及高保真度立体声响复制格式的音频表示)以供音频回放的方法和设备。

背景技术

精确定位是任何空间音频再现系统的关键目标。这种再现系统高度可应用于会议系统、游戏或受益于3D声音的其他虚拟环境。3D中的声音场景可被合成或捕获为自然声场。声场信号(例如，高保真度立体声响复制(Ambisonics))携带期望声场的表示。高保真度立体声响复制格式基于声场的球面谐波分解。虽然基本高保真度立体声响复制格式或B格式使用阶数0和1的球面谐波，所谓的高阶高保真度立体声响复制(HOA)还使用至少2阶的其他球面谐波。需要解码或渲染过程来从这种高保真度立体声响复制格式的信号中获得单独的扩音器信号。在本文中将扩音器的空间布置称为扩音器设置。然而，虽然已知的渲染方案仅适于常规的扩音器设置，任意的扩音器设置更加普遍。如果将这种渲染方案应用于任何扩音器设置，声音方向性受到损伤。

发明内容

本发明描述了一种用于渲染/解码针对于常规和非常规空间扩音器分布的音频声场表示的方法，其中，该渲染/解码提供了高度改进的定位特性并节省了能量。具体地，本发明提供了用于获得(例如HOA格式的)声场数据的解码矩阵的新方式。因为HOA格式描述了不直接涉及扩音器位置的声场，且因为要获得的扩音器信号必然处于基于通道的音频格式，HOA信号的解码与音频信号的渲染始终紧密相关。因此，本发明涉及解码和渲染声场相关的音频格式。

本发明的一个优点是实现节能解码以及非常好的定向特性。术语“节能”指的是在解码之后保留HOA定向信号中的能量，使得例如将以恒定的响度感知恒定幅度定向空间扫描。术语“好的定向特性”指的是通过定向的主波瓣和较小的副波瓣来表征的扬声器方向性，其中，与常规的渲染/解码相比，提高了方向性。

本发明公开了针对任意的扩音器设置渲染声场信号(例如，高阶高保真度立体声响复制(HOA))，其中，该渲染导致高度改进的定位特性，且是节能的。这是通过用于声场数据的新类型的解码矩阵以及用于获得解码矩阵的新方式来获得的。在针对任意的空间扩音器设置渲染音频声场表示的方法中，通过以下步骤获得针对目标扩音器的给定布置进行渲染的解码矩阵：获得目标扬声器的数目及它们的位置、球面建模网格的位置以及HOA阶数，根据建模网格的位置和扬声器的位置来生成混合矩阵，根据球面建模网格的位置和HOA阶数来生成模式矩阵，根据混合矩阵和模式矩阵计算第一解码矩阵，以及使用平滑和缩放系数来平滑和缩放第一解码矩阵，以获得节能的解码矩阵。

在一个实施例中，如权利要求1中所述，本发明涉及一种用于解码和/或渲染音频声场表示以供音频回放的方法。在另一实施例中，如权利要求9中所述，本发明涉及一种用于解码和/或渲染音频声场表示以供音频回放的设备。在又一实施例中，如权利要求15中所述，本发明涉及其上存储可执行指令的计算机可读介质，所述可执行指令使计算机执行一种用于解码和/或渲染音频声场表示以供音频回放的方法。

一般而言，本发明使用以下方案。首先，导出取决于用于回放的扩音器设置的平移(panning)函数。其次，针对扩音器设置中的所有扩音器，根据这些平移函数(或由平移函数所获得的混合矩阵)计算解码矩阵(例如，高保真度立体声响复制解码矩阵)。在第三步骤中，生成解码矩阵并将其处理为是节能的。最后，对解码矩阵滤波，以平滑扩音器平移主波瓣并抑制副波瓣。针对给定的扩音器设置，使用已滤波的解码矩阵来渲染音频信号。副波瓣是渲染的副作用，并在不想要的方向上提供音频信号。因为针对给定的扩音器设置来优化渲染，副波瓣是令人烦恼的。本发明的优点之一是最小化副波瓣，使得扩音器信号的方向性得到改进。

根据本发明一个实施例，一种用于解码和/或渲染音频声场表示以供音频回放的方法包括以下步骤：缓冲接收到的HOA时间采样b(t)，其中，形成M个采样的块以及时间索引μ，对系数B(μ)进行滤波以获得已频率滤波的系数使用解码矩阵(D)将所述已频率滤波的系数渲染(33)到空间域，其中，获得空间信号W(μ)。在一个实施例中，其他步骤包括：在延迟线中针对所述L个通道中的每个通道单独延迟所述时间采样w(t)，其中，获得L个数字信号，以及对所述L个数字信号进行数模(D/A)变换和放大，其中，获得L个模拟扩音器信号。

用于渲染步骤(即，用来针对目标扬声器的给定布置进行渲染)的解码矩阵D是通过以下步骤获得的：获得目标扬声器的数目和扬声器的位置，确定球面建模网格的位置和HOA阶数，根据球面建模网格的位置和扬声器的位置生成混合矩阵，根据球面建模网格的位置和HOA阶数生成模式矩阵，根据混合矩阵G和模式矩阵计算第一解码矩阵，以及利用平滑和缩放系数对第一解码矩阵进行平滑和缩放，其中，获得解码矩阵。

根据另一方面，一种用于解码和/或渲染音频声场表示以供音频回放的设备包括具有用于获得解码矩阵D的解码矩阵计算单元的渲染处理单元，解码矩阵计算单元包括：用于获得目标扬声器的数目L的装置和用于获得扬声器的位置的装置；用于确定球面建模网格的位置的装置和用于获得HOA阶数N的装置；以及用于根据球面建模网格的位置和扬声器的位置生成混合矩阵G的第一处理单元；用于根据球面建模网格和HOA阶数N生成模式矩阵的第二处理单元；用于根据执行对模式矩阵与厄米特转置混合矩阵G的乘积的紧致奇异值分解的第三处理单元(其中，U、V是根据酉矩阵导出的，以及S是具有奇异值项的对角矩阵)；用于根据来由U、V矩阵计算第一解码矩阵的计算装置，其中是单位矩阵或对角矩阵，所述对角矩阵是根据所述具有奇异值项的对角矩阵导出的；以及用于利用平滑系数对第一解码矩阵进行平滑和缩放的平滑及缩放单元，其中，获得解码矩阵D。

根据又一方面，一种计算机可读介质在其上存储有可执行指令，当在计算机上执行该可执行指令时，该可执行指令使计算机执行上述用于解码音频声场表示以供音频回放的方法。

当与附图结合时，根据对以下描述和所附权利要求的考虑，本发明的其他目标、特征和优点将变得显而易见。

附图说明

参考附图对本发明的示例性实施方式进行描述，在附图中：

图1是根据本发明的一个实施例的方法的流程图；

图2是用于构建混合矩阵G的方法的流程图；

图3是渲染器的框图；

图4是解码矩阵生成过程的示意性步骤的流程图；

图5是解码矩阵生成单元的框图；

图6是示例性的16个扬声器的设置，其中，扬声器被示出为连接的节点；

图7是自然视角下的示例性的16个扬声器的设置，其中，节点被示出为扬声器；

图8是示出比率的能量图，该比率针对于利用现有技术[14]获得的解码矩阵的完美节能特征是恒定的，其中，N＝3；

图9是针对根据现有技术[14](N＝3)设计的解码矩阵的声压图，其中，中心扬声器的平移(panning)波束具有强的副波瓣；

图10是示出比率的能量图，该比率的波动比利用现有技术[2]获得的解码矩阵的4dB大，其中，N＝3；

图11是针对根据现有技术[2](N＝3)设计的解码矩阵的声压图，其中，中心扬声器的平移波束具有较小的副波瓣；

图12是示出比率的能量图，该比率的波动比通过根据本发明的方法或装置获得的1dB小，其中，利用相等的响度感知到具有恒定幅度的空间平移；

图13是针对利用根据本发明的方法设计的解码矩阵的声压图，其中，中心扬声器具有带有较小副波瓣的平移波束。

具体实施方式

大体上，本发明涉及向扩音器渲染(即，解码)声场格式的音频信号(例如，高阶高保真度立体声响复制(HOA)音频信号)，其中，扩音器位于对称或不对称、常规或非常规位置。音频信号可适于馈送比可用扩音器更多的扩音器，例如，HOA系数的数目可以大于扩音器的数目。本发明以非常好的定向特性为解码器提供了节能解码矩阵，即，与利用常规解码矩阵所获得的扬声器方向性波瓣相比，扬声器方向性波瓣大体上包括更强的定向主波瓣和较小的副波瓣。节能指的是在解码之后保留HOA方向性信号中的能量，使得例如以恒定的响度感知恒定幅度定向空间扫描。

图1输出了根据本发明的一个实施例的方法的流程图。在该实施例中，用于渲染(即，解码)HOA音频声场表示以供音频回放的方法使用如下生成的解码矩阵：首先，确定11目标扩音器的数目L、扩音器的位置球面建模网格和阶数N(例如，HOA阶数)。根据扬声器的位置和球面建模网格生成12混合矩阵G，以及根据球面建模网格和HOA阶数N，生成13模式矩阵根据混合矩阵G和模式矩阵计算14第一解码矩阵利用平滑系数平滑15第一解码矩阵其中，获得已平滑解码矩阵以及利用根据已平滑解码矩阵D获得的缩放因子来缩放16已平滑解码矩阵其中，获得解码矩阵D。在一个实施例中，平滑15和缩放16在单个步骤中执行。

在一个实施例中，通过两种不同方法中的一种来获得平滑系数这取决于扩音器的数目L和HOA系数通道的数目O_3D＝(N+1)²。如果扩音器的数目L低于HOA系数通道的数目O_3D，使用用于获得平滑系数的新方法。

在一个实施例中，生成对应于多个不同扩音器布置的多个解码矩阵，并将其存储以供后续使用。不同的扩音器布置可以在以下至少一方面不同：扩音器的数目、一个或多个扩音器的位置、以及输入音频信号的阶数N。因此，在初始化渲染系统时，确定匹配解码矩阵，根据当前需要从存储器获取该匹配解码矩阵，并将其用于解码。

在一个实施例中，通过根据执行对模式矩阵与厄米特转置混合矩阵G^H的乘积的紧致奇异值分解(compact singular value decomposition)，并根据由矩阵U、V计算第一解码矩阵获得解码矩阵D。U、V是根据酉矩阵导出的，以及S是具有模式矩阵与厄米特转置混合矩阵G^H的乘积的紧致奇异值分解的奇异值元素的对角矩阵。根据本实施例获得的解码矩阵通常在数值上比利用下述备选实施例获得的解码矩阵更加稳定。矩阵的厄米特转置是该矩阵的复共轭转置。

在备选实施例中，通过根据执行对厄米特转置模式矩阵与混合矩阵G的乘积的紧致奇异值分解，获得解码矩阵D，其中，通过导出第一解码矩阵。

在一个实施例中，根据对模式矩阵和混合矩阵G执行紧致奇异值分解，其中，通过导出第一解码矩阵，其中，是通过将大于等于阈值thr的所有奇异值替换为1并将小于该阈值thr的元素替换为0，根据奇异值分解矩阵S导出的截断紧致奇异值分解矩阵。阈值thr取决于奇异值分解矩阵的实际值，且示例性地，可以在0.06*S₁(S的最大元素)的量级上。

在一个实施例中，根据对模式矩阵和混合矩阵G执行紧致奇异值分解，其中，通过导出第一解码矩阵。和阈值thr如上针对之前实施例所述。阈值thr通常是根据最大奇异值导出的。

在一个实施例中，根据HOA阶数N和目标扬声器的数目L，使用两种不同的方法来计算平滑系数：如果存在比HOA通道少的目标扬声器，即，如果O_3D＝(N²+1)＞L，则平滑和缩放系数对应于常规的max r_E系数集合，常规的max r_E系数集合是根据阶数N+1的勒让德多项式的零导出的；否则如果存在足够的目标扬声器，即，如果O_3D＝(N²+1)≤L，则根据由长度等于(2N+1)且宽带等于2N的凯撒窗的元素来构建系数其中，缩放因子为C_f。所使用的凯撒窗的元素开始于仅被使用一次的第(N+1)个元素，并以被重复使用的后续元素继续：第(N+2)个元素被使用3次，等等。

在一个实施例中，根据已平滑的解码矩阵来获得缩放因子。具体地，在一个实施例中，根据以下等式获得缩放因子

下面描述完整的渲染系统。本发明的主要关注点是渲染器的初始化阶段，在该阶段如上所述地生成解码矩阵D。在此，主要的关注点是用于导出一个或多个解码矩阵(例如，用于码本)的技术。为了生成解码矩阵，有多少目标扩音器可用以及它们位于何处(即，它们的位置)是已知的。

图2示出了根据本发明的一个实施例的用于构建混合矩阵G的方法的流程图。在该实施例中，创建21仅具有零的初始混合矩阵，以及针对每个具有角方向Ω_s＝[θ_s，φ_s]^T和半径r_s的虚拟源，执行下面的步骤。首先，确定22环绕位置的三个扩音器l₁、l₂、l₃，其中，采用单位半径，且构建23矩阵其中根据L_t＝spherical_to_cartesian(R)，将矩阵R变换24为笛卡尔坐标。然后，根据s＝(sinΘ_s cosφ_s，sinΘ_s sinφ_s，cosΘ_s)^T构建25虚拟源位置，且根据g＝L_t ^-1s计算26增益g，其中，根据g＝g/||g/||₂来归一化27增益，且将G的对应元素G_l，s替换为归一化的增益：

下面一节给出对高阶高保真度立体声响复制(HOA)的简要介绍，并定义要处理(即，针对扩音器渲染)的信号。

高阶高保真度立体声响复制(HOA)基于对感兴趣的紧致区域内的声场的描述，该感兴趣的紧致区域被假定为与声源无关。在该情况下，在感兴趣的区域内，在时间t以及位置x＝[r，θ，φ]^T(球面坐标：半径r，倾角θ，方位角φ)处的声压p(t,x)的时空行为在物理上完全通过均匀波(homogeneous wave)等式来决定。可以示出，可根据[13]将声压相对于时间的傅里叶变换(即，(1)，其中，ω表示角频率，且对应于)扩展到球面谐波(SH)序列中：

在等式(2)中，C_s表示声音的速度，以及是角波数(angular wavenumber)。此外，j_n(·)指示第一类的且阶数为n的球面贝塞尔函数，以及表示阶数为n且度数为m的球面谐波(SH)。与声场有关的完整信息实际上包含在声场系数内。

应该注意到，SH一般是复数取值的函数。然而，通过它们的适当线性组合，可以获得取实数值的函数，并关于这些函数执行扩展。

关于等式(2)中的压力声场，可以将源场定义为：

其中，源场或幅度密度[12]D(k c_s，Ω)取决于角波数和角度方向Ω＝[θ，φ]^T。源场可以由远场/近场的离散/连续源组成[1]。通过以下等式，源场系数与声场系数有关[1]：

其中，是第二类的球面汉克尔函数，以及r_s是相对于原点的源距离。

可以在频域或时域中将HOA域中的信号表示为源场或声场系数的傅里叶逆变换。下面的描述将假设使用有限数目的源场系数的时域表示：

：在n＝N处截断等式(3)中的无限序列。截断对应于空间带宽限制。

系数(或HOA通道)的数目被给出为：

O_3D＝(N+1)² 对于3D (6)

或对于仅2D的描述，给出为O_2D＝2N+1。系数包括用于后续扩音器的再现的一个时间采样t处的音频信息。它们可被存储或发送，并因此经受到数据速率压缩。可通过具有O_3D个元素的矢量b(t)来表示系数的单个时间采样t：

以及通过矩阵来表示M个时间采样的块

B：＝[b(t_START+1)，b(t_START+2)，..,b(t_START+M)] (8)

可通过利用环形谐波(circular harmonic)的扩展来导出声场的二维表示。这是上述的一般性描述的特殊情况，该特殊情况使用固定倾角不同的系数加权以及精简至O_2D个系数的集合(m＝±n)。因此，所有下面的考虑也适用于2D表示；术语“球面”从而需要替换为术语“环形”。

在一个实施例中，将元数据与系数数据一起发送，允许明确地识别系数数据。通过所发送的元数据或因为给定的上下文，给出用于导出时间采样系数矢量b(t)的所有必要信息。此外，要注意到的是，HOA阶数N或O_3D中的至少一个，且在一个实施例中还包括特殊标记以及用于指示近场记录的r_s，在解码器处是已知的。接下来描述向扩音器渲染HOA信号。该节示出了解码以及某些数学特性的基本原理。

基本解码假设：第一，平面波扩音器信号，以及第二，可以忽略从扬声器到原点的距离。可以将针对位于球面方向(l＝1，...，L)处的L个扩音器所渲染的HOA系数b的时间采样描述为[10]：

w＝Db (9)

其中，表示L个扬声器信号的时间采样，以及解码矩阵可通过以下等式导出解码矩阵

D＝Ψ⁺ (10)

其中，Ψ⁺是模式矩阵Ψ的伪取逆。模式矩阵Ψ被定义为

Ψ＝[y₁，…y_L] (11)

其中，以及由扬声器方向的球面谐波组成，其中，H表示复共轭转置(也称为厄米特)。

接下来，描述由奇异值分解(SVD)进行的矩阵的伪取逆。导出伪取逆的一种通用方式是首先计算紧致SVD：

Ψ＝USV^H (12)

其中，是根据旋转矩阵导出的，以及是降序排列的奇异值S₁≥S₂≥…≥S_K的对角矩阵，其中，K＞0以及K≤min(O_3D，L)。通过以下等式确定伪取逆：

其中，对于S_k具有非常小的值的不好的条件矩阵，将对应的逆值替换为0。这被称为截断奇异值分解。通常，选择关于最大奇异值S₁的检测阈值来识别要被替换为0的对应逆值。

下面描述节能特性。通过以下等式给出HOA域中的信号能量：

E＝b^Hb (14)

以及通过以下等式给出空间域中的对应能量：

节能解码器矩阵的比率是(基本)恒定的。这仅在D^HD＝cI时可实现，其中，单位矩阵为I，以及常数这要求D的norm-2(范2)条件数cond(D)＝1。再次地，这要求D的SVD(奇异值分解)产生相同的奇异值：D＝USV^H，其中，S＝diag(S_K，...，S_K)。

一般而言，节能渲染器设计是本领域已知的。在[14]中通过以下等式提出了针对L≥O_3D的节能解码器矩阵设计：

D＝V U^H (16)

其中，将来自等式(13)的强制为并因此可以在等式(16)中丢弃乘积D^HD＝U V^HV U^H＝I，以及比率变为1。该设计方法的好处是能量节省，该能量节省保证了同质空间声印象的，其中，空间平移在感知到的响度上没有波动。该设计的缺陷是：针对不对称的、非常规的扩音器位置(参见图8-9)，方向精确度的丢失以及较强的扩音器波束侧波瓣。本发明可以克服该缺陷。

针对非常规位置的扬声器的渲染器设计也是本领域已知的。在[2]中描述了针对L≥O_3D和L＜O_3D的解码器设计方法，该解码器设计方法允许在再现方向性上以较高精确度进行渲染。该设计方法的缺陷是所导出的渲染器不节能(参见图10-11)。

可以将球面卷积用于空间平滑。这是空间滤波过程，或是系数域中的窗口化(windowing)(卷积)。其目的是最小化副波瓣，称为平移波瓣。通过原始HOA系数与带状系数(zonal coefficient)的加权乘积来给出新的系数[5]：

这等效于在空间域对S²的左卷积[5]。在[5]中，将这方便地用于在通过对HOA系数B加权来进行渲染/解码之前对扩音器信号的定向特性进行平滑，该加权通过以下等式进行：

其中，矢量通常包含取实数值的加权系数和常数因子d_f。平滑的概念是随着增加的阶数索引n对HOA系数进行衰减。平滑加权系数的已知示例是所谓的max r_V、和max r_E以及同相系数[4]。第一项提供缺省的幅度波束(不重要的(trivial)，长度为O_3D的全1矢量)，第二项提供均匀分布的角功率以及同相特征全副波瓣抑制。

下面描述所公开解决方案的其他细节和实施例。首先，在初始化、启动行为和处理方面对渲染器架构进行描述。

每次扩音器设置(即，扩音器的数目以及任何扩音器相对于收听位置的位置发生改变)，渲染器需要执行初始化过程，以确定针对所支持HOA输入信号具有的任何HOA阶数的解码矩阵组。同样地，根据扬声器与收听位置之间的距离来确定延迟线的单独扬声器延迟d_l和扬声器增益下面描述该过程。在一个实施例中，所导出的解码矩阵存储在码本内。每次HOA音频输入特征改变，渲染器控制单元确定当前有效的特征，并从码本选择匹配的解码矩阵。码本关键字可以是HOA阶数N，或等效地，O_3D(参见等式(6))。

参考图3解释用于渲染的数据处理的示意性步骤，图3示出了渲染器的处理框的框图。它们是第一缓冲器31、频域滤波单元32、渲染处理单元33、第二缓冲器34、用于L个通道的延迟单元35、以及数模变换器及放大器36。

首先在第一缓冲器31中存储具有时间索引t和O_3DHOA系数通道的HOA时间采样b(t)，以形成块索引为μ的M个采样的块。在频域滤波单元32中对的系数B(μ)进行频率滤波，以获得已频率滤波的块该技术已知(参见[3])用于补偿球面扩音器源的距离，并用于使得可处理近场记录。在渲染处理单元33中通过以下等式来向空间域渲染已频率滤波的块

其中，表示具有M个时间采样的块的L个通道中的空间信号。该信号在第二缓冲器34中缓冲，并被串行化，以形成在L个通道中具有时间索引t的单个时间采样，在图3中称之为w(t)。这是馈送到延迟单元35中的L个数字延迟线的串行信号。延迟线补偿收听位置到延迟为d_l个采样的单独的扬声器l之间的不同距离。理论上，每个延迟线是FIFO(先进先出存储器)。然后，在数模变换器及放大器36中对已延迟补偿的信号355进行D/A变换并放大，数模变换器及放大器36提供可馈送到L个扩音器的信号365。可以在D/A变换之前或通过在模拟域中采用扬声器通道放大来考虑扬声器增益补偿

渲染器初始化如下进行。

首先，需要知道扬声器的数目和位置。初始化的第一步骤是使新的扬声器数目L及相关位置可用，其中，其中，r_l是从收听位置到扬声器l的距离，以及和是相关球面角。可应用各种方法，例如，扬声器位置的手动输入，或使用测试信号的自动初始化。可使用适当的接口(如，已连接的移动设备或集成于设备的用于选择预定义位置集合的用户界面)来进行扬声器位置的手动输入。可利用评估单元，使用麦克风阵列和专用的扬声器测试信号来进行自动初始化，以导出通过r_max＝max(r₁，...，r_L)确定最大距离r_max，通过r_min＝min(r₁，...，r_L)确定最小距离r_min。

将L个距离r_l和r_max输入到延迟线和增益补偿35。通过以下等式来确定针对每个扬声器通道d_l的延迟采样的数目：

其中，采样速率为f_S，声音速度为c(温度为20摄氏度时，)，以及指示向下一个整数取整。为了补偿针对不同r_l的扬声器增益，通过确定扩音器增益或使用声学测量来导出扩音器增益

如下进行(例如，针对于码本的)解码矩阵的计算。图4示出了在一个实施例中用于生成解码矩阵的方法的示意性步骤。图5示出了在一个实施例中用于生成解码矩阵的对应设备的处理框。输入是扬声器方向球面建模网格和HOA阶数N。

可以将扬声器方向表达为球面角以及通过球面角Ω_s＝[θ_s，φ_s]^T来表达球面建模网格将方向的数目选择为大于扬声器的数目(S＞L)，且大于HOA系数的数目(S＞O_3D)。网格的方向应该通过非常规则的方式来采样单位球面。在[6]、[9]中讨论了适合的网格，且可在[7]、[8]中找到适合的网格。一次性选择网格作为示例，根据[6],S＝324个网格足以用于解码最多HOA阶数N＝9的矩阵。针对不同的HOA阶数，可以使用其他网格。递增地选择HOA阶数N，以根据N＝1，...，N_max填充码本，其中，N_max是所支持的HOA输入内容的最大HOA阶数。

将扬声器方向和球面建模网格输入到构建混合矩阵框41，构建混合矩阵框41生成其混合矩阵G。将球面建模网格和HOA阶数N输入到构建模式矩阵框42，构建模式矩阵框42生成其模式矩阵将混合矩阵G和模式矩阵输入到构建解码矩阵框43，构建解码矩阵框43生成其解码矩阵将该解码矩阵输入到平滑解码矩阵框44，平滑解码矩阵框44平滑并缩放解码矩阵。下面提供其他细节。平滑解码矩阵框44的输出是解码矩阵D，利用相关的关键字N(或备选地O_3D)将解码矩阵D存储在码本中。在构建模式矩阵框42中，球面建模网格被用于构建类似于等式(11)的模式矩阵：其中，要注意到的是，在[2]中将模式矩阵称为Ξ。

在构建混合矩阵框41中，利用来创建混合矩阵G。要注意到的是，在[2]中将混合矩阵G称为W。混合矩阵G的第l行由从方向到扬声器l的针对混合S虚拟源的混合增益组成。在一个实施例中，矢量基幅度平移(VBAP)[11]被用于导出这些混合增益，[2]中也是如此。用于导出G的算法总结如下：

1利用0值来创建G(即，初始化G)

2针对每个s＝1...S

3{

4找到围绕位置的3个扬声器l₁，l₂，l₃，假设单位半径以及构建矩阵其中，

5在笛卡尔坐标中计算L_t＝spherical_to_cartesian(R)。

6构建虚拟源位置s＝(sinΘ_s cosφ_s，sinΘ_s sinφ_s，cosΘ_s)^T。

7计算g＝L_t ^-1s，其中

8归一化增益：g＝g/||g||₂

9利用g的元素来填充G的相关元素G_l，s：

10}

在构建解码矩阵框43中，计算对模式矩阵与转置混合矩阵的矩阵乘积的紧致奇异值分解。这是本发明的一个重要方面，可通过各种方式来执行。在一个实施例中，根据以下等式来计算模式矩阵与转置混合矩阵G^T的矩阵乘积的紧致奇异值分解S：

在备选实施例中，根据以下等式来计算模式矩阵与伪逆混合矩阵G⁺的矩阵乘积的紧致奇异值分解S：

其中，G⁺是混合矩阵G的伪取逆。

在一个实施例中，创建对角矩阵，在该对角矩阵中，其中，第一对角元素是S的逆对角元素：以及接下来的对角元素被设置为值1(如果其中，a是阈值)，或被设置为值0(如果)。

发现适合的阈值大约是0.06。在例如±0.01的范围内或在±10％的范围内的较小偏差是可接受的。然后，如下计算解码矩阵：

在平滑解码矩阵框44中，平滑解码矩阵。替代现有技术中已知的在解码之前向HOA系数应用平滑系数，可以将其与解码矩阵相组合。这节省了一个处理步骤或相应节省了处理框。

为了针对用于HOA内容比扩音器具有更多系数(即，O_3D＞L)的解码器也获得良好的节能特性，根据HOA阶数N(O_3D＝(N+1)²)来选择所应用的平滑系数

与在[4]中一样，针对L≥O_3D，对应于根据阶数N+1的勒让德多项式的零导出的max r_E系数。

针对L＜O_3D，根据凯撒窗构建的的系数如下所示：

其中，len＝2N+1，width＝2N，其中，是具有2N+1个取实数值的元素的矢量。该元素是通过凯撒窗公式创建的

其中，I_O()表示第一类的零阶修正贝塞尔函数。矢量是根据以下项构建的：

其中，针对HOA阶数索引n＝O..N，每个元素具有2n+1个重复，以及c_f是用于在不同的HOA阶数节目(program)之间保持相等的响度的恒定缩放因子。亦即，所使用的凯撒窗的元素开始于仅被使用一次的第(N+1)个元素，并以被重复使用的后续元素继续：第(N+2)个元素被使用3次，等等。

在一个实施例中，对已平滑的解码矩阵进行缩放。在一个实施例中，在图4a)中示出的平滑解码矩阵框44中执行缩放。在不同的实施例中，在图4b)中示出的缩放矩阵框45中将缩放作为单独步骤执行。

在一个实施例中，根据解码矩阵来获得恒定缩放因子。具体地，其可根据解码矩阵的所谓弗罗比舍范数来获得：

其中，是(已平滑的)矩阵的第l行第q列的矩阵元素。已归一化的矩阵是

图5示出了根据本发明的一方面的一种用于解码音频声场表示以供音频回放的设备。该设备包括具有用于获得解码矩阵D的解码矩阵计算单元140的渲染处理单元33，解码矩阵计算单元140包括用于获得目标扬声器的数目L的装置1x和用于获得扬声器的位置的装置，用于确定球面建模网格的位置的装置1y和用于获得HOA阶数N的装置1z，以及用于根据球面建模网格的位置和扬声器的位置生成混合矩阵G的第一处理单元141，用于根据球面建模网格和HOA阶数N生成模式矩阵的第二处理单元142，用于根据执行对模式矩阵与厄米特转置混合矩阵G的乘积的紧致奇异值分解的第三处理单元143(其中，U、V是根据酉矩阵导出的，以及S是具有奇异值元素的对角矩阵)，用于根据来由矩阵U、V计算第一解码矩阵的计算装置144，以及用于利用平滑系数对第一解码矩阵进行平滑和缩放的平滑及缩放单元145(其中，获得解码矩阵D)。在一个实施例中，平滑及缩放单元145例如是用于平滑第一解码矩阵的平滑单元1451(其中获得已平滑的解码矩阵)和用于对已平滑的解码矩阵进行缩放的缩放单元1452(其中，获得解码矩阵D)。

图6示出了节点示意图中的示例性的16个扬声器的设置中的扬声器位置，其中，将扬声器示出为已连接节点。前台连接示出为实线，后台连接示出为虚线。图7通过用透视法缩小绘制的视图的形式示出了具有16个扬声器的相同设置。

下面描述利用图5和图6中的扬声器设置获得的示例结果。在2个球面(所有的测试方向)上以dB示出声音信号的能量分布，以及具体地，比率的分布。示出中心扬声器波束(图6中的扬声器7)作为扩音器平移波束的示例。例如，在[14]中设计的解码器矩阵(N＝3)产生图8中示出的比率其提供了几乎完美的节能特性，因为比率几乎是恒定的：暗区(对应于较低音量)与亮区(对应于较高音量)之间的差异小于0.01dB。然而，如图9中示出的，中心扬声器的对应平移波束具有较强的副波瓣。特别是对于偏离中心的收听者而言，这妨碍了空间感知。

另一方面，在[2]中设计的解码器矩阵(N＝3)产生图9中示出的比率在图10中使用的刻度中，暗区对应于下降到-2dB的较低音量，以及亮区对应于上升到+2dB的较高音量。因此，比率示出了大于4dB的波动，这是不利的，因为以相同的响度不能感知到恒定幅度的例如从顶部到中心扬声器位置的空间平移。然而，如图11中示出的，中心扬声器的对应平移波束具有非常小的副波瓣，这对于偏离中心的收听位置而言是有益的。

图12示出了利用根据本发明的解码器矩阵获得的声音信号的能量分布，为了易于比较，示例性地针对于N＝3。(在图12的右侧示出的)比率的刻度范围从3.15到3.45dB。因此，该比率中的波动小于0.31dB，以及声场中的能量分布是非常均匀的。因此，以相同的响度感知到了具有恒定幅度的任何空间平移。如图13中示出的，中心扬声器的平移波束具有非常小的副波瓣。这对于偏离中心的收听位置而言是有益的，在该收听位置处，副波瓣可能是可听到的，并因此将会是令人烦恼的。因此，本发明提供了利用[14]和[2]中的现有技术可获得的组合优点，而无需忍受其相应缺点。

要注意到的是，在本文中只要提及扬声器，表示的是声音发射设备，例如扩音器。

附图中的流程图和/或框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的配置、操作和功能。在这一点上，流程图或框图中的每个框可以表示代码的模块、片段或部分，该代码包括用于实现所指定的逻辑功能的一个或多个可执行指令。

还应该注意到，在一些备选实现中，框中提到的功能可以通过附图中所提到的顺序之外的顺序来发生。例如，取决于所涉及的功能，连续示出的两个框事实上可以实质上同时执行，或有时以相反的顺序来执行该框，或者可以通过备选顺序执行该框。还要注意到的是，框图和/或流程图示意图的每个框，以及框图和/或流程图示意图中的框组合可通过基于专用硬件的系统或者专用硬件和计算机指令的组合来实现，该基于专用硬件的系统执行特定功能或动作。虽然没有明确描述，可以在任何组合或子组合中使用当前实施例。

此外，本领域技术人员应该意识到的是，本原理的各方面可以体现为系统、方法或计算机可读介质。因此，本原理的各方面可以采用以下形式：完全硬件实施例、完全软件实施例(包括固件、驻机软件、微代码等)、或组合了软件和硬件方面(在本文中可全部统称为“电路”、“模块”或“系统”)的实施例。此外，本原理的各方面可以采用计算机可读存储介质的形式。可以利用一个或多个计算机可读存储介质的任何组合。本文中使用的计算机可读存储介质被认为是非暂时存储介质，该非暂时存储介质被给定了在其中存储信息的固有能力以及从其提供对信息的获取的固有能力。

此外，本领域技术人员应该意识到，这里所呈现的框图表示了体现本发明原理的示意性系统组件和/或电路的概念视图。类似地，应该意识到，任何流程图、流程图表、状态转移图、伪代码等表示各种过程，其中可以在计算机可读存储介质中表示这些过程并且由计算机或处理器执行这些过程，不管是否明确示出了这样的计算机或处理器。

所引用的参考文献

[1]T.D.Abhayapala.Generalized framework for spherical microphonearrays：Spatial and frequency decomposition.In Proc.IEEE IntemationalConference on Acoustics，Speech，and Signal Processing(ICASSP)，(accepted)Vol.X，pp.，April 2008，Las Vegas，USA.

[2]Johann-Markus Batke，Florian Keiler，and Johannes Boehm.Method anddevice for decoding an audio soundfield representation for audioplayback.International Patent Application WO2011/117399(PD100011).

[3] Daniel，Rozenn Nicol，and Sébastien Moreau.Furtherinvestigations of high order ambisonics and wavefield synthesis forholophonic sound imaging.In AES Convention Paper 5788 Presented at the 114thConvention，March 2003.Paper 4795 presented at the 114th Convention.

[4] Daniel.Représentation de champs acoustiques，application ala transmission et a la reproduction de scenes sonores complexes dans uncontexte multimedia.PhD thesis，Universite Paris 6，2001.

[5]James R.Driscoll and Dennis M.Healy Jr.Computing Fouriertransforms and convolutions on the 2-sphere.Advances in Applied Mathematics，15：202-250，1994.

[6]Jōrg Fliege.Integration nodes for the sphere.

http：//www，personal.soton.ac.uk/jf1 w07/nodes/nodes.html，Online，accessed 2012-06-01.

[7]Jōrg Fliege and Ulrike Maier.A two-stage approach for computingcubature formulae for the sphere.Technical Report，Fachbereich Mathematik， Dortmund，1999.

[8]R.H.Hardin and N.J.A.Sloane.Webpage：Spherical designs，spherical t-designs.http：//www2.research.att.com/-njas/sphdesigns/.

[9]R.H.Hardin and N.J.A.Sloane.Mclaren′s improved snub cube and othernew spherical designs in three dimensions.Discrete and ComputationalGeometry，15：429-441，1996.

[10]M.A.Poletti.Three-dimensional surround sound systems based onspherical harmonics.J.Audio Eng.Soc.，53(11)：1004-1025，November 2005.

[11]Ville Pulkki.Spatia/ Sound Generation and Perception by AmplitudePanning Technk/ues.PhD thesis，Helsinki University of Technology，2001.

[12]Boaz Rafaely.Plane-wave decomposition of the sound field on asphere by spherical convolution.J.Acoust.Soc.Am.，4(116)：2149-2157，October2004.

[13]Earl G.Williams.Fourier Acoustics，volume 93 of AppliedMathematica/Sciences.Academic Press，1999.

[14]F.Zotter.H.Pomberger，and M.Noistemig.Energy-preserving ambisonicdecoding.Acta Acustica united with Acustica.98(1)：37-47，January/February2012.

Claims

1.一种用于渲染声音或声场的高阶高保真度立体声响复制(HOA)表示的方法，包括：

-基于已平滑解码矩阵将HOA声场表示的系数从频率域渲染到空间域，

-基于与HOA阶数N有关的球面建模网格的位置以及L个扬声器确定混合矩阵G；

-基于所述球面建模网格和所述HOA阶数N确定模式矩阵

-其中，基于确定所述模式矩阵与厄米特转置混合矩阵G^H的乘积的紧致奇异值分解，其中，U、V是基于酉矩阵的，以及S是基于具有奇异值元素的对角矩阵的，以及第一解码矩阵基于矩阵U、V根据被确定，是截断紧致奇异值分解矩阵，所述截断紧致奇异值分解矩阵是单位矩阵或修正对角矩阵，所述修正对角矩阵是基于具有奇异值元素的对角矩阵通过将大于等于阈值的奇异值元素替换为1并且将小于所述阈值的奇异值元素替换为0而被确定的；以及

-其中，已平滑解码矩阵是基于通过平滑系数对所述第一解码矩阵进行平滑和缩放而被确定的，所述平滑系数基于凯撒窗的元素被确定，所述凯撒窗是基于被确定的，其中，len＝2N+1，width＝2N，其中，是具有基于下式的2N+1个取实数值的元素的矢量：

其中，I₀()表示第一类的零阶修正贝塞尔函数，并且i＝1,…,N+1。

2.一种用于渲染声音或声场的高阶高保真度立体声响复制(HOA)表示的设备，包括：

用于基于已平滑解码矩阵将HOA声场表示的系数从频率域渲染到空间域的装置，

用于基于与HOA阶数N有关的球面建模网格的位置以及L个扬声器确定混合矩阵G的装置；

用于基于所述球面建模网格和所述HOA阶数N确定模式矩阵的装置；

3.一种装置，所述装置包括：

一个或多个处理器；和

一个或多个存储介质，存储指令，所述指令在由所述一个或多个处理器执行时使得执行根据权利要求1所述的方法。

4.一种计算机可读介质，存储指令，所述指令在由计算机执行时使得执行根据权利要求1所述的方法。