CN117392989A

CN117392989A - 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备

Info

Publication number: CN117392989A
Application number: CN202311300470.5A
Authority: CN
Inventors: 亚历山大·克鲁格; 斯文·科登; 约翰内斯·伯姆
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-12-12
Filing date: 2013-12-04
Publication date: 2024-01-12
Also published as: TW202338788A; US20220159399A1; EP3496096B1; RU2015128090A; RU2017118830A; JP7100172B2; US20200296531A1; CN109410965A; TW202013354A; TWI611397B; MX2023008863A; EP3496096A1; MX2022008697A; US10609501B2; MY191376A; JP2020074008A; US10038965B2; WO2014090660A1; JP2015537256A; CA2891636A1

Abstract

本公开涉及对声场的高阶立体混响表示进行压缩和解压缩的方法和设备。本发明改善HOA声场表示压缩。针对主导声源的存在来对HOA表示进行分析，并且估计所述主导声源的方向。然后，HOA表示分解为多个主导定向信号和残余分量。该残余分量变换到离散空间域，以便在均匀采样方向获得总的平面波函数，所述均匀采样方向是根据主导定向信号中预测的。最后，预测误差变换回HOA域，并且表示残余环境HOA分量，针对所述残余环境HOA分量来执行阶的降低，随后是主导定向信号和残余分量的感知编码。

Description

对声场的高阶立体混响表示进行压缩和解压缩的方法和设备

本申请是申请号为201910024905.5、申请日为2013年12月4日、发明名称为“对声场的高阶立体混响表示进行压缩和解压缩的方法和设备”的发明专利申请的分案申请，该申请号为201910024905.5的发明专利申请是申请号为201380064856.9、申请日为2013年12月4日、发明名称为“对声场的高阶立体混响表示进行压缩和解压缩的方法和设备”的发明专利申请的分案申请。

技术领域

本发明涉及对声场的高阶立体混响表示进行压缩和解压缩的方法和设备。

背景技术

高阶立体混响(表示为HOA)提供了表示三维立体声的一种方式。其它的技术是波场合成(WFS)或者像22.2的基于声道的方法。相比于基于声道的方法，HOA表示提供了独立于特定扬声器配置的优点。然而，这种灵活性是以牺牲解码过程为代价的，对于在特定扬声器配置上的HOA表示的回放，需要解码过程。与需要的扬声器数量通常很大的WFS方法相比，HOA也可以被提供给只包括较少扬声器的配置。HOA的其它优点是，在没有针对对耳机的双耳呈现的任何修改的情况下，也可以采用相同的表示。

HOA是基于按照截短的球面谐波(SH)展开的、复杂谐波平面波振幅的空间密度的表示。每个展开系数是角频率的函数，所述角频率的函数可以通过时域函数来等价表示。因此，不失一般性地，实际上可以假设完整的HOA声场表示由O个时域函数组成，其中O表示展开系数的数量。在下文中，这些时域函数将会等同地称为HOA系数序列。

HOA表示的空间分辨率随着展开的最大阶N的增长而提高。不幸地，展开系数O的数量随着阶N二次方地增长，具体地是O＝(N+1)²。例如，典型的使用阶N＝4的HOA表示需要O＝25的HOA(展开)系数。根据上述考虑，给定期望的单声道采样速率f_s以及每个样本的比特数量N_b，针对HOA表示的传输的总比特率由O·f_s·N_b确定。使用每个样本N_b＝16个比特、以样本速率f_s＝48kHz传输阶N＝4的HOA表示将会导致19.2MBits/s的比特率，这对于许多实际应用(例如流传输)来说非常的高。因此，非常需要HOA表示的压缩。

发明内容

处理HOA表示(具有N>1)的压缩的现有方法是很少的。由E.Hellerud,I.Burnett,ASolvang and U.P.Svensson,"Encoding Higher Order Ambisonics with AAC",124thAES Convention,Amsterdam,2008提出的最直接的方法是使用高级音频编码(AAC)执行各个HOA系数序列的直接编码，所述高级音频编码(AAC)是感知编码算法。然而，该方法固有的问题是从未听见的信号的感知编码。重建的回放信号经常通过HOA系数序列的加权和来获得，并且当解压缩的HOA表示在特定的扬声器配置上呈现时，有很大的可能会暴露感知编码噪音。针对感知编码噪音暴露的主要问题是各个HOA系数序列之间的高互相关性。由于各个HOA系数序列中的编码噪音信号经常是相互之间不相关的，因此可能会出现感知编码噪音的有益的叠加，同时无噪音HOA系数序列在叠加处消除。其它的问题是，这些互相关性导致感知编码器效率下降。

为了使两种效果的程度降到最低，在EP 2469742 A2中提出了在感知编码之前，将HOA表示变换为离散空间域中的等价表示。从形式上看，该离散空间域是在一些离散方向处采样的、复杂谐波平面波振幅的空间密度的时域等价物。因此离散空间域由O个传统时域信号来表示，如果扬声器恰好位于与针对空间域变换假设的方向相同的方向，则传统时域信号可以解释为从采样方向冲击的大体平面波，并且传统时域信号将会与扬声器信号相对应。

向离散空间域的变换降低了各个空间域信号之间的互相关性，但是没有完全消除这些互相关性。相对高的互相关性的示例是方向在由空间域信号覆盖的相邻方向中间的方向的定向信号。

两种方法的主要缺点是：感知编码信号的数量是(N+1)²，并且针对压缩的HOA表示的数据速率随着立体混响阶N二次方地增长。

为了降低感知编码信号的数量，专利申请EP 2665208 A1提出了将HOA表示分解为给定的最大数量的主导定向信号和残余环境分量。要感知编码的信号数量的降低是通过降低残余环境分量的阶来实现的。该方法背后的原理是：在通过较低阶HOA表示使用足够精度来表示残余的同时，保持关于主导定向信号的高空间分辨率。

只要满足关于声场的假设，该方法会很好的工作，即，假设声场由少量的主导定向信号(代表使用完整的阶N编码的大体平面波函数)和没有任何方向性的残余环境分量组成。然而，如果在分解之后残余环境分量仍然包含一些主导定向分量，则阶降低会导致在分解之后的呈现处明显可以感知到的错误。违反了假设的HOA表示的典型示例是以低于N的阶编码的大体平面波。这样的阶低于N的大体平面波可以产生于艺术创作，以便使得声源看起来更广泛，并且这样的阶低于N的大体平面波还可以随着通过球形麦克风记录HOA声场表示而出现。在两种示例中，由大量高度相关的空间域信号来表示声场(其解释还可以参见Spatial resolution of Higher Order Ambisonics)。

本发明要解决的问题是消除专利申请EP 2665208 A1中描述的过程引起的缺点，由此也避免了上述其它引用的现有技术的缺点。该问题是由说明书中所公开的方法解决的。说明书中公开了利用这些方法的对应的设备。

本发明改进了专利申请EP 2665208 A1中描述的HOA声场表示压缩过程。首先，像EP 2665208 A1中描述的，针对主导声源的存在对HOA表示进行分析，估计所述主导声源的方向。利用主导声源方向的信息，将HOA表示分解为多个表示大体平面波的主导定向信号和残余分量。然而，将该残余HOA分量的阶变换到离散空间域，而不是立即降低该残余HOA分量的阶，以便获得在表示残余HOA分量的均匀采样方向处的大体平面波函数。此后，根据主导定向信号预测这些平面波函数。该操作的原因在于，残余HOA分量的一部分可能与主导定向信号高度相关。

所述预测可以是简单的预测，从而只产生少量的辅助信息。在最简单的情况下，预测由适当的缩放和延时组成。最后，预测误差变换回HOA域，并且当作残余环境HOA分量，针对所述残余环境HOA分量执行阶降低。

有利的是，从残余HOA分量中减去可预测的信号的效果是减小其总功率并且保持主导定向信号的数量，并且通过这种方式来减少由于阶降低导致的分解误差。

在原则上，本发明的压缩方法适用于压缩声场的高阶立体混响(表示为HOA)表示，所述方法包括以下步骤：

-根据HOA系数的当前时帧，估计主导声源方向；

-基于所述HOA系数并且基于所述主导声源方向，将所述HOA表示分解为时域中的主导定向信号和残余HOA分量，其中所述残余HOA分量变换到离散空间域，以便在表示所述残余HOA分量的均匀采样方向处获得平面波函数，并且其中所述平面波函数是根据所述主导定向信号预测的，由此提供描述所述预测的参数，并且对应的预测误差变换回HOA域；

-将所述残余HOA分量的当前阶降低到更低的阶，得到降阶残余HOA分量；

-对所述降阶残余HOA分量进行去相关，以获得对应的残余HOA分量时域信号；

-对所述主导定向信号和所述残余HOA分量时域信号进行感知编码，从而提供压缩的主导定向信号和压缩的残余分量信号。

原则上，本发明的压缩设备适用于压缩声场的高阶立体混响(表示为HOA)表示，所述设备包括：

-适于根据HOA系数的当前时间帧来估计主导声源方向的装置；

-适于基于所述HOA系数并且基于所述主导声源方向，将所述HOA表示分解为时域中的主导定向信号和残余HOA分量的装置，其中所述残余HOA分量变换到离散空间域，以便在表示所述残余HOA分量的均匀采样方向处获得平面波函数，并且其中所述平面波函数是根据所述主导定向信号预测的，由此提供描述所述预测的参数，并且对应的预测误差变换回HOA域；

-适于将所述残余HOA分量的当前阶降低到更低的阶，得到降阶残余HOA分量的装置；

-适于对所述降阶残余HOA分量进行去相关，以获得对应的残余HOA分量时域信号的装置；

-适于对所述主导定向信号和所述残余HOA分量时域信号进行感知编码，从而提供解压缩的主导定向信号和解压缩的残余分量信号的装置；

原则上，本发明的解压缩方法适用于解压缩根据上述压缩方法压缩的高阶立体混响表示，所述解压缩方法包括以下步骤：

-对所压缩的主导定向信号和所压缩的残余分量信号进行感知解码，从而提供解压缩的主导定向信号和表示空间域中的残余HOA分量的解压缩的时域信号；

-对所述解压缩的时域信号进行重新相关，来获得对应的降阶残余HOA分量；

-将所述降阶残余HOA分量的阶增大到原始的阶，从而提供对应的解压缩残余HOA分量；

-使用所述解压缩主导定向信号、所述原始阶解压缩残余HOA分量、所述估计的主导声源方向和描述所述预测的所述参数来组成对应的HOA系数的解压缩且重新组成的帧。

在原则上，本发明的解压缩设备适于解压缩根据上述压缩方法压缩的高阶立体混响表示，所述解压缩设备包括：

-适于对所压缩的主导定向信号和所压缩的残余分量信号进行感知解码，从而提供解压缩的主导定向信号和表示空间域中的残余HOA分量的解压缩的时域信号的装置；

-适于对所述解压缩的时域信号进行重新相关，以获得对应的降阶残余HOA分量的装置；

-适于将所述降阶残余HOA分量的阶增大到原始的阶，从而提供对应的解压缩的残余HOA分量的装置；

-适于通过使用所述解压缩的主导定向信号、所述原始阶解压缩的残余HOA分量、所述估计的主导声源方向和描述所述预测的所述参数，来组成对应的HOA系数的解压缩且重新组成的帧的装置。

在对应的从属权利要求中公开了有利的附加实施例。

附图说明

参照附图对本发明的示例性实施例进行描述，其中：

图1a压缩步骤1：将HOA信号分解为多个主导定向信号、残余环境HOA分量和辅助信息；

图1b压缩步骤2：阶降低，针对环境HOA分量进行去相关，以及对两个分量进行感知编码；

图2a解压缩步骤1：对时域信号进行感知解码，对表示残余环境HOA分量的信号进行重新相关，以及阶增大；

图2b解压缩步骤2：总HOA表示的组成；

图3 HOA分解

图4 HOA组成

图5球形坐标系

图6针对不同的N值的归一化函数v_N(Θ)的示例性曲线

具体实施方式

压缩过程

根据本发明的压缩过程包括分别在图1a和图1b中示出的两个连续的步骤。各个信号的准确定义在HOA分解和重新组成的详细描述部分中描述。使用了针对长度B的HOA系数序列的非重叠输入帧D(k)的压缩的逐帧处理，其中k表示帧索引。关于方程式(42)中指定的HOA系数序列，帧定义如下：

D(k):＝[d((kB+1)T_s)d((kB+2)T_s)…d((kB+B)T_s)] (1)

其中T_s表示采样周期。

在图1a中，HOA系数序列的帧D(k)输入到主导声源方向估计步骤或阶段11，所述主导声源方向估计步骤或阶段针对主导定向信号的存在来分析HOA表示，估计主导定向信号的方向。可以例如通过专利申请EP 2665208 Al中描述的处理过程来执行方向的估计。估计的方向由来表示,其中表示方向估计的最大数量。假设估计的方向如下设置在矩阵中：

隐含地假设通过将方向估计分配给来自先前的帧的方向估计，来对所述方向估计进行适当的整理。因此，假设各个方向估计的时间序列描述主导声源的方向轨迹。具体地，如果第d个主导声源不应当运行，则可以通过向分配非有效值来对其进行指示。然后，在分解步骤或阶段12中，利用中估计的方向将HOA表示分解为个最大主导定向信号X_DIR(k-1)、描述根据主导定向信号预测的残余HOA分量的空间域信号的预测的一些参数ζ(k-1)、以及表示预测误差的环境HOA分量D_A(k-2)。在HOA解压缩部分提供了所述解压缩的详细描述。

在图1b中示出了定向信号X_DIR(k-1)的感知编码和残余环境HOA分量D_A(k-2)的感知编码。定向信号X_DIR(k-1)是能够使用任何现有感知压缩技术来分别压缩的传统时域信号。环境HOA域分量D_A(k-2)的压缩在两个连续的步骤或阶段中执行。在阶降低的步骤或阶段13中执行立体混响的阶N_RED的降低，其中例如N_RED＝1，得到环境HOA分量D_A,RED(k-2)。通过在D_A(k-2)中保留N_RED个HOA系数并且丢弃其它系数来实现这样的阶的降低。在解码器一侧，如下文的解释，针对省略的值，附加对应的零值。

应当注意的是，与专利申请EP 2665208 Al中的方法相比，由于总功率以及残余环境HOA分量的方向性的残余量较小，所以降低的阶N_RED一般来说可以选择为更小的。因此与专利申请EP 2665208 Al相比，所述阶的降低会导致更小的误差。

在后面的去相关步骤或阶段14中，对表示阶降低的环境HOA分量D_A,RED(k-2)的HOA系数序列进行去相关，以获得时域信号W_A,REd(k-2)，所述时域信号W_A,RED(k-2)输入到(一组)并行的感知编码器或按照任何已知感知压缩技术操作的压缩器15。执行去相关以便在解压缩之后呈现HOA表示时，避免暴露感知编码噪音(其解释参见专利申请EP 12305860.4)。通过将D_A,RED(k-2)转化为变换为空间域中O_RED个等价信号可以实现近似的去相关，所述变换通过应用专利申请EP 2469742 A2中描述的球谐变换来实现。

备选地，可以使用专利申请EP 12305861.2中提出的自适应球谐变换，其中将采样方向的网格旋转以实现可能的最佳去相关效果。另一个备选去相关技术是专利申请EP12305860.4中描述的Karhunen-Loève变换(KLT)。应当注意的是，针对最后两种去相关，要提供表示为α(k-2)的某种辅助信息以便能够在HOA解压缩阶段对去相关进行恢复。

在一个实施例中，联合地执行所有时域信号X_DIR(k-1)和D_A,RED(k-2)的感知压缩，以便提高编码效率。

感知编码的输出是压缩的定向信号和压缩的环境时域信号

解压缩步骤

图2a和图2b中示出了解压缩过程。与压缩类似，所述解压缩过程由两个连续的步骤组成。在图2a中，在感知解码或解压缩步骤或阶段21中执行对定向信号和表示残余环境HOA分量的时域信号的感知解压缩。在重新相关步骤或阶段22中对得到的感知解压缩时域信号进行重新相关，以便提供阶N_RED的残余分量HOA表示任选地，重新相关可以使用传输的或存储的(取决于所使用的去相关方法)参数α(k-2)，以与针对步骤/阶段14描述的两种备选过程相反的方式来执行。此后，在阶增大步骤或阶段23中，通过阶增大，根据估计阶N的适当的HOA表示阶增大通过将对应的‘零’值行附加到来实现，由此假设关于更高阶的HOA系数具有零值。

在图2b中，在组成步骤或阶段24中，根据解压缩的主导定向信号连同对应的方向和预测参数ζ(k-1)，以及根据残余环境HOA分量来重新组成总的HOA表示，得到解压缩且重新组成的HOA系数的帧

在联合地执行所有时域信号X_DIR(k-1)和W_A,RED(k-2)的感知压缩以便提高编码效率的情况下，也以对应的方式联合地执行压缩的定向信号和压缩的时域信号的感知解压缩。

在HOA重新组织部分中提供对重新组织的详细描述。

HOA分解

图3中给出了示出针对HOA分解执行的操作的框图。该操作被总结如下：首先，计算平滑的主导定向信号X_DIR(k-1)，并且将其输出用于感知压缩。接着，由O个定向信号来表示主导定向信号的HOA表示D_DIR(k-1)与原始HOA表示D(k-1)之间的残余，其中所述O个定向信号可以被认为是均匀分布的方向上的大体平面波。根据主导定向信号X_dIR(k-1)对这些定向信号进行预测，输出了预测参数最后，计算并输出原始HOA表示D(k-2)与主导定向信号的HOA表示D_DIR(k-1)之间的残余D_A(k-2)以及均匀分布的方向上的预测的定向信号的HOA表示

在描述细节之前，需要指出的是，在组成期间，连续帧之间的方向变化可以导致所有计算的信号中断。因此，首先计算针对重叠帧的相应信号的瞬时估计，所述瞬时估计的长度为2B。第二，使用适当的窗口函数使连续的重叠帧的结果平滑。然而，每次平滑引入了单个帧的迟滞。

计算瞬时主导定向信号

步骤或阶段30中针对HOA系数序列的当前帧D(k)根据中的估计的声源方向计算瞬时主导方向信号的计算是基于以下文献中描述的模式匹配：M.A.Poletti,"Three-Dimensional Surround Sound Systems Based on Spherical Harmonics",J.AudioEng.Soc,53(11),pages1004-1025,2005。具体的，对HOA表示得到给定HOA信号的最佳近似的定向信号进行搜索。

此外，不失一般性地，假设一向量可以唯一地指定有效主导声源的每个方向估计所述向量包含依据以下公式的倾角θ_DOM，d(k)∈[0，π]和方位角φ_DOM，d(k)∈[0，2π](其示意参见图5)：

首先，根据

对基于有效声源的方向估计的模式矩阵进行计算，其

在方程式(4)中，D_ACT(k)表示针对第k个帧的有效方向的数量，并且d_ACT，j(k)(1≤j≤D_ACT(k))指示它们的索引。表示实值球谐函数，所述实值球谐函数在实值球谐函数的定义部分中定义。

第二，计算定义如下的包含第(k-1)个帧和第k个帧的所有主导定向信号的瞬时估计的矩阵

其中

这通过两个步骤来实现。在第一个步骤中，将对应于无效方向的行中的定向信号样本设置为零，即

其中指示有效方向的集。在第二个步骤中，通过首先将对应于有效方向的定向信号样本排列在根据以下公式的矩阵中，来获得对应于有效方向的定向信号样本：

然后对该矩阵进行计算，以使误差的欧几里德范数

最小化。解是由以下方程式给出的：

时间平滑

针对步骤或阶段31，只针对定向信号解释了平滑，因为其它类型的信号的平滑能够以完全相似的方式来完成。通过以下的适当窗函数来对样本被包含在根据方程式(6)的矩阵中的定向信号估计进行加窗：

该窗函数必须满足这样的条件：它与其在以下重叠区域中的偏移版本(假设B样本的偏移)之和为‘1’：

由以下方程式定义的周期性Hann窗给出了针对这样的窗函数的示例：

通过根据以下方程式的加窗的瞬时估计的适当叠加来对第(k-1)个帧的平滑的定向信号进行计算：

针对第(k-1)个帧的所有平滑的定向信号的样本被设置在以下的矩阵中：

其中

平滑的主导定向信号X_DIR,d(l)应当是连续地输入到感知编码器的连续信号。

计算平滑的主导定向信号的HOA表示

在步骤或阶段32中，基于连续信号X_DIR,d(l)，根据X_DIR(k-1)和对平滑的主导定向信号的HOA表示进行计算，以便对将要针对HOA组成所执行的操作相同的操作进行模仿。由于连续帧之间的方向估计的变化会导致中断，再一次对长度为2B的重叠帧的瞬时HOA表示进行计算，并且通过使用适当的窗函数对连续重叠帧的结果进行平滑。因此，通过以下方程式来获得HOA表示D_DIR(k-1)：

D_DIR(k-1)＝Ξ_ACT(k)X_{DIR，ACT，WIN1}(k-1)+Ξ_ACT(k-1)X_{DIR，ACT，WIN2}(k-1) (18)，

其中，

并且

通过均匀网格上的定向信号来表示残余HOA表示

在步骤或阶段33中，根据D_DIR(k-1)和D(k-1)(即通过帧延时381延时的D(k)^D(k))，对由均匀网格上的定向信号表示的残余HOA表示进行计算。该操作的目的是：获得从一些固定的、几乎均匀分布的方向(1≤o≤O，也被称为网格方向)冲击的定向信号(即大体平面波函数)，以表示残余[D(k-2) D(k-1)]-[D_DIR(k-2) D_DIR(k-1)]。

首先，关于网格方向，如下计算模式矩阵Ξ_GRID：

其中

由于在整个压缩过程期间网格方向是固定的，所以模式矩阵Ξ_GRID只需要计算一次。

如下获得在对应的网格上的定向信号：

根据主导定向信号预测均匀网格上的定向信号

在步骤或阶段34中，根据和X_DIR(k-1)，对均匀网格上的定向信号进行预测。根据定向信号的在网格方向组成的均匀网格上的定向信号的预测是基于针对平滑目的的两个连续帧，即网格信号(长度为2B)的展开的帧是根据平滑的主导定向信号的展开的帧：

预测的。

首先，包含在中的每个网格信号(1≤o≤O)分配到包含在中的主导定向信号中。所述分配可以基于网格信号与所有的主导定向信号之间的归一化互相关函数的计算。特别是，该主导定向信号被分配到网格信号，这提供归一化互相关函数的最高值。分配的结果可以由将第o个网格信号分配到第个主导定向信号的分配函数来表示。

第二，通过分配的主导定向信号来预测每个网格信号根据分配的主导定向信号通过延时和缩放，如下对预测的网格信号进行计算：

其中，K_o(k-1)表示缩放因子并且Δ_o(k-1)指示样本延时。选择这些参数来使预测误差最小化。

如果预测误差的功率大于网格信号本身的功率，则假设预测已经失败。然后，对应的预测参数可以设置为任何非有效值。

应当注意的是，其它类型的预测也是可以的。例如，替代计算全频带缩放因子，针对感知取向频带来确定缩放因子也是可以的。然而，该操作改进预测是以辅助信息量增加为代价的。

所有的预测参数可以如下方程式设置在参数矩阵中：

假设所有的预测信号(1≤o≤0)设置在矩阵中。

计算预测的均匀网格上的定向信号的HOA表示

在步骤或阶段35中，根据以下公式，根据计算预测的网格信号的HOA表示：

计算残余环境声场分量的HOA表示

在步骤或阶段37中，通过公式：

根据的时间平滑版本(在步骤/阶段36中)根据D(k)的二帧延时版本(延时381和383)D(k-2)、和D_DIR(k-1)的帧延时版本(延时382)D_DIR(k-2)，对残余环境声场分量的HOA表示进行计算。

HOA表示

在对图4中的各个步骤或阶段的过程进行详细描述之前，提供摘要。使用预测参数根据解码的主导定向信号预测关于均匀分布的方向的定向信号接着，总的HOA表示由主导定向信号的HOA表示预测的定向信号的HOA表示和残余环境HOA分量组成。

计算主导定向信号的HOA表示

将和输入到步骤或阶段41中，用来确定主导定向信号的HOA表示。在已经根据方向估计和计算了模式矩阵Ξ_ACT(k)和Ξ_ACT(k-1)之后，基于第k个和第(k-1)个帧的有效声场的方向估计，通过以下方程式来获得主导定向信号的HOA表示：

其中，

并且

根据主导定向信号预测均匀网格上的定向信号

将和输入到步骤或阶段43中，用来根据主导定向信号预测均匀网格上的定向信号。预测的均匀网格上的定向信号的展开的帧由根据以下方程式的单元组成：

所述单元是通过以下方程式根据主导定向信号预测的：

计算预测的均匀网格上的定向信号的HOA表示

在计算均匀网格上的预测的定向信号的HOA表示的步骤或阶段44中，通过方程式来获得预测的网格定向信号的HOA表示，其中Ξ_GRID表示关于预定义网格方向的模式矩阵(关于定义，参见方程式(21))。

组成HOA声场表示

在步骤或阶段46中，如以下方程式，根据(即由帧延时42延时的)、(是步骤/阶段45中的时间平滑版本的)和来最终组成总的HOA生成表示：

高阶立体混响的基本原理

高阶立体混响是基于感兴趣的紧凑区域中的声场的描述，假设所述紧凑区域中没有声源。在这种情况下，在该感兴趣的区域中，在时间t和位置x的声压p(t,x)的时-空特性物理上完全由均匀波方程来确定。下述内容基于图5中示出的球形坐标系。X轴指向正面位置，y轴指向左方，并且z轴指向上方。通过半径r>0(即到坐标原点的距离)、从极轴z测量的倾角θ∈[0，π]和在x-y平面中从x轴逆时针方向测量的方位角φ∈[0，π]来表示空间中的位置x＝(r，θ，φ)^T。(·)^T表示转置。

可以看出(参见E.G.Williams,"Fourier Acoustics",volume 93of AppliedMathematical Sciences,Academic Press,1999)，声压关于时间的傅里叶变换(由表示)，即

(其中ω表示角频率，i表示虚数单位)可以如下展开成一系列球形函数

其中c_s表示声音的速度，并且k表示角波数，所述角波数k通过公式与ω相关，j_n(·)表示第一类球形贝赛尔函数，并且表示阶为n、角度为m(在实值球谐函数部分定义了)的实值球谐函数。展开系数只取决于角波数k。需要注意的是，这里已经隐性地假设声压是空间频带受限的。因此，该系列关于阶索引n在上限N处是截断的，所述上限N被称为HOA表示的阶。

如果声场由不同角频率ω的谐波平面波的无穷大量的叠加来表示，并且声场可以从由角度元组(θ，φ)指定的所有可能的方向到达，则可以看出(参见B.Rafaely,"Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution",J.Acoust.Soc.Am.,4(116),pages2149-2157,2004)，对应的平面波复振幅函数可以由以下球谐函数展开来表示：

其中展开系数通过以下方程式与展开系数相关：

假设各个系数是角频率ω的函数，傅里叶逆变换(由表示)的应用给每个阶n和角度m提供了如下的时域函数：

所述函数可以收集在如下的单个矢量中：

由n(n+1)+1+m来给出矢量d(t)中的时域函数的位置索引。

最终的立体混响格式提供使用采样频率f_S的d(t)的采样的版本如下：

其中T_S＝1/f_S表示采样周期。d(lT_S)单元被称为立体混响系数。需要注意的是，时域信号以及因此立体混响系数是实值的。

实值的球谐函数的定义

实值的球谐函数由以下方程式给出：

其中

使用勒让德多项式P_n(x)，并且并不像上文提到的E.G.Williams textbook，在不使用Condon-Shortley项的情况下，如以下方程式定义关联的Legendre函数P_n，m(x)：

高阶立体混响的空间分辨率

从方向Ω₀＝(θ₀，φ₀)^T到达的平面波函数x(t)在HOA中由以下方程式来表示：

平面波振幅的对应的空间密度由以下公式给出：

可以从方程式(48)中看出，它是大体平面波函数x(t)和空间分散函数v_N(Θ)的乘积，空间分散函数v_N(Θ)可以被视为仅取决于Ω和Ω₀之间的、具有如下特性的角度Θ：

cosΘ＝cosθcosθ₀+cos(φ-φ₀)sinθsinθ₀ (49)。

如预期的，在无限的阶的限制下，即N→∞，空间分散函数转换为狄拉克delta函数δ(·)，即

然而，在有限阶N的情况下，来自方向Ω₀的大体平面波的贡献涂到相邻方向，模糊程度随着阶的提高而减少的。图6中示出了针对不同的N值的归一化函数v_N(Θ)的曲线。应当指出的是，任何平面波振幅的空间密度的时域特性的方向Ω是它在其它任何方向上的特性的倍数。特别是，针对一些固定方向Ω₁和Ω₂，函数d(t，Ω1₎和d(t，Ω₂)关于时间t相互高度关联。

离散空间域

如果平面波振幅的空间密度在数量为O的、在单位球面上几乎均匀分布的空间方向Ω₀(1≤o≤O)上是离散的，则获得O个定向信号d(t，Ω_o)。将这些信号集合到如以下方程式的矢量中：

d_SRAT(t)：＝[d(t，Ω₁)...d(t，Ω_O)]^T (51)

通过使用方程式(47)可以证明，可以通过单一矩阵乘法，根据方程式(41)中限定的连续的立体混响表示d(t)来计算该矢量，所述单一矩阵乘法的方程式为：

d_SPAT(t)＝Ψ^Hd(t)， (52)

其中(·)^H指示联合置换和共轭，并且Ψ表示由以下方程式限定的模式矩阵：

Ψ：＝[S₁ ... S_O] (53)，

其中

由于方向Ω₀在单位球面上是几乎均匀分布的，所以模式矩阵一般来说是可逆的。因此，通过方程式

d(t)＝Ψ^-Hd_SPAT(t) (55)

根据定向信号d(t，Ω_o)可以计算连续的立体混响表示。两个方程式构在立体混响表示与空间域之间的变换和逆变换。在该应用中，这些变换被称为球谐变换和球谐逆变换。

因为在单位球面上方向Ω₀是几乎均匀分布的，Ψ^H≈Ψ^-1 (56)这证明了在方程式(52)中使用Ψ^-1而不使用Ψ^H是可行的。有利地，上述所有的关系对于离散时域也是有效的。

在编码侧以及解码侧，本发明的过程可以通过单一处理器或电路来执行，或者通过若干个处理器或电路并行操作和/或在本发明过程的不同部分中操作。

本发明能够用于处理可以在家庭环境中的扬声器设备或电影院中的扬声器设备上呈现或播放的对应的声音信号。

Claims

1.一种用于解压缩被压缩的高阶立体混响HOA表示的方法，所述方法包括：

对被压缩的HOA表示进行感知解码，以确定解压缩的主导定向信号和表示空间域中的残余HOA分量的解压缩的时域信号，其中所述解压缩的时域信号对应于降低阶的残余HOA分量；

基于所述解压缩的主导定向信号确定预测的定向信号，其中所述预测的定向信号基于使用窗口函数的平滑被确定；

基于所述解压缩的时域信号确定解压缩的残余HOA分量，其中所述解压缩的残余HOA分量是基于增大所述降低阶的残余HOA分量的阶次的，并且其中所述增大包括对于所述降低阶的残余HOA分量附加零值；

基于所述预测的定向信号以及所述解压缩的残余HOA分量，确定HOA声场表示。

2.根据权利要求1所述的方法，其中，所述预测的定向信号是针对被压缩的HOA表示的当前帧被确定的。

3.一种用于解压缩高阶立体混响HOA表示的设备，所述设备包括：

解码器，所述解码器用于对压缩的HOA表示进行感知解码，以确定解压缩的主导定向信号和表示空间域中的残余HOA分量的解压缩的时域信号，其中所述解压缩的时域信号对应于降低阶的残余HOA分量；

第一处理器，所述第一处理器用于基于所述解压缩的主导定向信号确定预测的定向信号，其中所述第一处理器被配置为基于使用窗口函数的平滑来确定预测的定向信号；

第二处理器，所述第二处理器用于基于所述解压缩的时域信号确定解压缩的残余HOA分量，其中所述解压缩的残余HOA分量是基于增大所述降低阶的残余HOA分量的阶次的，并且其中所述增大包括对于所述降低阶的残余HOA分量附加零值；

第三处理器，所述第三处理器用于基于所述预测的定向信号以及所述解压缩的残余HOA分量，确定HOA声场表示。

4.根据权利要求3所述的设备，其中，所述预测的定向信号是针对被压缩的HOA表示的当前帧被确定的。

5.一种非暂态计算机可读存储介质，被编码有计算机程序，所述计算机程序用于使得计算机执行根据权利要求1或2所述的方法。

6.一种用于解压缩被压缩的高阶立体混响HOA表示的设备，包括：

处理器，以及

非暂态计算机可读存储介质，被编码有计算机程序，所述计算机程序用于使得处理器执行根据权利要求1或2所述的方法。

7.一种用于解压缩被压缩的高阶立体混响HOA表示的装置，包括用于执行根据权利要求1或2所述的方法的部件。

8.一种用于压缩声场的高阶立体混响表示HOA的方法，所述方法包括：

根据HOA系数的当前时间帧，估计主导声源方向；

通过对于排列对应于有效方向的定向信号样本的矩阵使误差的欧几里德范数最小化，根据所估计的主导声源方向计算针对重叠帧的瞬时主导定向信号；

通过使用窗口函数来平滑化所计算的连续重叠帧的瞬时主导定向信号，其中所述窗口函数满足它与其偏移版本在重叠区域中之和为‘1’的条件；

根据所述估计的声源方向以及所述被平滑的瞬时主导定向信号来计算被平滑的主导定向信号的HOA表示，以便获得残余HOA分量，其中所述残余HOA分量被变换到离散空间域；

对降低阶的残余HOA分量进行去相关，以获得对应的残余HOA分量时域信号，并提供能够对所述去相关进行恢复的辅助信息；

对所述瞬时主导定向信号和所述残余HOA分量时域信号进行感知编码，从而提供压缩的主导定向信号和压缩的残余分量信号。

9.一种用于压缩声场的高阶立体混响表示HOA的装置，所述装置包括：

估计器，其根据HOA系数的当前时间帧，估计主导声源方向；

分解器，其通过对于排列对应于有效方向的定向信号样本的矩阵使误差的欧几里德范数最小化，根据所估计的主导声源方向计算针对重叠帧的瞬时主导定向信号；通过使用窗口函数来平滑化所计算的连续重叠帧的瞬时主导定向信号，其中所述窗口函数满足它与其偏移版本在重叠区域中之和为‘1’的条件；并且根据所述估计的声源方向以及所述被平滑的瞬时主导定向信号来计算被平滑的主导定向信号的HOA表示，以便获得残余HOA分量，其中所述残余HOA分量被变换到离散空间域，

去相关器，其对降低阶的残余HOA分量进行去相关，以获得对应的残余HOA分量时域信号，并提供能够对所述去相关进行恢复的辅助信息；以及

编码器，其对所述瞬时主导定向信号和所述残余HOA分量时域信号进行感知编码，从而提供压缩的主导定向信号和压缩的残余分量信号。