CN107146626B

CN107146626B - 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Info

Publication number: CN107146626B
Application number: CN201710583285.XA
Authority: CN
Inventors: A.克勒格尔; S.科登
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-04-29
Filing date: 2014-04-24
Publication date: 2020-09-08
Anticipated expiration: 2034-04-24
Also published as: CA2907595A1; EP2800401A1; US20200304931A1; EP3232687A1; CN107180639B; EP2992689B1; RU2015150988A; CN107146627B; CA3110057C; US20170318406A1; US20160088415A1; KR102232486B1; US20220225044A1; CN105144752B; RU2018133016A; MX2022012186A; JP2021060614A; JP2022058929A; US10999688B2; EP3926984A1

Abstract

本公开涉及对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。更高阶高保真度立体声响复制表示独立于具体扬声器设置的三维声音。然而，HOA表示的传输导致非常高的比特率。因此，使用具有固定数量的信道的压缩，其中有区别地处理定向和环境信号分量。环境HOA分量由最小数量的HOA系数序列表示。剩余的信道包含定向信号或者环境HOA分量的另外的系数序列，取决于什么将导致最佳的感知质量。该处理可以基于逐个帧地改变。

Description

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

本申请是申请号为201480023877.0、申请日为2014年4月24日、发明名称为“对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置”的发明专利申请的分案申请。

技术领域

本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。

背景技术

更高阶高保真度立体声响复制(HOA)连同像波长合成(WFS)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而，相对于基于信道的方法，HOA表示提供独立于具体扬声器设置的优点。然而，这个灵活性以HOA表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的WFS方法相比，HOA还可以被呈现给包括仅几个扬声器的设置。HOA的另外的优点在于，对于到头戴耳机的双耳呈现，也可以使用相同的表示而不用做任何修改。

HOA基于按照截断的球谐(Spherical Harmonics，SH)扩展的复谐平面波(complexharmonic plane wave)幅度的空间密度的表示。每个扩展系数是角频率的函数，其可以由时域函数等同地表示。因此，在不失一般性的情况下，完整的HOA声场表示实际上可以被假设为包括O个时域函数，其中O标记扩展系数的数量。这些时域函数将等同地被称作HOA系数序列或者称作 HOA信道。

HOA表示的空间分辨率随着扩展的最大阶N的增长而提高。不幸地，扩展系数的数量O随着阶N二次方地增长，具体地，O＝(N+1)²。例如，使用阶 N＝4的典型的HOA表示需要O＝25个HOA(扩展)系数。根据先前做出的考虑，给定期望的单信道采样率f_S和每个样本的位数N_b，用于传输HOA表示的总比特率由O·f_S·N_b确定。因此，以f_S＝48kHz的采样率并且使用每个样本N_b＝16位来传输阶N＝4的HOA表示导致19.2MBits/s的比特率，这对于许多实际的应用(例如对于流传输)非常高。

HOA声场表示的压缩在专利申请EP 12306569.0和EP 12305537.8中提出。代替单独地对HOA系数序列中的每一个进行感知编码，例如像在E. Hellerud、I.Burnett、A.Solvang和U.P.Svensson的“Encoding Higher Order Ambisonics with AAC”(第124届AES会议，阿姆斯特丹，2008年)中执行的那样，具体通过执行声场分析并且将给定的HOA表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境HOA分量的阶减小，因为假设在提取支配定向信号之后，更低阶的HOA系数承载大部分相关信息。

发明内容

总之，通过这样的操作，要被感知编码的HOA系数序列的初始数量 (N+1)²被减少至固定数量的D个支配定向信号以及表示具有截断的阶 N_RED＜N的残余环境HOA分量的数量(N_RED+1)²个HOA系数序列，从而要编码的信号的数量是固定的，亦即D+(N_RED+1)²。特别地，该数量独立于在时帧 (time frame)k中的活动的支配(dominant)定向声源的实际检测到的数量 D_ACT(k)≤D。这意味着，在时帧k中，其中活动的支配定向声源的实际检测到的数量D_ACT(k)小于定向信号的最大允许数量D，要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后，这意味着这些信道根本不用于捕捉声场的相关信息。

在该背景下，EP 12306569.0和EP 12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准，因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如，在 EP 12305537.8中，使用简单的功率标准，也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度，来估计支配声源的量。在EP 12306569.0 中，提出对支配定向声源的递增检测，其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高，则定向声源被认为是支配的。使用像在 EP12306569.0和EP 12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambient decomposition)。

本发明所要解决的问题是通过对当前的HOA音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境HOA分量的系数来改进HOA压缩。该问题由在本公开的实施例中公开的方法来解决。使用这些方法的装置在本公开的实施例中公开。

本发明在两个方面改进在EP 12306569.0中提出的压缩处理。第一，更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中，最初被保留用于支配定向信号的信道被用于以残余环境 HOA分量的另外的HOA系数序列的形式来捕捉关于环境分量的另外的信息。第二，考虑到利用给定数量的信道对给定HOA声场表示进行感知编码的目标，关于该目的，适配用于确定要从HOA表示中提取的定向信号的量的标准。确定定向信号的数量，使得经解码和重构的HOA表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的HOA系数序列来描述残余环境HOA分量而引起的建模误差，或者由不提取定向信号并且代替地使用另外的HOA系数序列来描述残余环境HOA分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境HOA分量的HOA 系数序列的感知编码引入的量化噪声的空间功率分布。

为了实现上述处理，在开始HOA压缩之前，指定总数量I个信号(信道)，与其相比，HOA系数序列的最初数量O减少。假设环境HOA分量由最小数量O_RED个HOA系数序列来表示。在一些情况下，该最小数量可以是零。剩余的D＝I-O_RED个信道应当包含定向信号或者环境HOA分量的另外的系数序列，取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境HOA分量系数序列到剩余的D个通道的分配可基于逐个帧(on frame-by-frame basis)地改变。为了在接收侧重构声场，将关于分配的信息作为额外的边信息(sideinformation)来传输。

原则上，本发明的压缩方法适合于使用固定数量的感知编码对被标记为 HOA的声场的更高阶高保真度立体声响复制表示进行压缩，其使用HOA系数序列的输入时帧，所述方法包括基于逐个帧地执行的下面的步骤：

-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集；

-将所述当前帧的HOA系数序列分解成非固定数量的定向信号，其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集，其中所述非固定数量小于所述固定数量，

以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境 HOA系数序列的索引的对应数据集表示的残余环境HOA分量，所述减少的数量对应于所述固定数量与所述非固定数量之间的差值；

-将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道，其中对于所述分配，使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集；

-对相关帧的信道进行感知编码，以便提供经编码的压缩帧。

原则上，本发明的压缩装置适合于使用固定数量的感知编码对被标记为 HOA的声场的更高阶高保真度立体声响复制表示进行压缩，其使用HOA系数序列的输入时帧，所述装置执行基于逐个帧的处理并且包括：

-适合于进行如下处理的部件：对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集；

-适合于进行如下处理的部件：将所述当前帧的HOA系数序列分解成非固定数量的定向信号，其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集，其中所述非固定数量小于所述固定数量，

-适合于进行如下处理的部件：将所述定向信号以及所述残余环境HOA 分量的HOA系数序列分配给数量对应于所述固定数量的信道，其中对于所述分配，使用所述定向信号的索引的数据集以及所述减少的数量的残余环境 HOA系数序列的索引的数据集；

-适合于进行如下处理的部件：对相关帧的信道进行感知编码，以便提供经编码的压缩帧。

原则上，本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩，所述解压缩包括步骤：

-对当前的经编码的压缩帧进行感知解码，以便提供信道的经感知解码的帧；

-使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集，重新分布信道的经感知解码的帧，以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧；

-使用检测到的定向信号的索引的数据集以及支配方向估计的集合，从定向信号的所述帧以及从残余环境HOA分量的所述帧，重新组成HOA表示的当前经解压缩的帧，

其中根据所述定向信号预测关于均匀分布的方向的定向信号，并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。

原则上，本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩，所述装置包括：

-适合于进行如下处理的部件：对当前的经编码的压缩帧进行感知解码，以便提供信道的经感知解码的帧；

-适合于进行如下处理的部件：使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集，重新分布信道的经感知解码的帧，以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧；

-适合于进行如下处理的部件：使用检测到的定向信号的索引的数据集以及支配方向估计的集合，从定向信号的所述帧以及从残余环境HOA分量的所述帧，重新组成HOA表示的当前经解压缩的帧，

在相应的说明书记载中公开本发明的有利的另外的实施例。

附图说明

参考附图描述本发明的示例性实施例，其中：

图1示出HOA压缩的框图；

图2示出支配声源方向的估计；

图3示出HOA解压缩的框图；

图4示出球面坐标系；

图5示出对于不同的高保真度立体声响复制阶N以及对于角度θ∈[0，π]的规一化分散函数v_N(Θ)。

具体实施方式

A.改进的HOA压缩

在图1中例示根据本发明的基于EP 12306569.0的压缩处理，其中使用粗体框显示与EP 12306569.0相比较已经修改或者新引入的信号处理块，并且其中本申请中的′g′(如这样的方向估计)和′C′分别对应于EP 12306569.0中的′A′(方向估计的矩阵)和′D′。对于HOA压缩，使用长度L的HOA系数序列的不重叠的输入帧C(k)的逐帧(frame-wise)的处理被使用，其中k标记帧索引。关于在等式(45)中指定的HOA系数序列将帧定义为：

C(k):＝[c((kL+1)T_s)c((kL+2)T_s)c((k+1)LT_s)]， (1) 其中T_S指示采样周期。

图1中的第一步骤或阶段11/12是可选的，并且包括将HOA系数序列的不重叠的第k和(k-1)帧串接成长帧

为：

该长帧与相邻的长帧50％重叠，并且该长帧被相继地用于支配声源方向的估计。与

的标记法类似，在下面的描述中使用波浪符号来指示相应的量指代长的重叠的帧。如果步骤/阶段11/12不存在，则波浪符号没有具体含意。

原则上，如在EP 13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13，但是具有重要的修改。修改涉及确定要检测的方向的量，亦即应当从HOA表示中提取多少定向引号。这通过只有在与替代地使用另外的 HOA系数序列进行环境HOA分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分A.2中给出对该技术的详细描述。

该估计提供已经检测到的定向信号的索引的数据集

以及对应的方向估计的集合

D标记在开始HOA压缩之前必须设置的定向信号的最大数量。

在步骤或阶段14中，将HOA系数序列的当前(长)帧

分解(如在 EP 13305156.5中提出的那样)成属于集合

中包含的方向的许多定向信号X_DIR(k-2)以及残余环境HOA分量C_AMB(k-2)。作为重叠添加处理的结果引入两个帧的延迟，以便获得平滑信号。假设X_DIR(k-2)包含总共D个信道，然而其中只有与活动的定向信号相对应的那些是非零的。指定这些信道的索引假设在数据集

中输出。另外，步骤/阶段14中的分解提供在解压缩侧被用于根据定向信号预测原始HOA表示的部分的一些参数ζ(k-2)(更多细节参看EP13305156.5)。

在步骤或阶段15中，智能地减少环境HOA分量C_AMB(k-2)的系数的数量，以仅包含O_RED+D-N_DIR，ACT(k-2)个非零的HOA系数序列，其中

指示数据集

的基数，亦即帧k-2中的活动的定向信号的数量。因为假设环境HOA分量总是由最小数量O_RED个HOA 系数序列表示，所以这个问题实际上可以简化成从可能的O-O_RED个HOA系数序列中选择剩余的D-N_DIR，ACT(-2)个HOA系数序列。为了获得平滑的减少的环境HOA表示，将该选择实现为使得与在前一帧k-3时进行的选择相比较，尽可能少的变化将发生。

具体地，将区别下面三种情况：

a)N_DIR，ACT(k-2)＝N_DIR，ACT(k-3)：在这种情况下，假设选择与在帧k-3中相同的HOA系数序列。

b)N_DIR，ACT(k-2)＜N_DIR，ACT(k-3)：在这种情况下，可以使用比在最后的帧 k-3中更多的HOA系数序列来表示在当前帧中的环境HOA分量。假设在 k-3中被选择的那些HOA系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的HOA系数序列。例如，选择C_AMB(k-2)中具有最高平均功率的那些HOA系数序列，或者关于它们的感知重要性选择HOA系数序列。

c)N_DIR，ACT(k-2)＞N_DIR，ACT(k-3)：在这种情况下，可以使用比在最后的帧k-3 中更少的HOA系数序列来表示在当前帧中的环境HOA分量。这里需要回答的问题是必须使先前选择的HOA系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道

的那些序列不活动。

为了避免在使另外的HOA系数序列活动或不活动时在帧边界处的不连续性，使得各个信号平滑地淡入(fade in)或淡出(fade out)是有利的。

具有减少的数量O_RED+N_DIR，ACT(k-2)个非零系数序列的最终的环境HOA表示由C_AMB，RED(k-2)标记。所选择的环境HOA系数序列的索引在数据集

中输出。

在步骤/阶段16中，X_DIR(k-2)中包含的活动的定向信号和C_AMB，RED(k-2)中包含的HOA系数序列被分配给I个信道的帧Y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配，假设帧X_DIR(k-2)、Y(k-2)和C_AMB，RED(k-2)包括各个信号x_DIR，d(k-2)，d∈{1，...，D}、y_i(k-2)，i∈{1，...，I}和 c_{AMB，RED，o}(k-2)，o∈{1，...，O}，如下：

分配活动的定向信号，使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为：

y_d(k-2)＝x_DIR，d(k-2)对于所有

(4)

环境分量的HOA系数序列被分配为使得最小数量的ORED个系数序列总是包含在Y(k-2)的最后的O_RED个信号中，亦即

y_D+o(k-2)＝c_{AMB，RED，o}(k-2)对于1≤o≤O_RED。 (5)

对于环境分量的另外D-N_DIR，ACT(k-2)个HOA系数序列，它们是否也在前一个帧中被选择是有区别的：

a)如果它们也被选择在前一个帧中传输，亦即，如果各自的索引也包含在数据集

中，则这些系数序列到Y(k-2)中的信号的分配与对于前一帧的相同。该操作保证平滑的信号y_i(k-2)，这对于步骤或阶段17中的相继的感知编码是有利的。

b)否则，如果一些系数序列是新选择的，亦即，如果它们的索引包含在数据集

中但是不在数据集

中，则它们首先关于它们的索引以升序布置，并且以该次序分配给Y(k-2)中尚未被定向信号占据的信道

这个具体的分配提供如下优点：在HOA解压缩处理期间，可以在不知道哪个环境HOA系数序列包含在Y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地，可以在HOA解压缩期间仅使用数据集

和

的知识来重构分配。

有利地，该分配操作还提供分配矢量

其元素γ_o(k) (o＝1，...，D-N_DIR，ACT(k-2))标记环境分量的另外D-N_DIR，ACT(k-2)个HOA系数序列中的每一个的索引。换句话说，分配矢量γ(k)的元素提供关于环境 HOA分量的另外的O-O_RED个HOA系数序列中的哪些被分配到具有不活动的定向信号的D-N_DIR，ACT(k-2)个信道中的信息。该矢量可以另外地传输，但是相比于按照帧速率不太频繁，以便允许初始化针对HOA解压缩而执行的重新分布过程(参看部分B)。感知编码步骤/阶段17对于帧Y(k-2)的I个信道进行编码，并且输出经编码的帧

对于没有从步骤/阶段16传输矢量γ(k)的帧，在解压缩侧，代替矢量γ(k)，使用数据参数集

和

来执行重新分布。

A.1支配声源方向的估计

在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据EP13305156.5来执行，但是具有决定性的差异，即确定与要从给定的HOA表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的，因为它用于控制给定的HOA表示是通过使用更多的定向信号还是代替地通过使用更多的HOA系数序列来更好地表示，以对环境 HOA分量更好地建模。

支配声源方向的估计在步骤或阶段21中开始，使用输入的HOA系数序列的长帧

对支配声源方向进行初步检索。与初步的方向估计

(1≤d≤D)一起，如在EP13305156.5中所描述的那样地计算应当由各个声源创建的对应定向信号

和HOA声场分量

在步骤或阶段22中，使用这些量以及输入的HOA系数序列的帧

来确定要提取的定向信号的数量

因此，丢弃方向估计

对应的定向信号

以及HOA声场分量

代替地，然后仅将方向估计

分配给先前发现的声源。

在步骤或阶段23中，根据声源运动模型来平滑得到的方向轨迹，并且确定声源中的哪些应当是活动的(参看EP 13305156.5)。最后的操作提供活动的定向声源的索引的集合

和对应的方向估计的集合

A.2被提取的定向信号的数量的确定

为了在步骤/阶段22中确定定向信号的数量，假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的I个信道的情况。因此，确定要提取的定向信号的数量，由如下问题激发：对于整体的HOA压缩/解压缩质量，当前的HOA表示是通过使用更多的定向信号还是更多的HOA系数序列来更好地表示以对环境HOA分量更好地建模。

为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准 (该标准与人类感知相关)，考虑具体通过下面的两个运算来实现HOA压缩：

-用于表示环境HOA分量的HOA系数序列的减少(这意味着相关信道的数量的减少)；

-定向信号的感知编码以及用于表示环境HOA分量的HOA系数序列的感知编码。

取决于所提取的定向信号的数量M(0≤M≤D)，第一个运算近似地得到

其中

标记包括应当由M个单独考虑的声源创建的HOA声场分量

(1≤d≤M)的定向分量的HOA表示，并且

标记具有仅I-M个非零HOA系数序列的环境分量的HOA表示。

来自第二个运算的近似可以表示为：

其中

和

分别标记在感知解码之后组成的定向和环境HOA分量。

标准的公式化

要提取的定向信号的数量

被选择为使得总的近似误差

其中

关于人类感知尽可能地不显著。为了保证这一点，在预先定义的数量Q个测试方向Ω_q(q＝1，...，Q)上考虑各个巴克标度(Bark scale)临界带的总误差的定向功率分布，其在单位球面上几乎均匀地分布。更具体地，第b个(b＝1，...，B)临界带的定向功率分布由下面的矢量表示：

其分量

标记与方向Ω_q、第b个巴克标度临界带和第k帧相关的总误差

的功率。总误差

的定向功率分布

与下面的由于原始HOA 表示

的定向感知掩蔽功率分布进行比较：

接下来，对于每个测试方向Ω_q和临界带b，计算总误差的感知级别

其在这里基本上被定义为总误差

的定向功率与根据下式的定向掩蔽功率的比例：

执行′1′与相继最大值运算的减法以确保感知级别为零，只要误差功率低于掩蔽阈值。

最后，可以将要提取的定向信号的数量

选择为最小化所有临界带上的误差感知级别的最大值的所有测试方向上的平均值，亦即

应当注意，替代地，能够在等式(15)中用平均运算替换最大值。

定向感知掩蔽功率分布的计算

为了计算由于原始HOA表示

的定向感知掩蔽功率分布

将后者变换到空间域，以便由从测试方向Ω_q(q＝1，...，Q)碰撞的一般平面波

表示。当以矩阵

布置一般平面波信号

如下时

到空间域的变换由下面的运算来表达

其中Ξ标记关于测试方向Ω_q(q＝1，...，Q)的模式矩阵，被定义为

其中S_q：＝

由于原始HOA表示

定向感知掩蔽功率分布

的每个元素

对应于各个临界带b的一般平面波函数

的掩蔽功率。

定向功率分布的计算

下面，给出用于计算定向功率分布

的两个替代：

a.一种可能性是通过计算在部分A.2的开始提及的两个运算来实际地计算期望的HOA表示

的近似

然后，根据等式(11)来计算总的近似误差

接下来，将总的近似误差

变换到空间域，以便由从测试方向Ω_q(q＝1，...，Q)碰撞的一般平面波

表示。以矩阵

将一般平面波信号布置为

到空间域的变换由下面的运算表示：

通过计算各个临界带b内的一般平面波函数

的功率来获得总的近似误差

的定向功率分布

的元素

b.替代的解决方案是仅计算近似值

而不是

该方法提供如下优点：不需要直接执行各个信号的复杂的感知编码。代替地，知道各个巴克标度临界带内的感知量化误差的功率就足够了。为此目的，在等式(11)中定义的总的近似误差可以被写作三个下面的近似误差的总和：

可以假设它们彼此独立。由于这种独立性，总误差

的定向功率分布可以表达为三个各个误差

和

的定向功率分布的总和。

下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布：

a.为了计算误差

的定向功率分布，首先通过下式将其变换到空间域：

其中近似误差

因此由从测试方向Ω_q(q＝1，...，Q)碰撞的一般平面波

表示，其根据下式布置为矩阵

因此，通过计算各个临界带b内的一般平面波函数

(q＝1，...，Q)的功率来获得近似误差

的定向功率分布

的元素

b.为了计算误差

的定向功率分布

考虑到该误差通过对定向信号

进行感知编码而被引入到定向HOA分量

中。另外，考虑定向HOA分量由等式(8)给出。于是，为了简单，假设HOA分量

在空间域中由O个一般平面波函数

等同地表示，其通过仅仅缩放根据定向信号

来创建，亦即

其中

标记缩放参数。假设各自的平面波方向

在单位球面上均匀分布，并且被旋转使得

对应于方向估计

因此，缩放参数

等于′1′。

当关于旋转的方向

将

定义为模式矩阵并且根据下式以矢量来布置所有缩放参数

时：

HOA分量

可以写作：

因此，真实的定向HOA分量

与按照

由经感知解码的定向信号

组成的定向HOA分量之间的误差

(参见等式(23))可以按照各个定向信号中的如下感知编码误差

而表示为

空间域中关于测试方向Ω_q(q＝1，...，Q)的误差

的表示由下式给出

用

标记矢量β^(d)(k)的元素，并且假设各个感知编码误差

彼此独立，根据等式(35)得出，感知编码误差

的定向功率分布

的元素

由下式计算

应当表示定向信号

中的第b个临界带内的感知量化误差的功率。可以假设该功率对应于定向信号

的感知掩蔽功率。

c.为了计算由环境HOA分量的HOA系数序列的感知编码造成的误差

的定向功率分布

假设每个HOA系数序列被独立地编码。因此，可以假设被引入到每个巴克标度临界带内的各个HOA系数序列中的误差是不相关的。这意味着关于每个巴克标度临界带的误差

的系数间相关矩阵是对角线的，亦即

元素

应当表示

中的第o个经编码的HOA系数序列中的第b个临界带内的感知量化误差的功率。可以假设它们对应于第o 个HOA系数序列

的感知掩蔽功率。因此，感知编码误差

的定向功率分布通过下式计算

B.改进的HOA解压缩

对应的HOA解压缩处理在图3中图示并且包括下面的步骤或阶段。

在步骤或阶段31中，执行对

中包含的I个信号的感知解码以便获得

中的I个经解码的信号。

在信号重新分布步骤或阶段32中，重新分布

中的经感知解码的信号，以便重新创建定向信号的帧

和环境HOA分量的帧

通过使用索引数据集

和

再现对HOA压缩执行的分配操作，获得关于如何重新分布信号的信息。因为这是递归的过程 (参看部分A)，所以可以使用另外传输的分配矢量γ(k)，以便允许例如在传输发生故障的情况下初始化重新分布过程。

在组成步骤或阶段33中，使用定向信号的帧

活动的定向信号索引的集合

以及对应方向的集合

用于根据定向信号来预测 HOA表示的部分的参数ζ(k-2)以及减少的环境HOA分量的HOA系数序列的帧

根据结合EP12306569.0的图2b和图4描述的处理，重新组成期望的总的HOA表示的当前帧

对应于EP 12306569.0中的分量

并且

和

对应于EP 12306569.0 中的

其中活动的定向信号索引在

的矩阵元素中标明。亦即，根据定向信号

来预测关于均匀分布的方向的定向信号，其中使用用于这样的预测的所接收的参数(ζ(k-2))，并且此后从定向信号的帧

预测部分以及减少的环境HOA分量

重新组成当前的经解压缩的帧

C.更高阶高保真度立体声响复制的基础

更高阶高保真度立体声响复制(HOA)基于补充假设为没有声源的所关注的紧密区域(compact area)内的声场的描述。在该情况下，在所关注的区域内、在时间t时和位置x处的声压p(t，x)的时空行为在物理上由齐性波等式(homogeneous wave equation)充分确定。下面，假设如图4中示出的球面坐标系。在使用的坐标系中，x轴指向前面位置，y轴指向左边并且z轴指向顶部。空间x＝(r，θ，φ)^T中的位置由半径r＞0(亦即，到坐标原点的距离)、从极轴z测量的倾角θ∈[0，π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0.2π[来表示。另外，(·)T标记转置。

可以示出(参看E.G.Williams，“Fourier Acoustics”，AppliedMathematicalSciences的93卷，Academic Press，1999年)，由

标记的关于时间的声压的傅里叶变换，亦即

(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数：

在等式(40)中，cs标记声速，并且k标记角波数(angular wave number)，其按照

与角频率ω相关。另外，j_n(·)标记第一类球贝塞尔函数(spherical Besselfunctions of the first kind)，并且

标记阶n和度数m的实值球谐函数，其在下面的部分C.1中定义。扩展系数

仅取决于角波数k。在上文，已经隐含地假设声压在空间上是带限的(band limited)。因此，球谐函数的级数关于在被称作HOA表示的阶的上限N处的阶索引n而被截断。

如果声场由从角度元组(θ，φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示，则可以示出(参看B.Rafaely，“Plane-wave Decompositionof the Sound Field on a Sphere by Spherical Convolution”，Journal of theAcoustical Society of America，第4卷(116)， 2149-2157页，2004年)，各个平面波复数幅度函数C(ω，θ，φ)可以由下面的球谐函数扩展来表示

其中扩展系数

按照

与扩展系数

Claims

1.一种使用第一数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的方法，其使用HOA系数序列的输入时帧(C(k)，

)，所述方法包括逐个帧地执行的下面的步骤：

-对于当前帧(C(k)，

)，估计支配方向的集合

以及检测到的定向信号的索引的对应数据集

-从所述当前帧的HOA系数序列中分离第二数量(M)个定向信号，其具有包含在所述支配方向估计的集合

中的各自方向并且具有所述定向信号的索引的各自延迟的数据集，

以及由减少的数量的HOA系数序列以及所述减少的数量的环境HOA系数序列的索引的对应数据集表示的环境HOA分量，所述减少的数量对应于所述第一数量(I)与所述第二数量(M)之间的差值；

-将所述定向信号以及所述环境HOA分量的HOA系数序列分配给数量对应于所述第一数量(I)的信道的帧，其中对于所述分配，使用所述定向信号的索引的所述延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的所述数据集；

-对所分配的帧的所述信道进行感知编码，以便提供经编码的压缩帧。

2.根据权利要求1所述的方法，其中所述第二数量(M)个定向信号根据感知相关的标准来确定，使得：

-经对应地解压缩的HOA表示提供能够使用用于压缩的固定的给定数量的信道来实现的最低可感知误差，其中所述标准考虑下面的误差：

--由使用不同数量的所述定向信号和环境HOA分量的不同数量的HOA系数序列而引起的建模误差；

--由所述定向信号的感知编码引入的量化噪声；

--通过对所述环境HOA分量的各个HOA系数序列进行编码而引入的量化噪声；

-关于其可感知性，针对数个测试方向和数个临界带而考虑的由上面三个误差导致的总误差；

-所述第二数量(M)个定向信号被选择以最小化平均可感知误差或最大可感知误差，以便实现所述最低可感知误差。

3.根据权利要求1所述的方法，其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行：

-如果所述当前帧(k)的HOA系数序列的数量与前一帧(k-1)的相同，则选择与所述前一帧中相同的HOA系数序列；

-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量，则使得在所述前一帧中被分配给所述当前帧中的由定向信号占据的信道的所述前一帧中的那些HOA系数序列不活动；

-如果所述当前帧(k)的HOA系数序列的数量大于所述前一帧(k-1)的数量，则在所述前一帧中被选择的那些HOA系数序列在所述当前帧中也被选择，并且这些另外的HOA系数序列可以根据它们的感知重要性或者根据最高平均功率被选择。

4.根据权利要求1所述的方法，其中所述分配执行如下：

-将活动的定向信号分配给指定的信道，使得它们保存它们的信道索引，以便获得用于所述感知编码的连续的信号；

-分配所述环境HOA分量的HOA系数序列，使得最小数量(O_RED)个这样的系数序列总是包含在对应数量(O_RED)个最后的信道中；

-为了分配所述环境HOA分量的另外的HOA系数序列，确定它们是否也在前一帧(k-1)中被选择：

--如果是，则这些HOA系数序列到将被感知编码的信道的分配与针对所述前一帧的相同；

--如果不是并且如果HOA系数序列是新选择的，则HOA系数序列首先关于它们的索引以升序布置，并且以此顺序分配给还没有被定向信号占据的将被感知编码的信道。

5.根据权利要求1所述的方法，其中O_RED是表示所述环境HOA分量的HOA系数序列的数量，并且其中描述所述分配的参数被布置为位阵列，所述位阵列的长度对应于用于表示所述环境HOA分量的数量O_RED个HOA系数序列之外还使用的HOA系数序列的另外的数量，并且所述位阵列中的每个第o位指示第(O_RED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。

6.根据权利要求1所述的方法，其中描述所述分配的参数被布置为分配矢量，所述分配矢量的长度对应于不活动的定向信号的数量，所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。

7.根据权利要求1至6中的一项所述的方法，其中所述当前帧的HOA系数序列的所述分离还提供能够在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。

8.根据权利要求4所述的方法，其中所述分配提供分配矢量(γ(k))，所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。

9.一种使用第一数量(I)个感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩的装置，其使用HOA系数序列的输入时帧(C(k)，

)，所述装置执行基于逐个帧的处理并且包括：

-适于对于当前帧(C(k)，

)估计支配方向的集合

以及检测到的定向信号的索引的对应数据集

的部件；

-适于进行如下处理的部件：从所述当前帧的HOA系数序列中分离第二数量(M)个定向信号，该第二数量(M)个定向信号具有包含在所述支配方向估计的集合

-适于进行如下处理的部件：将所述定向信号以及所述环境HOA分量的HOA系数序列分配给数量对应于所述第一数量(I)的信道的帧，从而获得描述所述分配的所选择的环境HOA系数序列的索引的参数，其可以被用于在解压缩侧的对应的重新分布，其中对于所述分配，使用所述定向信号的索引的所述延迟的数据集以及所述减少的数量的环境HOA系数序列的索引的所述数据集；

-适于对被分配的帧的所述信道进行感知编码以便提供经编码的压缩帧的部件。

10.根据权利要求9所述的装置，其中所述第二数量(M)个定向信号根据感知相关的标准来确定，使得：

--由所述定向信号的感知编码引入的量化噪声；

-关于其可感知性，针对数个测试方向和数个临界带被考虑的、由上面三个误差导致的总误差；

11.根据权利要求9所述的装置，其中表示环境HOA分量的减少的数量的HOA系数序列的选择根据在下面三种情况之间有区别的标准来执行：

-如果所述当前帧(k)的HOA系数序列的数量小于所述前一帧(k-1)的数量，则使得在所述前一帧中分配给所述当前帧中的由定向信号占据的信道的所述前一帧中的那些HOA系数序列不活动；

12.根据权利要求9所述的装置，其中所述分配执行如下：

13.根据权利要求9所述的装置，其中O_RED是表示所述环境HOA分量的HOA系数序列的数量，并且其中描述所述分配的参数被布置为位阵列，所述位阵列的长度对应于用于表示所述环境HOA分量的数量O_RED个HOA系数序列之外还使用的HOA系数序列的另外的数量，并且所述位阵列中的每个第o位指示第(O_RED+o)个另外的HOA系数序列是否被用于表示所述环境HOA分量。

14.根据权利要求9所述的装置，其中描述所述分配的参数被布置为分配矢量，所述分配矢量的长度对应于不活动的定向信号的数量，所述矢量的元素指示环境HOA分量的另外的HOA系数序列中的哪些被分配给具有不活动的定向信号的信道。

15.根据权利要求9至14中的一项所述的装置，其中所述当前帧的HOA系数序列的所述分离还提供能够在解压缩侧用于根据所述定向信号来预测原始HOA表示的部分的参数。

16.根据权利要求12所述的装置，其中所述分配提供分配矢量(γ(k))，所述矢量的元素表示关于所述环境HOA分量的另外的HOA系数序列中的哪些被分配到具有不活动的定向信号的信道中的信息。

17.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法，所述解压缩包括：

-基于分配矢量重新分布信道的所述经感知解码的帧，所述分配矢量的元素表示关于环境HOA分量的另外的HOA系数序列中的哪些被分配到不包含活动的定向信号的信道中的信息，以便确定环境HOA分量的对应帧；

-基于检测到的定向信号的索引的数据集以及支配方向估计的集合，从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧，重新组成HOA表示的当前经解压缩的帧。

18.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的装置，所述装置包括：

-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件；

-适于进行如下处理的部件：基于分配矢量重新分布信道的所述经感知解码的帧，所述分配矢量的元素表示关于环境HOA分量的另外的HOA系数序列中的哪些被分配到不包含活动的定向信号的信道中的信息，以便确定环境HOA分量的对应帧；

-适于进行如下处理的部件：基于检测到的定向信号的索引的数据集以及支配方向估计的集合，从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧，重新组成HOA表示的当前经解压缩的帧。

19.一种对更高阶高保真度立体声响复制表示进行压缩的设备，包括：

一个或多个处理器，以及

一个或多个存储介质，存储有指令，所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1-8中任一项所述的方法。

20.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的设备，包括：

一个或多个处理器，以及

一个或多个存储介质，存储有指令，所述指令在被所述一个或多个处理器执行时使得执行根据权利要求17所述的方法。

21.一种存储介质，存储有可执行指令，所述可执行指令在被处理器执行时使得执行根据权利要求1-8和17中任一项所述的方法。