CN104428833B

CN104428833B - 用于对多信道hoa音频信号进行编码以便降噪的方法和设备以及用于对多信道hoa音频信号进行解码以便降噪的方法和设备

Info

Publication number: CN104428833B
Application number: CN201380036698.6A
Authority: CN
Inventors: J.贝姆; S.科唐; A.克鲁格; P.贾克斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-07-16
Filing date: 2013-07-16
Publication date: 2017-09-15
Anticipated expiration: 2033-07-16
Also published as: US10614821B2; KR20200138440A; TWI602444B; KR102340930B1; KR102126449B1; KR102187936B1; CN107591159B; US10304469B2; TWI674009B; US20170352355A1; JP6866519B2; TW202013993A; US20150154971A1; TWI723805B; KR20210156311A; TW202103503A; US20190318751A1; JP6205416B2; EP2873071A1; CN107403625B

Abstract

一种用于对多信道HOA音频信号进行编码以便降噪的方法，包括以下步骤：使用逆自适应DSHT对信道进行解相关(81)，所述逆自适应DSHT包括旋转运算(330)和逆DSHT(810)，所述旋转运算旋转iDSHT的空间采样网格；对每个经解相关的信道进行感知编码(82)；对旋转信息(SI)进行编码，所述旋转信息包括定义所述旋转运算的参数；以及，传输或存储经感知编码的信道和经编码的旋转信息。

Description

用于对多信道HOA音频信号进行编码以便降噪的方法和设备以及用于对多信道HOA音频信号进行解码以便降噪的方法和设备

技术领域

本发明涉及用于对多信道高阶高保真度立体声响复制音频信号进行编码以便降噪的方法和设备、以及对多信道高阶高保真度立体声响复制音频信号进行解码以便降噪的方法和设备。

背景技术

高阶高保真度立体声响复制(Higher Order Ambisonics，HOA)是多信道声场表示[4]，并且HOA信号是多信道音频信号。在特定扬声器装配上回放某些多信道音频信号表示，特别是HOA表示，需要特殊的呈现，这通常包括矩阵化运算。在解码之后，高保真度立体声响复制(Ambisonics)信号被“矩阵化”，亦即，被映射到与例如扬声器的实际空间位置相对应的新的音频信号。通常，在单个信道之间存在高的互相关性。

问题是经历到在矩阵化运算之后编码噪声增大。在现有技术下，原因似乎是未知的。当在通过感知编码器进行压缩之前例如通过离散球面谐波变换(Discrete SphericalHarmonics Transform，DSHT)将HOA信号变换到空间域时，也发生该效应。

用于高阶高保真度立体声响复制音频信号表示的压缩的通常方法是将独立的感知编码器应用于个体高保真度立体声响复制系数信道[7]。具体地，感知编码器仅考虑对在每个个体单信道信号中发生的噪声掩蔽效应进行编码。然而，这种效应典型地是非线性的。如果将这种单信道矩阵化成新信号，则可能发生噪声去掩蔽(unmasking)。当在用感知编码器进行压缩之前通过离散球面谐波变换将高阶高保真度立体声响复制信号变换到空间域时，也发生该效应[8]。

这种多信道音频信号表示的传输或存储通常要求适当的多信道压缩技术。通常，在最终将I个经解码的信号矩阵化为J个新信号之前，执行与信道无关的感知解码。术语矩阵化表示以加权的方式添加或混合经解码的信号将所有的信号以及所有的新信号布置在根据如下的矢量中：

术语“矩阵化”源自以下事实：在数学上通过以下矩阵运算从获得

其中，A表示由混合权重(mixing weight)构成的混合矩阵(mixing matrix)。在此同义地使用术语“混合”和“矩阵化”。混合/矩阵化用于呈现任何特定扬声器装配的音频信号的目的。矩阵依赖的特定的个体扬声器装配以及因此用于在运算期间的矩阵化的矩阵在感知编码阶段通常是未知的。

发明内容

本发明提供对多信道高阶高保真度立体声响复制音频信号进行编码和/或解码以便获得降噪的改善。具体地，本发明提供对3D音频比率压缩抑制编码噪声解蔽(de-masking)的方式。

本发明描述使(不期望的)噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)的技术。此外，描述如何可以将aDSHT集成在压缩编码器架构中。所描述的技术至少对于HOA信号是特别有利的。本发明的一个优点是减少要传输的边信息(sideinformation)的量。原则上，仅需要传输旋转轴和旋转角。可以通过所传输的信道的数量，间接地用信号通知DSHT采样网格。与需要传输多于一半的相关矩阵的其它方法(例如Karhunen Loève变换(KLT))相比，该边信息的量非常小。

根据本发明的一个实施例，用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤：使用逆自适应DSHT对信道进行解相关，所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT)，所述旋转运算旋转iDSHT的空间采样网格；对每个经解相关的信道进行感知编码；对旋转信息进行编码，所述旋转信息包括定义所述旋转运算的参数；以及，传输或存储经感知编码的音频信道和经编码的旋转信息。使用逆自适应DSHT对信道进行解相关的步骤在原则上是空间编码步骤。

根据本发明的一个实施例，用于对具有降低的噪声的经编码的多信道HOA音频信号进行解码的方法包括以下步骤：接收经编码的多信道HOA音频信号和信道旋转信息；对所接收的数据进行解压缩，其中使用感知解码；使用自适应DSHT(aDSHT)对每个信道进行空间解码，使经感知解码和空间解码的信道相关，其中执行根据所述旋转信息的aDSHT的空间采样网格的旋转；以及，对相关的经感知解码和空间解码的信道进行矩阵化，其中获得映射到扬声器位置的可再现的音频信号。

在权利要求11中公开一种用于对多信道HOA音频信号进行编码的设备。在权利要求12中公开一种用于对多信道HOA音频信号进行解码的设备。

一方面，计算机可读介质具有可执行的指令，以使计算机执行包括以上公开的步骤的用于进行编码的方法，或者执行包括以上公开的步骤的用于进行解码的方法。在从属权利要求、下面的描述以及附图中公开本发明的有利的实施例。

附图说明

参考附图描述本发明的示例性实施例，附图中：

图1示出用于对M个系数的块进行比率压缩的已知的编码器和解码器；

图2示出使用传统的DSHT(离散球面谐波变换)和传统的逆DSHT将HOA信号变换到空间域中的已知的编码器和解码器；

图3示出使用自适应DSHT和自适应逆DSHT将HOA信号变换到空间域中的编码器和解码器；

图4示出测试信号；

图5示出在编码器和解码器构建块中使用的码本的球面采样位置的示例；

图6示出信号自适应DSHT构建块(pE和pD)；

图7示出本发明的第一实施例；

图8示出编码处理和解码处理的流程图；以及

图9示出本发明的第二实施例。

具体实施方式

图2示出使用逆DSHT将HOA信号变换到空间域中的已知的系统。对信号进行使用iDSHT 21的变换、比率压缩E1/解压缩D1，并且使用DSHT 24重新变换到系数域S24。与此不同，图3示出根据本发明的一个实施例的系统：已知的解决方案的DSHT处理块被替换为分别控制逆自适应DSHT和自适应DSHT的处理块31、34。在比特流bs内传输边信息SI。该系统包括用于对多信道HOA音频信号进行编码的设备的元件以及用于对多信道HOA音频信号进行解码的设备的元件。

在一个实施例中，用于对多信道HOA音频信号进行编码以便降噪的设备ENC包括使用逆自适应DSHT(iaDSHT)对信道B进行解相关的解相关器31，所述逆自适应DSHT包括旋转运算单元311和逆DSHT(iDSHT)310。旋转运算单元旋转iDSHT的空间采样网格。解相关器31提供经解相关的信道W_sd和包括旋转信息的边信息SI。此外，该设备包括用于对每个经解相关的信道W_sd进行感知编码的感知编码器32以及用于对旋转信息进行编码的边信息编码器321。旋转信息包括定义所述旋转运算的参数。感知编码器32提供经感知编码的音频信道和经编码的旋转信息，从而降低数据率。最后，用于进行编码的设备包括用于从经感知编码的音频信道和经编码的边信息创建比特流bs以及用于传输或存储比特流bs的接口装置320。

用于对具有降低的噪声的多信道HOA音频信号进行解码的设备DEC包括：用于接收经编码的多信道HOA音频信号和信道旋转信息的接口装置330；以及用于对所接收的数据进行解压缩的解压缩模块33，其包括用于对每个信道进行感知解码的感知解码器。解压缩模块33提供所恢复的经感知解码的信道W’_sd和所恢复的边信息SI’。此外，用于进行解码的设备包括：使用自适应DSHT(aDSHT)使经感知解码的信道W’_sd相关的相关器34，其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转；以及用于对相关的经感知解码的信道进行矩阵化的混合器MX，其中获得映射到扬声器位置的可再现的音频信号。在相关器34内的DSHT单元340中，至少可以执行aDSHT。在一个实施例中，在网格旋转单元341中完成空间采样网格的旋转，这在原则上重新计算原始的DSHT采样点。在另一实施例中，在DSHT单元340内执行旋转。

下面给出定义和描述去掩蔽的数学模型。假设给定的离散时间多信道信号包括I个信道x_i(m)，i＝1，...，I，其中m表示时间样本索引(time sample index)。个体信号可以是实数值或复数值。考虑以时间样本索引m_START+1开始的M个样本的帧，其中假设个体信号是固定的。根据下式在矩阵内布置对应的样本：

X：＝[x(m_START+1)， ...， x(m_START+M)] (1)

其中

x(l)：＝[x₁(m)， ...， x_I(m)]^T (2)

其中(·)^T表示转置。对应的经验相关矩阵由下式给出：

Σ_X：＝XX^H (3)

其中(·)^H表示联合复共轭和转置。

现在假设多信道信号帧已被编码，从而在重构时引入编码误差噪声。因此，用表示的经重构的帧样本的矩阵根据下式由真实样本矩阵X和编码噪声分量E构成：

其中

E：＝[e(m_START+1)， ...， e(m_START+L)] (5)

并且

e(m)：＝[e₁(m)， ...， e_I(m)]^T (6)

因为假设每个信道已经被独立地编码，所以对于i＝1，...，I，可以假设编码噪声信号e_i(m)彼此独立。利用该特性以及噪声信号是零均值的假设，噪声信号的经验相关矩阵由如下对角矩阵给出：

这里，表示对角矩阵，在其对角线上具有经验噪声信号幂

另外的基本假设是，执行编码使得对于每个信道满足预定义的信噪比(SNR)。在不失一般性的情况下，假设预定义的SNR是对于每个信道相等的，亦即：

其中

从现在开始，考虑将经重构的信号矩阵化为J个新信号y_j(m)，j＝1，...，J。在不引入任何编码误差的情况下，经矩阵化的信号的样本矩阵可以表示为：

Y＝AX (11)

其中表示混合矩阵，并且其中

Y：＝[y(m_START+1)， ...， y(m_START+M)] (12)

其中

y(m)：＝[y₁(m)， ...， y_J(m)]^T (13)

然而，由于编码噪声，经矩阵化的信号的样本矩阵被给出为：

其中，N是包含经矩阵化的噪声信号的样本的矩阵。其可以表示为：

N＝AE (15)

N＝[n(m_START+1） ... n(m_START+M) (16)

其中

n(m)：＝[n₁(m) ... n_J(m)]^T (17)

是在时间样本索引m时的所有的经矩阵化的噪声信号的矢量。

使用等式(11)，经矩阵化的无噪声信号的经验相关矩阵可以用公式表示为：

Σ_Y＝AΣ_XA^H (18)

因此，作为Σ_Y的对角线上的第j个元素的第j个经矩阵化的无噪声信号的经验幂(empirical power)可以写为：

其中a_j是根据下式的A^H的第j列：

A^H＝[a₁， ...， a_J] (20)

类似地，利用等式(15)，经矩阵化的噪声信号的经验相关矩阵可以写为：

Σ_N＝AΣ_EA^H (21)

作为Σ_N的对角线上的第j个元素的第j个经矩阵化的噪声信号的经验幂由下式给出：

因此，对于通过下式定义的经矩阵化的信号的经验SNR，

可以使用等式(19)和(22)重新用公式表示为：

通过将Σ_X如下地分解成其对角线分量和非对角线分量：

以及

并且通过利用从假设(7)和(9)以及在所有信道上的SNR常量得到的如下特性：

最终获得关于经矩阵化的信号的经验SNR的所期望的表达式：

从该表达式可以看出，从预定义的SNR(SNR_x)，通过乘以取决于信号相关矩阵Σ_X的对角线分量和非对角线分量的项来获得该SNR。具体地，如果信号x_i(m)彼此不相关，使得Σ_X，NG变成零矩阵，则经矩阵化的信号的经验SNR等于预定义的SNR，亦即：

对于所有的j＝1，...，J，如果Σ_X，NG＝0_I×I (30)

其中0_I×I表示具有I个行和I个列的零矩阵。也就是说，如果信号x_i(m)是相关的，则经矩阵化的信号的经验SNR可能偏离预定义的SNR。在最差的情况下，可能比SNR_x低得多。这种现象在此被称为矩阵化时的噪声去掩蔽。

下面的部分给出对高阶高保真度立体声响复制(HOA)的简要介绍，并定义要处理的信号(数据率压缩)。

高阶高保真度立体声响复制(HOA)基于对在被假设为无声源的所关注的紧密区域内的声场的描述。在该情况下，在时间t时和在所关注的区域内的(以球面坐标的)位置x＝[r，θ，φ]^T处的声压p(t，x)的时空行为在物理上完全由齐次波动等式来确定。可以示出，相对于时间的声压的傅立叶变换，亦即，

其中ω表示角频率(并且对应于

可以根据[10]展开为球面谐波级数(SHs)：

在等式(32)中，c_s表示声音的速度，并且表示角波数。此外，j_n(·)指示第一类的n阶球面贝塞耳(Bessel)函数，表示n阶m次球面谐波(SH)。关于声场的完整信息实际上包含在声场系数内。

应当注意到，SHs一般是复数值的函数。然而，通过它们的适当的线性组合，能够获得实数值的函数，并且关于这些函数，能够进行展开。

与等式(32)中的压力声场描述相关地，源场(source field)可以被定义为：

其中，源场或幅值密度(amplitude density)[9]D(kc_s，Ω)取决于角波数和角方向Ω＝[θ，φ]^T。源场可以包括远场/近场、离散/连续的源[1]。根据下式[1]，源场系数与声场系数相关：

其中是第二类的球面汉克尔(Hankel)函数，r_s是离开原点的源距离。

可以在频域或时域中将HOA域中的信号表示为源场或声场系数的逆傅立叶变换。下面的描述将假设使用有限数量的源场系数的时域表示：

所述有限数量：(33)中的无穷级数在n＝N处被截断。截断对应于空间带宽限制。系数(或HOA信道)的数量由下式给出：

O_3D＝(N+1)² 对于3D (36)

或者对于仅仅2D的描述，由O_2D＝2N+1给出。系数包括用于由扬声器进行稍后再现的一个时间样本m的音频信息。它们可以被存储或传输，并且因此是数据率压缩的主体。系数的单个时间样本m可以由具有O_3D个元素的矢量b(m)表示：

并且通过矩阵B表示M个时间样本的块：

B：＝[b(m_START+1)，b(m_START+2)，..，b(m_START+M)] (38)

可以通过圆形谐波的展开来得到声场的二维表示。这可以被看作是使用固定的倾斜系数的不同加权以及减小到O_2D个系数(m＝±n)的集合的上述一般描述的特殊情况。因此，所有下面的考虑也适用于2D表示，然后术语球面(sphere)需要替换为术语圆形(circle)。

下面描述从HOA系数域到基于信道的空间域的变换，反之亦然。可以对单位球面上的l个离散的空间样本位置Ω_l＝[θ_l，φ_l]^T使用时域HOA系数重写等式(33)：

假设L_sd＝(N+1)²个球面样本位置Ω_l，这可以针对HOA数据块B以矢量标记来重写：

W＝Ψ_iB (36)

其中，W：＝[w(m_START+1)，w(m_START+2)，..，w(m_START+M)]，并且表示L_sd个多信道信号的单个时间样本，矩阵其中矢量如果非常规律地选择球面样本位置，则存在矩阵Ψ_f，其中：

Ψ_fΨ_i＝I， (37)

其中，I是O_3D×O_3D的单位矩阵。然后，到等式(36)的对应变换可以定义为：

B＝Ψ_fW (38)

等式(38)将L_sd个球面信号变换到系数域，并可重写为正向变换(forwardtransform)：

B＝DSHT{W}， (39)

其中，DSHT{ }表示离散球面谐波变换。对应的逆变换将O_3D系数信号变换到空间域以形成L_sd个基于信道的信号，并且等式(36)变成：

W＝iDSHT{B} (40)

这里，离散球面谐波变换的该定义对于关于HOA数据的数据率压缩的考虑是足够的，因为开始于给出的系数B并且仅关注B＝DSHT{iDSHT{B}}的情况。在[2]中给出了离散球面谐波变换的更严格的定义。可以在[3]、[4]、[6]、[5]中回顾DSHT的适当的球面样本位置以及得到这样的位置的过程。在图5中示出采样网格的示例。

具体地，图5示出在编码器和解码器构建块pE、pD中使用的码本的球面采样位置的示例，即，在图5a)中对于L_Sd＝4，在图5b)中对于L_Sd＝9，在图5c)中对于L_Sd＝16，并且在图5d)中对于L_Sd＝25。

下面描述高阶高保真度立体声响复制系数数据的比率压缩和噪声去掩蔽。首先，定义测试信号以强调下面使用的一些特性。

位于方向上的单个远场源由M个离散时间样本的矢量g＝[g(m)，...，g(M)]^T表示，并且可以通过编码由HOA系数的块表示：

B_g＝yg^T (45)

其中，矩阵B_g类似于等式(38)，并且编码矢量由在方向上评估的共轭复数球面谐波构成(如果使用实数值的SH，则该共轭无效)。测试信号可以被看作HOA信号的最简单的情况。更复杂的信号由许多这种信号的叠加构成。

考虑HOA信道的直接压缩，下面示出为何在HOA系数信道被压缩时出现噪声去掩蔽。实际的HOA数据块B的O_3D系数信道的直接压缩和解压缩将引入类似于等式(4)的编码噪声E：

假设如等式(9)中的常量为了在扬声器上重放该信号，需要呈现该信号。可以将该处理描述为：

其中，解码矩阵(并且A^H＝[a₁，...，a_L])，并且矩阵保持L个扬声器信号的M个时间样本。这类似于(14)。应用所有上述考虑，扬声器信道l的SNR可以描述为(类似于等式(29))：

其中，是第o个对角线元素，并且∑_B，NG保持：

∑_B＝B B^H (49)的非对角线元素。

解码矩阵A不应当受到影响(因为其应当能够针对任意的扬声器布局进行解码)，因此矩阵∑_B需要变成对角线以获得通过等式(45)和(49)，(B＝B_g)，∑_B＝yg^Hgy^H＝cyy^H变成具有常量标量值的非对角线c＝g^Tg。与相比，在扬声器信道处的信噪比降低。但是由于声源信号g和扬声器布局在编码阶段通常都是未知的，所以系数信道的直接有损压缩可能导致不可控制的去掩蔽效应，特别是对于低数据率。

下面描述为何在使用DSHT之后在空间域中压缩HOA系数时出现噪声去掩蔽。

在压缩之前使用等式(36)中给出的球面谐波变换将HOA系数数据的当前块B变换到空间域中：

W_Sd＝Ψ_iB (50)

其中，逆变换矩阵Ψ_i与L_Sd≥O_3D个空间样本位置有关，并且空间信号矩阵对这些进行压缩和解压缩，并且添加量化噪声(类似于等式(4))：

其中，编码噪声分量E根据等式(5)。再次假设对于所有空间信道均恒定的SNR，即SNR_Sd。使用变换矩阵Ψ_f将该信号变换到系数域等式(42)，其具有特性(41)：Ψ_fΨ_i＝I。系数的新的块变成：

通过应用解码矩阵将该信号呈现为L个扬声器信号这可以使用(52)和A＝A_DΨ_f来重写：

这里，A变成具有的混合矩阵。等式(53)应当被看作类似于等式(14)。再次应用所有上述考虑，扬声器信道l的SNR可以被描述为(类似于等式(29))：

其中，是第l个对角线元素，并且保持：

的非对角线元素。

因为决不会影响A_D(由于其应当可以针对任意的扬声器布局来呈现)，并且因此决不会对A有任何影响，所以需要变成接近于对角线以保持所期望的SNR：使用来自等式(45)(B＝B_g)的简单测试信号，变成：

其中，c＝g^Tg恒定。使用固定的球面谐波变换(Ψ_i、Ψ_f固定)，可以只在非常稀少的情况下变成对角线，并且变得更差，如上文所述，项取决于系数信号空间特性。因此，球面域中的HOA系数的低比率有损压缩可能导致SNR的降低和不可控制的去掩蔽效应。

本发明的基本思想是通过使用自适应DSHT(aDSHT)来最小化噪声去掩蔽，自适应DSHT由与HOA输入信号的空间特性有关的DSHT的空间采样网格的旋转以及DSHT本身构成。

下面描述具有与HOA系数的数量O_3D相匹配的许多球面位置L_Sd的信号自适应DSHT(aDSHT)，(36)。首先，选择如传统的非自适应DSHT中的默认球面样本网格。对于M个时间样本的块，旋转球面样本网格使得最小化项

的对数，其中，是(具有矩阵行索引l和列索引j)的元素的绝对值，并且是的对角线元素。这等于最小化等式(54)的项

直观化地，如图4所示，该处理对应于以单个空间样本位置匹配最强的源方向的方式的DSHT的球面采样网格的旋转。使用来自等式(45)(B＝B_g)的简单测试信号，可以示出等式(55)的项W_Sd变成矢量(其中，除了一个元素之外的所有元素都接近于零)。因此，变成接近于对角线，并且可以保持所期望的SNR

图4示出被变换到空间域的测试信号B_g。在图4a)中，使用默认的采样网格，并且在图4b)中，使用aDSHT的旋转的网格。通过对应的样本位置周围的Voronoi单元的颜色/灰度变化示出空间信道的相关的的值(以dB)。空间结构的每个单元表示采样点，并且单元的亮度/暗度表示信号强度。如同在图4b)中可以看到的，发现最强的源方向，并且旋转采样网格，使得侧面(side)之一(亦即，单个空间样本位置)匹配最强的源方向。将该侧面图示为白色(对应于强的源方向)，而其它侧面是暗的(对应于低的源方向)。在图4a)中，亦即，在旋转之前，没有侧面匹配最强的源方向，并且若干侧面是更深/更浅的灰色，这意味着在相应的采样点处接收到相当大的(但不是最大的)强度的音频信号。

下面描述在压缩编码器和解码器内使用的aDSHT的主要构建块。

在图6中示出编码器和解码器处理构建块pE和pD的细节。两个模块拥有作为DSHT的基础的相同的球面采样位置网格的码本。最初，使用系数的数量O_3D根据通用码本选择具有LSd＝O_3D个位置的模块pE中的基础网格。必须将L_Sd传输给块pD进行初始化以选择与图3中所指示的相同的基础采样位置网格。通过矩阵描述基础采样网格，其中Ω_l＝[θ_l，φ_l]^T定义单位球面上的位置。如上文所述，图5示出基本网格的示例。

对旋转发现块(构建块“发现最佳旋转”)320的输入是系数矩阵B。该构建块负责旋转基础采样网格，使得等式(57)的值最小化。该旋转用“轴-角”表示来表示，并且将与该旋转有关的压缩的轴ψ_rot和旋转角输出到该构建块作为边信息SI。可以通过从原点到单位球面上的位置的单位矢量来描述旋转轴ψ_rot。在球面坐标中，这可以通过两个角来结合：ψ_rot＝[θ_axis，φ_axis]^T，具有不需要传输的一个隐含的相关半径。通过用信号通知重用先前使用的值以创建边信息SI的特殊逃逸模式(escape pattern)对三个角θ_axis、φ_axis、进行量化和熵编码。

构建块“构建Ψ_i”330将旋转轴和角解码为和并且将该旋转应用于基础采样网格以得出旋转网格其输出从矢量得出的iDSHT矩阵

在构建块“iDSHT”310中，通过W_Sd＝Ψ_iB将HOA系数数据的实际块B变换到空间域中。

解码处理块pD的构建块“构建Ψ_f”350接收旋转轴和角并将其解码为和并且将该旋转应用于基础采样网格以得出旋转网格通过用矢量得到iDSHT矩阵并且在解码侧计算DSHT矩阵

在解码器处理块34内的构模块“DSHT”340中，将空间域数据的实际块变换回到系数域数据的块：

下面描述包括压缩编解码器的总体架构的各种有利的实施例。第一实施例使用单个aDSHT。第二实施例使用谱带中的多个aDSHT。

在图7中示出第一(“基本”)实施例。具有O_3D个系数信道b(m)的索引m的HOA时间样本首先被存储在缓冲器71中以形成M个样本的块和时间索引μ。在上述的构建块pE 72中使用自适应iDSHT，将B(μ)变换到空间域。将空间信号块W_Sd(μ)输入到L_Sd个音频压缩单声道(mono)编码器73(如AAC或mp3编码器)或单个AAC多信道编码器(L_Sd个信道)。比特流S73包括具有集成的边信息SI的多个编码器比特流帧的复用的帧或集成了边信息SI(优选地作为辅助数据)的单个多信道比特流。

在一个实施例中，相应的压缩解码器构建块包括用于将比特流S73分用为L_Sd个比特流和边信息SI并且将该比特流馈送给L_Sd个单声道解码器的分用器D1，将它们解码为具有M个样本的L_Sd个空间音频信道以形成块并且将和SI馈送给pD。在不对比特流进行复用的另一实施例中，压缩解码器构建块包括接收器74，接收器74用于接收比特流并且将其解码为L_Sd个多信道信号对SI解包，并且将和SI馈送给pD。

在解码器处理块pD 75中，使用自适应DSHT和SI将变换到系数域，以形成HOA信号的块B(μ)，其被存储在缓冲器76中以便解帧，以形成系数的时间信号b(m)。

在某些条件下，上述的第一实施例可能具有两个缺点：首先，由于空间信号分布的改变，可能存在来自先前块(即，来自块μ至μ+1)的组块伪像(blocking artifact)；其次，可能同时存在多于一个的强信号，并且aDSHT的解相关效应可能相当小。

在工作于频域中的第二实施例中解决两个缺点。aDSHT应用于组合多个频带数据的标度因子带数据。通过利用重叠添加(Overlay Add，OLA)处理重叠时频变换(TFT)的块来避免组块伪像。可以通过使用本发明在J个谱带内以传输SI_j的数据率中的增大的开销的成本来实现改善的信号解相关。

下面描述图9所示的第二实施例的一些更多的细节：对信号b(m)的每个系数信道进行时频变换(TFT)912。广泛使用的TFT的示例是修正余弦变换(MDCT)。在TFT成帧单元911中，构造50％的重叠数据块(块索引μ)。TFT块变换单元912执行块变换。在谱带化单元913中，组合TFT频带以形成J个新的谱带和有关的信号其中K_J表示带j中的频率系数的数量。在多个处理模块914中处理这些谱带。对于这些谱带中的每一个，存在一个创建信号和边信息SI_j的处理块pE_j。谱带可以匹配有损音频压缩方法的谱带(如AAC/mp3标度因子带)，或者具有更粗糙的粒度。在后者的情况下，不利用TFT块915的信道无关的有损音频压缩需要重新布置所述带化。处理块914操作如同将恒定的比特率分配给每个音频信道的频域中的L_Sd多信道音频编码器。在比特流包装块916中格式化比特流。

解码器接收或存储比特流(至少其若干部分)，将其解包921，并且将用于音频数据馈送给不利用TFT进行信道无关的音频解码的多信道音频解码器922，并且将边信息SI_j馈送给多个解码处理块pD_j 923。用于不利用TFT进行信道无关的音频解码的音频解码器922对音频信息进行解码，并且格式化J个谱带信号作为给解码处理块pD_j 923的输入，其中，将这些信号变换到HOA系数域以形成在去谱带化块924中，重组J个谱带以匹配TFT的带化。将它们变换到iTFT和OLA块925中的时域，该块使用块重叠的重叠添加(OLA)处理。最后，在TFT解帧块926中，iTFT和OLA模块925的输出被解帧，以创建信号

本发明基于如下发现：由信道之间的互相关性产生SNR增加。感知编码器仅考虑出现在每个个体单信道信号内的编码噪声掩蔽效应。然而，这种效应典型地是非线性的。因此，在将这样的单信道矩阵化为新的信号时，可能发生噪声去掩蔽。这是通常在矩阵化运算之后编码噪声增大的原因。

本发明提出通过使不需要的噪声去掩蔽效应最小化的自适应离散球面谐波变换(aDSHT)对信道进行解相关。aDSHT被集成在压缩编码器和解码器架构内。因为其包括针对HOA输入信号的空间特性来调节DSHT的空间采样网格的旋转运算，所以其是自适应的。aDSHT包括自适应旋转和实际的传统DSHT。实际的DSHT是可以如现有技术中描述的那样地构造的矩阵。对该矩阵应用自适应旋转，从而导致信道间相关性的最小化，并且因此导致矩阵化之后的SNR增加的最小化。通过自动搜索运算(而不是分析地)发现旋转轴和角。对旋转轴和角进行编码和传输，以使得能够在解码之后和在矩阵化之前进行重新相关，其中使用逆自适应DSHT(iaDSHT)。

在一个实施例中，执行时频变换(TFT)和谱带化，并且将aDSHT/iaDSHT独立地应用于每个谱带。

图8a)示出本发明的一个实施例中的用于对多信道HOA音频信号进行编码以便降噪的方法的流程图。图8b)示出本发明的一个实施例中的用于对多信道HOA音频信号进行解码以便降噪的方法的流程图。

在图8a)所示的实施例中，用于对多信道HOA音频信号进行编码以便降噪的方法包括以下步骤：使用逆自适应DSHT对信道进行解相关81，所述逆自适应DSHT包括旋转运算和逆DSHT 812，所述旋转运算旋转811iDSHT的空间采样网格；对每个经解相关的信道进行感知编码82；对(作为边信息SI的)旋转信息进行编码83，所述旋转信息包括定义所述旋转运算的参数；以及，传输或存储84经感知编码的音频信道和经编码的旋转信息。

在一个实施例中，逆自适应DSHT包括以下步骤：选择初始的默认球面样本网格；确定最强的源方向；以及，对M个时间样本的块，旋转球面样本网格，使得单个空间样本位置匹配最强的源方向。

在一个实施例中，旋转球面样本网格，使得以下项的对数最小化：

其中，是(具有矩阵行索引l和列索引j)的元素的绝对值，并且是的对角线元素，其中并且W_Sd是音频信道的数量乘以处理样本的块的数量的矩阵，并且W_Sd是aDSHT的结果。

在图8b)所示的实施例中，一种用于对具有降低的噪声的经编码的多信道HOA音频信号进行解码的方法包括以下步骤：接收85经编码的多信道HOA音频信号和信道旋转信息(在边信息SI内)；对接收的数据进行解压缩86，其中使用感知解码；使用自适应DSHT对每个信道进行空间解码87，其中执行DSHT 872和根据所述旋转信息的DSHT的空间采样网格的旋转871，并且其中对经感知解码的信道进行重新相关；以及，对重新相关的经感知解码的信道进行矩阵化88，其中获得映射到扬声器位置的可再现的音频信号。

在一个实施例中，自适应DSHT包括以下步骤：选择自适应DSHT的初始的默认球面样本网格；以及，对M个时间样本的块，根据所述旋转信息来旋转球面样本网格。

在一个实施例中，旋转信息是具有三个分量的空间矢量注意，旋转轴ψ_rot可以用单位矢量来描述。

在一个实施例中，旋转信息是由3个角构成的矢量：θ_axis、φ_axis、其中，θ_axis、φ_axis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息，并且定义绕该轴的旋转角。

在一个实施例中，通过用信号通知(亦即，指示)重用先前的值以便创建边信息(SI)的逃逸模式(亦即，专用比特模式)，对角进行量化和熵编码。

在一个实施例中，一种用于对多信道HOA音频信号进行编码以便降噪的设备包括：解相关器，用于使用逆自适应DSHT对信道进行解相关，所述逆自适应DSHT包括旋转运算和逆DSHT(iDSHT)，其中旋转运算旋转iDSHT的空间采样网格；感知编码器，用于对每个经解相关的信道进行感知编码；边信息编码器，用于对旋转信息进行编码，所述旋转信息包括定义所述旋转运算的参数；以及接口，用于传输或存储经感知编码的音频信道和经编码的旋转信息。

在一个实施例中，一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括：接口装置330，用于接收经编码的多信道HOA音频信号和信道旋转信息；解压缩模块33，用于通过使用用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩；相关器34，用于对经感知解码的信道进行重新相关，其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转；以及混合器，用于对相关的经感知解码的信道进行矩阵化，其中获得映射到扬声器位置的可再现的音频信号。原则上，相关器34用作空间解码器。

在一个实施例中，一种用于对具有降低的噪声的多信道HOA音频信号进行解码的设备包括：接口装置330，用于接收经编码的多信道HOA音频信号和信道旋转信息；解压缩模块33，用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩；相关器34，用于使用aDSHT对经感知解码的信道进行相关，其中执行DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转；以及混合器MX，用于对相关的经感知解码的信道进行矩阵化，其中获得映射到扬声器位置的可再现音频信号。

在一个实施例中，用于进行解码的设备中的自适应DSHT包括用于选择自适应DSHT的初始的默认样本网格的装置、用于对M个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置、以及用于对旋转的球面样本网格执行DSHT的变换处理装置。

在一个实施例中，用于进行解码的设备中的相关器34包括用于使用自适应DSHT同时对每个信道进行空间解码的多个空间解码单元922，还包括用于执行去谱带化的去谱带化单元924、以及用于通过重叠添加处理执行逆时频变换的iTFT和OLA单元925，其中所述去谱带化单元将其输出提供给iTFT和OLA单元。

在所有实施例中，术语降低的噪声至少涉及避免编码噪声去掩蔽。

对音频信号的感知编码表示适合于对音频的人类感知的编码。应当注意，在对音频信号进行感知编码时，通常不对宽带音频信号样本而是在与人类感知有关的个体频带中执行量化。因此，信号功率与量化噪声之间的比率可以在个体频带之间变化。因此，感知编码通常包括减少冗余和/或无关信息，而空间编码通常涉及信道之间的空间关系。

上述的技术可以被看作是对使用Karhunen-Loève变换(KLT)的解相关的替代。本发明的一个优点是极大地减少了边信息量，边信息仅包括三个角。KLT需要块相关矩阵的系数作为边信息，因此需要多得多的数据。此外，在此公开的技术允许对旋转进行调整(或微调)，以便减少进行到下一个处理块时的过渡伪像(transition artifact)。这有利于后续的感知编码的压缩质量。

表1提供aDSHT与KLT之间的直接比较。尽管存在一些相似性，但是aDSHT提供了超过KLT的显著优点。

表1 aDSHT对KLT的比较

虽然已经示出、描述和指出对本发明的优选的实施例应用的基础的新颖的特征，但是应当理解，本领域的技术人员可以在所描述的设备和方法中，在所公开的装置的形式和细节以及在其操作方面，进行各种省略和替代和变化，而不脱离本发明的精神。显然旨在以基本相同的方式执行基本相同的功能以获得相同的结果的那些元件的所有组合都在本发明的范围内。还充分地预期和设想到从一个所描述的实施例到另一个所描述的实施例的元件的替换。

应当理解的是，仅仅通过示例对本发明进行了描述，可以对细节进行修改，而不脱离本发明的范围。

在本说明书和(适当之处)权利要求书和附图中公开的每个特征可以独立地或以任何适当的组合来提供。

特征可以在适当的情况下被实现为硬件、软件或这二者的组合。连接可以在可应用的情况下被实现为无线连接或者有线的(不必是直接或专用的)连接。

在权利要求中出现的标号仅作为示例，而不应当具有对权利要求的范围的限定效果。

引用的参考文献

[1]T.D.Abhayapala。Generalized framework for spherical microphonearrays:Spatial and frequency decomposition。IEEE International Conference onAcoustics,Speech,and Signal Processing(ICASSP)会议，(接受的)第X卷，页，2008年4月，拉斯维加斯，美国。

[2]James R.Driscoll和Dennis M.Healy Jr.。Computing fourier transformsand convolutions on the 2-sphere。Advances in Applied Mathematics，15:202-250，1994年。

[3] Fliege。Integration nodes for the sphere，http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html

[4] Fliege和Ulrike Maier。A two-stage approach for computingcubature formulae for the sphere。技术报告，Fachbereich Mathematik,多特蒙德大学，1999年。

[5]R.H.Hardin和N.J.A.Sloane。网页：Spherical designs,spherical t-designs。http://www2.research.att.com/-njas/sphdesigns

[6]R.H.Hardin和N.J.A.Sloane。Mclaren's improved snub cube and othernew spherical designs in three dimensions。Discrete and ComputationalGeometry，15:429-441，1996年。

[7]Erik Hellerud、lan Burnett、Audun Solvang和U.Peter Svensson.Encodinghigher order Ambisonics with AAC。第124届AES会议，阿姆斯特丹，2008年5月。

[8]Peter Jax、Jan-Mark Batke、Johannes Boehm和Sven Kordon。Perceptualcoding of HOA signals in spatial domain。欧洲专利申请EP2469741A1(PD100051)。

[9]Boaz Rafaely。Plane-wave decomposition of the sound field on asphere by spherical convolution。J.Acoust.Soc.Am.，4(116):2149-2157，2004年10月。

[10]Earl G.Williams。Fourier Acoustics，Applied Mathematical Sciences第93卷。Academic Press，1999年。

Claims

1.一种用于对多信道高阶高保真度立体声响复制(HOA)音频信号进行编码以便降噪的方法，包括以下步骤：

-使用逆自适应离散球面谐波变换DSHT对信道进行解相关(81)，所述逆自适应DSHT包括旋转运算(811)和逆DSHT(812)，其中旋转运算旋转逆DSHT的空间采样网格，其中，旋转球面样本网格，使得以下项的对数最小化

其中，是具有矩阵行索引l和列索引j的的元素的绝对值，并且是的对角线元素，L_Sd是球面样本位置的数量，其中并且W_Sd是具有音频信道的数量乘以处理样本的块的数量的大小的矩阵，并且W_Sd是逆自适应DSHT的结果；

-对每个经解相关的信道进行感知编码(82)；

-对旋转信息进行编码(83)，其中，旋转信息是具有定义所述旋转运算的三个分量的空间矢量以及

-传输或存储(84)经感知编码的音频信道和经编码的旋转信息。

2.根据权利要求1所述的方法，其中，逆自适应DSHT执行以下步骤：

-选择初始的默认球面样本网格；

-确定最强的源方向；以及

-对M个时间样本的块，旋转球面样本网格，使得单个空间样本位置匹配最强的源方向。

3.根据权利要求1所述的方法，其中，空间矢量的三个分量是角θ_axis、φ_axis、其中，θ_axis、φ_axis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息，并且定义绕旋转轴的旋转角，并且其中，通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式对角进行量化和熵编码。

4.根据权利要求1所述的方法，还包括以下步骤：

-在TFT成帧单元(911)中构造重叠数据块；

-对每个信道的系数执行时频变换(912)；

-在谱带化单元(913)中组合经时频变换的频带以形成J个新的谱带；

-在多个处理块(914)中同时处理多个谱带，其中每个处理块执行逆自适应DSHT，所述逆自适应DSHT包括旋转运算和逆DSHT，其中旋转运算旋转逆DSHT的空间采样网格；以及

-在不利用时频变换(915)的情况下执行信道无关的有损音频压缩。

5.一种用于对具有降低的噪声的经编码的多信道高阶高保真度立体声响复制HOA音频信号进行解码的方法，包括以下步骤：

-接收(85)经编码的多信道HOA音频信号和信道旋转信息，所述信道旋转信息包含具有定义旋转运算的三个分量的空间矢量

-对接收的数据进行解压缩(86)，其中，使用感知解码，并且获得经感知解码的信道；

-使用自适应离散球面谐波变换DSHT对每个经感知解码的信道进行空间解码(87)，其中执行离散球面谐波变换DSHT(872)和根据所述旋转信息的DSHT的空间采样网格的旋转(871)；以及

-对经感知解码和空间解码的信道进行矩阵化(88)，其中获得映射到扬声器位置的可再现的音频信号。

6.根据权利要求5所述的方法，其中，自适应DSHT包括以下步骤：

-选择自适应DSHT的初始的默认球面样本网格；

-对M个时间样本的块，根据所述旋转信息来旋转默认的球面样本网格；以及

-对旋转的球面样本网格执行DSHT。

7.根据权利要求5所述的方法，其中，使用自适应DSHT对每个信道进行空间解码(87)的步骤针对多个空间解码单元(922)中的所有信道同时进行，还包括去谱带化(924)和通过重叠添加处理执行逆时频变换(925)的步骤。

8.根据权利要求5所述的方法，其中，信道旋转信息由三个角构成：θ_axis、φ_axis、其中，θ_axis、φ_axis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息，并且定义绕旋转轴的旋转角。

9.根据权利要求5所述的方法，其中，通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式，对空间矢量的三个分量进行量化和熵编码。

10.一种用于对多信道高阶高保真度立体声响复制(HOA)音频信号进行编码以便降噪的设备，包括：

-解相关器(31)，用于使用逆自适应离散球面谐波变换DSHT对信道进行解相关，所述逆自适应DSHT包括旋转运算单元(311)和逆DSHT，其中旋转运算旋转逆DSHT的空间采样网格，其中，旋转球面样本网格，使得以下项的对数最小化

-感知编码器(32)，用于对每个经解相关的信道进行感知编码；

-边信息编码器(321)，用于对旋转信息进行编码，所述旋转信息包括具有定义所述旋转运算的三个分量的空间矢量以及

-接口(320)，用于传输或存储经感知编码的音频信道和经编码的旋转信息。

11.根据权利要求10所述的设备，其中，空间矢量的三个分量是角θ_axis、φ_axis、其中，θ_axis、φ_axis定义关于具有在球面坐标中的一个隐含半径的旋转轴的信息，并且定义绕旋转轴的旋转角，并且其中，通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式对角进行量化和熵编码。

12.一种用于对具有降低的噪声的多信道高阶高保真度立体声响复制HOA音频信号进行解码的设备，包括：

-接口装置(330)，用于接收经编码的多信道HOA音频信号和信道旋转信息，所述信道旋转信息包含具有定义旋转运算的三个分量的空间矢量

-解压缩模块(33)，用于通过用于对每个信道进行感知解码的感知解码器对接收的数据进行解压缩；

-相关器(34)，用于使用自适应离散球面谐波变换(aDSHT)对经感知解码的信道进行相关，其中执行离散球面谐波变换DSHT和根据所述旋转信息的DSHT的空间采样网格的旋转；以及

-混合器(MX)，用于对相关的经感知解码的信道进行矩阵化，其中获得映射到扬声器位置的可再现的音频信号。

13.根据权利要求12所述的设备，其中，自适应DSHT包括：

-用于选择自适应DSHT的初始的默认样本网格的装置；

-用于对M个时间样本的块根据所述旋转信息旋转默认球面样本网格的旋转处理装置；以及

-用于对旋转的球面样本网格执行DSHT的变换处理装置。

14.根据权利要求12所述的设备，其中，相关器(34)包括用于使用自适应DSHT同时对每个信道进行空间解码的多个空间解码单元(922)，还包括用于执行去谱带化的去谱带化单元(924)，以及用于通过重叠添加处理执行逆时频变换的iTFT和OLA单元(925)，其中，去谱带化单元将其输出提供给iTFT和OLA单元。

15.根据权利要求12所述的设备，其中，通过用信号通知重用先前使用的值以便创建边信息(SI)的逃逸模式，对空间矢量的三个分量进行量化和熵编码。