CN105981410A

CN105981410A - 使用奇异值分解进行高阶高保真立体声编码和解码的方法和装置

Info

Publication number: CN105981410A
Application number: CN201480074092.6A
Authority: CN
Inventors: H·克罗普; S·埃伯林格
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-11-28
Filing date: 2014-11-18
Publication date: 2016-09-28
Anticipated expiration: 2034-11-18
Also published as: EP3075172B1; JP6980837B2; WO2015078732A1; US10602293B2; EP2879408A1; HK1246554A1; US10244339B2; HK1249323A1; KR102460817B1; EP3313100B1; CN107995582A; JP2017501440A; EP3075172A1; JP2019082741A; US9736608B2; US20170374485A1; CN105981410B; HK1248438A1; JP2020149062A; JP6707687B2

Abstract

使用奇异值分解来对HOA信号进行编码和解码包括：基于声源方向值和高保真立体声阶次，形成(11)对应的球谐右矢量(|Y(Ω_s)>)和编码器模式矩阵(Ξ_OxS)。根据音频输入信号(|x(Ω_s)>)，确定奇异阈值(σ_ε)。对编码器模式矩阵执行奇异值分解(13)，以便得到与所述阈值比较的相关奇异值，导致最终的编码器模式矩阵秩基于扬声器的方向值(Ω_l)和解码器高保真立体声阶次(N_l)，形成(18)对应的右矢量(|Y(Ω_l)>)以及解码器模式矩阵(Ψ_OxL)。对解码器模式矩阵执行奇异值分解(19)，以提供最终的解码器模式矩阵秩根据最终的编码器模式矩阵秩和最终的解码器模式矩阵秩，确定最终的模式矩阵秩(r_fin)，并且根据最终的模式矩阵秩以及编码器侧的奇异值分解，计算编码器模式矩阵(Ξ_OxS)的伴随伪逆和高保真立体声右矢量(|a′_s>)。根据所述最终的模式矩阵秩(r_fin)减少(16)高保真立体声右矢量(|a′_s>)的分量的数量，以便提供改动的高保真立体声右矢量(|a′_l>)。根据改动的高保真右矢量、解码器侧的奇异值分解的输出值和所述最终的模式矩阵秩计算(15)伴随解码器模式矩阵(Ψ⁺)，得到所有扬声器的输出信号的右矢量(|y(Ω_l)>)。

Description

使用奇异值分解进行高阶高保真立体声编码和解码的方法和装置

技术领域

本发明涉及用于使用奇异值分解进行高阶高保真立体声(Ambisonics)编码和解码的方法和装置。

背景技术

高阶高保真立体声(Higher Order Ambisonics，HOA)表示三维声音。其他技术是波场合成(WFS)或基于声道的方法(比如，22.2)。然而，与基于声道的方法相反，HOA表示提供独立于特定扬声器设置的优点。但是，这种灵活性是以HOA表示在特定扬声器设置上的回放所需的解码处理为代价的。与所需扬声器的数量通常非常大的WFS方法相比，HOA也可以被渲染到仅由几个扬声器组成的设置。HOA的其他优点是，同一表示也可以无任何修改地用于对耳机的双耳渲染。

HOA基于复谐波平面波振幅的空间密度的通过截断球谐(SH)扩展的表示。每个扩展系数是角频率的函数，其可以等效地由时域函数表示。因此，不失一般性地，整个HOA声场表示实际上可被假定为由O个时域函数组成，其中O表示扩展系数的数量。这些时域函数在下面将被等效地称为HOA系数序列或HOA声道。HOA表示可以被表达为包含HOA系数的HOA数据帧的时间序列。HOA表示的空间分辨率随着扩展的最大阶次N增长而提高。对于3D情况，扩展系数的数量O随着阶次N呈二次方地增长，特别地为O＝(N+1)²。

复矢量空间

高保真立体声必须处理复函数。因此引入了基于复矢量空间的符号。该符号随抽象的复矢量操作，所述复矢量不表示从三维“xyz”坐标系知道的真实的几何矢量。相反，每个复矢量描述物理系统的可能的状态，并且在d维空间中由具有d个分量x_i的列矢量形成，并且根据Dirac，这些面向列的矢量被称为右矢量(ket vector)，被表示为|x>。在d维空间中，任意的|x>由其分量x_i和d个正交基矢量|e_i>形成：

| x > = x_{1} | e_{1} > + x_{2} | e_{2} > + .. + x_{d} | e_{d} > = Σ_{i = 1}^{d} x_{i} | e_{i} > - - - (1)

这里，d维空间不是通常的“xyz”3D空间。

右矢量的共轭复数被称为左矢量(bra vector)|x>^*＝<x|。左矢量表示基于行的描述，并且形成原始右矢量空间的对偶空间——左矢量空间。

该Dirac符号将被用在对高保真立体声相关音频系统的以下描述中。

内积可以根据同一维度的左矢量和右矢量来构建，得到复数标量值。如果随机矢量|x>由其在正交矢量基中的分量描述，则对于特定基的特定分量，即，|x>到|e_i>上的投影，由内积给出：

x_i＝<x||e_i>＝<x|e_i> (2)

在左矢量和右矢量之间，仅考虑一个条、而非两个条。

对于同一基中的不同矢量|x>和|y>，内积通过将左矢量<x|乘以右矢量|y>而得到，使得：

< x | y > = Σ_{i = 1}^{d} < x_{i} e_{i} | . Σ_{j = 1}^{d} y_{j} | e_{j} > = Σ_{i, j = 1}^{d} {x_{i}}^{*} y_{j} < e_{i} | e_{j} > = Σ_{i, j = 1}^{d} {x_{i}}^{*} y_{j} = Σ_{i, j = 1}^{d} y_{j}^{*} x_{i} - - - (3)

如果维度mx1的右矢量和维度1xn的左矢量被乘以外积，则具有m行n列的矩阵A被导出：

A＝|x><y| (4)

高保真立体声矩阵

基于高保真立体声的描述考虑了用于将整个声场映射到时变矩阵中所需的相关性(dependency)。在高阶高保真立体声(HOA)编码或解码矩阵中，行(列)的数量与从声源或声宿(sound sink)起的特定方向相关。在编码器侧，变化数量的S个声源被考虑，其中，s＝1,…,S。每个声源s可以具有离原点的个体距离r_s、个体方向Ω_s＝(Θ_s，Φ_s)，其中，Θ_s描述从z轴开始的倾斜角，Φ_s描述从x轴开始的方位角。对应的时间相关信号X_s＝(t)具有个体时间行为。

为简单起见，仅考虑方向部分(径向相关性将由贝塞尔函数描述)。那么，特定方向Ω_s用列矢量描述，其中，n表示高保真立体声度，m是高保真立体声阶次N的索引。对应的值分别按m＝1,…N和n＝-m,…,0,…m取值。

一般来说，特定HOA描述根据N来对2D或3D情况下的每个右矢量限制分量的数量O：

O = \{\begin{matrix} 2 N + 1, & 2 D \\ {(N + 1)}^{2}, & 3 D \end{matrix} - - - (5)

对于多于一个的声源，如果阶次n的s个个体矢量被组合，则所有方向都被包括。这导致包含O×S个模式分量的模式矩阵Ξ，即，Ξ的每个列表示特定方向：

所有信号值都被组合在信号矢量|x(kT)>中，但是被以共同的采样速率采样，信号矢量|x(kT)>考虑每个源信号x_s(kT)的时间相关性：

| x (k T) > = [\begin{matrix} x_{1} (k T) \\ x_{2} (k T) \\ . \\ . \\ . \\ x_{S} (k T) \end{matrix}] - - - (7)

在下文中，为简单起见，在比如|x(kT)>的时变信号中，采样编号k不再被描述，即，它将被忽视。那么，如方程(8)中所示，|x>被乘以模式矩阵Ξ。这确保所有信号分量都与对应的同一方向Ω_s的列线性地组合，根据方程(5)得到具有O个高保真立体声模式分量或系数的右矢量|a_s>：

|a_s>＝Ξ|x> (8)

解码器具有再现由专用数量的l个扬声器信号|y>所表示的声场|a_l>的任务。因此，扬声器模式矩阵Ψ由基于球谐的单位矢量的L个单独的列组成(类似于方程(6))，即，每个扬声器方向一个右矢量：

Ω_l：|a_l>＝Ψ|y> (9)

对于其中模式的数量等于扬声器的数量的二次矩阵，|y>可以由模式矩阵Ψ的逆矩阵确定。在其中行和列的数量可以不同的任意矩阵的一般情况下，扬声器信号|y>可以由伪逆确定，参见M.A.Poletti,“A Spherical Harmonic Approach to 3D Surround SoundSystems”,Acusticum论坛，布达佩斯，2005。那么，利用Ψ的伪逆Ψ⁺：

|y>＝Ψ+|a_l> (10)

|y>＝GΨ+Ξ|x> (11)

线性泛函

为了保持以下方程更简单，平移矩阵直到“发明内容”章节都将被忽视。如果所需的基矢量的数量变为无限，则基矢量可以从离散基变为连续基。因此，函数f可以被解释为具有无限数量的模式分量的矢量。这从数学意义上来讲被称为“泛函”，因为它以确定性的方式执行从右矢量到特定的输出右矢量的映射。它可以用函数f和右矢量|x>之间的内积表示，得到一般的复数c：

< f | (| x >) = Σ_{i = 1}^{N} f_{i} \cdot x_{i} = c - - - (12)

如果泛函保持右矢量的线性组合，则f被称为“线性泛函”。

只要对Hermitean运算符存在约束，就应考虑以下特性。Hermitean运算符总是具有：

·实的特征值；

·对于不同特征值的完备的正交特征函数集。

因此，每个函数可以从这些特征函数建立，参见H.Vogel、C.Gerthsen、H.O.Kneser,“Physik”,Springer Verlag,1982.任意函数可以被表示为球谐与复数常数的线性组合：

f (θ, φ) = Σ_{n = 0}^{\infty} Σ_{m = - N}^{N} C_{n}^{m} \cdot Y_{n}^{m} (θ, φ) - - - (13)

< f (θ, φ) | Y_{n^{'}}^{m^{'}} (θ, φ) > = {&Integral;}_{0}^{2 π} {&Integral;}_{0}^{π} f {(θ, φ)}^{*} Y_{n^{'}}^{m^{'}} (θ, φ) s i n θ d θ d φ - - - (14)

索引n、m被以确定性的方式使用。它们被一维索引j取代，索引n’、m’被相同大小的索引i替代。由于每个子空间正交于具有不同i、j的子空间的事实，它们可被描述为无限维的空间中的线性独立的正交单位矢量：

< f (θ, φ) | Y_{i} (θ, φ) > = {&Integral;}_{0}^{2 π} {&Integral;}_{0}^{π} {(Σ_{j = 0}^{\infty} C_{j} Y_{j} (θ, φ))}^{*} Y_{i} (θ, φ) \sin θ d θ d φ - - - (15)

C_j的常数值可以被设置在积分的前面：

< f (θ, φ) | Y_{i} (θ, φ) > = Σ_{j = 0}^{\infty} C_{j}^{*} {&Integral;}_{0}^{2 π} {&Integral;}_{0}^{π} {Y_{j}}^{*} (θ, φ) Y_{i} (θ, φ) s i n θ d θ d φ - - - (16)

只要本征函数Y_j和Y_i相互正交，则从一个子空间(索引j)到另一个子空间(索引i)的映射仅需要针对相同索引i＝j对谐波进行积分：

< f (θ, φ) | Y_{i} (θ, φ) > = Σ_{j = 0}^{\infty} C_{j}^{*} < Y_{j} (θ, φ) | Y_{i} (θ, φ) > - - - (17)

一个本质的方面是，如果存在从连续描述到左矢量/右矢量符号的变化，则积分解(integral solution)可以被球谐的左矢量描述和右矢量描述之间的内积的和替代。一般来说，与连续基的内积可以被用于将基于右矢量的波描述|x>的离散表示映射到连续表示。例如，x(ra)是位置基(即，半径)中的右矢量表示：

ra：x(ra)＝<ra|x> (18)

针对不同种类的模式矩阵Ψ和Ξ，奇异值分解被用于处理任意种类的矩阵。

奇异值分解

奇异值分解(SVD，参见G.H.Golub、Ch.F.van Loan,“Matrix Computations”,约翰霍普金斯大学出版社,第3版,1996年10月11日)使得能够将具有m行和n列的任意矩阵A分解为三个矩阵U、Σ和参见方程(19)。在原始形式中，矩阵U和分别是维度m×m和n×n的酉矩阵(unitary matrix)。这样的矩阵是正交的，并且分别是从表示复单位矢量|u_i>和的正交的列构建的。来自复数空间的酉矩阵与实空间中的正交矩阵是等效的，即，它们的列表示正交矢量基：

矩阵U和V包含用于所有四个子空间的正交基。

·U的头r个列：A的列空间

·U的后m-r个列：的零空间

·V的头r个列：A的行空间

·V的后n-r个列：A的零空间

矩阵∑包含可以被用于表征A的行为的所有奇异值。一般来说，∑是具有多达r个对角元素σ_i的m×n矩形对角矩阵，其中，秩r给出A的线性独立的列和行的数量(r≤(min(m,n))。它包含降序的奇异值，即，在方程(20)和(21)中，σ₁具有最高值，σ_r具有最低值。

在紧凑形式中，只有r个奇异值(即，U的r个列和的r个行)是重构矩阵A必需的。矩阵U、∑和的维度不同于原始形式。然而，∑矩阵总是得到二次形式。那么，对于m>n＝r，

对于n>m＝r，

因此，可以通过低秩逼近来非常高效地实现SVD，参见以上提及的Golub/van Loan教科书。这种逼近精确地描述了原始矩阵，但是包含多达r个秩-1矩阵。就Dirac符号而言，矩阵A可以由r个秩-1外积表示：

A = Σ_{i = 1}^{r} σ_{i} | u_{i} > < v_{i} | - - - (22)

当查看方程(11)中的编码器解码器链时，不仅存在用于编码器的模式矩阵(比如，矩阵Ξ)，而且模式矩阵(比如，矩阵Ψ)的逆矩阵或另一个复杂的解码器矩阵也要被考虑。对于一般的矩阵A，可以通过执行方形矩阵∑的逆以及U和的共轭复数转置来直接从SVD检查A的伪逆A⁺，其结果是：

对于方程(22)的基于矢量的描述，伪逆A⁺通过执行|u_i>和<v_i|的共轭转置而得到，而奇异值σ_i必须被求逆。作为结果得到的伪逆看上去如下：

A^{+} = Σ_{i = 1}^{r} (\frac{1}{σ_{i}}) | v_{i} > < u_{i} | - - - (24)

如果不同矩阵的基于SVD的分解与基于矢量的描述组合(参见方程(8)和(10))，则对于编码处理得到：

| a_{s} > = Σ_{s_{i} = 1}^{r_{s}} σ_{s_{i}} | u_{s_{i}} > < v_{s_{i}} | \cdot | x > = Σ_{s_{i} = 1}^{r_{s}} σ_{s_{i}} | u_{s_{i}} > < v_{s_{i}} | x > - - - (25)

对于解码器，当考虑伪逆矩阵Ψ⁺(方程(24))时：

| y > = (Σ_{l_{i} = 1}^{r_{l}} (\frac{1}{σ_{l_{i}}}) | v_{l_{i}} > < u_{l_{i}} |) | a_{l} > - - - (26)

如果假定来自编码器的高保真立体声声场描述|a_s>与用于解码器的|a_l>几乎相同，并且维度r_s＝r_l＝r，则对于输入信号|x>和输出信号|y>，组合的方程看上去如下：

| y > = (Σ_{l_{i} = 1}^{r} (\frac{1}{σ_{l_{i}}}) | v_{l_{i}} > < u_{l_{i}} |) Σ_{s_{i} = 1}^{r} σ_{s_{i}} | u_{s_{i}} > < v_{s_{i}} | x > - - - (27)

发明内容

然而，编码器解码器链的这个组合的描述具有如下所述的一些特定问题。

对高保真立体声矩阵的影响

高阶高保真立体声(HOA)模式矩阵Ξ和Ψ受到声源或扬声器的位置(参见方程(6))和它们的高保真立体声阶次的直接影响。如果几何结构是规则的，即，源或扬声器位置之间的相互角距离几乎相等，则方程(27)可以被求解。

但是在实际的应用中，通常不是如此。因此，执行Ξ和Ψ的SVD并且调查它们在对应的矩阵∑中的奇异值是有道理的，因为它反映了Ξ和Ψ的数值行为。∑是具有实奇异值的正定矩阵。但是尽管如此，即使存在多达r个奇异值，这些值之间的数值关系对于声场的再现也是非常重要的，因为在解码器侧必须构建矩阵的逆或伪逆。用于测量该行为的合适的量是A的条件数(condition number)。条件数κ(A)被定义为最小奇异值与最大奇异值之比：

κ (A) = \frac{σ_{r}}{σ_{1}} - - - (28)

逆问题

病态矩阵是有问题的，因为它们具有大的κ(A)。在求逆或求伪逆的情况下，病态矩阵导致很小的奇异值σ_i变得非常占主导的问题。在P.Ch.Hansen,“Rank-Deficient andDiscrete Ill-Posed Problems:Numerical Aspects of Linear Inversion”,工业和应用数学学会(SIAM),1998中，两种基本类型的问题通过描述奇异值如何衰减而被区分(第1.1章第2-3页)。

·秩亏问题，在该秩亏问题中，矩阵在大奇异值和小奇异值的聚类之间具有差距(非逐渐衰减)；

·离散不适定问题，在该离散不适定问题中，平均地，矩阵的所有奇异值都逐渐衰减到零，即，在奇异值谱中没有差距。

关于编码器侧的麦克风的几何结构以及解码器侧的扬声器几何结构，主要发生第一个秩亏问题。然而，在记录期间修改一些麦克风的位置比控制客户端的所有可能的扬声器位置更简单。尤其是在解码器侧，模式矩阵的逆或伪逆将被执行，这对于较高的模式分量导致数值问题和过分强调的值(参见以上提及的Hansen的书)。

信号有关的相关性

减少上述求逆问题可以例如通过降低模式矩阵的秩，即，通过避免最小奇异值来实现。但是然后，阈值将被用于最小的可能的值σ_r(参见方程(20)和(21))。在以上提及的Hansen的书中描述了用于这种最低奇异值的最佳值。Hansen提出了其取决于输入信号的特性(这里用|x>描述)。从方程(27)可以看出，该信号对再现具有影响，但是信号相关性在解码器中不能被控制。

非正交基的问题

根据方程(25)和(26)，在不同基的每个系统中描述了在HOA编码和HOA解码器之间传输的状态矢量|a_s>。然而，如果正交基被使用，则状态不改变。那么，模式分量可以从一个基投影到另一个基。所以，原则上，每个扬声器设置或声音描述应构建在正交基系统上，因为这允许这些基之间的矢量表示的改变，例如，在高保真立体声中，从3D空间投影到2D子空间中。

然而，经常存在具有病态矩阵的设置，在病态矩阵中，基矢量是近似线性相关的。所以，原则上，非正交基将被处理。这使得当HOA声场描述应被采用到不同的扬声器设置上时或者当期望在编码器侧或解码器侧处理不同的HOA阶次和维度时必要的从一个子空间到另一个子空间的改变复杂化。

投影到稀疏扬声器集上的典型问题是，声音能量在扬声器附近高，并且在这些扬声器之间的距离很时低。所以，不同扬声器之间的位置需要相应地对能量进行平衡的平移函数。

上述问题可以通过本发明的处理来绕开，并且通过权利要求1中公开的方法来解决。利用该方法的设备在权利要求2中被公开。

根据本发明，考虑到最低的模式矩阵秩以及截断的奇异值分解，用于编码过程的互逆基(reciprocal basis)与用于解码过程的原始基被组合使用。因为双正交系统被表示，所以确保编码器矩阵和解码器矩阵的乘积保持至少用于最低的模式矩阵秩的单位矩阵。

这通过将基于右矢量的描述变为基于对偶空间(具有互逆基矢量的左矢量空间)的表示来实现，在对偶空间中，每一个矢量是右矢量的伴随(adjoint)。它通过使用模式矩阵的伪逆的伴随来实现。“伴随”意指复数共轭转置。

因此，伪逆的伴随已经被用于编码器侧以及伴随解码器矩阵。对于所述处理，正交互逆基矢量被使用，以便关于基变化而不变。此外，这种类型的处理允许考虑与输入信号相关的影响，对于正则化过程中的σ_i导致降噪最佳阈值。

原则上，本发明的方法适合于使用奇异值分解的高阶高保真立体声编码和解码，所述方法包括以下步骤：

-接收音频输入信号；

-基于声源的方向值和所述音频输入信号的高保真立体声阶次，形成对应的球谐右矢量和对应的编码器模式矩阵；

-对所述编码器模式矩阵执行奇异值分解，其中，两个对应的编码器酉矩阵、对应的包含奇异值的编码器对角矩阵以及相关的编码器模式矩阵秩被输出；

-从所述音频输入信号、所述奇异值和所述编码器模式矩阵秩确定阈值；

-将所述奇异值中的至少一个与所述阈值进行比较，并且确定对应的最终的编码器模式矩阵秩；

-基于扬声器的方向值和解码器高保真立体声阶次，形成对应的用于位于与所述方向值对应的方向上的特定扬声器的球谐右矢量以及对应的解码器模式矩阵；

-对所述解码器模式矩阵执行奇异值分解，其中，两个对应的解码器酉矩阵以及对应的包含奇异值的解码器对角矩阵被输出，并且所述解码器模式矩阵的对应的最终的秩被确定；

-从所述最终的编码器模式矩阵秩和所述最终的解码器模式矩阵秩确定最终的模式矩阵秩；

-从所述编码器酉矩阵、所述编码器对角矩阵和所述最终的模式矩阵秩计算所述编码器模式矩阵的伴随伪逆，得到高保真立体声右矢量，

并且根据所述最终的模式矩阵秩减少所述高保真立体声右矢量的分量的数量，以便提供改动的高保真立体声右矢量；

-从所述改动的高保真右矢量、所述解码器酉矩阵、所述解码器对角矩阵和所述最终的模式矩阵秩计算伴随解码器模式矩阵，得到所有扬声器的输出信号的右矢量。

原则上，本发明设备适于使用奇异值分解的高阶高保真立体声编码和解码，所述设备包括适于执行以下操作的部件：

-接收音频输入信号；

本发明的有利的附加的实施例在各个从属权利要求中被公开。

附图说明

参照附图描述本发明的示例性实施例，在附图中示出了：

图1 基于SVD的HOA编码器和解码器的框图；

图2 包括线性泛函平移的HOA编码器和解码器的框图；

图3 包括矩阵平移的HOA编码器和解码器的框图；

图4 用于确定阈值σ_ε的流程图；

图5 在降低的模式矩阵秩的情况下对奇异值的重新计算以及|a′_s>的计算；

图6在有平移或没有平移时，在降低的模式矩阵秩和的情况下对奇异值的重新计算以及|y(Ω_l)>的计算。

具体实施方式

图1中描绘了关于本发明的基于SVD的HOA处理的、具有编码器部分和解码器部分的框图。两个部分都在使用SVD，以便产生互逆基矢量。相对于已知的模式匹配解有所改变，例如，与方程(27)相关的改变。

HOA编码器

为了用互逆基矢量工作，基于右矢量的描述被变到左矢量空间，在左矢量空间中，每个矢量是右矢量的Hermitean共轭或伴随。它通过使用模式矩阵的伪逆来实现。然后，根据方程(8)，基于(对偶)左矢量的高保真立体声矢量也可以重新用(对偶)模式矩阵表示：

Ξ_d：<a_s|＝<x|Ξ_d＝<x|Ξ⁺ (29)

所得到的编码器侧的高保真立体声矢量<a_s|现在为左矢量语义。然而，统一的描述是期望的，即，返回到右矢量语义。代替Ξ的伪逆，使用或的Hermitean共轭：

根据方程(24)，

其中，所有奇异值都是实数，并且的复数共轭可以被忽视。

这导致高保真立体声分量的以下描述：

| a_{s} > = Σ_{i = 1}^{r_{s}} (\frac{1}{σ_{s_{i}}}) | u_{s_{i}} > < v_{s_{i}} | x > - - - (32)

用于源端的基于矢量的描述揭示了|a_s>取决于逆如果对于编码器侧这样做，则它将变到解码器侧的对应的对偶基矢量。

HOA解码器

在解码器最初基于伪逆的情况下，为了导出扬声器信号|y>得到：

即，扬声器信号为：

考虑方程(22)，解码器方程导致：

因此，不是构建伪逆，而是在方程(35)中只保留伴随运算(用表示)。这意味着在解码器中需要更少的算术运算，因为只需要切换虚部的符号，并且转置仅仅是修正的存储器访问：

| y > = (Σ_{i = 1}^{r} σ_{l_{i}} \cdot | v_{l_{i}} > < u_{l_{i}} |) | a_{l} > - - - (36)

如果假定编码器和解码器的高保真立体声表示是几乎相同的，即，|a_s>＝|a_l>，则通过方程(32)，整个编码器解码器链得到以下相关性：

| y > = Σ_{i = 1}^{r} (\frac{σ_{l_{i}}}{σ_{s_{i}}}) \cdot | v_{l_{i}} > < u_{l_{i}} | u_{s_{i}} > < v_{s_{i}} | x > - - - (37)

| y > = Σ_{i = 1}^{r} (\frac{σ_{l_{i}}}{σ_{s_{i}}}) < u_{l_{i}} | u_{s_{i}} > \cdot | v_{l_{i}} > < v_{s_{i}} | x > - - - (38)

在真实的情景下，来自方程(11)的平移矩阵G和有限的高保真立体声阶次要被考虑。后者导致被用于描述声场的基矢量的有限数量的线性组合。此外，基矢量的线性独立性受到附加的误差源(比如数值舍入误差或测量误差)的影响。从实践角度来看，这可以通过数值秩来绕开(参见以上提及的Hansen的书的第3.1章)，这确保所有的基矢量在某些容限内都是线性独立的。

为了对噪声更鲁棒，考虑输入信号的SNR，其中输入信号的SNR影响编码器右矢量以及所计算的输入的高保真立体声表示。所以，如果必要的话，即，对于将被求逆的病态模式矩阵，根据编码器中的输入信号的SNR来对σ_i值进行正则化。

编码器中的正则化

正则化可以通过不同的方式来执行，例如，通过使用经由截断的SVD的阈值。SVD提供降序的σ_i，其中，具有最低水平或最高索引的σ_i(被表示为σ_r)包含非常频繁地切换的并且导致噪声效应和SNR的分量(参看方程(20)和(21)以及以上提及的Hansen教科书)。因此，截断SVD(TSVD)将所有的σ_i值与阈值进行比较，并且忽视超出阈值σ_ε的噪声分量。阈值σ_ε可以是固定的或者可以根据输入信号的SNR被最佳地修正。

矩阵的迹(trace)是指所有对角矩阵元素的和。

TSVD方框(图1至3中的10、20、30)具有以下任务：

·计算模式矩阵秩r；

·移除低于阈值的噪声分量，并且设置最终的模式矩阵秩r_fin。

所述处理对复矩阵Ξ和Ψ进行处理。然而，为了对实数值σ_i进行正则化，这些矩阵不能被直接使用。适当的值来自Ξ与其伴随之间的乘积。所得到的矩阵是具有实数对角本征值的二次矩阵，所述实数对角本征值等同于适当的奇异值的二次值。如果可以用矩阵Σ²的迹(如下面的表达式39所示)描述的所有本征值之和保持固定，则系统的物理性质守恒。这也适用于矩阵Ψ。

t r a c e (Σ^{2}) = Σ_{i = 1}^{r} σ_{i}^{2} - - - (39)

因此，编码器侧的方框ONB_s(图1-3中的15、25、35)或解码器侧的方框ONB_l(图1-3中的19、29、39)修改奇异值，以使得正则化之前和之后的trace(Σ²)守恒(参见图5和图6)：

·修正其余的σ_i(对于i＝1...r_fin)，以使得原始矩阵和目标截断矩阵Σ_t的迹保持固定

·计算满足以下表达式的常数值Δσ：

Σ_{i = 1}^{r} σ_{i}^{2} = Σ_{i = 1}^{r f i n} {(σ_{i} + Δ σ)}^{2} - - - (40)

如果正常数量的奇异值和减少数量的奇异值之间的差值被调用则所得到的值如下：

Δ σ = \frac{1}{r_{f i n}} (- Σ_{i = 1}^{r f i n} σ_{i} + \sqrt{{[Σ_{i = 1}^{r f i n} σ_{i}]}^{2} + r_{f i n} Δ E}) = \frac{1}{r_{{fin}_{d}}} (- t r a c e {(Σ)}_{r f i n} + \sqrt{t r a c e {(Σ)}_{r f i n}^{2} + r_{{fin}_{d}} Δ E}) - - - (41)

·对截断的矩阵Σ_t重新计算所有的新的奇异值σ_i，t：

σ_i，t＝σ_i+Δ_σ (42)

另外，如果用于适当的|a>的基(参见方程(30)或(33))被改变为对应的SVD相关的基，则可以实现编码器和解码器的简化，导致：

| a^{'} > = Σ_{i = 1}^{r f i n} < u_{i} | [Σ_{i = 1}^{r f i n} σ_{i, t} | u_{i} > < v_{i} |] | a > = Σ_{i = 1}^{r f i n} σ_{i, t} < v_{i} | a > - - - (43)

在基中使用缩小的右矢量|a′>，这具有秩真正被降低的优点。

因此，在本发明中，SVD在两侧都被使用，不仅用于执行单个矩阵Ξ和Ψ的正交基和奇异值，而且还用于得到它们的秩r_fin。

分量改动

通过考虑Ξ的源秩或者通过相对于阈值或最终的源秩忽视对应的σ_s中的一些，可以减少分量的数量，并且可以提供更鲁棒的编码矩阵。因此，根据解码器侧的分量的对应数量对所传输的高保真立体声分量的数量的改动被执行。通常，它取决于高保真立体声阶次O。这里，从用于编码器矩阵Ξ的SVD方框得到的最终的模式矩阵秩和从用于解码器矩阵Ψ的SVD方框得到的最终的模式矩阵秩要被考虑。在改动#压缩步骤/级16中，如下改动分量的数量：

·不改变—不压缩；

·压缩，忽视解码器矩阵中的个列＝>编码器和解码器操作减少；

·在传输之前取消高保真立体声状态矢量的的分量，即，压缩。忽视编码器矩阵Ξ中的个行＝>编码器和解码器操作减少。

结果是，将在编码器侧和解码器侧使用的最终的模式矩阵秩r_fin是和中的较小的一个。

因此，如果在编码器和解码器之间存在用于交换另一端的秩的双向信号，则可以使用秩差异来改进可能的压缩并且减少编码器和解码器中的操作的数量。

考虑平移函数

由于关于为稀疏和不规则的扬声器设置得到的能量分布的问题，前面提及了平移函数f_s、f_l或平移矩阵G的使用，参见方程(11)。这些问题必须对通常可以在高保真立体声中使用的有限阶次进行处理(参见章节“对高保真立体声矩阵的影响”到“非正交基的问题”)。

关于对平移矩阵G的要求，在编码之后，假定一些声学源的声场处于由高保真立体声状态矢量|a_s>表示的良好状态。然而，在解码器侧，状态已经被准备得如何是完全未知的。即，完全不知道系统的当前状态。因此，为了保持方程(9)和(8)之间的内积，采取互逆基。

使用已经在编码器侧的伪逆提供了以下优点：

·互逆基的使用满足了编码器基和解码器基之间的双正交性

·编码/解码链中的操作的数量减少；

·在关于SNR行为的数值方面得到改善；

·经修改的模式矩阵中的列是正交的，而不仅仅是线性独立的；

·它简化了基的改变；

·使用秩-1逼近导致更少的存储器工作和减少的操作数量，尤其在最终的秩较低的时候。一般来说，对于M×N矩阵，只需要M+N个操作，而不是M*N个操作；

·它简化了解码器侧的改动，因为解码器中的伪逆可以被避免；

·具有数值不稳定的σ的逆问题可以被绕开。

在图1中，在编码器或解码器侧，声源的s＝1，...，S不同的方向值Ω_s和高保真立体声阶次N_s被输入到步骤或级11，步骤或级11从其形成球谐的对应右矢量|Y(Ω_s)>和具有维度O×S的编码器模式矩阵Ξ_OxS。矩阵Ξ_OxS是对应于输入信号矢量|x(Ω_s)>而产生的，输入信号矢量|x(Ω_s)>包括关于不同方向Ω_s的S个源信号。因此，矩阵Ξ_OxS是球谐右矢量|Y(Ω_s)>的集合。因为不仅信号x(Ω_s)还有位置随着时间而变化，所以计算矩阵Ξ_OxS可以被动态地执行。该矩阵具有用于源的非正交基NONB_s。根据输入信号|x(Ω_s)>和秩值r_s，在步骤或级12中确定特定的奇异阈值σ_ε。编码器模式矩阵Ξ_OxS和阈值σ_ε被馈送到截断奇异值分解TSVD处理10(参看以上的章节“奇异值分解”)，该处理在步骤或级13中执行对模式矩阵Ξ_OxS的奇异值分解，以便得到其奇异值，由此，一方面，酉矩阵U和以及包含r_s个奇异值的对角矩阵∑被输出，另一方面，相关的编码器模式矩阵秩r_s被确定(备注：σ_i是来自SVD(Ξ)＝U∑V⁺的矩阵Σ的第i奇异值)。

在步骤/级12中，根据章节“编码器中的正则化”来确定阈值σ_ε。阈值σ_ε可以将所使用的值的数量限制为截断的或最终的编码器模式矩阵秩阈值σ_ε可以被设置为预定义的值，或者可以被改为输入信号的信噪比SNR：由此全部S个源信号|x(Ω_s)>的SNR在预定义数量的采样值上被测量。

在比较器步骤或级14中，将来自矩阵∑的奇异值σ_r与阈值σ_ε进行比较，并且根据该比较，计算截断的或最终的编码器模式矩阵秩该秩根据章节“编码器中的正则化”来修改其余的值。最终的编码器模式矩阵秩被馈送到步骤或级16。

关于解码器侧，在步骤或级18中，对应于方框17中的相关信号|y(Ω_l)>的扬声器位置，根据扬声器的l＝1，...，L方向值Ω_l和解码器高保真立体声阶次N_l，确定关于方向Ω_l上的特定扬声器的对应的球谐右矢量|Y(Ω_l)>以及对应的具有维度Q×L的解码器模式矩阵Ψ_OxL。类似于编码器矩阵Ξ_OxS，解码器矩阵Ψ_OxL是用于所有方向Ω_l的球谐右矢量|Y(Ω_l)>的集合。Ψ_OxL的计算被动态地执行。

在步骤或级19中，对解码器模式矩阵Ψ_OxL执行奇异值分解处理，并且将所得到的酉矩阵U和以及对角矩阵∑馈送到方框17。此外，最终的解码器模式矩阵秩被计算并且被馈送到步骤/级16。

在步骤或级16中，如上所述的那样，根据最终的编码器模式矩阵秩和最终的解码器模式矩阵秩确定最终的矩阵秩r_fin。将最终的模式矩阵秩r_fin馈送到步骤/级15和步骤/级17。

编码器侧矩阵U_s、∑_s、秩值r_s、最终的模式矩阵秩值r_fin以及所有源信号的时间相关的输入信号右矢量|x(Ω_s)>被馈送到步骤或级15，步骤或级15使用方程(32)从这些与Ξ_OxS相关的输入值计算编码器模式矩阵的伴随伪逆该矩阵具有维度和用于源的正交基ONB_s。当处理复矩阵及其伴随时，考虑：步骤/级15输出对应的时间相关的高保真立体声右矢量或状态矢量|a′_s>，参见上面的章节“HOA编码器”。

在步骤或级16中，如上面的章节“分量改动”中所描述的，使用最终的模式矩阵秩r_fin来减少|a′_s>的分量的数量，以便可能地减少所传输的信息量，在改动之后得到时间相关的高保真立体声右矢量或状态矢量|a′_l>。

根据保真立体声右矢量或状态矢量|a′_l>，根据从模式矩阵Ψ_OxL导出的秩值r_l以及解码器侧矩阵V_l、∑_l，以及根据来自步骤/级16的最终的模式矩阵秩值r_fin，计算具有维度和用于扬声器的正交基ONB_l的伴随解码器模式矩阵得到所有扬声器的时间相关的输出信号的右矢量|y(Ω_l)>，参见上面的章节“HOA解码器”。解码是利用平常的模式矩阵的共轭转置执行的，所述共轭转置依赖于特定的扬声器位置。对于附加的渲染，应使用特定的平移矩阵。

解码器由步骤/级18、19和17表示。编码器由其他步骤/级表示。

图1的步骤/级11至19原则上分别对应于图2中的步骤/级21至29以及图3中的步骤/级31至39。

另外，在图2中，在步骤或级211中计算的用于编码器侧的平移函数f_s以及在步骤或级218中计算的用于解码器侧的平移函数f_l281被用于线性泛函平移。平移函数f_s是用于步骤/级21的附加输入信号，平移函数f_l是用于步骤/级28的附加输入信号。在上面的章节“考虑平移函数”中描述了使用这种平移函数的原因。

与图1相比，在图3中，平移矩阵G控制对在步骤/级37的输出处的所有扬声器的时间相关的输出信号的初步右矢量的平移处理371。这导致所有扬声器的时间相关的输出信号的改动的右矢量|y(Ω_l)>。

图4更详细地示出了用于基于编码器模式矩阵Ξ_OxS的奇异值分解SVD处理来确定阈值σ_ε的处理。SVD处理传递矩阵∑(在其递减对角中包含从σ₁到的所有奇异值σ_i，参见方程(20)和(21))以及矩阵∑的秩r_s。在使用固定阈值的情况(方框41)下，在从i＝1开始并且可以一直到i＝r_s的、由变量i控制的循环(方框42和43)内，检查(方框45)在这些σ_i值之间是否存在量值差距。这种差距被假定为当奇异值σ_i+1的量值明显小于其在前的奇异值σ_i的量值(例如，小于1/10)时发生。当检测到这种差距时，循环停止，并且阈值σ_ε被设置为当前奇异值σ_i。在i＝r_s的情况(方框44)下，达到最低的奇异值σ_i＝σ_r，回路被退出，并且σ_ε被设定为σ_r(方框46)。

在不使用固定阈值的情况(方框41)下，调查所有S个源信号的T个采样的块X＝[|x(Ω_s，t＝0)>，...，|x(Ω_s，t＝T)>](＝矩阵S×T)。计算X的信噪比SNR(方框48)，并且将阈值σ_ε设置为(方框49)。

图5示出了在步骤/级15、25、35内，在降低的模式矩阵秩r_fin的情况下的奇异值的重新计算以及|a′_s>的计算。来自图1/2/3的方框10/20/30的编码器对角矩阵∑_s被馈送到步骤或级51、步骤或级52、步骤或级54，其中步骤或级51使用值r_s来计算总能量步骤或级52使用值来计算减小的总能量总能量值和减小的总能量值之间的差值ΔE、值和值被馈送到步骤或级53，步骤或级53计算

为了确保由描述的能量被保持为使得结果在物理上是有意义的，值Δσ是需要的。如果在编码器或解码器侧，能量由于矩阵简化而减小，则这样的能量损失被用值Δσ补偿，值Δσ被以相等的方式分布给所有剩余的矩阵元素，即，

步骤或级54从∑_s、Δσ和计算

输入信号矢量|x(Ω_s)>被乘以矩阵结果乘以后一乘法的结果是右矢量|a′_s>。

图6示出了在步骤/级17、27、37内，在有或没有平移时在降低的模式矩阵秩r_fin的情况下的奇异值的重新计算以及扬声器信号|y(Ω_l)>的计算。来自图1/2/3中的方框19/29/39的解码器对角矩阵∑_l被馈送到步骤或级61、步骤或级62以及步骤或级64，其中步骤或级61使用值r_l来计算总能量步骤或级62使用值来计算减小的总能量总能量值和减小的总能量值之间的差值ΔE、值和值被馈送到步骤或级63，步骤或级63计算：

Δ σ = \frac{1}{r_{{fin}_{d}}} (- t r a c e (Σ_{r_{{fin}_{d}}}) + \sqrt{{(t r a c e (Σ_{r_{{fin}_{d}}}))}^{2} + r_{{fin}_{d}} Δ E})

步骤或级64从∑_l、Δσ和计算

右矢量|a′_s>被乘以矩阵∑_t。结果被乘以矩阵V。后一乘法的结果是所有扬声器的时间相关的输出信号的右矢量|y(Ω_l)>。

本发明处理可以由单个处理器或电子电路执行，或者由并行操作和/或对本发明的处理的不同部分操作的几个处理器或电子电路执行。

Claims

1.一种用于使用奇异值分解进行高阶高保真立体声(HOA)编码和解码的方法，所述方法包括以下步骤：

-接收音频输入信号(|x(Ω_s)>)；

-基于声源的方向值(Ω_s)和所述音频输入信号(|x(Ω_s)>)的高保真立体声阶次(N_s)，形成(11、31)对应的球谐右矢量(|Y(Ω_s)>)和对应的编码器模式矩阵(Ξ_OxS)；

-对所述编码器模式矩阵(Ξ_OxS)执行(13、23、33)奇异值分解，其中，两个对应的编码器酉矩阵(U_s、)、对应的包含奇异值的编码器对角矩阵(∑_s)以及相关的编码器模式矩阵秩(r_s)被输出；

-从所述音频输入信号(|x(Ω_s)>)、所述奇异值(∑_s)和所述编码器模式矩阵秩(r_s)确定(12、22、32)阈值(σ_ε)；

-将所述奇异值中的至少一个(σ_r)与所述阈值(σ_ε)进行比较(14、24、34)，并且确定对应的最终的编码器模式矩阵秩

-基于扬声器的方向值(Ω_l)和解码器高保真立体声阶次(N_l)，形成(18、38)用于位于与所述方向值(Ω_l)对应的方向上的特定扬声器的对应的球谐右矢量(|Y(Ω_l)>)以及对应的解码器模式矩阵(Ψ_OxL)；

-对所述解码器模式矩阵(Ψ_OxL)执行(19、29、39)奇异值分解，其中，两个对应的解码器酉矩阵(V_l)以及对应的包含奇异值的解码器对角矩阵(∑_l)被输出，并且所述解码器模式矩阵的对应的最终的秩被确定；

-从所述最终的编码器模式矩阵秩和所述最终的解码器模式矩阵秩确定(16、26、36)最终的模式矩阵秩(r_fin)；

-从所述编码器酉矩阵(U_s、)、所述编码器对角矩阵(∑_s)和所述最终的模式矩阵秩(r_fin)计算(15、25、35)所述编码器模式矩阵(Ξ_OxS)的伴随伪逆得到高保真立体声右矢量(|a′_s>)，

并且根据所述最终的模式矩阵秩(r_fin)减少(16、26、36)所述高保真立体声右矢量(|a′_s>)的分量的数量，以便提供改动的高保真立体声右矢量(|a′_l>)；

-从所述改动的高保真右矢量(|a′_l>)、所述解码器酉矩阵(V_l)、所述解码器对角矩阵(∑_l)和所述最终的模式矩阵秩计算(17、27、37)伴随解码器模式矩阵(Ψ⁺)，得到所有扬声器的输出信号的右矢量(|y(Ω_l)>)。

2.一种用于使用奇异值分解进行高阶高保真立体声(HOA)编码和解码的装置，所述装置包括适于执行以下操作的部件：

-接收音频输入信号(|x(Ω_s)>)；

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中，当形成(21)所述球谐右矢量(|Y(Ω_s)>)和所述编码器模式矩阵(Ξ_OxS)时，使用平移函数(211，f_s)，所述平移函数(211，f_s)执行线性运算并且将所述音频输入信号(|x(Ω_s)>)中的源位置映射到扬声器输出信号的所述右矢量(|y(Ω_l)>)中的扬声器的位置，

并且当形成(28)用于特定扬声器的所述球谐右矢量(|Y(Ω_l)>)和所述解码器模式矩阵(Ψ_OxL)时，使用对应的平移函数(281，f_l)，所述平移函数(281，f_l)执行线性运算并且将所述音频输入信号(|x(Ω_s)>)中的源位置映射到扬声器输出信号的所述右矢量(|y(Ω_l)>)中的扬声器的位置。

4.根据权利要求1所述的方法或根据权利要求2所述的装置，其中，在计算(17、27、37)所述伴随解码器模式矩阵(Ψ⁺)和所有扬声器的时间相关的输出信号的初步改动的右矢量之后，使用平移矩阵(G)来执行所有扬声器的时间相关的输出信号的这些初步改动的右矢量的平移(371)，得到所有扬声器的输出信号的所述右矢量(|y(Ω_l)>)。

5.根据权利要求1-4之一所述的方法或根据权利要求1-4之一所述的装置，其中，为了在所述奇异值(σ_i)的集合内确定(12、22、32)所述阈值(σ_ε)，从第一个奇异值(σ₁)开始检测量值差距，并且如果后一奇异值(σ_i+1)的量值比当前奇异值(σ_i)的量值小预定因子，则该当前奇异值的量值被取作所述阈值(σ_ε)。

6.根据权利要求1-4之一所述的方法或根据权利要求1-4之一所述的装置，其中，为了确定(12、22、32)所述阈值(σ_ε)，计算所有源信号的采样块的信噪比SNR，并且将所述阈值(σ_ε)设置为

7.一种计算机程序产品，所述计算机程序产品包括当在计算机上被执行时执行根据权利要求1所述的方法的指令。