CN103635964A

CN103635964A - 改变包含在高阶高保真度立体声响复制表示中声音对象相对位置的方法以及装置

Info

Publication number: CN103635964A
Application number: CN201280032460.1A
Authority: CN
Inventors: P.贾克斯; J-M.巴特克
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS; International Digital Madison Patent Holding SAS
Priority date: 2011-06-30
Filing date: 2012-06-15
Publication date: 2014-03-12
Anticipated expiration: 2032-06-15
Also published as: JP2014523172A; DK2727109T3; US20140133660A1; EP2541547A1; TW201301911A; KR20140051927A; EP2727109B1; KR102012988B1; EP2727109A1; BR112013032878A2; CN103635964B; AU2012278094B2; BR112013032878B1; TWI526088B; AU2012278094A1; WO2013000740A1; JP5921678B2; HUE051678T2; US9338574B2

Abstract

高阶高保真度立体声响复制HOA是有助于以优越的空间分辨率捕捉、处理、记录、传输和回放复杂的音频场景2D和3D的空间声场表示。在空间中的参考点处或附近的声场用傅里叶-贝塞尔级数近似。本发明使用空间翘曲（12，13，14；16）来修改捕获的或生成为较高阶的高保真度立体声响复制表示的声场信息的空间内容和/或再现。不同的翘曲特性对2D和3D声场是可行的。翘曲在不执行场景分析或分解的情况下在空间域中进行。给定阶数的输入HOA系数被解码成常规放置的（虚拟）扬声器的权重或输入信号。

Description

改变包含在高阶高保真度立体声响复制表示中声音对象相对位置的方法以及装置

技术领域

本发明涉及一种用于改变包含在音频场景的二维或三维高保真度立体声响复制（Ambisonics）表示中的声音对象的相对位置的方法和装置。

背景技术

高阶高保真度立体声响复制（HOA）是有助于以优越的空间分辨率捕捉、处理、记录、传输和回放复杂的音频场景（2D和3D）的空间声场表示。声场是空间中参考点处或周围的傅立叶-贝塞尔级数近似。

目前只有有限数量的用于处理使用HOA技术捕获的音频场景的空间排列的技术。在原理上，有两种方法：

A）将音频场景分解为分离的声音对象和相关联的位置信息，例如：通过狄拉克（DirAC），并使用处理过的位置参数构成新的场景。缺点是复杂且容易出错的场景分解是必需的。

B）HOA表示的内容可以通过HOA向量的线性变换来进行修改。这里，目前仅提出旋转、镜像以及强调前/后方向。所有这些已知的基于变换的修改技术都保持场景内对象相对位置的固定。

为了处理或修改场景的内容，提出了空间翘曲（space warping），包括HOA声场的旋转和镜像，以及修改特定方向上的优势度（dominance）：

G.J.Barton、M.A.Gerzon《Ambisonic Decoders for HDTV》，AES大会，1992年；

J.Daniel，《Representation de champs acoustiques,application a latransmission et a la reproduction de scenes sonores complexes dans un contextemultimedia》，博士论文，巴黎第六大学，2001年，巴黎，法国；

M.Chapman、Ph.Cotterell，《Towards a Comprehensive Account of ValidAmbisonic Transformations》，高保真度立体声响复制研讨会，2009年，格拉茨，奥地利。

发明内容

本发明要解决的问题是帮助改变包含在基于HOA的音频场景中声音对象的相对位置，而不需要分析场景的构成。该问题使用权利要求1公开的方法解决。权利要求2中公开利用该方法的装置。

本发明使用空间翘曲来修改捕获的或生成为高阶高保真度立体声响复制表示的声场信息的空间内容和/或再现。HOA域中的空间翘曲表示多步骤的方法或计算效率更高的单步骤线性矩阵乘法。不同的翘曲特性对2D和3D声场是可行的。

翘曲在不执行场景分析或分解的情况下在空间域中进行。给定阶数的输入HOA系数被解码成常规放置的（虚拟）扬声器的权重或输入信号。

本发明的空间翘曲处理具有以下几个优点：

-因为参数化过程中的多个自由度，因此它非常灵活；

-可以以非常高效的方式（即，以相对较低的复杂度）实现；

-不需要任何场景分析或分解。

在原理上，本发明的方法适用于改变包含在音频场景的二维或三维高阶高保真度立体声响复制HOA表示中的声音对象的相对位置，其中维度为O_in的输入向量A_in确定输入信号傅里叶级数的系数，维度为O_out的输出向量A_out确定对应改变后的输出信号傅里叶级数的系数，所述方法包括下列步骤：

-使用模态矩阵Ψ₁的逆

通过计算

将输入HOA系数的所述输入向量A_in解码为空间域中与常规放置的扬声器位置对应的输入信号s_in；

-通过计算A_out=Ψ₂s_in在空间域中将所述输入信号s_in翘曲并编码为适应输出HOA系数的所述输出向量A_out，其中根据翘曲函数f(φ)修改模态矩阵Ψ₂的模态向量，原始扬声器位置的角度通过翘曲函数f(φ)一对一地映射到所述输出向量A_out中目标扬声器位置的目标角度。

在原理上，本发明的装置适用于改变包含在音频场景的二维或三维高阶高保真度立体声响复制HOA表示中的声音对象的相对位置，其中维度为O_in的输入向量A_in确定输入信号傅里叶级数的系数，维度为O_out的输出向量A_out确定对应改变后的输出信号傅里叶级数的系数，所述装置包括：

-适用于使用模态矩阵Ψ₁的逆

通过计算

将输入HOA系数的所述输入向量A_in解码为空间域中与常规放置的扬声器位置对应的输入信号s_in的部件；

-适用于通过计算A_out=Ψ₂s_in在空间域中将所述输入信号s_in翘曲并编码为适应输出HOA系数的所述输出向量A_out的部件，其中根据翘曲函数f(φ)修改模态矩阵Ψ₂的模态向量，原始扬声器位置的角度通过翘曲函数f(φ)一对一地映射到所述输出向量A_out中目标扬声器位置的目标角度。

本发明更多的有利实施例在相应的从属权利要求中公开。

附图说明

参照附图描述本发明的示例性实施例，其中：

图1示出了空间域中的翘曲的原理；

图2示出了N_in=3，N_out=12以及翘曲函数

a=-0.4的空间翘曲的示例；

图3示出了不同的翘曲函数和“内部”阶数N_warp的矩阵失真。

具体实施方式

在下面，为便于理解，应用本发明的空间翘曲在二维设置的情形中描述，HOA表示依赖于圆形谐波，并假设表示的声场仅包括平面声波。然后，描述扩展到基于球面谐波的三维情形。

符号系统

在高保真度立体声响复制理论中，在空间中的特定点处或附近的声场用截断的傅里叶-贝塞尔级数描述。一般情况下，假设参考点在所选坐标系的原点处。

对于使用球面坐标的三维应用，所有定义的索引n=0，1，...，N和m=-n，...，n的系数

的傅立叶级数描述声场在方位角φ，倾角θ和距离原点r处的压力：

p (r, θ, φ) = Σ_{n = 0}^{N} Σ_{m = - n}^{n} C_{n}^{m} j_{n} (kr) Y_{n}^{m} (θ, φ) - - - (1)

其中k是波数，

是与θ和φ定义的方向的球面谐波严格相关的傅里叶-贝塞尔级数的核函数。为方便起见，下面HOA系数

在

的定义下使用。对于特定的阶数N，傅里叶-贝塞尔级数中系数的个数为O=(N+1)²。

对于使用圆形坐标的二维应用，核函数仅取决于方位角φ。所有m≠n的系数的值都为零，并可以忽略。因此，HOA系数的个数减少到仅O=2N+1个。并且，倾角θ=π/2是固定的。值得注意的是，对于2D情形，以及对于声音对象在圆形上完全常规分布的情形，即

Ψ中的模态向量与已知的离散傅里叶变换DFT的核函数相同。

对于定义也导致高保真度立体声响复制系数

的不同定义的核函数，存在不同的约定。然而，精确定义对在此应用中描述的空间翘曲技术的基本规定和特性不起作用。

HOA“信号”包括每一时刻的高保真度立体声响复制系数的向量A。对于二维，即圆形场景，系数向量的典型构成和阶数是

A_{2 D} = {(A_{N}^{- N}, A_{N - 1}^{- N + 1}, . . ., A_{1}^{- 1}, A_{0}^{0}, A_{1}^{1}, . . ., A_{N}^{N})}^{T} - - - (2)

对于三维的球形场景，系数的常见阶数是不同的：

A_{3 D} = {(A_{0}^{0}, A_{1}^{- 1}, A_{0}^{1}, A_{1}^{1}, A_{2}^{- 2}, . . ., A_{N}^{N})}^{T} - - - (3)

HOA表示的编码以线性方式进行，因此可以将多个、不同的声音对象的HOA系数相加以推导得到所获得声场的HOA系数。

简单编码（Plain encoding）

对来自几个方向的多个声音对象的简单编码可以在向量代数中直接完成。“编码”的意思是从单个声音对象（i=0…M-1）在时刻l的压力分布s_i(k,l)上的信息推导出在同一时刻l和波数k的HOA系数向量A(k,l)，加上方向φ_i和θ_i，声波从该方向φ_i和θ_i到达坐标系的原点

A(k,l)=Ψ·s(k,l) （4）

如果假设是二维设置，并且HOA向量按照等式（2）定义构成，那么模态矩阵Ψ由模态向量

构建。Ψ的第i列包含根据第i个声音对象的方向φ_i的模态向量

Ψ=(Y(φ₀),Y(φ₁),…,Y(φ_M-1)) （5）

如上定义，由于输入信号（声音对象）是空间分布的，因此对HOA表示的编码可以解读为空间-频率变换。只有当声音对象的数量与HOA系数的数量相同时，即如果M=O，并且如果方向φ_i合理地散布在单位圆周围，该使用矩阵Ψ的变换才可以不造成信息损失地可逆。用数学语言描述，可逆条件是模态矩阵Ψ必须是方阵（O×O）并且是可逆的。

普通解码

通过解码，推导得到必须被施加以准确回放输入HOA系数所描述的理想声场的真实或虚拟扬声器的驱动信号。这样的解码依赖于扬声器的数量M和位置。以下三种重要的情形必须区分（注意：这些情形是在它们通过“扬声器的数量”定义的意义上简化的情形，假设这些情形都以几何合理的方式设置。更准确地说，应该通过目标扬声器设置的模态矩阵的秩来进行定义）。在下面示出的示例性解码规则中，应用模态匹配解码原则，但也可以利用其他的可以导致三个场景不同的解码规则的解码原则。

·超定情形：扬声器的数量大于HOA系数的个数，即M>O。在此情形中，解码问题不存在唯一解，但存在位于所有可能的解的M维空间的M-O维子空间中的一系列允许解。通常地，使用特定扬声器设置的模态矩阵Ψ的伪逆矩阵，以确定扬声器信号s，s=Ψ^T(ΨΨ^T)^-1A。（6）

这个解以最小的总回放能量s^Ts传递扬声器信号（参见例如L.L.Scharf的《Statistical Signal Processing.Detection,Estimation,and Time SeriesAnalysis》，Addison-Wesley出版公司，读物,马萨诸塞州，1990年）。对于扬声器的常规设置（这在2D情形中很容易实现），矩阵运算(ΨΨ^T)^-1得到单位矩阵，根据等式（6）的解码规则简化为s=Ψ^TA。

·恰定情形：扬声器的数量等于HOA系数的个数。解码问题恰好存在一个唯一解，通过模态矩阵Ψ的逆Ψ^-1来定义：s=Ψ^-1A。（7）

·欠定情形：扬声器的数量M小于HOA系数的个数O。因此，声场解码的数学问题是欠定的，不存在唯一的精确解。取而代之的是，必须使用数值优化来确定可以与理想声场最佳匹配的扬声器信号。

为了得到稳定的解，可以应用正则化，例如通过公式

s=Ψ^T(ΨΨ^T+λI)^-1A （8）

其中I表示单位矩阵，缩放因子λ定义正则化量。作为示例，λ可以设定为ΨΨ^T特征值的平均值。

得到的音束图可能是次优的，因为一般情况下使用这种方法得到的音束图的方向过于集中，很多声音信息不能被充分表示。

对上面描述的所有的解码器示例，都做出扬声器发出平面波的假设。真实世界的扬声器具有不同的回放特性，解码规则应该注意这些特征。

基本翘曲

图1a示出了本发明的空间翘曲的原理。翘曲在空间域中进行。因此，首先，在步骤/阶段12将阶数为N_in，维度为O_in的输入HOA系数A_in解码为与常规放置的（虚拟）扬声器对应的权重或输入信号s_in。对于此解码步骤，有利地应用确定的解码器，即用于虚拟扬声器的数量O_warp等于或大于HOA系数的个数O_in的解码器。对后一种情形（扬声器数量比HOA系数个数更多），可以通过在步骤/阶段11中添加零系数容易地扩展HOA系数向量A_in的阶数或维度来得到更高的阶数。目标向量s_in的维度将在下面用O_warp表示。

解码规则是

s_{in} = Ψ_{1}^{- 1} A_{in} - - - (9)

扬声器信号的虚拟位置应该是常规的，例如，对二维情形φ_i=i·2π/O_warp。因此保证很好地调整模态矩阵Ψ₁以确定解码矩阵

下面，根据期望的翘曲特性在“翘曲”处理中对虚拟扬声器的位置进行修改。步骤/阶段14中的翘曲处理结合使用模态矩阵Ψ₂编码目标向量s_in（或相应地s_out），得到维度为O_warp或在下面描述的进一步的处理步骤之后的维度为O_out的翘曲处理后的HOA系数向量A_out。在原理上说，翘曲特性可以通过将源角度一对一地映射到目标角度来完全定义，即对每一个源角度φ_in=0...2π，以及可能的θ_in=0...2π，定义目标角度，因此对于2D情形

φ_out=f(φ_in) （10）

以及对于3D情形

φ_out=f_φ(φ_in,θ_in) （11）

θ_out=f_θ(φ_in,θ_in) （12）

为了便于理解，该（虚拟）重新定向可以比作将扬声器物理移动到新的位置。

这个过程产生的一个问题是以一定角度相邻的扬声器之间的距离会根据翘曲函数f(φ)的梯度改变（下面将描述2D的情形）：如果f(φ)的梯度大于1，那么翘曲处理后的声场中的同一角度空间将被少于原始声场中的“扬声器”占据，反之亦然。换言之，扬声器的密度D_s的分布遵循

D_{s} (φ) = \frac{1}{\frac{df (φ)}{dφ}} - - - (13)

反过来，这意味着空间翘曲对听者周围的声音平衡进行修改。扬声器密度增加（即，D_s(φ)>1）的区域将变得更加优势，而D_s(φ)<1的区域将变得不那么优势。

作为一种选择，随着应用要求的不同而定，对扬声器密度的前述修改可以通过在加权步骤/阶段13中将增益函数g(φ)应用于虚拟扬声器输出信号s_out抵消得到信号s_out。在原理上说，可以指定任何加权函数g(φ)。已经通过经验确定的一个特定的有利变型是与翘曲函数f(φ)的导数成比例：

g (φ) = \frac{1}{D_{s} (φ)} = \frac{df (φ)}{dφ} - - - (14)

使用该特定的加权函数，在合适的较高的内部阶数和输出阶数的假设下（参见下面的小节如何设定HOA阶数），调节函数（panning function）在特定翘曲角度f(φ)的幅度保持等于原始调节函数在原始角度φ的幅度。由此获得每个辐射角度（opening angle）的同质声音平衡（幅度）。

除了上述示例的加权函数，还可以使用其他的加权函数，例如以获得每个辐射角度的相等的能量。

最后，在步骤/阶段14中，使用模态矩阵Ψ₂通过执行Ψ₂s_out对加权的虚拟扬声器信号再次进行翘曲和编码。根据翘曲函数f(φ)，Ψ₂包括不同于Ψ₁的模态向量。结果是翘曲处理后的声场的O_warp维HOA表示。

如果目标HOA表示的阶数或维度低于编码器Ψ₂的阶数（参见下面的小节如何设定HOA阶数），那么在步骤/阶段15中必须除去（清除（strip））翘曲处理过的系数中的一些（即，一部分）。通常情况下，该清除操作可以用窗口操作描述：编码向量Ψ₂s_out与包括应该除去的用于最高阶数的零系数的窗口向量w相乘，该乘法可以视为表示进一步加权。在最简单的情形中，可以应用矩形窗口，但也可以应用如在M.A.Poletti的《A Unified Theory of HorizontalHolographic Sound Systems》（Journal of the Audio Engineering Society，48(12)，第1155-1182页，2000年）的第3小节中描述的更复杂的窗口或在J.Daniel的上述博士论文的3.3.2小节中的“in-phase”或“max.r_E”窗口。

3D翘曲函数

上面已经描述了二维情形的翘曲函数f(φ)的概念和相关联的加权函数g(φ)。下面扩展到由于更高维度和必须应用球面几何而因此更复杂的三维情形。引入两个简化场景，这两者都允许通过一维翘曲函数f(φ)或g(φ)规定想要的空间翘曲。

在沿经度的空间翘曲中，空间翘曲仅作为方位角φ的函数进行。此情形与上面介绍的二维情形非常类似。翘曲函数由以下完全定义：

θ_{out} = f_{θ} (θ_{in}, φ_{in}) \overset{!}{=} θ_{in} - - - (15)

φ_{out} = f_{φ} (θ_{in}, φ_{in}) \overset{!}{=} f_{φ} (φ_{in}) - - - (16)

由此可以应用与用于二维情形类似的翘曲函数。空间翘曲对赤道上的声音对象影响最大，而对球的两极的声音对象影响最小。

（翘曲后的）声音对象在球上的密度只与方位角有关。因此，恒定密度的加权函数为

g (θ) = \frac{{df}_{φ} (φ)}{dφ} . - - - (17)

通过在应用翘曲之前（虚拟）旋转球面和之后反向旋转，在空间中自由定向特定的翘曲特性是可行的。

在沿纬度的空间翘曲中，允许空间翘曲只沿子午线。翘曲函数由以下定义：

θ_{out} = f_{θ} (θ_{in}, φ_{in}) \overset{!}{=} θ_{in} - - - (15)

φ_{out} = f_{φ} (θ_{in}, φ_{in}) \overset{!}{=} f_{φ} (φ_{in}) - - - (16)

该翘曲函数在球面上的重要特性是，尽管方位角保持恒定，但方位角方向上两点的角距离可以由于修改倾角而很好地变化。原因是两条子午线之间的角距离在赤道处最大，但在两极处变为零。这个事实必须通过加权函数进行解释。

两个点A和B之间的角距离c可以通过球面几何的余弦定理来确定，参见等式（3.188c）I.N.Bronstein、K.A.Semendjajew、G.Musiol、H.Milhlig的《Taschenbuch der Mathematik》（Verlag Harri Deutsch，Thun，Frankfurt/Main，第5版，2000年）：

cosc=cosθ_Acosθ_B+sinθ_Asinθ_Bcosφ_AB （20）

其中φ_AB表示两点A和B之间的方位角。考虑到相同倾角θ处的两点之间的角距离，该等式简化为：

c=arccos[(cosθ_A)²+(sinθ_A)²cosφ_ε] （21）

可以应用该公式推导得到空间中某一点与相距较小的方位角φ_ε的另一点之间的角距离。“较小”的意思是在实际应用中尽量可行的小，但不是零，在理论上，极限值φ_ε→0。这些角距离在翘曲之前和之后之间的比率给出声音对象的密度在φ方向上变化的因子：

\frac{c_{out}}{c_{in}} = \frac{\arccos ({(\cos θ_{out})}^{2} + {(\sin θ_{out})}^{2} \cos φ_{ϵ})}{\arccos ({(\cos θ_{in})}^{2} + {(\sin θ_{in})}^{2} \cos φ_{ϵ})} - - - (22)

最后，加权函数是φ方向和θ方向上两个加权函数的乘积：

g (θ, φ) = \frac{{df}_{θ} (θ)}{dθ} . \frac{\arccos ({(\cos f_{θ} (θ_{in}))}^{2} + {(\cos f_{θ} (θ_{in}))}^{2} \cos φ_{ϵ})}{\arccos ({(\cos θ_{in})}^{2} + {(\sin θ_{in})}^{2} \cos φ_{ϵ})} - - - (23)

并且，如在前面的场景中描述的，通过旋转在空间中自由定向特定的翘曲特性是可行的。

单步骤处理

结合图1a引入的步骤（即，扩展阶数、解码、加权、翘曲+编码和清除阶数）在本质上都是线性操作。因此，这一连续操作可以用如图1b所示的步骤/阶段16中输入HOA参数与单个矩阵相乘来替换。忽略扩展和清除操作，全O_warp×O_warp变换矩阵T确定为

T = diag (w) Ψ_{2} diag (g) Ψ_{1}^{- 1} - - - (24)

其中diag(·)表示对角矩阵，它的向量参数（vector argument）值是主对角线分量，g是加权函数，w是用于准备进行上述清除的窗口向量，即对于在步骤/阶段15中执行的准备清除和系数自身清除的加权的两个函数，等式（24）中的窗口向量w仅用于加权。

多步骤方法中的两次修改阶数（即，在解码器之前扩展阶数和在编码之后清除HOA系数）也可以通过除去对应的列和/或行整合成变换矩阵T。由此得到是可以直接应用于输入HOA向量的大小为O_out×O_in的矩阵。那么，空间翘曲操作变为A_out=T A_in。（25）

有利地，由于变换矩阵T的维度从O_warp×O_warp有效降低为O_out×O_in，因此执行根据图1b的单步骤处理所需的计算复杂度显著低于图1a的多步骤方法所需的计算复杂度，尽管单步骤处理传递完全相同的结果。尤其地，它可以避免在使用其中间信号的较低阶数N_warp执行多步骤处理时可能出现的失真（详细信息请参见下面的部分如何设定HOA阶数）。

技术现状：旋转和镜像

声场的旋转和镜像可以视为是空间翘曲的“简单”子类。这些变换的特殊特性是不改变声音对象相对于彼此的相对位置。这意味着，已经在原始声音场景中放置在例如另一声音对象右边30°处的声音对象将在旋转后的声音场景中保持在同一声音对象右边的30°处。对于镜像，只有符号改变，而角距离保持不变。声场信息的旋转和镜像的算法和应用已经在例如上面提到的Barton/Gerzon和J.Daniel的文章中，以及在M.Noisternig、A.Sontacchi、Th.Musil、R.Ho1drich的《A3D Ambisonic Based Binaural Sound ReproductionSystem》（第24届AES多声道音频国际会议会议记录，班夫，加拿大，2003年），以及在H.Pomberger、F.Zotter的《An Ambisonics Format for FlexiblePlayback Layouts》（第一次高保真度立体声响复制研讨会，格拉茨，奥地利，2009年）中进行了探索和描述。

这些方法都基于对旋转的解析表达式。例如，圆形声场（2D情形）旋转任意角度α可以通过乘以其中只有系数的子集是非零的翘曲矩阵T_α来实现：

如在此示例中所示，所有用于旋转和/或镜像操作的翘曲矩阵都具有只有相同阶数n的系数才相互影响的特殊特性。因此，这些翘曲矩阵都是非常稀疏填充的矩阵，输出的N_out可以等于输入阶数N_in，而不丢失任何空间信息。

有很多有趣的应用，要求对声场信息进行旋转或镜像操作。一个示例是使用头部跟踪系统通过头戴式耳机回放声场。取代根据头部的（多个）旋转角度内插HRTF（头部相关传递函数），有利地对于实际回放，根据头部的位置预先旋转声场，并使用固定的HRTF。该过程已经在上面提到的Noisternig/Sontacchi/Musil/Holdrich的文章中有描述。

另一示例已经在上面提到的Pomberger/Zotter的文章中在声场信息编码的情景中描述。HOA向量描述的空间区域可以被限制为圆形（2D情形）或球面的特定部分。由于这些限制，HOA向量的某些部分将会变为零。这篇文章中提出的想法正是利用这种冗余度减少性质（redundancy-reducingproperty），对声场信息进行混合阶数编码（mixed-order coding）。由于上述限制只能针对空间中非常特定的区域获得，因此一般都需要进行旋转操作将传输的部分信息移动到空间中所希望的区域。

示例

图2示出了二维（圆形）情形中空间翘曲的一个示例。翘曲函数已经选择为

f (φ) = φ + 2 a \tan (\frac{a \sin φ}{1 - a \cos φ}),

其中a=-0.4, （27）

它与具有单个实值参数的离散时间全通滤波器的相位响应相似，参见M.Kappelan的《Eigenschaften von Allpass-Ketten und ihre Anwendung bei dernicht-aquidistanten spektralen Analyse und Synthese》（博士论文，亚琛工业大学（RWTH），亚琛，德国，1998年）。

图2a示出了翘曲函数。选择该特定的翘曲函数f(φ)是因为它保证是2π周期的翘曲函数，同时允许用单个参数a修改空间失真量。图2b示出了对应的加权函数g(φ)对该特定翘曲函数的确定性结果。

图2c示出了7×25单步骤变换翘曲矩阵T。该矩阵各个系数的对数绝对值根据附带的灰度或阴影条用灰度或阴影类型表示。该示例矩阵针对输入HOA阶数N_∈=3和输出阶数N_out=12设计。为了捕捉从低阶系数变换到高阶系数散布的大部分信息，要求较高的输出阶数。如果输出阶数进一步降低，那么翘曲操作的精度将会变差，因为全翘曲矩阵的非零系数将会被忽略（详细讨论参见下面的小节如何设定HOA阶数）。

该特定翘曲矩阵的一个非常有用的特性是它的大部分都是零。这允许在执行该操作时节省很多计算能力，但单步骤变换矩阵的某些部分是零并不是一般规则。

图2d和图2e示出了某些平面波产生的音束图示例的翘曲特性。这两张图都来自相同的七个φ位置0、2/7π、4/7π、6/7π、8/7π、10/7π和12/7π的输入平面波，都具有相同的为1的幅度，并示出七个角度幅度分布，即下列超定、常规解码操作的结果向量s

s=Ψ^-1A （28）

其中HOA向量A是原始或翘曲后的一组平面波变量。圆形外面的数字代表角度φ。虚拟扬声器的数量（例如，360）明显多于HOA参数的个数。来自前方方向的平面波的幅度分布或音束图位于φ=0处。

图2d示出了原始HOA表示的幅度分布。全部七个分布的形状都相似，并具有相同宽度的主瓣（main lobe）。如所预计的那样，主瓣的最大值都在原始的七个声音对象的角度φ=(0,2/7π,…)处。主瓣具有对应于原始HOA向量的有限阶数N_in=3的宽度。

图2e示出了相同声音对象的幅度分布，但是在执行翘曲操作之后。一般地说，这些对象已经朝0度的前方方向移动，并已经修改音束图：前方方向φ=0周围的主瓣已经变得更窄，并更加集中，而180度附近的后方方向上的主瓣则变得明显更宽。在两侧，最大的影响在90度和270度处，音束图由于图2b中加权函数g(φ)对这些角度较大的梯度而变成非对称。翘曲后HOA向量的更高的阶数N_out=12使得音束图的这些明显的改变（变窄和形成新的形状）成为可能。理论上说，前方方向上主瓣的分辨率增加因子2.33，而后方方向上的分辨率降低因子1/2.33。建立了局部阶数在整个空间上变化的混合阶数信号。可以假设为了以合理的精度表示翘曲后的HOA系数要求最小的输出阶数为2.33·N_in≈7。在下面的如何设定HOA阶数的小节中，详细描述了有关内在、局部阶数的讨论。

特性

上面引入的翘曲步骤都是非常通用和灵活的。至少可以完成下列基本操作：沿任意轴和/或平面旋转和/或镜像，使用连续翘曲函数的空间失真，以及对特定方向加权（空间音束成形）。

在下面的更小的小节中，对本发明的空间翘曲的若干特性进行了重点描述，这些详细描述提供了有关能够实现什么和不能实现什么的指导。另外，还描述了一些设计规则。从原理上说，可以以一定的自由度调节下列参数，以获得想要的翘曲特性：

·翘曲函数f(θ,φ)；

·加权函数g(θ,φ)；

·内部阶数N_warp；

·输出阶数N_out；

·使用向量w对输出系数进行的窗口操作。

线性

根据定义，多步骤处理中的基本变换步骤是线性的。在中间发生声音源非线性映射到新的位置对编码矩阵的定义有影响，但编码矩阵本身也是线性的。因此，组合空间翘曲操作和T的矩阵乘法也是线性的，即

T A₁+T A₂=T(A₁+A₂) （29）该性质是重要的，因为它允许处理包括同时来自不同声音源的贡献的复杂的声场信息。

空间不变性

根据定义（除非翘曲函数完全以斜率1或-1线性变化），空间翘曲变换不是空间不变的。这意味着操作对原始位于半球上不同位置处的声音对象的表现是不同的。用数学语言表达，该性质是翘曲函数f(φ)非线性的结果，即对至少一些任意角度α∈[0...2π]，f(φ+α)≠f(φ)+α （30）

可逆性

通常情况下，变换矩阵T不能简单地通过数学反演来求逆。一个明显的原因是T一般不是方阵。即使方阵空间翘曲矩阵也会不可逆，因为通常从低阶系数散布到高级系数的信息将会丢失（对比小节如何设定HOA阶数和小节示例中的示例），而在操作中丢失信息意味着该操作是不可逆的。

因此，必须找到用于至少近似逆转空间翘曲操作的另一种方法。可以通过翘曲函数f(·)的逆函数f_rev(·)设计逆转翘曲变换T_rev，其中

f_rev(f(φ))=φ （31）

根据选择不同的HOA阶数，该处理近似逆转变换。

如何设定HOA阶数

在设计空间翘曲变换时要考虑的一个重要方面是HOA阶数。而通常情况下，输入向量A_in的阶数N_in通过外部限制预先确定，输出向量A_out的阶数N_out和实际非线性翘曲操作的“内部阶数”N_warp可以或多或少任意分配。然而，必须小心选择阶数N_in和N_warp，这将在下面说明。

“内部”阶数N_warp：

“内部”阶数N_warp限定上述多步骤的空间翘曲处理中的实际解码、翘曲和编码步骤的精度。通常情况下，阶数N_warp应该明显大于输入阶数N_in和输出阶数N_out。该要求的原因是若非如此，由于翘曲操作通常是非线性操作，会因此产生失真和瑕疵。

为了解释该事实，图3示出了与图2示例所用的相同的翘曲函数的全翘曲矩阵的一个示例。图3a、3c和3e分别描述了翘曲函数f₁(φ)，f₂(φ)和f₃(φ)。图3b、3d和3f分别描述了翘曲矩阵T₁(dB)，T₂(dB)和T₃(dB)。出于示例的原因，为了确定特定输入阶数N_in或输出阶数N_out的翘曲矩阵，没有对这些翘曲矩阵进行裁剪。作为替代，图3b、3d和3f中的虚线的中心框描述最终得到的即裁剪后的转换矩阵的目标大小N_out×N_in。使用这种方式，非线性失真对翘曲矩阵的影响是清晰可见的。在此示例中，目标阶数被任意设定为N_in=30和N_out=100。

基本挑战可以在图3b中看出：显然，由于空间域中的非线性处理，翘曲矩阵中的系数散布在主对角线周围——距离矩阵中心越远就越大。在距离中心非常远的距离处，在此示例中，在大约|y|≥90处，y是垂直轴，系数散布到达全矩阵的边界，在边界处，它看起来像是要“弹回”。这造成特别类型的延伸到翘曲矩阵中较大部分的失真。在实验评估中，已经观察到这些失真会明显损害变换性能，只要失真产物位于矩阵的目标区域之内（在图中用虚线框标记）。

对于图3b中的第一示例，所有一切都工作良好，因为处理的“内部”阶数被选择为明显高于输出阶数N_out=100的N_warp=200。失真的区域没有延伸到虚线框之中。

另一个场景在图3d中示出。内部阶数被规定为等于输出阶数，即N_warp=N_out=100。该图表明失真的延伸随内部阶数线性伸缩。结果是变换输出的更高阶数的系数被失真产物污染。这种伸缩性质的优点是它似乎可以通过相应地增加内部阶数N_warp来避免这些类型的非线性失真。

图3f示出了使用更进取的、具有更大系数a=0.7的翘曲函数的示例。由于使用了该更进取的翘曲函数，现在失真延伸进入目标矩阵区域，即使对于内部阶数N_warp=200。对此情形，如在前面的段落中推导的，内部阶数应该进一步增加以甚至更多预留空间（over-provisioning）。该翘曲函数的实验表明增加内部阶数到例如N=400可以除去这些非线性失真。

总而言之，翘曲函数越进取，内部阶数N_warp应该越高。目前还不存在最小内部阶数的正式推导。然而，如果存疑，“内部”阶数预留空间是有益的，因为非线性效应随着全翘曲矩阵的大小线性伸缩。在原理上，“内部”阶数可以任意高。尤其地，如果要推导出单步骤变换矩阵，那么内部阶数对最终翘曲操作的复杂度不起任何作用。

输出阶数N_out：

为了规定翘曲变换的输出阶数N_out，要考虑下面两个方面：

-通常情况下，输出阶数必须大于输入阶数N_in，以保留散布到不同阶数的系数的所有信息。实际需要的大小还取决于翘曲函数的特性。作为一个经验法则，翘曲函数f(φ)的“宽带”越小，需要的输出阶数越低。在某些情形中，翘曲函数可以看作是低通滤波器，以限制所需输出阶数N_out。

图3b可以观察一个示例。对于此特定翘曲函数，输出阶数N_out=100（如虚线框所示）足够避免信息损失。如果输出阶数显著降低，例如降低到N_out=50，那么变换矩阵的某些非零系数将排除在外，并可以预测对应的信息丢失。

-在一些情形中，输出HOA系数将被用于处理或仅能够处理有限阶数的设备。例如，目标可能是有限数量扬声器的扬声器设置。在这样的应用中，输出阶数应该根据目标系统的能力指定。如果N_out足够小，那么翘曲变换可以有效地减少空间信息。

将内部阶数N_warp降低到输出阶数N_out可以仅通过丢弃较高阶数的系数来实现。这与应用矩形窗口于HOA输出向量对应。替代性地，可以应用更复杂的降低带宽技术，如在上面提到的M.A.Poletti的文章或在上面提到的J.Daniel的文章中讨论的那些技术。因此，即使可能比使用矩形窗口丢失更多的信息，但可以得到更优的方向图。

本发明可以在音频处理链条的不同部分中使用，例如，记录、后期制作、传输、回放。

Claims

1.一种用于改变包含在音频场景的二维或三维高阶高保真度立体声响复制HOA表示中的声音对象的相对位置的方法，其中维度为O_in的输入向量A_in确定输入信号傅里叶级数的系数，维度为O_out的输出向量A_out确定对应改变后的输出信号傅里叶级数的系数，所述方法包括下列步骤：

-使用模态矩阵Ψ₁的逆通过计算

将输入HOA系数的所述输入向量A_in解码（12）为空间域中与常规放置的扬声器位置对应的输入信号s_in；

-通过计算A_out=Ψ₂s_in在空间域中将所述输入信号s_in翘曲并编码（14）为适应输出HOA系数的所述输出向量A_out，其中根据翘曲函数f(φ)修改模态矩阵Ψ₂的模态向量，原始扬声器位置的角度（φ_in,θ_in）通过翘曲函数f(φ)一对一地映射到所述输出向量A_out中目标扬声器位置的目标角度（φ_out,θ_out）。

2.一种用于改变包含在音频场景的二维或三维高阶高保真度立体声响复制HOA表示中的声音对象的相对位置的装置，其中维度为O_in的输入向量A_in确定输入信号傅里叶级数的系数，维度为O_out的输出向量A_out确定对应改变后的输出信号傅里叶级数的系数，所述装置包括：

-适用于使用模态矩阵Ψ₁的逆

通过计算

将输入HOA系数的所述输入向量A_in解码为空间域中与常规放置的扬声器位置对应的输入信号s_in的部件（12）；

-适用于通过计算A_out=Ψ₂s_in在空间域中将所述输入信号s_in翘曲并编码为适应输出HOA系数的所述输出向量A_out的部件（14），其中根据翘曲函数f(φ)修改模态矩阵Ψ₂的模态向量，原始扬声器位置的角度（φ_in,θ_in）通过翘曲函数f(φ)一对一地映射到所述输出向量A_out中目标扬声器位置的目标角度（φ_out,θ_out）。

3.如权利要求1所述的方法，其中在所述翘曲和编码（14）之前使用增益函数g(φ)或g(θ,φ)加权（13）所述空间域输入信号s_in，或如权利要求2所述的装置，包括适用于在所述翘曲和编码（14）之前使用增益函数g(φ)或g(θ,φ)加权所述空间域输入信号s_in的部件（13）。

4.如权利要求3所述的方法，或如权利要求3所述的装置，其中对于二维高保真度立体声响复制，所述增益函数是

以及对于三维高保真度立体声响复制，所述增益函数是φ方向和θ方向上的

g (θ, φ) = \frac{{df}_{θ} (θ)}{dθ} . \frac{\arccos {((\cos f_{θ} (θ_{in}))}^{2} + {(\cos f_{θ} (θ_{in}))}^{2} \cos φ_{ϵ})}{\arccos ({(\cos θ_{in})}^{2} + {(\sin θ_{in})}^{2} \cos φ_{ϵ})},

其中φ是方位角，θ是倾角，φ_ε是较小的方位角。

5.如权利要求1、3和4中任何一项所述的方法，其中在虚拟扬声器的数量或维度O_warp等于或大于HOA系数的个数或维度O_in时，在所述解码（12）之前，通过添加（11）零系数来扩展（11）所述输入向量A_in的阶数或维度来得到更高的阶数，

或如权利要求2至4中任何一项所述的装置，包括适用于在虚拟扬声器的数量或维度O_warp等于或大于HOA系数的个数或维度O_in时，在所述解码（12）之前，通过添加零系数来扩展所述输入向量A_in的阶数或维度来得到更高的阶数的部件（11）。

6.如权利要求1以及3至5中任何一项所述的方法，其中在HOA系数的阶数或维度低于所述模态矩阵Ψ₂的阶数或维度时，使用包括用于最高阶的零系数的窗口向量w进一步加权（15）所述翘曲处理过并编码以及可能加权（13）的信号Ψ₂s_in，以清除（15）翘曲处理过的系数的一部分以提供所述输出向量A_out，或如权利要求2至5中任何一项所述的装置，包括适用于使用包括用于最高阶的零系数的窗口向量w进一步加权所述翘曲处理过并编码以及可能加权的信号Ψ₂s_in，并适用于清除翘曲处理过的系数的一部分以提供所述输出向量A_out的部件（15）。

7.如权利要求1，3和6中任何一项所述的方法，其中所述解码（12）、加权（13）和翘曲/解码（14）通常通过使用大小为O_warp×O_warp的变换矩阵T=diag(w)Ψ₂diag(g)

执行，其中diag(w)表示对角矩阵，所述窗口向量w的值作为其主对角线分量，diag(g)表示对角矩阵，所述增益函数g的值作为其主对角线分量，

或如权利要求2，3和6中任何一项所述的装置，包括适用于通常通过使用大小为O_warp×O_warp的变换矩阵T=diag(w)Ψ₂diag(g)

执行所述解码、加权和翘曲/解码的部件（12，13，14，15），其中diag(w)表示对角矩阵，所述窗口向量w的值作为其主对角线分量，diag(g)表示对角矩阵，所述增益函数g的值作为其主对角线分量。

8.如权利要求7所述的方法，其中为了形成所述变换矩阵T，获得大小O_out×O_in，除去所述变换矩阵T的对应列和/或行，以执行空间翘曲操作A_out=TA_in，

或如权利要求7所述的装置，其中为了形成所述变换矩阵T，获得大小O_out×O_in，在所述适用于通常执行所述解码、加权和翘曲/解码的部件（12，13，14，15）中，除去所述变换矩阵T的对应列和/或行，以执行空间翘曲操作A_out=T A_in。

9.根据权利要求1以及3至8中任何一项所述的方法进行编码的数字音频信号。

10.包含或存储或在上记录如权利要求9所述的数字音频信号的存储介质，例如光盘。