CN101889307A

CN101889307A - 相位-幅度3d立体声编码器和解码器

Info

Publication number: CN101889307A
Application number: CN200880119420.4A
Authority: CN
Inventors: 吉恩-马克·乔特; 马丁·沃什; 爱德华·斯坦; 朱华·奥斯卡里·麦里玛; 迈克尔·M·古德温
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2007-10-04
Filing date: 2008-10-06
Publication date: 2010-11-17
Anticipated expiration: 2028-10-06
Also published as: GB2467247B; GB201006666D0; CN101889307B; GB2467247A; WO2009046460A2; WO2009046460A3

Abstract

两声道相位-幅度立体声编码和解码方案使得能够经由标准的仅音频的两声道传输来进行灵活地在空间上精确地交互式3D音频再现。该编码方案允许通过利用独立于频率的声道间相位和幅度差来将2D或3D位置定位关联到多个声源中的每个。解码器是基于利用任何优选的空间化技术对两声道立体声信号中的2D或3D方向提示进行频域空间分析并且重新合成这些提示的，从而允许通过任意多声道扬声器再现格式或通过耳机来忠实地再现位置音频提示和混响或周围提示，同时保持源分离，而不管仅通过两个音频声道的中间编码如何。

Description

相位-幅度3D立体声编码器和解码器

相关申请的交叉引用

本申请要求2007年10月4日提交的题为“Phase-Amplitude StereoDecoder and Encoder”的美国临时专利申请No.60/977,432(案卷号CLIP228PRV)以及2008年10月1日提交的题为“Phase-Amplitude StereoDecoder and Encoder”的美国临时专利申请No.61/102,002(案卷号CLIP228PRV2)的公开的优先权，这些申请的公开通过引用结合于此。

本申请还要求2008年3月12日提交的题为“Phase-AmplitudeMatrixed Surround Decoder”美国专利申请No.12/047,285(案卷号CLIP198US)的公开的优先权，该申请的公开通过引用结合于此。

本申请与2007年5月17日提交的题为“Spatial Audio Coding Basedon Universal Spatial Cues”的美国专利申请No.11/750,300(案卷号CLIP159US)有关并且通过引用将该申请的公开结合于此。

技术领域

本发明涉及信号处理技术。更具体地，本发明涉及用于处理音频信号的方法。

背景技术

也称为“矩阵化环绕编码”或“矩阵编码”的两声道相位-幅度立体声编码被广泛用于将视频游戏系统的音频输出连接到家庭影院系统，以用于多声道环绕声再现并且用于对环绕声电影声轨进行低带宽或两声道传输或记录。通常，在游戏应用中，多声道音频混合由交互式音频空间化引擎来实时地(在玩游戏期间)计算，并且利用与用于矩阵编码多声道电影声轨的处理相同的矩阵化环绕编码处理而被下混(down-mix)为两声道。作为编码-解码处理的结果，如图1A中示意性地图示出的，环绕声混合可经由单个标准立体声音频连接来发送，或者经由在当前家庭影院设备中常用的S/PDIF同轴电缆或光电缆连接来发送。在交互式音频呈现引擎中构成的多声道混合通常被获得作为对点源进行再现的经定位声音分量(主要声音分量)与混响(reverberation)或空间扩散声音分量(周围声音分量)的组合(混合)。

相位-幅度立体声编码相比于备选的离散多声道音频数据格式(例如杜比数字(Dolby Digital)或DTS)的优点在于：经编码数据流是可以通过标准两声道立体声扬声器或耳机直接(无需任何解码)回放的两声道音频信号。对于多声道扬声器呈递，矩阵化环绕解码器可用来从矩阵编码两声道信号中恢复多声道信号。然而，与不经过矩阵化环绕编码/解码的直接多声道再现相比，通过当前可用的时域矩阵化环绕解码器，空间再现的保真度通常遭受着不精确的源响度再现、不精确的空间再现、定位导向(localization steering)失真以及“离散性”(或“源分离”)的缺乏。

MPEG环绕技术使得能够通过低比特速率的数字音频连接，来将与现有的商品化的矩阵化环绕解码器兼容的两声道矩阵编码信号与辅助空间信息数据流一起传输，辅助空间信息数据流由MPEG环绕解码器利用以便恢复对原始离散多声道混合的忠实再现。然而，将辅助数据与音频信号一起传输需要与标准立体声设备不兼容的新的数字连接格式。

上面的音频编码-解码技术的另一限制是：其仅水平方向空间化的约束、其偏向于特定的多声道扬声器布局，以及其依赖于称为多声道幅度摆动(panning)的空间音频呈现技术。这使得这些技术对于利用耳机或备选扬声器布局以及空间化技术(例如ambisonic或双耳技术)的再现来说不是理想的，空间化技术在一些收听条件下比幅度摆动技术更有效地用于改善空间音频再现。特别地，对于耳机回放，优良的收听体验可以利用也仅需两个音频传输声道的双耳3D音频空间化方法来获得。然而，在经编码信号中包括与头部有关的声道间延迟和依赖于频率的幅度差提示，因此，双耳传输格式将不适合于在扩展的家庭影院收听区域中的多声道环绕声再现。

希望通过提供更灵活的、空间上精确的编码和解码方案来克服现有矩阵化环绕编码和解码技术的上述限制。

发明内容

根据本发明的一个实施例，提供了一种在时域或频域中对一个或多个声源进行两声道相位-幅度立体声编码的方法，以使得每个声源的能量在经矩阵编码的信号中得到维持。

根据本发明的另一实施例，提供了一种在时域或频域中操作的方法，用于对一个或多个经定位的声源和一个或多个未经定位的声音进行两声道相位-幅度立体声编码，以使得未经定位的源在经矩阵编码的信号中的贡献在左右经编码输出声道之间基本上不相关。

根据本发明的另一实施例，提供了一种在时域或频域中操作的方法，用于对一个或多个经定位的声源进行两声道相位-幅度立体声编码，以使得每个声源通过利用独立于频率的声道间相位和幅度差而被指派一三维的定位(除了包括左右和前后区分外还包括上下区分)。

根据本发明的另一实施例，提供了一种用于对两声道立体声信号进行相位-幅度立体声解码的频域方法，包括：利用任何优选的空间化技术来对记录中的2D或3D定位提示进行频域空间分析并且将这些定位提示进行重新合成，从而允许通过耳机或任意多声道扬声器再现格式来忠实地再现2D或3D位置音频提示和混响或周围提示，同时保持源分离，而不管先前的仅通过两个音频声道的编码如何。

下面将参考附图描述本发明的这些以及其它特征和优点。

附图说明

图1A是具有到家庭影院系统的单电缆音频输出连接的交互式游戏音频引擎的简化功能示图，该家庭影院系统以标准5声道仅水平方向环绕声再现格式来进行音频回放。

图1B是图示出现有技术的5-2-5矩阵化环绕编码-解码方案的示图，其中，5声道记录馈入(feed)多声道矩阵化环绕编码器以产生两声道矩阵编码的信号，并且该矩阵编码的信号随后馈入矩阵化环绕解码器以产生用于通过扬声器再现的5个输出信号。

图1C是图示出用于将来自具有标准5声道仅水平方向空间音频记录格式的源的2D位置音频提示编码为两声道信号的现有技术的多声道矩阵化环绕编码器的示图，

图2A是图示出如现有技术中描述的，根据水平平面中的概念编码圆(notional encoding circle)上的幅度摆动角α以及在有源矩阵化环绕解码器中使用的主导向量δ进行的外围相位-幅度矩阵化环绕编码。物理仰角θ的值指示水平平面中的标准扬声器位置。

图2B是图示出如现有技术中所述的，在由幅度摆动角α和声道间相位差角β表示的、称为“Scheiber球体”的概念编码球体上进行的相位-幅度矩阵化环绕编码，

图3是针对在扬声器声道L和L_S之间进行幅度摆动的声音分量计算出的、在水平平面中的收听圆上的Gerzon向量的图示说明。

图4A是对于分别位于水平平面中的收听圆上的-110、-30、30和110度方位角处的扬声器L_S，L，R和R_S，通过以10度方位角递增地进行4声道外围摆动并且以9递增地进行径向摆动而获得的Gerzon速度向量的2D绘图。

图4B是对于分别位于水平平面中的收听圆上的-130、-40、40和130度方位角处的扬声器L_S，L，R和R_S，通过以10度方位角递增地进行4声道外围摆动并且以9递增地进行径向摆动而获得的Gerzon速度向量的2D绘图。

图5A是根据本发明一个实施例的针对图4A中表示的摆动定位和扬声器位置的相位-幅度编码圆上的主导向量的2D绘图，其中，环绕编码角α_S被设为-148度。

图5B是根据本发明一个实施例的针对图4B中表示的摆动定位和扬声器位置的相位-幅度编码圆上的主导向量的2D绘图，其中，环绕编码角α_S被设为-135度。

图6A是图示出根据本发明一个实施例的6声道3D位置音频摆动模块的示图。

图6B是图示出根据本发明一个实施例的用于将6声道3D音频信号转换为两声道相位-幅度矩阵编码3D音频信号的多声道相位-幅度编码矩阵。

图6C示出了根据本发明一个实施例的完整的交互式相位-幅度3D立体声编码器。

图7A是图示出根据本发明一个实施例的相位-幅度矩阵化环绕解码器的信号流程图。

图7B是图示出根据本发明一个实施例的用于多声道扬声器再现的相位-幅度矩阵化环绕解码器的信号流程图。

图8是图示出根据本发明一个实施例的相位-幅度立体声编码器的信号流程图。

具体实施方式

现在将详细参考本发明的优选实施例。优选实施例的示例在附图中示出。虽然将结合这些优选实施例来描述本发明，但是将会理解，不希望将本发明局限于这些优选实施例。相反，希望覆盖可以包括在由所附权利要求所限定的本发明的精神和范围内的替代方式、修改和等同物。在以下描述中，提出多个具体细节来提供对本发明的全面理解。本发明可以在无需这些具体细节中的某些或全部的情况下实施。在其他实例中，没有详细描述公知的机构，以免不必要地模糊本发明。

这里应该注意，遍及各个附图的类似标号指示类似部件。这里示出和描述的各个附图被用于图示说明本发明的各个特征。就在一张附图中示出而在其他附图中没有示出的一个特定特征而言，除非特别指示或者该结构本质上禁止并入该特征，否则将理解为这些特征可以被适应性修改以包括到在其他附图中表示的实施例中，就好像这些特征在这些附图中被完全示出一样。除非特别指示，否则附图不一定是按比例绘制的。在附图中提供的任何维度都不认为是对本发明的范围的限制而仅仅是示例性的。

矩阵化环绕原理

图1B示出了5-2-5矩阵编码-解码方案，其中，5声道记录{L_S[t]，L[t]，C[t]，R[t]，R_S[t]}馈入多声道矩阵化环绕编码器以产生矩阵编码的两声道信号{L_T[t]，R_T[t]}，并且该矩阵编码信号随后馈入矩阵化环绕解码器以产生5声道扬声器输出信号{L_S′[t]，L′[t]，C′[t]，R′[t]，R_S′[t]}供再现。一般地，这种矩阵编码-解码方案的目的在于：产生与通过位于收听者周围相同的N个位置处的扬声器来收听原始N声道信号的收听体验极接近的收听体验。

多声道矩阵化环绕编码等式

图1C示出了多声道相位-幅度矩阵化环绕编码器，用于通过下混5声道信号来将2D位置音频提示编码为两声道信号，该5声道信号是与图1A所示的扬声器布局相对应的标准仅水平方向的“3-2立体声”格式(L_S，L，C，R，R_S)。在此情况中，相位-幅度矩阵化环绕编码等式的一般形式为：

L_{T} = L + \sqrt{1 / 2} C + j ({\cos σ}_{S} L_{S} + {\sin σ}_{S} R_{S})

R_{T} = R + \sqrt{1 / 2} C - j ({\sin σ}_{S} L_{S} + {\cos σ}_{S} R_{S}) - - - (1 .)

其中，j表示理想化90度相移并且角度σ_s在[0，π/4]内。σ_s的通常选择为29度，其产生：

cosσ_S＝0.875；sinσ_S＝0.485 (2.)

如图1C所示，向等式(1)中的环绕声道LS和LR施加相对90度相移通常是利用向前面的输入声道施加相移Φ的全通滤波器以及向环绕声道施加相移Φ+90度的全通滤波器来实现的。

无源矩阵化环绕解码等式

对于任何相位-幅度编码矩阵，“无源”解码矩阵可被定义为编码矩阵的Hermitian转置。如果以矩阵形式来表示编码矩阵(1)：

[L_TR_T]^T＝E[L_SLCRR_S]^T (3.)

则无源解码等式产生五个相对应的输出声道如下：

[L_S’L’C’R’R_S’]^T＝E^H[L_TR_T]^T (4.)

由于编码矩阵E优选地是能量守恒的(energy-preserving)(即，E的每列中的左右编码系数的平方之和为单位1)，因此，经组合的5×5编码/解码矩阵E^HE的对角线系数都为单位1。这蕴含了原始多声道信号的每个信道被正确地发送给相对应的解码器输出声道。然而，每个解码器输出声道还从其它编码器输入声道接收大量另外的贡献(即“泄漏”(bleeding))，这在原始多声道信号{L_S，L，C，R，R_S}与经过矩阵化环绕编码和解码之后的再现信号{L_S′，L′，C′，R′，R_S′}之间产生了显著的空间音频再现差异。

有源矩阵化环绕解码器

通过变化解码矩阵的系数，有源矩阵化环绕解码器在矩阵编码信号表示较强的方向主导(dominance)的情况中，与无源矩阵化环绕解码器相比，可以提高“源分离”性能。这种增强是通过“导向逻辑”来实现的，“导向逻辑”根据用δ＝(δ_x，δ_y)表示的所测得主导向量来连续地适配(adapt)解码矩阵，δ＝(δ_x，δ_y)可从4声道无源矩阵化环绕解码器输出信号L′＝L_T，R′＝R_T，C′＝0.7(L′+R′)以及S′＝0.7(L′-R′)获得，如下：

δ_x＝(|R’|²-|L’|²)/(|R’|²+|L’|²)

δ_y＝(|C’|²-|S’|²)/(|C’|²+|S’|²)(5.)

其中，平方的范数|.|²表示信号功率。主导向量

的大小量度了经编码信号中的方向主导性的程度，并且从不大于1。

导向逻辑的效果在于向由在如图2A所示的编码圆上观察到的主导向量δ的方向所指示的声道重新分布信号功率。当主导向量的大小|δ|接近零时，有源矩阵化环绕解码器必须回复到先前描述的无源行为(或利用某种其它无源矩阵)。只要信号L_T和R_T不相关或弱相关(即，主要包含周围分量)或者在分布在编码圆周围的多个并发的主要声音源存在时，这就会发生。

一般地，基于时域有源矩阵化环绕解码器的现有技术5-2-5矩阵编码/解码方案能够精确地再现编码圆上任何地方的单个主要源的成对幅度摆动。然而，它们不能在多个并发主要声音分量存在时产生有效的精确的方向增强，也不能在主导性主要源存在时保持周围声音的扩散空间分布。在这些情形中，往往会出现可觉察到的导向失真(例如，在居中的对话存在时，转移音效定位或缩窄立体声像)。因此，建议混合工程师通过工作室中的编码-解码链来监视经矩阵编码的混合，以检测并避免这种失真的出现。然而，这种预防在混合是由实时游戏播放自动地驱动的游戏应用中是不可能的。

设计准则

为了表征根据本发明的矩阵化环绕编码-解码方案的性能，定义可在交互式音频呈现系统(例如，游戏、计算机音乐或虚拟现实)的设计中应用的一般性空间分析原理是有用的，而不管所使用的空间呈现技术或设置如何。从这些一般性原理，我们将根据空间音频场景中的主要和周围声音分量的能量和空间性质，来导出针对矩阵编码-解码处理的空间音频场景保持(preservation)需求，而不管回放环境如何。

空间音频场景和信号模型

如图1A所示，表示空间音频场景的多声道信号可被建模为主要和周围声音分量的重叠。主要分量可以利用“摆动”模块(在图1A中标记为摆动)在方向上被编码，“摆动”模块接收单音源信号并且产生用于添加到输出混合中去的多声道信号。一般而言，该空间摆动模块的作用是向源指派在以收听者为中心的收听球体上观察到的感知到的方向，同时保持源响度和频谱内容。在利用扬声器再现M声道信号P＝[P₁...P_M]时，这种感知到的方向可通过Gerzon向量g来量度，g定义如下：

g＝∑_mp_me_m (6.)

其中，“声道向量”e_m是第m个输出声道(图3)方向上的单位向量。等式(6)中的权重p_m由下式给出：

对于“速度向量”p_m＝P_M/||P||₁ (7.)

对于“能量向量”p_m＝|P_m|²/||P||² (8.)

其中，||P||₁表示第M-声道信号的幅度和，并且||P||²表示其总的信号功率。

由等式(6，7)等于的Gerzon“速度向量”与在收听位置处测得的有源声学强度向量成比例。其足够用于描述针对位于中心的收听者的所感知到的在低频(大概在700Hz以下)处的主要分量的定位，而由等式(6，8)定义的“能量向量”可被认为更足够用于表示较高频处的感知到的声音定位。诸如Ambisonics或VBAP之类的多声道声音空间化技术可被当作是在给定了Gerzon向量的所需方向时用于求解摆动权重p_m组的不同方法。空间化技术在其实际的工程折衷方面以及其精确控制Gerzon向量大小的能力方面是不同的，该Gerzon向量的大小表征声像的空间“锐度”或“焦点”，并且在小于1时，可以反映跨越扬声器阵列的内部摆动(例如“经过”或“越过”声音事件)。

Gerzon向量还可以应用于表征诸如房间混响或空间扩展声音事件(例如，周围的掌声或者附近瀑布的更具体定位的声音)之类的多声道再现中的周围声音分量的方向分布。在此情况中，扬声器信号应当被相互去相关，并且Gerzon能量向量随后与有源声学强度成比例。其大小对于均匀分布的周围声音为零，并且在空间强调方向上增大。

系统设计准则

基于上面的原理，在空间音频场景再现方面对矩阵编码-解码系统的设计要求可表达为如下：场景中每个个体声音分量(主要或周围)的功率和Gerzon向量方向，下面称为与每个声源相关联的空间提示(spatial cue)，应当被正确地再现。在下面的描述中考虑的优选实施例中，假设周围分量在空间上是扩散的，即，其Gerzon能量向量是空的。这种假设实际上不会约束在虚拟环境中模拟房间混响或周围背景气氛。

针对根据本发明优选实施例的矩阵化环绕编码-解码方案的另外的设计准则产生于技术兼容性要求：希望所提出的交互式矩阵编码器一致地产生适合于利用现有技术的矩阵环绕解码器进行解码的输出，现有技术的矩阵环绕解码器在摆动到五个声道(L_S，L，C，R，R_S)之一的声音分量的经编码声道信号L_T和R_T之间假设了特定的相位-幅度关系，如等式(1)指示的。相反，在本发明的优选实施例中，矩阵化环绕解码器与旧的矩阵编码内容兼容，即，以与现有技术的矩阵化环绕解码器的响应一致的方式来对其输入信号中的强方向性主导作出响应。

此外，在本发明的优选实施例中，矩阵化环绕解码器在经历任何标准立体声源(不一定经矩阵编码)时应当产生自然的发声“上混”(upmix)，理想地，不需要修改其操作(例如，如在现有技术的矩阵化环绕解码器中常见的，从“电影模式”切换到“音乐模式”)。这意味着输入立体声信号中的周围声音分量应当被提取并由解码器重新分布以利用环绕输出声道(L_S和R_S)从而增强沉浸感，同时维持立体声像中的主要声音分量的原始定位并且利用中心扬声器来提高与收听者远离“最佳听音位置”的横向位移相对的声像的健壮性。

经改进的相位-幅度立体声编码器

下面将详细说明根据本发明一个实施例的经改进的相位-幅度矩阵化环绕编码器。首先，考虑对2D水平方向圆中的主要声音分量的位置编码。然后，导出3D球形编码方案。最后，通过包括在经编码信号中添加空间上扩散的周围声音分量来完成编码方案。在优选实施例中，由游戏引擎或工作室混合应用来为每个个体声源提供空间提示，并且编码器对源信号的时域或频域表示进行操作。在其它实施例中，多声道源信号以已知的空间音频记录格式被提供，该信号被转换为频域表示或者是以频域表示的形式接收的，并且通过对多声道源信号的空间分析来导出针对每个时间和频率的空间提示。

2D外围编码

考虑一组M个单音声源信号{S_M[t]}，主要声音分量的两声道立体声混合{L_T[t]，R_T[t]}可被表达为：

L_T[t]＝∑_mL_m S_m[t]

R_T[t]＝∑_mR_m S_m[t] (9)

其中，L_m和R_m表示每个源的左右摆动系数。对于在编码圆上被指派有摆动角度α的源(如图2A所示)，能量守恒相位-幅度摆动系数可表达为：

L(α)＝cos(α/2+π/4)

R(α)＝sin(α/2+π/4)(10)

其中，摆动角度α是从前方(C)顺时针地测得的，并且从针对摆动到左声道的信号的α＝-π/2(弧度)变化到针对摆动到右声道的信号的α＝π/2。假设α跨越被扩展为[-π，π]的间隔，则图2A的编码圆上的所有位置由等式(10)利用针对环绕弧(L-L_S-R_S-R)的位置的正极性摆动系数而被唯一地编码。相位-幅度摆动等式(10)的应用包括：将在图3所示的收听圆上测得的所需方位角θ映射到摆动角α。如图2A所指示的，这种映射必须使θ＝θ_F映射到α＝π/2并且使θ＝θ_S映射到α＝-α_S，其中，θ_F表示指派给前面的声道L或R的方位角(例如30°)，表示指派给环绕声道L_S或R_S的方位角(例如110°)，并且α_S针对与多声道矩阵编码等式(1)的一致性来验证

σ_S＝|α_S/2+π/4|(11)

对于在圆上中间位置处的编码，从θ到α的任何单调映射在原理上是适当的。为了确保与利用等式(1)对5声道混合进行矩阵编码的兼容性，合适的θ到α角度映射函数是等效于5声道成对幅度摆动的函数，5声道成对幅度摆动利用诸如基于向量的幅度摆动方法(VBAP)之类的公知的现有技术摆动技术，随后进行5到2矩阵编码。

然而，与源在声道之间进行幅度摆动的情况一样，当5到2编码矩阵的输入没有被相互去相关时，其实际上不是能量守恒的。例如，其将信号功率提高了1+sin(2σ_S)，即，对于摆动到后方中央的声音提高了大概3dB，并且对于在C和L之间均匀地摆动的声音提高了

或2.3dB。在根据本发明实施例的编码器中，通过根据每个源信号的摆动位置来缩放(scale)每个源信号从而消除了这种能量偏差。作为简化形式，在矩阵编码之前，其还有利地仅跨越4个声道(L_S，L，R，R_S)摆动，忽略了C。

利用内部摆动的2D编码

使用等式(10)的直接两声道编码与使用等式(1)的矩阵编码的多声道摆动之间的重要差别在于：后者包括施加给环绕声道L_S和R_S的90度相移，其具有将180度相位差均匀地分布在左右经编码声道之间的效果。没有这种相移(在等式(1)中用j表示)的话，在前方中央位置和后方中央位置之间摆动的“经过”或“越过”声音效果将被编码为沿着编码圆的左半部分摆动。用ρ(θ)表示通过外围摆动(例如利用BVAP技术)获得的摆动权重组，则水平方向多声道摆动算法可被扩展为包括内部摆动定位，如下：

P(θ，ψ)＝cosψρ(θ)+sinψε (12.)

其中，P是得到的摆动权重组(在为了能量守恒而进行缩放之前)，cosψ和sinψ是“径向摆动”系数，ψ在[0，π/2]之内，并且ε是一组能量守恒的非方向性(或“中间的”)摆动权重，其通过等式(6，7)产生0大小的Gerzon速度向量。在跨越(L_S，L，R，R_S)的4声道摆动的情况中，用于该组非方向性摆动权重ε的优选解是表现出左右对称并且前后幅度摆动率等于|cosθ_S/cosθ_F|的解。

图4A示出了通过等式(6，7)从P(θ，ψ)导出的Gerzon速度向量g的绘图，其中，θ和ψ以10度递增变化，扬声器L_S，L，R和R_S分别位于水平平面中的收听圆上的-110、-30、30和110度方位角处。给定方位角的径向摆动位置由实线相连，实线通过连接到收听圆边缘上的对应点的虚线被延长。类似地，图4B图示出了本发明的替代实施例，其中，扬声器L_S，L，R和R_S分别位于收听圆上的-130、-40、40和130度方位角处。

图5A绘制出了在利用等式(1)进行矩阵编码之后，利用等式(5)从P(θ，ψ)导出的主导向量，在与图4A相同的假设下，假设环绕编码角α_S为-148度(即，σ_S＝29度)。给定方位角的编码位置用实线相连。在侧面弧(L-L_S)和(R-R_S)上，该实线通过连接到编码圆边缘上的对应编码点的虚线段而被延长，该编码圆的边缘是由外围编码等式(10)定义的并且假设从θ到α进行线性映射。类似地，图5B绘制出了针对在图4B中假定的备选实施例导出的主导向量并且假设环绕编码角α_S为-135度(即，σ_S＝22.5度)。

由于矩阵编码等式(1)是线性的，因此，其后跟随了矩阵编码的任何A声道径向摆动技术的应用也可以被看作是施加给相位-幅度立体声编码系数的交叉衰减操作(cross-fading)：

L(α，ψ)＝cosψL(α)+sinψεL

R(α，ψ)＝cosψR(α)+sinψεR (13.)

其中，ε_L和ε_R是通过矩阵编码从“中间”摆动权重ε组导出的。由于矩阵编码等式(1)中的90度相移，因此ε_L和ε_R是包括相移的共轭复系数：

ε_L＝|cosθ_S|+j cosθ_F(cosσ_S+sinσ_S)

ε_R＝|cosθ_S|-j cosθ_F(cosσ_S+sinσ_S)(14.)

由于立体声编码系数通常不是实因数，因此，针对每个主要声源的两声道摆动的直接实现在时域中是不实际的。本发明的优选时域实施例使用上面所述的A声道外围-径向摆动和编码方案，或者使用5声道格式(L_S，L，T，R，R_S)的摆动和混合，其中，T表示如图3指示的虚拟“中间”声道，然后利用下面的编码等式进行5到2矩阵编码：

L_T＝L+εL_T+j(cosσ_SL_S+sinσ_SR_S)

R_T＝R+ε_RT-j(sinσSL_S+cosσ_SR_S)(15.)

3D位置相位-幅度立体声编码

当在等式(12)中cosψ＝0(并且因此，sinψ＝1)时，声音事件的概念上的定位与参考收听位置相符。然而，在4声道扬声器再现中，位于该位置处的收听者将感知到位于头部之上的声音事件。这表明，将径向摆动角ψ的值从0度增加到90度可以被解释为将收听球体上的虚拟源位置的仰角

从0度增加到90度。对径向摆动的这种解释使得能够在采用虚拟“中间”声道T的图3的水平方向收听圆中定位(θ，r)处的2D外围-径向摆动，与上半球体上的定位

处的3D多声道摆动之间建立等效性，其中，T表示虚拟或实际“顶部”声道并且

是3D仰角，而r表示2D定位半径。

对从径向摆动角ψ到半径r再到仰角

的映射函数的选择不是决定性的，如果映射函数单调的话，并且以使得当ψ从0增加到90度时，半径r从1减小到0，仰角

从0增加到90度。在下面的实施例中采用的最简单易懂的假设是r＝cosψ并且

这意味着r和

通过垂直投影被联系起来：

在矩阵编码时，上半球体或水平方向圆上的任何源定位由此通过两声道信号{L_T，R_T}中的声道间幅度和相位差而被编码。为了检查相位-幅度立体声编码系统的性质，经常采用立体声相位-幅度编码的球形表示，其将摆动等式(10)扩展为包括任意声道间相位差：

L(α，β)＝cos(α/2+π/4)e^jβ/2

R(α，β)＝sin(α/2+π/4)e^-jβ/2(17.)

在如图2B所示的图形表示中，声道间相位差角β被解释为绕着一平面的左右轴的旋转，在该平面中，幅度摆动角α被测量。如果α跨越[-π/2，π/2]并且β跨越[-π，π]，则角坐标(α，β)将任何声道间相位和/或幅度差唯一地映射到“Scheiber球体”上的位置。具体地，β＝0描述前方圆弧(L-C-R)并且β＝π描述后方圆弧(L-L_S-R_S-R)。按照惯例，在优选实施例中，正的β值将对应于上半球体，负的β值将对应于下半球体。对于“顶部”位置T，等式(14)蕴含了矩阵编码立体声信号中的声道间相位差为：

β_T＝2arctan[(cosσ_S+sinσ_S)cosθ_F/|cosθ_S|](18.)

一个有用性质是通过等式(5)导出的主导向量δ与到Scheiber球体上的位置(α，β)的水平平面上的垂直投影相符：

δ_x＝sinα

δ_y＝cosαcosβ(19.)

传统上，如图5的主导绘图也是Scheiber球体上的概念编码位置的“上-下”示图。这允许扩展相位-幅度3D位置编码方案以通过定义“底部”编码位置来包括下半球体中的对称位置。在优选实施例中，用B表示的该位置被定义为Scheiber球体上的“顶部”位置T相对于(α，β)＝(0，-β_T)处的水平平面的对称，以使得上半球体和下半球体对于2D矩阵解码器来说是相同的。

图6A和图6B一起示出了根据本发明优选实施例的3D位置相位-幅度立体声编码方案。图6A示出了6声道摆动模块(600)用于将3D位置音频定位

指派给6声道格式(L_S，L，T，B，R，R_S)的主要声源信号S_m，其中，T表示顶部声道，B表示底部声道，如前面所述的。图6B示出了相位-幅度3D立体声编码矩阵模块(610)，其中，得到的6声道信号(606)根据下面的编码等式被矩阵编码为两声道相位-幅度立体声编码信号{L_T，R_T}：

L_T＝L+ε_LT+ε_RB+j(cosσ_S L_S+sinσ_S R_S)

R_T＝R+ε_RT+ε_LB-j(sinσ_S L_S+cosσ_S R_S)(20.)

其中，并且

以使得

在图6A所示的6声道3D位置摆动模块中，源通过六个摆动系数604被缩放，这六个摆动系数604是从方位角θ_m和仰角

导出的，如下(为了清楚，省略了源索引m)：

其中，[＜条件>？]表示逻辑比特(即，如果＜条件>为真的话则为1，如果＜条件>为为假的话则为0)。在优选实施例中，等式(21)中的系数L_S(θ)，L(θ)，R(θ)和R_S(θ)是能量守恒的4声道2D外围幅度摆动系数，其是根据分别表示为θ_F和θ_S并且分别被指派给前方声道对(L，R)和环绕声道对(L_s，R_s)的前方和环绕扬声器方位角，利用VBAP方法从方位角导出的。此外，在本发明的优选实施例中，馈入每个摆动模块的源信号通过能量归一化因子602被缩放，因子602等于：

其中，

和

是通过将由等式(20)定义的编码矩阵应用于由等式(21)定义的摆动系数而导出的。这种归一化确保了矩阵编码信号{L_T，R_T}中的每个源信号S_m的贡献是能量守恒的，无不管其摆动定位如何。

图6B中的编码矩阵610的特定实施例是通过如下这样重写等式(20)获得的：

L_{T} = L + \sqrt{1 / 2} (T + B) \cos (β_{T} / 2) + j [(T - B) \sin (β_{T} / 2) + \cos σ_{S} L_{S} + {\sin σ}_{S} R_{S}]

R_{T} = R + \sqrt{1 / 2} (T + B) \cos (β_{T} / 2) - j [(T - B) \sin (β_{T} / 2) + {\sin σ}_{S} L_{S} + {ocsσ}_{S} R_{S}] - - - (23 .)

得到的编码矩阵是对图1C所示的现有技术编码矩阵的扩展，其中，输入C是可选的。该编码矩阵接收由摆动模块600产生的6个输入声道606。输入声道L_S，L，R和R_S与在图1所示的旧的编码矩阵中完全一样地，利用乘法器614和全通滤波器616被处理。该编码矩阵还接收两个另外的声道T和B，推导出它们的和信号以及差信号，并且向和信号以及差信号分别应用缩放系数612，cos(β_T/2)和sin(β_T/2)。缩放后的和信号以及差信号随后通过分别与前方声道和经缩放环绕输入声道组合的系数被进一步衰减。可以在本发明的范围内通过在[0，π]内为β_T选择任意值而非由等式(18)导出的值，来实现根据本发明的相位-幅度矩阵化环绕编码方案替代实施例。

将收听球体映射到Scheiber球体

3D位置摆动模块(600)和3D立体声编码矩阵610的组合效果是将收听球体上的预期定位

映射到Scheiber球体上的概念位置(α，β)。这种映射可以通过设置先前定义的角度参数的值来进行配置：θ_F在[0，π/2]内；θ_S在[π/2，π]内；σ_S在[0，π/4]内；并且β_T在[0，π]内。这种映射的两个示例在图5A和5B中示出。对这些参数的设置确定了根据本发明的编码-解码方案与旧的矩阵化环绕解码器和经矩阵编码的内容的兼容性。例如，旧的兼容的编码器可以通过设置θ_F＝30°，θ_S＝110°，σ_S＝29°，并且根据等式(18)导出β_T来实现。可能的编码方案范围还可以通过在应用等式(20)或(23)之前，引入[0，π/4]内的前方编码角参数σ_F并且将L和R分别用(cosσ_FL+sinσ_FR)和(cosσ_FR+sinσ_FL)替代而得到扩展。在旧的兼容的编码矩阵实施例中，σ_F＝0并且声道L和R无修改地被分别传递给经编码声道L_T和R_T。

此外，很容易在本发明的范围内扩展上述优选实施例，以使用替代优选的6声道格式(L_S，L，T，B，R，R_S)的任何中间的P-声道格式(C₁，C₂，...C_p...)，其被关联到水平平面中的附加或备选中间声道位置

或收听球体上任何位置，其利用任何2D或3D多声道摆动技术来实现每个声源信号S_m的多声道位置摆动模块，并且根据由等式(21，23)或(21，20)定义的摆动和编码方案将每个中间声道C_p编码为具有定位

的3D源。

替代地，在本发明的另一实施例中，声源在收听球体上的定位根据Duda-Algazi角坐标系统来表达，其中，方位角μ是在包含源以及左右耳朵轴的平面中测得的，并且仰角v量度该平面相对于左右耳朵轴的旋转。在此情况中，定位坐标μ和v可分别被映射到幅度摆动角α和声道间相位差角β。一个实施例包括设置α＝μ并且β＝v，在此情况中，收听球体等同地映射到Scheiber球体，并且相位-幅度3D立体声编码通过应用等式(17)来直接实现。

容易清楚，无论所选择的从定位到Scheiber球体上的编码位置的映射如何，通过将编码系数L(α_m，β_m)和L(α_m，β_m)应用于声源信号S_m的频域表示，可以在频域中实现根据本发明的对信号的相位-幅度立体声编码。

周围编码

在本发明的优选实施例中，交互式相位-幅度立体声编码器包括用于将空间上扩散的周围分量和混响分量结合在两声道经编码输出信号{L_T，R_T}中的装置。

让我们假设空间音频场景仅包含周围分量。在现有技术的矩阵化环绕解码器中，这种状况与零主导性相关联，并且在信号L_T和R_T不相关并且能量相等时(其与传统立体声记录中的周围分量的信号性质一致)出现。在这些状况中，现有技术的多声道矩阵化环绕解码器落入其无源解码行为，该行为具有将信号能量散布在环绕声道中的效果。这是针对矩阵化环绕解码器和音乐上混器两者的所希望的性质。

然而，利用遵循等式(1)的现有技术时域矩阵编码器的任何矩阵化环绕编码-解码系统的缺点在于由解码器再现的周围声音场景的空间分布与原始记录不一致：其表现出朝向后方声道L_S和R_S的显著的系统性偏倚。针对主要信号的模拟现象在图5A和5B中可见，其中，可看到，具有空Gerzon速度向量的多声道信号利用较强的负主导性被编码，较强的负主导性指示左右经编码信号L_T和R_T之间的较强的负相关性。在(具有空能量向量的)扩散的周围信号的情况中，从前至后的声道功率比将等于|cosθ_S|/cosθ_F，如果θ_F＝30°并且θ_S＝110°，则其通过等式(5)将主导性设置为-0.434，从而使得矩阵化环绕解码器将信号能量大量地摆动到环绕声道中去(而不落入其无源行为)。在根据本发明的相位-幅度立体声编码器的优选实施例中，通过将周围分量直接混合到相位-幅度编码器的两声道输出{L_T，R_T}中或编码矩阵610的输入声道L和R中来避免这种偏倚(而在现有技术的编码方案中，大量的周围信号能量将被混合到编码矩阵的环绕输入声道中)。

图6C示出了根据本发明优选实施例的交互式相位-幅度3D立体声编码器。每个源S_m生成被先前描述的并在图6A中示出的摆动模块600摆动的主要声音分量，摆动模块600向源信号指派定位每个摆动模块600的输出被添加到主控多声道总线622，主控多声道总线622供给先前描述的且在图6B中示出的编码矩阵610。另外，每个源S_m生成去往混响发送总线624的贡献623，总线624供给混响模块626，由此产生与源信号S_m相关联的周围声音分量。混响模块626通过本领域公知的诸如反馈延迟网络之类的方法来模拟虚拟房间的混响，并且生成两个基本上不相关的混响信号。混响模块626的两个输出信号直接被组合到编码矩阵610的输出{L_T，R_T}中。针对每个源信号S_m生成主要声音分量和周围声音分量的每个源处理模块623可以包括滤波和延迟模块629，以利用现有技术中已知的方法来在虚拟场景中模拟距离、空气吸收、源方向性或者由声学障碍物引起的声学阻塞和障碍效果。

改进的相位-幅度矩阵化环绕解码器

根据本发明的一个优选实施例，提供了这样的频域方法，用于基于对输入信号中的2D或3D方向提示的空间分析以及利用任何所选声音空间化技术来重新合成这些提示以用于在任何耳机或扬声器回放系统上再现，从而对诸如音乐记录和电影或视频游戏声轨之类的两声道立体声信号进行相位-幅度矩阵化环绕解码。如将从下面的描述中清楚的，本发明使得能够对来自两声道音频记录的3D定位提示进行解码，同时保持与先前描述的现有技术的两声道仅水平方向的相位-幅度矩阵化环绕编码-解码技术的向后兼容性。

本发明利用时间/频率分析和合成框架显著地改善了矩阵化环绕解码器的源分离性能。执行作为时间和频率两者的函数的分析的基本优点在于：其极大地减小了信号表示中同时存在或重叠多个源的可能性，并且由此改善了源分离。如果该分析的频率分辨率可与人类听觉系统相比较，则在通过耳机或扬声器再现解码器的输出信号期间，并发源在频域表示中的任何重叠的可能效果基本上被掩盖。

通过对频域信号进行操作并且结合主要-周围分解，根据本发明的矩阵化环绕解码器克服了现有矩阵环绕解码器在扩散的周围再现以及方向源分离方面的限制，并且能够分析主要声音分量的主导信息，同时避免因场景中存在周围分量而引起的混淆，从而经由任何空间再现系统精确地再现2D或3D位置提示。这使得能够显著地改善通过耳机或扬声器对两声道矩阵编码电影和游戏声轨或传统立体声音乐记录的空间再现。

图7A是图示出根据本发明一个实施例的相位-幅度矩阵化环绕解码器的信号流程图。首先，在块702中根据相关领域的技术人员所知的任何传统方法来进行时间/频率转换，传统方法包括但不限于利用短时傅里叶变换(STFT)或任何子频带信号表示。

接下来，在块704中，主要-周围分解发生。这种分解是有利的，因为主要信号分量(通常为直接路径声音)和周围分量(例如混响或掌声)通常需要不同的空间分析策略。主要-周围分解将两声道输入信号S_T＝{L_T，R_T}分离为其声道互相关的主要信号S_P＝{P_L，P_R}以及其声道互不相关或弱相关的周围信号S_A＝{A_L，A_R}，以使得信号S_P和S_A的组合重建出信号S_T的近似，并且信号S_T中存在的周围分量的贡献在主要信号S_P中被显著减少。主要-周围分解的频域方法在现有技术中例如由Merimaa等人在Audio Engineering Society(2007年10月)第123次会议中提出的“Correlation-Based Ambience Extraction from Stereo Recordings”中进行了描述。

主要信号S_P＝{P_L，P_R}随后在块706中经过定位分析。对于每个时间和频率，空间分析导出表示相对于收听者头部的物理位置的空间定位向量d。这种定位向量取决于再现解码器的输出信号所需要的模式而可以是三维的或二维的。在三维情况中，定位向量表示由方位角θ和仰角表征的、以收听者为中心的收听球体上的位置。在二维情况中，定位向量可用来表示由方位角θ和半径r表征的、在水平平面上以收听者头部为中心的圆圈上或圆圈内的位置。这种二维表示例如能够使水平多声道回放系统中的经过和穿过声音轨迹参数化。

在定位分析块706中，针对每个时间和频率从出现在信号S_P中的声道间幅度和相位差导出空间定位向量d。这些声道间差值可以根据等式(17)通过如图2B所示的Scheiber球体上的概念位置(α，β)来唯一地表示，其中，α表示幅度摆动角，β表示声道间相位差。根据等式(10)或(17)，摆动角α通过下式被与声道间电平差m＝|P_L|/|P_R|相联系

α＝2tan^-1(l/m)-π/2(24.)

根据本发明的一个实施例，定位分析块706的操作包括计算声道间幅度和相位差，然后从Scheiber球体上的概念位置(α，β)映射到三维物理空间中的方向

或二维物理空间中的位置(θ，r)。一般地，这种映射可以任意方式来定义，并且甚至可以取决于频率。

根据本发明的另一实施例，主要信号S_P根据矩阵编码等式(9，10)或(9，17)被建模为基本单音源信号S_m的混合，其中，每个源的概念编码位置(α_m，β_m)是根据物理或虚拟空间声音场景中的二维或三维定位由已知的双射(bijective)映射来定义的。这样的混合例如可以通过音频混合工作站或者通过例如在图1A或图6C所示的视频游戏系统中找到的交互式音频呈现系统来实现。在这种应用中，实现定位分析块706以使得所导出的定位向量通过反转由矩阵编码方案实现的映射而被获得是有利的，从而使得对解码器输出信号的回放忠实地再现原始空间声音场景。

在本发明另一实施例中，在每个时间和频率处，通过根据等式(5)计算主导向量并且应用从编码圆中的主导向量位置到水平收听圆中的物理位置(θ，r)的映射(如图2A所示并且在图5A和5B中举例说明的)，来执行定位分析706。替代地，随后可通过从收听圆垂直投影到收听球体来将主导向量位置映射到三维定位如下：

其中，声道间差值β的符号用来将上半球体从下半球体区分开。

块708通过将由定位分析706导出的空间提示707应用于主要信号S_P来在频域中实现对解码器输出信号中的主要分量的空间分析。多种方法可用于对来自单音信号的主要分量进行空间分析(或“参数化”)，包括ambisonic或双耳技术以及传统的幅度摆动方法。在本发明的一个实施例中，通过传统的单声道下混来在每个时间和频率处导出单声道主要信号P，其中，

在另一实施例中，单声道信号P的计算通过应用针对概念位置(α，β)(从在定位分析块706中计算出的声道间幅度和相位差导出的)的无源解码等式，来使用取决于时间和频率的下混系数：

P＝L^*(α，β)P_L+R^*(α，β)P_R (26.)

其中，L^*(α，β)和R^*(α，β)分别表示由等式(17)表达的左右编码系数的复数共轭：

L^*(α，β)＝cos(α/2+π/4)e^-jβ/2

R^*(α，β)＝sin(α/2+π/4)e^jβ/2.(27.)

一般地，在主要分量合成块708中使用的空间化方法应当寻求使经空间化的声源的所感知定位的离散度最大化。另一方面，对于周围分量，在块710中实现的空间分析方法应当寻求再现(或者甚至增强)声音分量的空间散布或扩散性。如图7A所示，在块710中生成的周围输出信号被添加到在块708中生成的主要输出信号。最后，在块712中例如通过使用逆STFT来进行频率/时间转换，以便产生解码器输出信号。

在本发明的替代实施例中，省略了主要-周围分解704以及周围分量的空间分析710。在此情况中，定位分析706直接被应用给输入信号{L_T，R_T}。

在本发明的又一实施例中，省略了时间-频率转换块702和712以及周围处理块704和710。尽管进行了这些简化，然而，根据本发明的矩阵化环绕解码器可以通过使能矩阵编码信号表示与经再现声音场景之间的任意2D或3D空间映射，来明显地提供相对于现有技术矩阵化环绕解码器的显著改进。

空间分析

对主要信号S_P＝{P_L，P_R}的空间分析根据任何所选多声道音频输出格式或空间再现技术，在每个时间和频率处产生了将在主要信号分量的空间分析中使用的、由方位角θ和仰角或半径r标征的独立于格式的空间定位向量d。

在一个实施例中，假设根据先前由等式(20，21)或(21，23)定义的并在图6A和6B中图示出的相位-幅度3D位置编码方法，利用称为先验的编码器参数θ_F，θ_S，σ_S和β_T的值来对输入信号S_T＝{L_T，R_T}编码。这定义了从由

或(θ，r)表征的预期定位d到由(α，β)标准的主导δ的唯一映射，如图5A或图5B所示。通过应用相对应的逆映射，空间分析可在每个时间和频率处从由等式(5)计算出的主导δ中恢复定位d。

在优选实施例中，这种逆映射是通过在给定主导向量δ的坐标δ_x和δ_y的情况下由返回方位角θ和半径r的值的查找表方法来实现的。查找表如下这样来生成：

(a)对于对所有可能定位值

的高密度采样，其中，θ均匀地在[0，2π]内采样并且

均匀地在[0，π]内采样，通过应用等式(20，21)或(21，23)来计算左右编码系数

和

并且通过应用等式(5)来从

和

导出主导向量的坐标

和

(b)根据以“顶部”编码位置T(对于任何值的θ当

时得到的主导位置)为中心的经修改主导坐标系统(θ′，r′)来定义对编码圆中的主导位置的采样，以使得当r′均匀地从0递增到1时，主导位置在从点T到编码圆的边缘上由外围编码等式(10)在以θ′为方位角时定义的点的直线段上线性地递增。形成第一二维查找表，其对于均匀采样δ_x和δ_y的值返回最近的采样位置(θ′，r′)。

(c)对于每个所采样的主导位置(θ′，r′)，记录与在步骤(b)获得的主导位置中的最近的主导位置相对应的定位值

对于落在侧面顶点(L-L_S)和(R-R_S)以外的位置(θ′，r′)，记录并且通过选择将每个径向摆动轨迹连接到圆边缘上其相应的外围编码位置的最近延长线段(图5A或5B中的虚线段)来确定θ。形成第二二维查找表，其针对每个采样主导位置(θ′，r′)返回

其中，θ′均匀地在[0，2π]内采样并且r′均匀地在[0，1]内采样。

在优选实施例中，用于根据主导(δ_x，δ_y)对定位进行空间分析的逆映射操作在如下两个步骤中执行：利用第一表导出(θ′，r′)并且随后利用第二表获得这种两步处理的优点在于：其确保了在无需采用极大的查找表的情况下高精度地估计定位坐标θ和而不管映射函数严重地不统一并且在编码圆的一些区域中非常“陡峭”(如在图5A或图5B中可见的)的事实。

在针对2D矩阵化立体声解码器的空间分析实施例中，通过取来从

导出2D定位(θ，r)。在针对3D相位-幅度立体声解码器的空间分析实施例中，用sign(β)表示的声道间相位差β的符号被计算，以便选择上半球体或下半球体，并且如果β为负的话，则用的相反值来取代

β的符号可从每个时间和频率处的信号P_L和P_R的复数值来计算，而无需明确地计算其相位差β：

sign(β)＝sign(Im(P_L P_R*))(28.)

其中，sign(.)对于绝对负值为-1否则为1。Im(.)表示虚部，并且*表示复数共轭。

空间分析

图7B是示出根据本发明一个实施例的用于多声道扬声器再现的相位-幅度矩阵化环绕解码器的信号流程图。块702中的时间/频率转换、块704中的主要-周围分解以及块706中的定位分析如前述那样执行。当块707中给出依赖于时间和频率的空间定位提示时，块708中对主要分量的空间合成将主要信号S_P＝{P_L，P_R}提供给N个输出声道，其中，N对应于块714中换能器的数目。在图7B的实施例中，N＝4，然而该合成可应用于任何数目的输出声道。此外，块710中对周围分量的空间合成将周围信号S_A＝{A_L，A_R}提供给相同的N个输出声道。

在块705的一个实施例中，主要无源上混形成了对其输入信号S_P＝{P_L，P_R}的单声道下混，并且向其输出声道中的每个填入这种下混。在一个实施例中，表示为P的单声道主要下混信号是通过针对Scheiber球体上的依赖于时间和频率的编码位置(α，β)应用无源解码等式(26)来导出的，该Scheiber球体是由在空间分析块706中计算出的主导向量δ和sign(β)确定的。空间分析然后包括：在每个时间和频率处利用基于空间提示707，即d＝(θ，r)或计算出的增益因子来对块709中的块705的输出声道重新加权。

在上混两声道信号时利用中间单声道下混可能导致不希望的空间“泄露”或串扰：作为因并发源的频域重叠引起的空间模糊的结果，排它地出现在左输入声道PL中的信号分量可能对右侧的输出声道作出贡献。尽管这种重叠可通过适当选择频域表示来最小化，然而，最好通过向输出声道填入已在解码器输入信号中提供的、保持空间分离的信号组来使其对再现出的场景的潜在影响最小化。在块705的另一实施例中，主要无源上混根据等式(4)执行成为N个输出信号的无源矩阵解码，如下

对于n＝1...N，P_n＝L^*(α_n，β_n)P_L+R^*(α_n，β_n)P_R(29.)

其中，(α_n，β_n)对应于Scheiber球体上输出声道n的概念位置。得到的N个信号随后在块709中利用基于空间提示707计算出的增益因子来重新加权。在块709的一个实施例中，每个声道的增益因子是通过基于定位向量d和输出格式导出每个时间和频率处的多声道摆动系数来确定的，输出格式可以由用户输入来提供或者通过自动估计来确定。

在解码器输入信号S_T＝{L_T，R_T}是根据本发明实施例生成的矩阵编码信号并且解码器输出格式精确地对应于由前方声道方位角θ_F和环绕声道方位角θ_S表征的4声道布局(L_S，L，R，R_S)的情况中，空间分析块708的实施例可以重建原始的主要信号分量组(L_S，L，R，R_S)就好像未进行中间矩阵编码-解码一样(假设主要-周围分解704已从信号S_P＝{P_L，P_R}成功地提取出所有周围信号分量并且假设并发声源在所选时间-频率信号表示中被完美地分离)，其中，在空间分析块708中，在块705中根据等式(26，27)生成单声道下混信号并且在块709中根据先前描述的2D外围-径向摆动方法来通过输出声道(L_S，L，R，R_S)摆动该下混信号。

类似地，根据本发明的频域空间合成块708的实施例可以利用任何声音空间化或位置音频呈现技术来实现，由此，单声道信号被指派给收听球体上的3D定位或收听圆上的2D定位(θ，r)，以用于通过扬声器或耳机进行空间再现。这种空间化技术包括但不限于幅度摆动技术(例如VBAP)、双耳技术、ambisonic技术以及波场合成技术。利用幅度摆动技术的频域空间合成方法在题为“Spatial Audio Coding Based on UniversalSpatial Cues”的美国专利申请No.11/750,300中进行了更详细地描述。利用双耳技术、ambisonic技术、波场合成技术或基于声道间幅度和相位差的其它空间化技术的频域空间合成方法在2008年10月1日提交的题为“Spatial Audio Analysis and Synthesis for Binaural Reproduction and FormatConversion”的美国申请中作了进一步描述，该申请通过引用被结合。

图7B中的块713图示出了对周围分量的空间合成的一个实施例。一般地，对周围分量的空间合成应当寻求再现(或者甚至增强)相应声音分量的空间散布或扩散性。在块713中，周围无源上混首先基于给定的输出格式将周围信号{A_L，A_R}分配给该块的每个输出信号。在一个实施例中，维持针对在左右方向上对称的输出声道对的左右分离。即，A_L被分配给这样的对中的左声道并且A_R被分配给右声道。对于非对称声道配置，用于信号{A_L，A_R}的无源上混系数可以通过利用应用于{A_R，A_R}而非{P_L，P_R}的等式(29)的无源上混来获得。然后对每个声道加权，以使得输出信号的总能量与输入信号的相匹配，并且以使得根据等式(6)和(8)计算出的所得到的Gerzon能量向量的大小为零。可以通过假设A_L和A_R具有相同的能量并且应用在题为“Spatial Audio Coding Based on Universal Spatial Cues”的美国专利申请No.11/750,300(通过引用被结合于此)中指定的方法，单独基于输出格式来计算权重系数一次。

通过扬声器对周围分量进行感知上精确的多声道空间再现要求周围输出信号相互不相关。这可以通过在周围输出声道信号与主要输出声道信号组合之前对周围输出声道信号中的至少一些应用全通(或者基本上全通)“去相关滤波器”(或“去相关器”)来实现。在图7B的块710中对周围分量的空间合成的一个实施例中，经无源上混的周围信号在块713中被去相关。在块713的一个实施例中，取决于无源上混块711的操作，向周围信号的子集应用全通滤波器以使得块713的所有输出声道被相互去相关。相关领域的技术人员已知的任何其它去相关方法也可类似地实施，并且去相关处理还可以包括延迟元件。

最后，与N个输出信号中的每个相对应的主要和周围信号被相加并且在块712中被转换到时域。时域信号随后被引导至N个换能器714。

所述的矩阵化环绕解码方法使得通过耳机或扬声器再现两声道杜比环绕电影声轨的空间质量得到了显著的改善。实际上，本发明使能了与通过直接离散多声道再现或通过诸如杜比数字或DTS之类的离散多声道编码-解码技术提供的收听体验非常近似的收听体验。此外，所述解码方法使得能够不仅通过最初假设的目标多声道扬声器布局而且通过在输出声道数目、其定位以及空间呈现技术方面具有充分的灵活性的耳机或扬声器来忠实地再现原始空间声音场景。

改进的多声道矩阵化环绕编码器

图8是图示出根据本发明一个实施例的相位-幅度立体声编码器的信号流程图，其中，多声道源信号是以已知的空间音频记录格式提供的。首先，在块802中进行时间/频率转换。例如，可以利用STFT来生成频域表示。接下来，在块804，根据任何已知的或传统的方法来进行主要-周围分解。在块806中进行对信号的主要分量的矩阵编码，然后添加周围信号。最后，在块808中，例如通过利用逆STFT来进行频率/时间转换。该方法确保了周围信号分量是以不相关信号对的形式被编码的，不相关信号对确保了矩阵解码器将以充分扩散的空间分布来呈现它们。

在一个实施例中，多声道源信号是具有与图1A所示的扬声器布局相对应的标准“3-2立体声”格式(L_S，L，C，R，R_S)的5声道信号，并且块806中对主要分量的矩阵编码是根据在每个时间和频率处应用的等式(1)来执行的。在替代实施例中，多声道源信号是以P-声道格式(C₁，C₂，...C_p...)提供的，其中，每个声道C_p希望通过位于定位处的扬声器来再现，并且通过下式来执行块806中的矩阵编码：

L_T＝∑_pL(α_p，β_p)C_p

R_T＝∑_pR(α_p，β_p)C_p (30.)

其中，(α_p，β_p)是通过将每个定位

映射到Scheiber球体上其对应的概念编码位置(α_p，β_p)而导出的，并且相位-幅度编码系数L(α_p，β_p)和R(α_p，β_p)是由等式(17)给出的。替代地，编码系数可以通过等式(20)或通过任何所选择的定位至主导映射协定来导出。

在主要矩阵编码块806的其它实施例中，空间定位提示

是在每个时间和频率处通过对主要声道信号进行空间分析导出的，并且相位-幅度编码系数L(α，β)和R(α，β)是通过如前所述的将

映射到(α，β)来获得的。在一个实施例中，这种映射是通过在每个时间和频率处应用由等式(20，21)或(21，23)以及图6A、6B描述的编码方案来实现的。空间分析可以通过各种方法来执行，这些方法包括DirAC方法或者在题为“entitledSpatial Audio Coding Based on Universal Spatial Cues”的共同待决美国专利申请No.11/750,300中描述的空间分析方法。

虽然为了清楚理解的目的以一些细节描述了前面的发明，然而将清楚，可以在所附权利要求的范围内实施某些改变和修改。因此，这些实施例将被认为是说明性的而非限制性的，并且本发明不局限于这里给出的细节，而是可以在所附权利要求的范围和等同物内被修改。

Claims

1.一种用于对被指派给相对于收听者位置的定位的至少一个音频源信号进行两声道相位幅度立体声编码的方法，该方法包括：

通过从所述定位导出的摆动系数来缩放所述至少一个音频输入源，以生成与所需要的多声道格式相对应的多声道信号；以及

对所述多声道信号进行矩阵编码以生成两声道编码信号，以使得该至少一个源的定位由所述两声道编码信号中的声道间相位和幅度差来表示；

使得无论所指派的定位如何，所述两声道编码信号中的源产生的总功率等于所述音频源信号的功率。

2.如权利要求1所述的方法，其中，缩放所述至少一个音频输入源是通过从所述定位导出的独立于频率的编码系数来执行的，以生成两声道编码信号，使得所述至少一个源的位置由所述两声道编码信号中的声道间相位和幅度差来表示，并且方法还包括：从未经定位的音频源信号生成第一未经定位音频信号和第二未经定位音频信号，以使得第一音频信号和第二音频信号基本不相关，从而使得所述定位包括方位角和仰角。

3.如权利要求1所述的方法，其中，摆动系数是通过利用基于向量的幅度摆动(VBAP)技术从方位角导出的。

4.如权利要求1所述的方法，其中，所述缩放容纳与位于收听平面之上的上半球体相对应的顶部声道以及位于所述收听平面之下的底部声道。

5.如权利要求1所述的方法，其中，所述缩放产生了六声道信号，并且其中，所述六声道信号被矩阵编码为两声道相位-幅度立体声编码信号。

6.如权利要求1所述的方法，其中，所述至少一个音频源信号包括多个源，并且其中，每个源的经缩放多声道信号在矩阵编码之前被组合。

7.一种用于对被指派给相对于收听者位置的定位的至少一个经定位音频源信号以及至少一个未经定位音频源信号进行两声道相位幅度立体声编码的方法，该方法包括：

通过从所述定位导出的独立于频率的编码系数来缩放至少一个音频输入源以生成两声道编码信号，使得所述至少一个源的位置由所述两声道编码信号中的声道间相位和幅度差来表示；

从所述未经定位音频源信号生成第一未经定位音频信号和第二未经定位音频信号，使得第一音频信号和第二音频信号基本不相关；以及

将所述第一音频信号和所述第二音频信号分别添加到第一编码声道信号和第二编码声道信号。

8.一种用于对被指派给相对于收听者的三维空间中的定位的至少一个经定位音频源信号进行两声道相位幅度立体声编码的方法，该方法包括：

通过从所述定位导出的独立于频率的编码系数来缩放所述至少一个音频输入源以生成两声道编码信号，以使得所述至少一个源的位置由所述两声道编码信号中的声道间相位和幅度差来表示；

从未经定位音频源信号生成第一未经定位音频信号和第二未经定位音频信号，以使得第一音频信号和第二音频信号基本不相关；

使得所述定位包括上下维度、左右维度和前后维度。

9.一种用于从具有第一声道信号和第二声道信号的音频输入信号中导出三维经编码定位提示的方法，该方法包括：

(a)将所述第一声道信号和所述第二声道信号转换为包含多个时间-频率拼贴的频域或子频带表示；以及

(b)通过考虑所述第一声道信号和所述第二声道信号之间的声道间幅度差和声道间相位差来导出所述多个时间-频率拼贴中的每个时间-频率拼贴的方向；

以使得所述定位提示包括上下维度、左右维度和前后维度。

10.如权利要求9所述的方法，其中，所述定位提示包括方位角和仰角。

11.如权利要求9所述的方法，其中，导出每个时间-频率拼贴的定位包括：将声道间差映射到概念球体上或概念圆内的位置，以使得所述声道间相位差映射到沿着前后轴的位置坐标。

12.如权利要求9所述的方法，其中，通过对具有多声道空间提示的多声道记录进行相位-幅度矩阵编码来获得所述输入信号，并且所导出的经编码空间提示与所述多声道记录的多声道空间提示基本匹配。

13.如权利要求9所述的方法，还包括：将所述音频输入信号中的周围声音分量与主要声音分量相分离，并且仅导出所述主要声音分量的方向。

14.如权利要求9所述的方法，还包括：将频域信号分解成为主要分量和周围分量，并且为所述主要分量的每个时间和频率确定表示相对于收听者头部的物理位置的空间定位向量，所述定位向量至少由方位角表征，其中，所述方位角是针对每个时间和频率从出现在立体声信号的主要分量中的声道间相位和幅度差导出的。