CN101336563A

CN101336563A - 低复杂度的音频矩阵解码器

Info

Publication number: CN101336563A
Application number: CNA2006800519731A
Authority: CN
Inventors: 陈庆伟; C·查巴尼
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2005-12-02
Filing date: 2006-11-16
Publication date: 2008-12-31
Anticipated expiration: 2026-11-16
Also published as: EP1964443B1; WO2007067320A3; TWI420918B; HK1123663A1; EP1964443A2; TW200746872A; CN101336563B; WO2007067320A2

Abstract

(a)从m个音频输入信号导出n个音频输出信号，其中m和n是正整数，n个音频输出信号是响应于一个或多个控制信号而使用自适应矩阵或矩阵化过程导出的，其中矩阵或矩阵化过程响应于m个音频信号产生n个音频信号，和(b)从m个音频输入信号导出多个时变控制信号，其中控制信号是从m个输入音频信号导出的，使用了：(i)处理器或过程，其响应于m个音频输入信号产生多个定向支配信号，至少一个定向支配信号与第一方向轴相关，至少另一个定向支配信号与第二方向轴相关，和(ii)处理器或过程，其响应于定向支配信号产生控制信号。

Description

低复杂度的音频矩阵解码器

技术领域

本发明涉及音频信号处理。更具体而言，本发明涉及可用于对编码的和未编码的输入信号进行解码的低复杂度的自适应音频矩阵解码器或解码过程。虽然可用作独立的解码器或解码过程，但是解码器或解码过程可以有利地与“虚拟器”或“虚拟化”过程结合使用，这样该解码器或解码过程提供多声道输入到虚拟器或虚拟化过程。本发明还涉及存储在计算机可读介质上的计算机程序，用于使计算机根据本发明各个方面执行解码过程或解码和虚拟化过程。

引用条款

本文所引用的每份专利、公开专利申请和参考文献在此全部以引用方式纳入。

背景技术

“虚拟耳机”和“虚拟扬声器”音频处理器(“虚拟器”)通常将多声道音频信号编码为两个编码声道，其中每个声道的音频信号与一个方向相关联，这样当编码声道被施加到诸如一对耳机或一对扬声器的一对变换器时，相对于变换器适当定位的收听者感觉到音频信号就好像来自不同于变换器位置的位置，即期望的与多声道音频信号的方向相关联的那些方向。耳机虚拟器通常使收听者感觉声音是在“头之外”而不是在头之内。虚拟耳机和虚拟扬声器处理器都涉及对施加到它们的多声道音频信号应用头相关传输函数(HRTF)。虚拟耳机和虚拟扬声器处理器在本领域中是众所周知的，并且彼此类似(虚拟扬声器处理器不同于虚拟耳机处理器之处在于，例如包括了“串音抵消器”)。

耳机和扬声器虚拟器的实例包括以商标“Dolby Headphone”和“Dolby Virtual Speaker”出售的虚拟器。“Dolby”，“Dolby Headphone”和“Dolby Virtual Speaker”是Dolby Laboratories LicensingCorporation的商标。与Dolby Headphone和Dolby Virtual Speaker相关的专利和申请包括U.S.专利6,370,256、6,574,649和6,741,706，以及公开的国际专利申请WO99/14983。其他“虚拟器”包括，例如，在U.S.专利6,449,368和公开的国际专利申请WO2003/053099中描述的虚拟器。

Dolby Headphone和Dolby Virtual Speaker分别使用一对标准耳机或一对标准扬声器来提供多声道环绕声音的印象。最近，DolbyHeadphone和Dolby Virtual Speaker的低复杂度版本被提出，其在例如各种各样新的低成本产品——诸如多媒体移动电话、便携式媒体播放器、便携式游戏控制台和低成本电视机——中是有用的。但是，这样的低成本产品通常是两声道立体音响(“立体声”)设备；而虚拟器要求多声道环绕声音输入。

虽然现有矩阵解码器，例如Dolby Pro Logic II和其前一代产品Pro Logic，有助于将低成本设备的两声道立体声音频输出匹配到Dolby Headphone虚拟器的多声道环绕声音输入，但是现有的矩阵解码器通常会比一些低成本设备所期望使用的要更复杂且资源更密集。“Dolby Pro Logic”和“Dolby Pro Logic II”是Dolby LaboratoriesLicensing Corporation的商标。Dolby Pro Logic II的各个方面在U.S.专利6,920,223和6,970,567以及在公开的国际专利申请WO2002/019768中有阐述。Dolby Pro Logic在U.S.专利4,799,260、4,941,177和5,046,098中有阐述。

因此，需要一种低复杂度的矩阵解码器，尤其是一种为与虚拟器——特别是诸如Dolby Headphone和Dolby Virtual Speaker之类的虚拟器——一起使用所设计和优化的解码器。理想地，这样一种新的矩阵解码器应当将所述过程的每个阶段的复杂度减到最小，同时获得类似于Dolby Pro Logic II解码器的性能。

发明内容

本发明涉及一种处理音频信号的方法，步骤为(1)从m个音频输入信号导出n个音频输出信号，其中m和n是正整数，n个音频输出信号是响应于一个或多个控制信号，使用自适应矩阵或矩阵化过程而导出的，其中矩阵或矩阵化过程响应于m个音频信号而产生n个音频信号，(2)从m个音频输入信号导出多个时变控制信号，其中控制信号是从m个输入音频信号导出的，使用了：(a)响应于m个音频输入信号而产生多个定向支配信号(directional dominance signal)的处理器或过程，其中至少一个定向支配信号与第一方向轴相关，至少另一个定向支配信号与第二方向轴相关，和(b)响应于定向支配信号而产生控制信号的处理器或过程。

自适应矩阵或矩阵化过程可以包括：(1)被动式矩阵或矩阵化过程，其响应于m个音频信号产生n个音频信号，和(2)振幅缩放器或振幅缩放过程，其每一个响应于时变振幅缩放因子控制信号而缩放由被动式矩阵或矩阵化过程产生的其中一个音频信号的振幅，以便产生n个音频输出信号，其中，多个时变控制信号是n个时变振幅缩放因子控制信号，每一个信号用于缩放由被动式矩阵或矩阵化过程产生的每一个音频信号的振幅。

值m可以是2，值n可以是4或5。

产生定向支配信号的处理器或过程可以使用(1)被动式矩阵或矩阵化过程，其响应于m个音频输入信号产生信号对，第一对信号表示沿着第一方向轴相反方向上的信号强度，第二对信号表示沿着第二方向轴相反方向上的信号强度，和(2)处理器或过程，其响应于两对信号产生多个定向支配信号，至少一个与第一和第二方向轴的每一个相关。

产生多个定向支配信号的处理器或过程可以使用：线性振幅域减法器或减法过程，其获得每对信号的幅值之间正的或者负的差值；放大器或放大过程，其放大上述每个差值；限幅器或限幅过程，其将每个放大的差值基本上限制在正限幅电平和负限幅电平；和平滑器或平滑过程，其在时间上平均每个被放大和被限制的差值。

产生多个定向支配信号的处理器或过程可以使用：线性振幅域减法器或减法过程，其获得每对信号的幅值之间正的或者负的差值；限幅器或限幅过程，其将上述每个差值基本上限制在正限幅电平和负限幅电平；放大器或放大过程，其放大每个被限制的差值；和平滑器或平滑过程，其在时间上平均每个被限制和被放大的差值。

放大器或放大过程的放大因子与限幅器或限幅函数将放大的差值限制到的限幅电平之间的关系可以构成正的或负的幅值阈值，低于该阈值的被限制和被放大的差值可具有从0到基本上该限幅电平之间的振幅，高于该阈值的被限制和被放大的差值具有基本上位于该限幅电平的振幅。

对于不相关的音频输入信号，定向支配信号可以近似于基于信号对比较的比率的定向支配信号，对于相关的音频输入信号，定向支配信号可以趋向负的或正的限幅电平。

被限制和被放大的差值相对于该差值的传输函数在阈值之间可以基本上线性。

高于正阈值的差值可以指示沿方向轴的正支配，低于负阈值的差值可以指示沿方向轴的负支配，正阈值和负阈值之间的差值可以指示沿方向轴的非支配。

产生多个定向支配信号的处理器或过程也可以在平滑之前或之后修改被放大和被限制的差值信号，这样所导出的定向支配信号沿着与定向支配信号相关的轴偏移。

产生多个定向支配信号的处理器或过程在沿着方向轴有非支配时，与存在正的或负的支配相比，可以不同地修改被放大和被限制的差值信号。

响应于多个定向支配信号而产生控制信号的处理器或过程可以对多个定向支配信号的每一个应用至少一个移位(panning)函数。

另一方面，本发明可以从n个音频输出信号导出p个音频信号，其中p是2，p个音频信号使用虚拟器或虚拟化过程从n个音频信号中导出，这样当p个音频信号被施加到一对变换器时，相对于变换器适当定位的收听者感觉到n个音频信号好像来自不同于变换器位置的位置。所述虚拟器或虚拟化过程可以包括向n个音频输出信号的一些应用一个或多个头相关传输函数。所述变换器可以是一对耳机或一对扬声器。

虽然本发明的各个方面适合于其它类型的矩阵解码器使用，但是在示例性实施例中，使用了固定矩阵可变增益方法，因为该方法与可变矩阵方法相比具有低的复杂性。对于其中单音频事件很常见的游戏音频来说，由于使用可变增益解码器而出现的单声源的优良隔离是可以接受的，如果不是优选的话。

当使用虚拟器工作时，希望尽可能地减少由于不同声道的头相关传输函数(HRTF)之间和之中的相互作用和抵消而带来的声道间的泄漏。可变增益方法允许完全关掉某个声道，将声道间泄漏保持在最小值。

此外，当使用可变增益解码器时可能在某些信号条件下出现的“抽运(pumping)”副作用并不像与虚拟器结合使用时那么令人讨厌。这是因为虚拟器具有为每个输入声道产生两声道输出的特性。虽然可变增益矩阵解码器会使某些扬声器完全关闭，但是只要其输入之中至少一个有效，虚拟器两个输出的任意一个都不会完全关闭。

如下面进一步解释的那样，可以进行优化以便处理可变增益方法的另一个已知的缺点——非支配信号的损耗，从而得到具有在这两个方面都为最佳的解码器。

此外，根据本发明，由于矩阵解码器的一个用途是为虚拟器导出多声道内容，输出的数量可以被限制为4个：左，右，左环绕和右环绕。实际上，虚拟器主要的目标是营造感觉美好的整个环绕收听者的方向性；这可以通过使用仅仅4个声道来实现，省略中间声道，如果包含中间声道将显著提高处理执行时间，却只稍微增强方向性的感觉。

由于当头相关传输函数(HRTF)被加到一起时会发生相消干扰，因此优选避免声道之间和之中的相关性。换句话说，当信源在同一时刻被尽可能地转向(steer)一个扬声器时，虚拟器表现得更好。但是，获得这样的结果应当与折衷(compromising)整个音场(sound stage)进行平衡。

附图说明

图1是根据本发明各个方面的处理器或过程的实例的示意功能框图，用于从多个音频输入信号导出中间控制信号对，该中间控制信号对表示沿方向轴相反方向上的信号强度。该实例可被标记为“阶段1”，其中，有两个音频输入信号Lin和Rin，和两对中间控制信号L-R和F-B。

图2是根据本发明各个方面的处理器或过程的实例的示意功能框图，用于导出多个定向支配信号，每一对中间控制信号对应于至少一个这样的定向支配信号。该实例可被标记为“阶段2”，其中，有两对中间控制信号L-R和F-B，和两个定向支配信号LR和FB。

图3示出基于正交的LR和FB轴的两维平面中的概念上或理论上的定向支配矢量的实例。

图4是信号振幅与时间的理想关系曲线图，分别显示了两声道立体声信号的绝对值L和R，其中左输入声道(Lin)在取其绝对值之前是50Hz正弦波，峰值振幅为0.4，右输入声道(Rin)在取其绝对值之前是(50*√2)Hz的正弦波，峰值振幅为1.0。所述正弦波的频率是不相关的，左声道的电平是右声道电平的0.4倍。

图5是信号振幅与时间的理想关系曲线图，显示了从R减去L的结果，以及将差值增大然后在-1.0和+1.0处限幅以提供准矩形波的结果。

图6是信号振幅与时间的理想曲线图，显示了馈送图5的准矩形波通过平滑滤波器而得到的平滑后的LR中间控制信号，说明对于基本不相关的信号输入，定向支配信号达到的值接近于沿着与LR中间控制信号相关的方向轴的信号强度进行基于比率的比较所得到的值。

图7是显示根据如图2所示的本发明各个方面修改的处理器或过程的实例的示意功能框图。该实例也可被标记为“阶段2”，其中，被放大和被限幅的FB差值被限制为小于0的值，以便将FB支配信号向后偏移。

图8是增益与以弧度为单位的角度的理想关系曲线图，显示了在左(L)和右(R)音频声道之间的共同声像移位(pan)律，一种正弦/余弦声像移位律，其中L＝cos(x)＊输入，R＝sin(x)＊输入，x从0到π/2之间变化。

图9a是当与图8相同的正弦/余弦声像移位律被应用于LR轴时，增益与panL和panR的定向支配信号电平的理想关系曲线图，其中panL和panR分别表示来自左和右的增益贡献。

图9b是与图8相同的正弦/余弦声像移位律被应用于FB轴时，增益与panB和panF的定向支配信号电平的理想关系曲线图，其中panB和panF分别表示来自后和前的增益贡献。

图10是显示LGain等式的准3维表示的理想关系曲线图(轴是归一化增益，以及FB和LR的值)。

图11是显示LGain、RGain、LsGain和RsGain等式的准3维表示的理想关系曲线图(轴是归一化增益，以及FB和LR的值)。

图12是显示0到π/2之间余弦曲线和余弦曲线的二阶多项式近似的理想图形，说明近似值y＝(1-x²)在0＜x＜1的范围内相当接近y＝cos(x*π/2)。其中下面的曲线是近似曲线。

图13是显示修改的LGain、RGain、LsGain和RsGain等式的准3维表示的理想图形(轴是归一化增益，以及FB和LR的值)，其中当计算LGain和RGain时不使用LR移位分量。

图14是显示根据本发明各个方面的处理器或过程的实例的示意功能框图，用于从多个定向支配信号导出多个控制信号。该实例可被标记为“阶段3”，其中，4个控制信号LGain、RGain、LsGain和RsGain是从两个定向支配信号LR和FB导出的。

图15是显示根据本发明各个方面的自适应矩阵处理器或过程的实例的示意功能框图，用于从输入音频信号和多个控制信号导出多个音频输出信号。该实例可被标记为“阶段4”，其中，一对音频输入信号Lin和Rin被施加到被动式矩阵，每个矩阵输出的电平由4个控制信号LGain、RGain、LsGain和RsGain各自控制以便产生4个音频输出信号LOut、ROut、LsOut和RsOut。

图16是显示该实例的全部4个阶段的总体示意功能框图，指示出它们之间的关系。

具体实施方式

通过结合示例性实施例可以更好的理解本发明的各个方面，为了描述方便，该实施例可以分为4个阶段。在自适应矩阵音频解码器或解码过程的情况下，4个阶段的总的关系如图16所示：接收m个输入音频信号，在该实例中是2个信号Lin和Rin，输出n个音频信号，在该实例中是4个信号LOut(左输出)，ROut(右输出)，LsOut(左环绕输出)和RsOut(右环绕输出)。解码器或解码过程具有控制路径和信号路径，其中控制路径包括阶段1、2和3，信号路径包括阶段4中的自适应矩阵或矩阵化过程。多个时变控制信号，在该实例中是4个控制信号，是通过控制路径而产生的，并被施加到自适应矩阵或矩阵化过程。

阶段1

首先看阶段1，如图1所示，m个音频输入信号，在该实例中是Lin和Rin，被施加到处理器或过程，其响应于上述m个音频输入信号导出信号对：第一对信号，在该实例中是L和R，表示沿着第一方向轴相反方向上的信号强度，其中第一方向轴在该实例中是L-R或左-右轴；第二对信号，在该实例中是F和B，表示沿着第二方向轴相反方向上的信号强度，其中第二方向轴在该实例中是F-B或前-后轴。虽然本实例使用了2个正交的方向轴，但是可以不止2个方向轴(因此就有不止2对信号，表示沿着附加的各方向轴相反方向的信号强度)，并且轴不需要是正交的(例如，参见所述的U.S.专利6,970,567)。阶段1的处理器或过程可视作被动式矩阵或矩阵化过程。在该实例中，简单的被动式矩阵计算左、右、和、差信号，它们的绝对值被用作中间控制信号L、R、F和B。更具体而言，该实例的被动式矩阵或被动式矩阵化过程可以由以下等式表征：

L＝|Lin|

R＝|Rin|

F＝|(0.5*Lin)+(0.5*Rin)|

B＝|(0.5*Lin)-(0.5*Rin)|

阶段2

然后看阶段2，如图2所示，多个信号对被施加到产生多个定向支配信号的处理器或过程，其中每对信号表示沿方向轴相反方向的信号强度。在该实例中，有2对信号L-R和F-B被施加到阶段2，且阶段2产生两个定向支配信号LR和FB。原理上，如上所述，可有不止2个方向轴(因此，会有不止2对信号和不止2个定向支配信号)。也可能产生比具有的信号对和相关轴更多的定向支配信号。这可以通过以不止一种方法处理一对被施加的信号来实现，以便响应于特定的被施加的信号对而产生多个定向支配信号。在描述阶段2的实例细节之前，解释一下阶段2的操作基本原理是有帮助的。

在4个方向(L，R，F，B)的每一个获得了信号强度的测量后，希望将在一个方向上的强度与在相反方向上的强度相比较(L与R相比，F与B相比)以便提供沿着该方向轴的支配的测量。因为该实例中的4个方向提供互为90度的两个方向轴(正交轴)，因此这样的一对支配可以被理解为在2维LR/FB平面上的单个支配矢量。这样的概念上或理论上的支配矢量如图3的实例所示。虽然根据本发明的各个方面，这样的支配矢量隐含在矩阵解码器或解码过程的操作中，但是这样的支配矢量不需要明确计算。

沿着LR轴的负值可指示支配向左，而正的LR值可指示支配向右。类似地，负的FB值可指示支配向后，而正的FB值可指示支配向前。将这两个支配值理解为2D矢量的分量，可以将信号的支配形象化，如同位于LR/FB平面的任何地方。

在大多数现代矩阵解码器中，包括Dolby Pro Logic和Dolby ProLogic II，在LR方向上的支配是使用L和R的比率计算的，而在FB方向上的支配是使用F和B的比率来计算的。因为比率独立于正在比较的两个信号的幅值，因此比率在实际音频信号中发现的固有的振幅变化期间始终提供稳定的支配方向。不幸的是，如果由控制数字信号处理器(“DSP”)的计算机程序来实现这样的方法，该方法需要程序中的选择语句来选择分子和分母，以及将符号分配给支配值。更重要地，导出比率的普通方法——诸如在log域中的除法或减法——需要可观的计算资源。在线性振幅域(例如，不是对数域)中对两个数字进行减法的更加简单的方法当然可实现更有效的计算，但是这种减法产生的支配信号随着信号振幅的固有变化而迅速改变。

为了减少实施的复杂度，本发明的各个方面保留了大部分基于比率比较的振幅独立性，但是需要少得多的计算量。

阶段2的处理器或过程使用线性振幅域减法器或减法过程产生多个定向支配信号，其中减法器或减法过程获得每对被施加的信号的幅值的正或负的差值。这样的减法可以用非常低的计算资源实现。每个减法的结果由放大器或放大过程放大，并且被放大的差值被施加到限幅器或限幅过程，该限幅器或限幅过程将每个被放大的差值基本上限制在正的限幅电平和负的限幅电平。可替换地，放大器/放大过程和限幅器/限幅过程的顺序可以相反，使用适当的限幅电平以便产生相等的结果。平滑器或平滑过程可以在时间上平均每个被放大和被限制的差值，以提供定向支配信号。

放大器或放大过程的放大因子与限幅器或限幅函数将放大的差值限制到的限幅电平之间的关系构成正的或负的幅值阈值，低于该阈值的被限制和被放大的差值具有从0到基本上该限幅电平之间的振幅，大于该阈值的被限制和被放大的差值具有基本上位于该限幅电平的振幅。虽然特定传输函数并不关键，并可采取许多形式，但是在其中被限制和被放大的差值相对于该差值在阈值之间基本上为线性的传输函数具有非常低的计算要求并且是合适的。

阶段2的处理器或过程可以包括在其处理期间在平滑之前或之后对被放大和被限制的差值信号的修改，这样所导出的定向支配信号是沿着与定向支配信号相关的轴“偏移”的。该偏移可以是固定的或是自适应的。例如，在放大和限幅之后的差值信号，其振幅可以缩放和/或移动(即，偏置)和/或被限制，或者添加符号，该符号以固定的方式添加，或者，举例而言，作为被放大和被限幅的差值信号的幅值、符号或幅值和符号的函数被添加。例如，结果可以包括与相对于支配信号相比，向非支配信号应用较少的偏移(支配和非支配在下文进一步解释)。将“偏移”应用到定向支配的实例在下文结合图7进行描述。

在图2的阶段2，两对信号L-R和F-B被施加，以便产生两个定向支配信号LR和FB。给定4个中间方向信号(L，R，F，B)，如上所述，通过比较沿着每个轴的方向性，可以导出2个支配信号分量LR和FB。根据本发明的各个方面，这是通过从L减去R，从F减去B(或者在所有情况下相反)来实现的，以便提供沿着每个轴的幅值差值信号。向所述差值信号施加大的增益，并且被放大的差值被限幅(严格限制)为-1.0和+1.0。被限幅的差值信号然后被施加到时间平滑滤波器。

通过对差值信号施加大的增益和限幅，基本上，在一个方向上的任何支配量都被视作在该方向上的绝对支配。对于那些瞬时方向从一个极性改变为另一个极性的信号来说，该操作的结果类似于具有可变频率和占空比的矩形波。该时间平滑滤波器将基本为矩形的波进行平均，以便提供接近于原始方向信号彼此之间比率的连续曲线。虽然所使用的确切滤波器是设计选择，但是该滤波器可以被有效地实现，例如被实现为具有大约40ms时间常数的一阶数字IIR低通滤波器。

除了检测沿着每个轴的支配方向，呈现“非支配”可以是有利的。例如，纯粹左转向的输入信号应当在左-右轴上展现强的支配，而在前-后轴上应当绝对没有支配。另一个实例是极低电平的信号，例如背景噪声，其优选不会引起任何转向效应(steering effects)。根据本发明的各个方面，实现这个的通常做法是选择阈值，并向幅值大于阈值的差值分配值-1.0或1.0(根据差值的符号)，向幅值小于阈值的差值分配在两个极值之间的一些值。一种可能就是向所有低于阈值的差值分配值0.0。为了实现这个，在程序控制的DSP中将需要一些条件语句和数值比较。从低复杂度的观点来看较好的方法是使用大增益来放大差值，这样，低于阈值的输出值从-1.0到+1.0遵循线性函数。所述增益是所述阈值的倒数。该方法非常有效——增益和限幅阶段都可以在程序控制的DSP中实现为算术左移(对于增益，其是2的幂)，其具有DSP的“饱和逻辑”设置(即，在DSP中设置控制寄存器/位，这样当ALU溢出时，根据符号，结果被设置为由平台表示的最大正值或者最小负值)。可以实现不是2的幂的增益，其处理复杂度仅仅有轻微的增加。

3个范围的支配信号(负支配、正支配和非支配)允许在平滑之前区分沿着方向轴的支配和非支配。如上所述，区分支配和非支配有利于将“偏移”自适应地应用到定向支配信号，以下将联系图7给出其实例。例如，如下所述，在本发明的各个方面中，在平滑之前将仅仅左转向的信号与左环绕转向的信号进行区分以及将仅仅右转向的信号与右环绕转向的信号进行区分是有用的。

在本发明的实际实施例中，为了确定区分侧(左或右)转向的信号和环绕(左环绕或右环绕)转向的信号所需的最小增益，使用DolbyPro Logic II矩阵编码器编码的音乐素材被解码。为左环绕或右环绕转向的输入测量平均(F-B)差值信号，并将其用作最大阈值(最小增益)的估计，该估计将保持左和左环绕(或者是右和右环绕)之间明显的区别。在根据本发明各个方面的解码器的实际实施例中，增益因子1024被使用，对于被归一化到[-1+1]的信号，这相当于近似为0.001的阈值。小于0.001的阈值产生少量可听见的改进，而更大的阈值将侧(左和右)和环绕(左环绕和右环绕)之间的隔离减少到不可接受的电平。总之，阈值电平不是关键性的。

为了示出该技术，考虑2声道立体声信号，其中左输入声道(Lin)是50Hz正弦波，其峰值振幅为0.4，右输入声道(Rin)是(50*√2)Hz的正弦波，其峰值振幅为1.0。这样的信号如图4所示。所述正弦波的频率是不相关的，左声道电平是右声道电平的0.4倍。使用上面描述的基于比率的比较，这在右方向上提供值为0.6的支配(这里定义为正)。如在阶段1所示，L和R中间信号是输入信号Lin和Rin的幅值。

从R减去L之后，差值被乘以例如1024(实施为算术左移10位)，然后在-1.0和+1.0之间限幅，以便提供准矩形波。图5显示了在限幅之前和之后的差值信号。

馈送准矩形波通过平滑器滤波器，可提供LR定向支配信号。在该实例中，输入信号具有稳定的电平，定向支配信号最终达到0.65的值并在其附近振荡，如图6所示，接近于使用基于比率的比较所计算出的支配值。振荡的平滑度是平滑滤波器阶数和特征的函数。

该实例代表了那些在每个输入中具有大量不相关信号的音频素材，诸如未编码的2声道立体声音乐，其中被限幅放大的差值信号的极性经常反转。在这些输入条件下，减法/放大/限幅导出的支配控制信号产生了与基于比率的比较所获得的结果接近的结果。

但是，对于在两个声道具有共同(即，相关)信号的素材，例如在矩阵编码的内容中包含的转向单声道声源，限幅的差值信号并不包含许多零交叉(zero crossing)。在这样的情况下，如果并且当该差值信号的极性最终反转时，即使平滑后的控制信号也趋向于“锁定”到两个极值(即+1.0和-1.0)之一，且具有到另一个极值的平滑的过渡交叉。这种一个支配分量的“锁定”可以被认为是将2维支配矢量沿着LR/FB平面的边缘拉出。当两个分量均被“锁定”时，支配矢量被拉向LR/FB平面的四个角之一。根据本发明的各个方面，通过向虚拟器提供更离散的单声道输入，这样的硬移位(hard-panning)改进了矩阵编码内容的空间成像。

前后支配偏移

可变增益方法的缺点在于，非支配信号可能会在解码输出中丢失。这在音乐声源中明显，因为其中有大量的声源与许多不同的电平和相位差混合在一起。经常，有少数主乐器和声乐在左和右相等地混合，但仍然有添加到声场的整个空间和气氛中的许多其他次支配的、异相的声音。因为解码器仅仅使用最主要的支配声音分量的方向，在这样的素材上使用传统的可变增益方法会导致几乎没有异相素材从后方解码器输出(在该实例中，左环绕和右环绕输出)中输出。

根据本发明的一个方面，通过将FB支配信号向后偏移来减轻该问题，确保异相素材不会从环绕输出被完全移除。一种实现此的方法就是在平滑滤波器之前将FB信号限制为负值。这如图7的实例所示。对于-1.0和1.0之间的纯矩形波，这等价于将平滑滤波器的输出缩小一半之后再加上-0.5的固定偏置。这样的修改可用在平滑滤波器之前或者之后。但是，被限幅的差值信号可以不是纯矩形波。相反，当差值信号落在阈值之下时，被限幅的差值信号可以包括中间值，指示沿着特定轴的非支配。当被限幅的差值信号的幅值小于1.0时，将FB限制为负值的过程在平滑之后产生较小以至可忽略的有效偏移。因此，通过这种方法在平滑之前能够将非支配从正的或负的支配中区别开来，这允许纯左和纯右导引的信号保持与环绕的高隔离，同时给予大多数其他信号向后的显著偏移。

阶段3

阶段3的处理器或过程响应于多个定向支配信号，通过以下方式而产生控制信号来控制自适应矩阵或矩阵化过程，即将一个或多个移位函数(移位函数是表示声道间“移位”特性的传输函数)应用到每个定向支配信号。一个或多个所述移位函数可以实现为以下之一或多个：

三角传输函数(诸如正弦或余弦传输函数)，

对数传输函数，

线性传输函数，和

三角传输函数的数学简化近似

在该实例中，阶段3的目的是获取在前一阶段计算的LR和FB支配信号，并导出增益因子，该增益因子可应用到被动式矩阵的输出以便产生解码输出。

根据本发明各个方面，矩阵解码器或解码过程的通常方法是：在输入端检测到某个支配方向后，加重最接近该支配位置的输出声道，并削弱距离该支配位置最远的输出声道。在最接近支配位置的两个输出之间，该问题可以被减小为成对的声像移位，其可以被表达为移位函数。

正弦/余弦声像移位律

两个声道间最普通的声像移位律就是正弦/余弦声像移位律，其中，L＝cos(x)＊输入，和R＝sine(x)＊输入，x在0到π/2之间变化。参见图8。

2维正弦/余弦声像移位律

每个解码器输出声道的增益必须被表达为LR和FB的函数：

LGain＝f_L(LR，FB)

RGain＝f_R(LR，FB)

LsGain＝f_Ls(LR，FB)

RsGain＝f_Rs(LR，FB)

可以将如上描述的相同的正弦/余弦声像移位律应用到LR和FB轴，并且获得如图9a和9b所示的移位曲线，其中panL，panR，panB，和panF分别表示来自左，右，后和前的增益贡献。

注意到正弦函数是具有一定相移的余弦函数，可以仅使用余弦函数获得以下移位等式：

panL＝cos((LR+1)/2*π/2)

panR＝sin((LR+1)/2*π/2)＝cos((LR-1)/2*π/2)

panB＝cos((FB+1)*π/2)

panF＝sin((FB+1)*π/2)＝cos(FB*π/2)

由于LR/FB平面上左声道位置的特性(参见图3)，只有当panL和panF都是最大时LGain才应当是最大，并且应当随着支配在两个轴或两个轴之一上更远而减小。这可以通过将panL和panF相乘来实现。相同的原理可以应用于RGain，LsGain和RsGain，并且对于所有增益最终等式变成：

LGain＝panL*panF

RGain＝panR*panF

LsGain＝panL*panB

RsGain＝panR*panB

乘法的使用也可以看作两个正弦/余弦振幅移位函数的相互缩放，其中两个分量的最小值变成了总增益所能达到的最大值。

图10显示了LGain等式的3维表达，图11是叠加在一起的全部4个增益的3维表达。

余弦函数的多项式近似

如图8所述，声像移位律由2条曲线组成：cos(x)和sin(x)。(sin函数可以由具有合适相移的cos函数代替。)为了避免复杂的计算或者使用大的查找表，根据本发明的一个方面，可以替代地使用余弦曲线在0到π/2之间的二阶多项式近似。在0＜x＜1的范围内，等式y＝(1-x²)合理地接近于y＝cos(x*π/2)。(参见图12，其中下面的那条曲线是该近似)。使用该近似，可以具有很小以至听不见的差别。

前移位调整

因为预期的音频输入源是2声道立体声，其已经被自然地混合到L和R之间的声像移位，因此当计算LGain和RGain时不考虑LR移位分量，这是本发明的一个方面。在这种情况下，在可变增益中附加的左-右移位将不会显著地提高隔离，因为L和R已经被很好的隔离了。通过避免不必要的增益提升(gain riding)，除了可节约一些计算量，还可以允许在前方的更稳定的声场。移除LR分量之后，可以获得以下等式：

LGain＝panF

RGain＝panF

LsGain＝panL*panB

RsGain＝panR*panB

这些新等式的3维表示如图13所示。

注意到，类似的简化可以应用到Ls增益和Rs增益等式，从而不使用附加的LR移位，并且在源信号中的自然移位被用于创建两个环绕声道之间的隔离。但是，在这种情况下，Ls和Rs隔离由在阶段4中发生的被动式解码的性能所限制。被动式解码矩阵或矩阵化过程，例如形成本发明各个方面的一部分的被动式解码矩阵或矩阵化过程，只能获得Ls和Rs之间的3dB隔离，因此从声道隔离的观点来看使得该简化不可被接受。为了维持更高的隔离度，LsGain和RsGain等式中的LR分量被保留。

最终增益等式

在每个移位项中将所述余弦用多项式近似来替代，可以为每个增益因子导出最终等式：

LGain＝1-FB²

When FB＝0→LGain＝1

When FB＝-1→LGain＝0

RGain＝1-FB²

When FB＝0→RGain＝1

When FB＝-1→RGain＝0

LsGain＝[1-((LR+1)/2)²]*[1-(FB+1)²]

When FB＝0→LsGain＝0

When FB＝-1 and LR＝-1→LsGain＝1

When FB＝-1 and LR＝1→LsGain＝0

RsGain＝[1-((LR-1)/2)²]*[1-(FB+1)²]

When FB＝0→Rs gain＝0

When FB＝-1 and LR＝-1→RsGain＝0

When FB＝-1 and LR＝1→RsGain＝1

参考图14，控制信号LGain，RGain，LsGain和RsGain是这样导出的：将移位函数应用到定向支配信号中，和/或将移位函数应用到一个定向支配信号所得到的结果和将移位函数应用到另一个定向支配信号所得到的结果的乘积，其中每个移位函数可以不同于一些或全部其他移位函数。所述移位函数不是在n个输入音频信号中固有的。在该例子中，其中一个方向轴是左/右轴，且所述移位函数不包含左/右移位分量。以下所述应用到该实例中。LR定向支配信号被应用到panL移位函数和panR移位函数中。FB定向支配信号(或者如图2所示不具有偏移，或者如图7所示具有偏移)被应用到panF移位函数和panB移位函数中。将panF函数应用到FB支配信号的结果作为LGain和RGain被应用到阶段4的解码器或解码过程。将panB函数应用到FB支配信号所得到的结果乘以将panL函数应用到LR支配信号所得到的结果，并且将该乘积作为LsGain应用到阶段4的被动式解码器或解码过程。将panR函数应用到LR支配信号所得到的结果乘以将panB函数应用到FB支配信号所得到的结果，并且将该乘积作为RsGain应用到阶段4的被动式解码器或解码过程。

阶段4

图15显示了：被动式矩阵或矩阵化过程，其响应于m个音频信号产生n个音频信号；振幅缩放器或振幅缩放过程，其每一个响应于时变振幅缩放因子控制信号而缩放由被动式矩阵或矩阵化过程产生的其中一个音频信号的振幅，以便产生n个音频输出信号，其中多个时变控制信号是n个时变振幅缩放因子控制信号，其每一个用于缩放由被动式矩阵或矩阵化过程产生的每一个音频信号的振幅。在图14的实例中，有2个输入音频信号Lin和Rin，4个音频输出信号LOut，Rout，LsOut和RsOut，和4个缩放因子控制信号LGain，RGain，LsGain，和RsGain(来自阶段3)。

在图15的实例中，4个音频输出信号可以由以下等式表征：

LOut＝LGain*(a*Lin+b*Rin)

ROut＝RGain*(c*Lin+d*Rin)

LsOut＝LsGain*(e*Lin+f*Rin)

RsOut＝RsGain*(g*Rin+h*Lin)

其中a到h是矩阵系数，如图15所示。系数a到h可以被选择与Dolby Pro Logic II编码/解码系统中使用的那些系数相匹配，其中：

a＝1.0，b＝0.0，

c＝0.0，d＝1.0，

e＝0.8710，f＝-0.4898，

g＝-0.4898，h＝0.8710

这提供了最终等式：

LOut＝LGain*Lin

ROut＝RGain*Rin

LsOut＝LsGain*(0.8710*Lin-0.4898*Rin)

RsOut＝RsGain*(0.8710*Rin-0.4898*Lin)

图16显示了该实例的全部4个阶段的总体图，示出他们之间的关系。

实现

本发明可以用硬件或软件或者使用两者结合(例如，可编程逻辑阵列)来实现。除非特别指出，作为本发明一部分被包括的算法并不内在地与任何特定计算机或其他装置相关。特别地，各种通用机器——例如数字信号处理器——可以与根据这里的教导所写的程序一起使用，或者构造更多专门的装置(例如，集成电路)以执行所需的方法步骤，这可能更为方便。因此，本发明可以实现为在一个或多个可编程计算机系统上运行的一个或多个计算机程序，每个计算机系统包括至少一个处理器，至少一个数据存储系统(包括易失性和非易失性存储器和/或存储部件)，至少一个输入设备或端口，以及至少一个输出设备或端口。程序代码可以应用到输入数据，以便执行这里所述的功能并产生输出信息。输出信息以已知的方式被应用到一个或多个输出设备。

每个这样的程序可以以任何期望的计算机语言(包括机器、汇编、或高级程序、逻辑或面向对象的编程语言)来实现以便与计算机系统通信。在任何情况下，该语言可以是编译的或者解释语言。

每个这样的程序优选存储在或者下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质，或磁的或光介质)上，用于在存储介质或设备被计算机系统读取时配置和操作计算机，以便执行这里所描述的过程。本发明的系统还可以考虑被实现为配置了计算机程序的计算机可读存储介质，其中这样配置的存储介质使计算机系统以规定的和预定的方式操作，以执行这里所描述的功能。

在适合于控制数字信号处理器的计算机程序中实施的本发明的实际实施例已经用小于30行的C代码实现，运行在大约3MIPS，实际上没有使用存储器。这大约是Dolby Pro Logic II解码器估计要使用的MIPS的15％。处理可以完全保留在时域中，并且可以在每个样本基的样本上执行(没有块处理)。为了对每个样本最小化运行时间，实现可以避免使用分支和数学函数，诸如平方根，正弦，余弦和除法。实现也可以避免使用查找表和先行延迟，使用查找表和先行延迟会增加存储器要求并增加执行时间。因此，本发明的各个方面可以使用非常简单的计算机程序和非常基本的数字信号处理器来实现。尤其考虑到其简单性，本发明的各个方面也可以使用模拟电路实现。

本发明的许多实施例已经被描述。但是，应当理解，可以进行各种修改而不背离本发明的精神实质和范围。例如，这里所描述的一些步骤可以不依赖顺序，因此可以以不同于所描述的顺序来执行。

Claims

1.一种处理音频信号的方法，包括：

从m个音频输入信号导出n个音频输出信号，其中m和n是正整数，n个音频输出信号是响应于一个或多个控制信号使用自适应矩阵或矩阵化过程导出的，其中矩阵或矩阵化过程响应于m个音频信号产生n个音频信号，

从所述m个音频输入信号导出多个时变控制信号，其中使用以下处理器或过程从m个输入音频信号导出所述控制信号：

响应于所述m个音频输入信号产生多个定向支配信号的处理器或过程，其中至少一个定向支配信号与第一方向轴相关，且至少另一个定向支配信号与第二方向轴相关，和

响应于所述定向支配信号产生所述控制信号的处理器或过程。

2.根据权利要求1的方法，其中所述自适应矩阵或矩阵化过程包括：

被动式矩阵或矩阵化过程，其响应于m个音频信号产生n个音频信号，和

振幅缩放器或振幅缩放过程，其每一个响应于时变振幅缩放因子控制信号而缩放由被动式矩阵或矩阵化过程产生的其中一个音频信号的振幅，以便产生所述n个音频输出信号，

其中，所述多个时变控制信号是n个时变振幅缩放因子控制信号，每一个信号用于缩放由被动式矩阵或矩阵化过程产生的每一个音频信号的振幅。

3.根据权利要求1或权利要求2的方法，其中m是2，n是4或5。

4.根据权利要求1，2或3的方法，其中产生定向支配信号的处理器或过程使用

被动式矩阵或矩阵化过程，其响应于m个音频输入信号产生信号对，第一对信号表示沿着第一方向轴相反方向上的信号强度，第二对信号表示沿着第二方向轴相反方向上的信号强度，和

响应于所述两对信号产生所述多个定向支配的信号处理器或过程，其中至少一个与所述第一和第二方向轴的每一个相关。

5.根据权利要求4的方法，其中产生多个定向支配信号的处理器或过程使用：线性振幅域减法器或减法过程，其获得每对信号的幅值之间的正的或者负的差值；放大器或放大过程，其放大每个所述差值；限幅器或限幅过程，其将每个放大的差值基本上限制在正限幅电平和负限幅电平；和平滑器或平滑过程，其在时间上平均每个被放大和被限制的差值。

6.根据权利要求4的方法，其中产生多个定向支配信号的处理器或过程使用：线性振幅域减法器或减法过程，其获得每对信号的幅值之间的正的或者负的差值；限幅器或限幅过程，其将每个差值基本上限制在正限幅电平和负限幅电平；放大器或放大过程，其放大每个所述被限制的差值；和平滑器或平滑过程，其在时间上平均每个被限制和被放大的差值。

7.根据权利要求5或权利要求6的方法，其中放大器或放大过程的放大因子与限幅器或限幅函数将放大的差值限制到的限幅电平之间的关系可以构成正的或负的幅值阈值，低于该阈值的被限制和被放大的差值具有从0到基本上该限幅电平之间的振幅，高于该阈值的被限制和被放大的差值具有基本上位于该限幅电平的振幅。

8.根据权利要求7的方法，其中对于不相关的音频输入信号，定向支配信号近似于基于信号对比较的比率的定向支配信号，对于相关的音频输入信号，定向支配信号趋向负的或正的限幅电平。

9.根据权利要求7的方法，其中被限制和被放大的差值相对于该差值的传输函数在阈值之间基本上是线性的。

10.根据权利要求7或权利要求9的方法，其中高于正阈值的差值指示沿方向轴的正支配，低于负阈值的差值指示沿方向轴的负支配，正阈值和负阈值之间的差值指示沿方向轴的非支配。

11.根据权利要求5，6，7，9和10中任一项的方法，其中产生多个定向支配信号的处理器或过程还在平滑之前或之后修改被放大和被限制的差值信号，使得所导出的定向支配信号沿着与定向支配信号相关的轴偏移。

12.根据从属于权利要求10的权利要求11的方法，产生多个定向支配信号的处理器或过程在沿着方向轴存在非支配时，与存在正的或负的支配时相比，不同地修改被放大和被限制的差值信号。

13.根据权利要求5，6，7，9和10中任一项的方法，其中产生多个定向支配信号的处理器或过程还在平滑器或平滑过程之前限制限幅器或限幅过程的输出的正的或负的幅值。

14.根据权利要求13的方法，其中产生多个定向支配信号的处理器或过程在平滑器或平滑过程之前限制至少一个限幅器或限幅过程的输出的正的幅值。

15.根据权利要求14的方法，其中第一方向轴是前/后轴，并且产生多个定向支配信号的处理器或过程限制处理前/后轴定向支配信号的限幅器或限幅过程的输出的正的幅值。

16.根据权利要求4到15中的任一项的方法，其中响应于所述多个定向支配信号而产生所述控制信号的处理器或过程对所述多个定向支配信号中的每一个应用至少一个移位函数。

17.根据权利要求16的方法，其中一个或多个移位函数实现三角传输函数。

18.根据权利要求16的方法，其中一个或多个移位函数实现对数传输函数。

19.根据权利要求16的方法，其中一个或多个移位函数实现线性传输函数。

20.根据权利要求16的方法，其中一个或多个移位函数实现三角传输函数的数学简化近似。

21.根据权利要求16到20中任一项的方法，其中控制信号从以下导出：

将移位函数应用到定向支配信号，和/或

将移位函数应用到一个定向支配信号所得到的结果和将移位函数应用到另一个定向支配信号所得到的结果的乘积，

其中每个移位函数可以不同于一些或全部其他移位函数。

22.根据权利要求16到20任一项的方法，其中所述移位函数不是在n个输入音频信号中固有的。

23.根据权利要求22的方法，其中一个方向轴是左/右轴，且移位函数是不包含左/右移位分量的移位函数。

24.根据权利要求16到23任一项的方法，其中所述n个时变缩放因子信号的至少一些是从将一个单独的移位函数应用到定向支配信号而导出的，且所述n个时变缩放因子信号的其他一些是从将一个单独的移位函数应用到一个定向支配信号所得到的结果和将另一个单独的移位函数应用到另一个定向支配信号所得到的结果的乘积而导出的。

25.根据权利要求24的方法，其中一个定向支配信号的方向轴是左/右轴，另一个定向支配信号的方向轴是前/后轴，其中所述n个时变缩放因子信号的至少一些是从将一个单独的移位函数应用到前/后定向支配信号而导出的，且所述n个时变缩放因子信号的至少一些是从将一个单独的移位函数应用到左/右定向支配信号所得到的结果和将另一个单独的移位函数应用到前/后定向支配信号所得到的结果的乘积而导出的。

26.根据权利要求1到25任一项的方法，还包括：

从所述n个音频输出信号导出p个音频信号，其中p是2，且所述p个音频信号是使用虚拟器或虚拟化过程从所述n个音频输出信号导出，使得当p个音频信号被施加到一对变换器时，相对于变换器适当定位的收听者感觉到n个音频信号来自不同于变换器位置的位置。

27.根据权利要求26的方法，其中虚拟器或虚拟化过程包括将一个或多个头相关传输函数应用到所述n个音频输出信号中的多个信号。

28.根据权利要求26或权利要求27的方法，其中所述一对变换器是一对耳机。

29.根据权利要求26或权利要求27的方法，其中所述一对变换器是一对扬声器。

30.一种适用于执行根据权利要求1到29任一项所述的方法的装置。

31.一种存储在计算机可读介质上的计算机程序，用于使计算机执行根据权利要求1到29任一项所述的方法。