CN101341793A

CN101341793A - 从立体声信号产生多声道音频信号的方法

Info

Publication number: CN101341793A
Application number: CNA2006800322282A
Authority: CN
Inventors: 克里斯托夫·法勒
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2005-09-02
Filing date: 2006-09-01
Publication date: 2009-01-07
Anticipated expiration: 2026-09-01
Also published as: KR20080042160A; US20080267413A1; WO2007026025A2; US8295493B2; CN101341793B; KR101341523B1; EP1761110A1; WO2007026025A3

Abstract

提出了一种知觉地启发的用于双声道立体声音频信号的空间分解，捕获有关虚拟声级的信息。该空间分解允许重新合成用于在除双声道立体声之外的其它的声音系统上播放的音频信号。借助于更靠前的扬声器的使用，虚拟声级的宽度可以增加超出+/－30°，并且可受的中心点区域被扩展。可选择地，横向独立的声音分量可以在收听者的两侧上分别地在扬声器上播放以提高收听者包络。其也解释环绕声和基于波场合成的音频系统可以如何使用空间分解。按照本发明适用于多个音频信号的主要实施例，提出了从多个输入音频信号(x₁...，x_L)中产生多个输出音频信号(y₁，...，y_M)，其中输出的数目等于或者高于输入信号的数目，这个方法包括步骤：利用输入子频带X₁(i)，...，X_L(i)的线性组合的方式，计算表示信号分量的一个或多个独立的声音子频带，信号分量在输入子频带之间是独立的；利用输入子频带X₁(i)，...，X_L(i)的线性组合的方式，计算表示被包含在输入子频带的一个以上中的信号分量的一个或多个局部的直达声子频带，和计算表示一比率的相应的方向因子，这些信号分量被以该比率包含在两个或多个输入子频带中；产生输出子频带信号Y₁(i)...Y_M(i)，这里每个输出子频带信号是独立的声音子频带和局部的直达声子频带的线性组合；将输出子频带信号Y₁(i)...Y_M(i)转换为时域音频信号y₁...y_M。

Description

从立体声信号产生多声道音频信号的方法

背景技术

在双声道立体声以外的许多的技术革新因为成本、无法实施性(例如，扬声器的数目)已经失败，并且最后但并非最不重要的是用于向后兼容的需求。而5.1环绕多声道音频系统正在由用户广泛地采用，此外，这个系统就扬声器的数目而言，以及由于向后兼容的限制(前左和右扬声器被放置在与双声道立体声相同的角度上，即+/-30°，导致窄的正面虚拟声级)是折衷办法。

事实是在双声道立体声格式中进一步大多数音频内容是可用的。对于增强立体声以外的声音体验的音频系统，与传统系统相比，借助于改善的体验可以令人向往地播放立体声音频内容因此是至关紧要的。

此外对于不完全设置在棒头击球面的中心点中的收听者已经长时间实现使用更多的前扬声器改善虚拟声级。对于改善结果存在经两个以上的扬声器播放立体声信号的目的。特别地，对于利用额外的中央扬声器播放立体声信号存在许多的关注。但是，在常规的立体声播放上的这些技术的改进不是清楚足够的，它们已经被广泛地使用。这些技术的主要限制是，它们仅仅考虑位置，并且没有明确地考虑其它的方面，诸如周围环境和收听者包络。此外，在这些技术之后的位置理论是基于一个虚拟信源情形，当许多的信源同时地出现于不同的方向的时候也限制其性能。

这些弱点是由在本说明书中提出的通过使用可感知地激发立体声音频信号的空间分解的技术克服的。给出这个分解，可以对于增加数目的扬声器、扬声器行阵列和波场合成系统呈现音频信号。

该提出的技术对于借助于更多的声道将立体声信号(两个声道)转换为音频信号没有限制。但是通常地，具有L个声道的信号可以被转换为具有M个声道的信号。该信号可以或者是立体声，或者是目的在于用于播放的多声道音频信号，或者它们可以是未加工的麦克风信号，或者麦克风信号的线性组合。其也示出该技术如何应用于麦克风信号(例如，立体混响声B格式)，并且矩阵的环绕下混频信号用于在各种各样的扬声器总体布置上再现这些。

当我们提到立体声或者具有许多的声道的多声道音频信号的时候，我们指的是当我们提到许多的(单声)音频信号的时候是相同的。

发明内容

按照应用于多个音频信号的主要实施例，其提出了从多个输入音频信号(x₁，...，x_L)中产生多个输出音频信号(y₁，...，y_M)，其中输出的数目等于或者高于输入信号的数目，这个方法包括步骤：

-利用输入子频带X₁(i)，...，X_L(i)的线性组合的方式，计算表示信号分量的一个或多个独立的声音子频带，该信号分量在输入子频带之间是独立的；

-利用输入子频带X₁(i)，...，X_L(i)的线性组合的方式，计算表示信号分量的一个或多个局部的直达声子频带，该信号分量被包含在输入子频带的一个以上中，和表示比值的方向因子，这些信号分量被以该比值包含在两个或多个输入子频带中；

-产生输出子频带信号Y₁(i)...Y_M(i)，在这里每个输出子频带信号是独立的声音子频带和局部的直达声子频带的线性组合；

-将输出子频带信号Y₁(i)...Y_M(i)转换为时间域音频信号y₁...y_M。

该指标i是考虑的子频带的指标。按照第一实施例，这个方法可以每个音频声道仅一个子频带而使用，即使每个声道更多的子频带给出更好的声音结果。

该提出的方案是以以下的理由为基础的。许多的输入音频信号x₁，...，x_L被分解成表示声音的信号分量，该声音是在音频声道和信号分量之间独立的，该信号分量表示在音频声道之间相关的声音。这是由这两个类型的信号分量具有的不同的知觉效果启发的。该独立的信号分量表示有关信源宽度、收听者包络和周围环境的信息，并且该相关的(从属的)信号分量表示听觉事件的位置或者听觉地直达声。对于每个相关的信号分量，存在相关的方向信息，其可以由一比值表示的，这个声音被以该比值包含在许多的音频输入信号中。当在扬声器(或者头戴耳机)上播放的时候，为了再现特定的听觉空间图像的目的可以给出这个分解产生许多的音频输出信号。该相关的信号分量被呈现为输出信号(y₁，...，y_M)，使得其由收听者从期望的方向感知。该独立的信号分量被呈现为输出信号(扬声器)，使得其模拟非直达声和其期望的知觉效果。在高标准上描述的这个功能是从输入音频信号中提取空间信息，并且将这个空间信息变换为在该输出声道中具有期望的参数的空间信息。

附图说明

由于附加的附图将更好地理解本发明，其中：

图1示出标准立体声扬声器设置；

图2示出对于二个相干扬声器信号的不同的电平差值的感知的听觉事件的位置，在一对相干扬声器信号之间的电平和时间差值确定出现在二个扬声器之间的听觉事件的位置；

图3(a)示出从具有听觉事件扩大效果的侧面扬声器发出的早期反射；

图3(b)示出从涉及作为收听者包络的更多环境的侧面扬声器发出的后期反射；

图4示出混合模拟直达声的立体声信号和侧向反射的方式；

图5作为时间函数示出表示将信号分解为子频带的时间-频率平铺显示；

图6示出方向因子A以及S和AS的归一化幂；

图7示出最小平方估算权重w₁和W₂，以及用于计算估算s的后标度因子；

图8示出最小平方估算权重w₃和w₄，以及用于计算估算N₁的后标度因子；

图9示出最小平方估算权重w₅和w₆，以及用于计算估算N₂的后标度因子；

图10示出估算的s、A、n₁和n₂；

图11示出将±30°虚拟声级(a)转换为具有扬声器阵列(b)的缝隙的宽度的虚拟声级；

图12示出扬声器对选择1和与立体声信号电平差有关的因子a₁和a₂；

图13示出经由多个扬声器发出的平面波；

图14示出将±30°虚拟声级(a)转换为具有扬声器阵列的缝隙的宽度的虚拟声级，并且通过从侧边扬声器(b)发出独立的声音来提高收听者包络；

图15示出对于如在图14(b)中的设置产生的八个信号；

图16示出对应于解释为虚拟源的前声级的每个信号。该独立的横向声音被作为平面波(在远场中的虚拟源)发出；

图17示出四声道立体声的伴音系统(a)扩展为供更多的扬声器(b)使用。

具体实施方式

空间倾听和立体声扬声器播放

该提出的方案启发对于两个输入声道(立体声音频输入)和M个音频输出声道(M≥2)的重要情形的描述。稍后，其描述如何将与在立体声输入信号的例子中推导出的相同的理由应用于更多的常规L输入声道的情形。

最通常使用的用于空间音频的用户播放系统是如图1所示的立体声扬声器设置。两个扬声器被放置在该收听者的左侧和右侧前面。通常，这些扬声器被以角度-30°和+30°设置在圆上。当收听这样的立体声播放系统的时候感知的听觉空间图像的宽度近似限于在两个扬声器之间和在两个扬声器之后的区域。

在自然收听和当收听再现的声音的时候，该感知的听觉空间图像主要地取决于双耳位置提示，即，耳间时间差(ITD)、耳间电平差(ILD)和耳间相干性(IC)。此外，其已经示出感知的仰角与非立体声的提示相关。

使得借助于立体声扬声器播放生成模拟声级的听觉空间图像的能力通过位置求和的知觉现象是可能的，即，通过控制在赋予该扬声器的信号之间的电平和/或时间差，听觉事件可以以在收听者前面的扬声器对之间的任何角度出现。在1930年，Blumlein认识到这个原理的威力，并且他申请的现在著名的有关立体音响的专利。位置求和是基于以下的事实，即，在耳朵上引起的ITD和ILD提示粗杂地近似占支配地位的提示，如果物理源位于在扬声器之间出现的听觉事件的方向上，其将出现。

图2举例说明对于两个相干扬声器信号的不同的电平差感知的听觉事件的位置。当左和右扬声器信号是相干的，具有相同的电平，并且没有延迟差的时候，一个听觉事件出现在两个扬声器之间的中央，如由图2中的区域1举例说明的。通过在一侧，例如右侧上提高电平，该听觉事件移动到如由在图2中的区域2举例说明的那侧。在非常情形下，当仅仅在左侧上的信号是有效的时候，出现在左侧扬声器位置上的该听觉事件如由在图2中的区域3举例说明的。可以类似地通过改变在扬声器信号之间的延迟来控制该听觉事件的位置。当该扬声器对没有在收听者的前面的时候，控制在扬声器对之间的听觉事件位置所描述的原理也是可适用的。但是，对于扬声器的一些限制适用于收听者的侧面。

如在图2中举例说明的，位置求和可用于模拟一种情形，这里不同的仪器在虚拟声级上位于不同的方向上，即，在两个扬声器之间的区域中。在下文中，除了可以控制位置之外，描述可以如何控制其它的属性。

一致地重要的场馆音响效果是考虑从侧面在收听者上到达的反射，即，侧向反射。已经示出原始侧向反射具有扩大听觉事件的效果。具有小于大约80ms的延迟的原始反射的效果近似是恒定的，并且因此，已经定义在这个范围中考虑到原始反射表示的横向部分的具体措施。该横向部分是横向声能对总的声能的比值，总的声能是在直达声抵达之后，在最初的80ms内得到的，并且测量听觉事件的宽度。

在图3(a)中举例说明用于模仿早期侧向反射的实验设备。该直达声是从中央扬声器发出的，而独立的早期反射是从左侧和右侧扬声器发出的。当早期侧向反射的相对强度提高时，该听觉事件的宽度增加。

在直达声抵达之后，80ms以上侧向反射倾向于除听觉事件本身之外更加有助于环境的感知。在经常表示收听者包络的“包络”或者“宽广的环境”的意义上这是明显的。作为用于早期反射的横向部分的类似的措施也可适用于供测量收听者包络程度的后期的反射。这个测量表示后期的横向能量部分。可以以如图3(b)所示的设置模拟后期的侧向反射。该直达声是从中央扬声器发出的，而独立的后期的反射是从左侧和右侧扬声器发出的。当后期的侧向反射的相对强度提高时，该收听者包络的感测增加，同时该听觉事件的宽度是期望几乎不受影响的。

立体声信号被记录或者混合，使得对于每个信源，该信号连贯地以特定的方向提示(电平差、时间差)进入左侧和右侧信号声道，并且反射/反响的独立的信号进入确定听觉事件宽度和收听者包络提示的声道。进一步论述混合和记录技术是在本说明书的范围以外。

立体声信号的空间分解

与使用来自真实信源的直达声相反，如在图3中举例说明的，人们可以使用对应于利用位置求和产生的虚拟源的直达声。该阴影区表示感知的听觉事件。也就是说，如在图3中示出的实验可以仅仅借助于两个扬声器实现。这些在图4中举例说明，这里信号s模拟来自由因子a确定的方向的直达声。该独立的信号n1和n2对应于侧向反射。该描述的情形是借助于一个听觉事件对于立体声信号的自然分解，

x₁(n)＝s(n)+n₁(n) x₂(n)＝as(n)+n₂(n)

(1)

捕获该听觉事件和收听者包络的位置和宽度。

为了进行分解，在一个听觉事件情形下，其不仅仅是有效的，而是，同时具有多个有效信源的非静态情形，该描述的分解是独立地在许多的频带范围和自适应地在时间中实现的，

X₁(i，k)＝S(i，k)+N₁(i，k) X₂(i，k)＝A(i，k)S(i，k)+N₂(i，k)

(2)

这里i是子频带指标，并且k是子频带时间指标。这在图5中举例说明，即，在具有指标i和k的每个时间-频率平铺显示，该信号S、N₁、N₂和方向因子A被独立地估算。为了标记的简便起见，该子频带和时间指标在下文中通常被忽略。我们借助于知觉地激发子频带带宽使用子频带分解，即，子频带的带宽被选择等于一个临界频带。在每个子频带中大约每20ms估算S、N₁、N₂和方向因子A。

注意到，一般地说，人们也可以在公式(2)中考虑直达声的时间差。也就是说，人们将不仅使用方向因子A，而且使用方向延迟，该方向延迟将被定义为具有S包含在X₁和X₂中的延迟。在以下的描述中，我们不考虑上述的延迟，但是，应该明白，该分析可以容易地扩展为考虑上述的延迟。

给出立体声子频带信号X₁和X₂，该目标是计算S、N₁、N₂和A的估算值。X₁的乘幂的短时估算值被表示

P_{x 1} (i, k) = E {X_{1}^{2} (i, k)} .

对于其它的信号，使用相同的约定，即，P_x2、Ps和P_N＝P_N1＝P_N2是相应的短时乘幂估算值。N₁和N₂的乘幂被假设为是相同的，即，假设横向独立的声音量对左和右是一样的。

注意到，可以使用除P_N＝P_N1＝P_N2之外的其它的假设。例如，A²P_N1＝P_N2。

估算Ps、A和P_N。

给出该立体声信号的子频带表示，计算该乘幂(P_x1，P_x2)和标准化的互相关。在左和右之间的标准化的互相关是：

Φ (i, k) = \frac{E {X_{1} (i, k) X_{2} (i, k)}}{\sqrt{E {X_{1}^{2} (i, k)} E {X_{2}^{2} (i, k)}}} - - - (3)

A、Ps和P_N被计算为估算的P_x1、P_x2和Ф的函数。涉及巳知和未知的变量的三个公式是：

Px₁＝P_S+P_N Px₂＝A²P_S+P_N

Φ = \frac{aS}{\sqrt{{Px}_{1}} {Px}_{2}} - - - (4)

这些公式求出A、P_S和P_N，得到：

A = \frac{B}{2 C}

P_{S} = \frac{{2 C}^{2}}{B}

P_{N} = X_{1} - \frac{{2 C}^{2}}{B} - - - (5)

并且

B = {Px}_{2} - {Px}_{1} + \sqrt{{({Px}_{1} - {Px}_{2})}^{2} + 4 {Px}_{1} {Px}_{2} Φ^{2}}

C = Φ \sqrt{{Px}_{1} {Px}_{2}} - - - (6)

S、N₁和N₂的最小平方估算。

接下来，S、N₁和N₂的最小平方估算被计算为A、Ps和P_N的函数。对于每个i和k，该信号S被估算为：

\hat{S} = ω_{1} X_{1} + ω_{2} X_{2} = ω_{1} (S + N_{1}) + ω_{2} (AS + N_{2}) - - - (7)

这里ω₁和ω₂是实值的权重。该估算误差是：

E＝(1-ω₁-ω₂A)S-ω₁N₁-ω₂N₂ (8)

当该误差E是正交于X₁和X₂的时候，该权重ω₁和ω₂在最小均方感测中是最佳的，即，

E{EX₁}＝0 E{EX₂}＝0 (9)

得到两个公式，

(1-ω₁-ω₂A)P_S-ω₁P_N＝0，

A(1-ω₁-ω₂A)P_S-ω₂P_N＝0 (10)

该极重从其中被计算，

ω_{1} = \frac{P_{S} P_{N}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}}

ω_{2} = \frac{{AP}_{S} P_{N}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}} - - - (11)

类似地，N₁和N₂被估算。N₁的估算值是：

{\hat{N}}_{1} = ω_{3} X_{1} + ω_{4} X_{2} = ω_{3} (S + N_{1}) + ω_{4} (AS + N_{2}) - - - (12)

该估算误差是：

E＝(-ω₃-ω₄A)S-(1-ω₃)N₁-ω₂N₂ (13)

同样，计算该权重使得该估算误差正交于X₁和X₂，结果形成：

ω_{3} = \frac{A^{2} P_{S} P_{N} + P_{N}^{2}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}}

ω_{4} = \frac{{- AP}_{S} P_{N}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}} - - - (14)

用于计算N₂的最小平方估算的权重是：

{\hat{N}}_{2} = ω_{5} X_{1} + ω_{6} X_{2} = ω_{5} (S + N_{1}) + ω_{6} (AS + N_{2}) - - - (15)

是

ω_{5} = \frac{- A P_{S} P_{N}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}}

ω_{6} = \frac{P_{S} P_{N} + P_{N}^{2}}{(A^{2} + 1) P_{S} P_{N} + P_{N}^{2}} - - - (16)

后标度

给出最小平方估算，这些被(可选择地)后标度，使得估算

的乘幂等于Ps和PN＝P_N1＝P_N2。

的乘幂是：

P_{\overset{\cdot}{S}} = {(ω_{1} + a ω_{2})}^{2} P_{S} + (ω_{1}^{2} + ω_{2}^{2}) P_{N} - - - (17)

因此，为了借助于被标度的乘幂Ps、

获得S的估算值：

{\hat{S}}^{'} = \frac{\sqrt{P_{N}}}{\sqrt{{(ω_{1} + a ω_{2})}^{2} P_{S} + (ω_{1}^{2} + ω_{2}^{2}) P_{N}}} \hat{S} - - - (18)

借助于类似的理由，

和

被标度，即，

{\hat{N}}^{'}_{1} = \frac{\sqrt{P_{N}}}{\sqrt{{(ω_{3} + a ω_{4})}^{2} P_{S} + (ω_{3}^{2} + ω_{4}^{2}) P_{N}}} {\hat{N}}_{1}

{\hat{N}}^{'}_{2} = \frac{\sqrt{P_{N}}}{\sqrt{{(ω_{5} + a ω_{6})}^{2} P_{S} + (ω_{5}^{2} + ω_{6}^{2}) P_{N}}} {\hat{N}}_{2} - - - (19)

数值实例

该方向因子A和S和AS的归一化幂在图6中被显示为立体声信号电平差和Ф的函数。

用于计算S的最小平方估算值的权重ω₁和ω₂在图7的上两个板中被示为立体声信号电平差和Ф的函数。用于

的后标度因子在底端板中示出。

用于计算N₁的最小平方估算和相应的后标度因子(19)的权重ω₃和ω₂在图7中示为立体声信号电平差和Ф的函数。

用于计算N₂的最小平方估算和相应的后标度因子(19)的权重ω₅和ω₆在图7中被示为立体声信号电平差和Ф的函数。

在图10中示出一个利用居中的歌手用于空间分解立体声摇滚音乐夹的例子。s、A、n₁和n₂的估算值被示出。在时域中示出该信号，并且对于每个时间-频率平铺显示示出A。与独立的横向声音n₁和n₂相比，该估算的直达声s是相对地强的，因为居中的歌手是占主要地位的。

在不同的播放设置上播放分解的立体声信号

给出立体声信号的空间分解，即，用于估算的局部的直达声

方向因子A和横向独立的声音

和

的子频带信号，人们可以定义有关如何从不同的播放设置发出对应于

和

的信号分量的规则。

多个扬声器在收听者的前面

图11举例说明阐明的情形。在该附图的部分(a)中示出的虚拟声级宽度φ₀＝30°被缩放为在该附图的部分(b)中示出的虚拟声级宽度φ′₀，该虚拟声级宽度φ′₀被借助于多个扬声器再现。

该估算的独立的横向声音

和

被从在该侧面上的扬声器发出，例如，在图11(b)中的扬声器1和6。也就是说，因为从侧面发出的横向声音越高，将收听者包围进该声音明确地是越有效的。给出估算的方向因子A，使用“立体声正弦定律”(或者将A相关感知的角度的其它的法律)估算听觉事件相对于±φ₀虚拟声级的角度φ，

φ = \sin^{- 1} (\frac{A - 1}{A + 1} \sin φ_{0}) - - - (20)

这个角度被线性地缩放以计算相对于扩大的声级的角度，

φ^{'} = \frac{{φ^{'}}_{0}}{φ_{0}} φ - - - (21)

围绕φ’的扬声器对被选择。在图11(b)举例说明的例子中，这个对具有标志4和5。用于在这个扬声器对之间摇动幅度相关的角度γ₀和γ₁定义为在图中示出。如果该选择的扬声器对具有标志1和1+1，那么，这些扬声器给出的该信号是：

a_{1} \sqrt{1 + A^{2}} S

a_{2} \sqrt{1 + A^{2}} S - - - (22)

这里借助于立体声正弦定律(或者其它幅度摇动定律)计算和标准化幅度摇动因子a₁和a₂，使得

a_{1}^{2} + a_{2}^{2} = 1,

a_{1} = \frac{1}{\sqrt{1 + C^{2}}}

a_{2} = \frac{C}{\sqrt{1 + C^{2}}} - - - (23)

并且

C = \frac{\sin (γ_{0} + γ)}{\sin (γ_{0} - γ)} - - - (24)

在(22)中的因子

是这样的，这些信号的总功率等于在该立体声信号中相干分量S和AS的总功率。做为选择地，人们可以使用幅度摇动定律，其对两个以上的扬声器同时地赋予信号。

图12示出用于扬声器对l和l+1，和在角度{-30°，-20°，-12°，-4°，4°，12°，20°，30°}上对于M＝8个扬声器的φ′₀＝φ₀＝30°的幅度摇动因子a₁和a₂选择的例子。

给出以上的理由，该输出信号声道的每个时间-频率平铺显示i和k被计算为：

Y_{m} = δ (m - 1) {\hat{N}}^{'}_{1} + δ (m - M) {\hat{N}}^{'}_{2} + (δ (m - l) a_{1} + δ (m - l - 1) a_{2}) \sqrt{1 + A^{2}} {\hat{S}}^{'} - - - (25)

这里

δ (m) = \{\begin{matrix} 1 & for m = 0 \\ 0 & otherwise \end{matrix} - - - (26)

并且m是输出声道标志1≤m≤M。该输出声道的子频带信号被转换回时域，并且形成输出声道y₁至y_M。在下文中，这个最后的步骤并不总是再次被明确地提及。

该描述的方案的限制是，当收听者是在一侧上，例如接近于扬声器1的时候，与来自另一侧的横向声音相比较，该横向独立的声音将以更大的强度到达他。为了产生两个横向平面波的目的，这个问题可以通过从所有扬声器发出横向独立的声音来规避。这些在图13中举例说明。该横向独立的声音被随着以某个方向模拟平面波的延迟赋予给所有扬声器，

Y_{m} (i, k) = \frac{{\hat{N}}^{'}_{1} (i, k - (m - 1) d)}{\sqrt{M}} + \frac{{\hat{N}}^{'}_{2} (i, k - (M - m) d)}{\sqrt{M}} +

(δ (m - l) a_{1} + δ (m - l - 1) a_{2}) \sqrt{1 + A^{2}} {\hat{S}}^{'} - - - (27)

这里d是延迟，

d = \frac{{sf}_{s} \sin α}{v} - - - (28)

s是在等间隔的扬声器之间的距离，v是音速，f_s是子频带采样频率，并且±α是两个平面波的传播方向。在我们的系统中，该子频带采样频率不是足够高的，使得d可以表示为一个整数。因此，我们最初将和

转换为时域，然后我们将其各种各样的延迟版本添加到该输出声道。

多个前扬声器加侧扬声器

先前描述的播放情形目的在于扩大虚拟声级，并且目的在于产生与收听者的位置无关的感知的声级。

选择性地，人们可以利用更加设置于收听者侧面的单独的两个扬声器播放独立的横向声音和

，如在图14中举例说明的。将±30°虚拟声级(a)转换为具有扬声器阵列(b)的缝隙的宽度的虚拟声级。另外，该横向独立的声音被借助于用于更强壮的收听者包络的单独的扬声器从侧面播放。人们期望的是，这些结果形成收听者包络的更强壮的印象。在这种情况下，该输出信号也是通过(25)计算的，这里具有标志1和M的指示是在侧面上的扬声器。该扬声器对选择l和l+1处于这种情形中，使得S′永远不赋予给具有指标1和M的信号，因为该虚拟级的整个宽度仅仅被投影给前扬声器2≤m≤M-1。

图15示出一个用于对于在图14中示出的供相同的音乐夹设置产生的八个信号的例子，用于音乐夹的该空间分解在图10中示出。注意到，居中占主要地位的歌手是在中央两个扬声器信号y₄和y₅之间幅度摇动的。

常规的5.1环绕扬声器设置

将立体声信号转换为5.1环绕兼容的多声道音频信号的一个可能性是使用如图14(b)所示的具有如以5.1标准规定安排的三个前扬声器和两个后扬声器的设置。在这种情况下，该后扬声器发出独立的横向声音，同时该前扬声器用于再现虚拟声级。非正式的收听表示与立体声播放相比，何时播放如收听者包络描述的音频信号是更加显著的。

将立体声信号转换为5.1环绕兼容的信号的另一个可能性是使用如图11所示的设置，这里该扬声器被重新安排以匹配5.1结构。在这种情况下，±30°虚拟级被扩展为环绕收听者的±110°虚拟级。

波场合成播放系统

首先，信号y₁，y₂，...y_M被与如在图14(b)中举例说明的设置那样类似地产生。然后，对于每个信号y₁，y₂，...y_M，虚拟源被在波场合成系统中定义。横向独立的声音y₁和y_M被如在图16中对于M＝8举例说明的那样作为平面波或者在远场中的信源发出。对于相互的信号，虚拟源被依照要求以位置定义。在图16示出的例子中，该距离对于不同的信源是变化的，并且一些信源被定义为是在声音发出阵列的前面，即，可以以特殊的距离对于每个限定的方向定义该虚拟声级。

用于2到M转换的通用化的方案

一般而言，用于任何描述方案的扬声器信号可以被阐明为：

Y＝MN (29)

这里N是包含信号和

的矢量。该矢量Y包含所有的扬声器信号。该矩阵M具有许多元素，使得在矢量Y中的该扬声器信号将与由(25)或者(27)计算的是相同的。作为选择的，不同的矩阵M可以使用滤波和/或不同的幅度摇动定律(例如，使用两个以上的扬声器的

的摇动)实现。对于波场合成系统，该矢量Y可以包含该系统的所有扬声器信号(通常地＞M)。在这种情况下，该矩阵M也包含延迟、全通滤波器，并且滤波器通常去实现对应于与

和

相关的虚拟源的波场的发出。在权利要求中，具有延迟、全通滤波器和/或通常作为M的矩阵元素的滤波器的类似(29)的关系式表示在N中元素的线性组合。

修改分解的音频信号

控制声基的宽度

通过修改估算的方向因子，例如，A(i，k)，人们可以控制虚拟声级的宽度。通过以大于1的因子线性标度方向因子，属于该声级的仪器被进一步移动到侧面。相反可以通过以小于1的因子标度实现。做为选择的，人们可以修改用于计算局部直达声的角度的幅度摇动定律(20)。

修改在局部的直达声和独立的声音之间的比率

为了控制周围环境的数值，人们可以标度独立的横向声音信号

和

以便得到或多或少地周围环境。类似地，可以利用标度信号在强度方面修改局部的直达声。

修改立体声信号

人们还可以无需增加声道的数目使用用于修改立体声信号提出的分解。在这里，该目的仅仅是或者修改虚拟声级的宽度，或者在局部的直达声和独立的声音之间的比率。在这种情况下，用于该立体声输出的子频带是：

Y_{1} = v_{1} {\hat{N}}^{'}_{1} + v_{2} {\hat{S}}^{'}

Y_{2} = v_{1} {\hat{N}}^{'}_{2} + v_{2} v_{3} A {\hat{S}}^{'} - - - (30)

这里该因子v₁和v₂用于控制在独立的声音和局部的声音之间的比率。对于v₃≠1，同样，该声级的宽度被修改(而在这种情况下，v₂被修改以补偿对于v₃≠1在局部的声音方面电平变化)。

通用化为两个以上的输入声道

总之表明，用于两个输入声道情形的

和的产生如下(这是最小均方估算的目的)。该横向独立的声音

是通过从X₁除去同样包含在X₂中的信号分量计算的。类似地，

是通过从X₁除去同样包含在X₁中的信号分量计算的。计算该局部的直达声

，使得其包含存在于X₁和X₂两者之中的信号分量，并且A是计算的幅度比率，以该比率被包含在X₁和X₂中。A表示局部的直达声的方向。

作为一个例子，现在描述具有四个输入声道的方案。假定具有如在图17(a)中举例说明的扬声器信号x₁至x₄的四声道立体声系统被认为是扩展为如在图17(b)中举例说明的更多的播放声道。与在两个输入声道情形下类似，计算独立的声音声道。在这种情况下，这是四个(或者如果想要更少的)信号

和。这些信号被在与如上对于两个输入声道情形所述相同的精神下计算。也就是说，该独立的声音

是通过从X₁除去或者同样包含在X₂或者X₄(相邻的四声道立体声扬声器的信号)中的信号分量计算的。类似地，计算

和

。对于相邻的扬声器的每个声道对计算局部的直达声，即，

和

计算该局部的直达声

使得其包含存在于X₁和X₂两者之中的信号分量，并且A12是计算的幅度比率，

被以该比率包含在X₁和X₂中。A12表示局部的直达声的方向。由于类似的理由，计算

和

A₂₃、A₃₄和A₄₁。为了在图17(b)中示出的具有十二个声道的系统上播放，和

被从扬声器以信号y₁、y₄、y₇和y₁₂发出。对于前扬声器y₁至y₄，类似的算法被应用于供发出

的两个输入声道情形，即，在最接近于由A12限定的方向的扬声器对上的

的幅度摇动。类似地，和

被作为A₂₃、A₃₄和A₄₁的函数从指向三个其他侧面的扬声器阵列发出。做为选择的，如在两个输入声道情形下，可以作为平面波发出该独立的声音声道。同样，通过对于在图17(b)中的每个扬声器使用供两个输入声道情形的波场合成类似的精神定义虚拟源，在具有围绕收听者的扬声器阵列的波场合成系统上播放是可能的。同样，这个方案可以被类似于(29)地通用化，这里在这种情况下，矢量N包含所有计算的独立的和局部的声音声道的子频带信号。

由于类似的理由，5.1多声道环绕音频系统可以扩展为以五个以上主扬声器播放。但是，中央声道需要特别的注意，因为通常在这里生成内容，幅度摇动应用在左前和右前之间(不经中央)。有时幅度摇动也应用在左前和中央之间，和右前和中央之间，或者同时地在所有三个声道之间。与先前描述的四声道立体声例子相比，这是不同的，这里我们已经使用信号模拟假定仅仅在相邻的扬声器对之间存在公共的信号分量。或者人们因此考虑到这些去计算局部的直达声，或者更简单的解决方案是将前面的三个声道下混合为两个声道，并且然后应用该系统描述为四声道立体声。

一种用于将具有两个输入声道的方案扩展用于更多的输入声道的更简单的解决方案是，在某些声道对之间启发式地应用供两个输入声道的方案，然后合成产生的分解以在四声道立体声的情形下计算例如，

A₁₂、A₂₃、A₃₄和A₄₁。这些的播放可用作供四声道立体声情形的描述。

用于立体混响声扬声器信号的计算

该立体混响声系统是特点在于信号与特定的播放设置无关的环绕音频系统。一阶立体混响声系统以以下的信号为特色，其被相对于在空间中特定的点P定义：

W＝S

X＝S cosψcosФ

Y＝S sinψcosФ

Z＝S sin

(31)

这里W＝S是(全方向的)在P中的声压信号。该信号X、Y和Z是在P中从偶极天线获得的信号，即，这些信号在笛卡儿坐标方向x、y和z中(这里源点是在点P)与粒子速度成正比。角度ψ和Ф分别地表示方位角和仰角(球极坐标)。所谓的“B格式”信号另外以用于W、X、Y和Z的

的因子为特色。

为了产生用于在M个声道三维的广播系统上播放的M个信号，计算表示从八个方向x、-x、y、-y、z、-z得到的声音的信号。这是通过合成W、X、Y和Z以得到方向性(例如，心脏形曲线)响应完成的，例如，(31)

x₁＝W+X x₃＝W+Y x₅＝W+Z

x₂＝W-X x₄＝W-Y x₆＝W-Z

给出这些信号，如为描述以上四声道立体声系统类似的理由被用于计算八个独立的声音子频带信号(或者如果期望的话更少)

例如，该独立的声音

是通过从X₁除去或者同样包含在空间地相邻声道X₃、X₄、X₅或者X₆中的信号分量计算的。另外，就按在相邻的对之间或者三倍的输入信号局部的直达声以及表示其方向的方向因子。给出这个分解，类似地如在先前的四声道立体声例子中描述的，在扬声器上发出该声音，或者通常(29)。

对于二维的立体混响声系统，

W＝S

X＝S cos ψ

Y＝S sin ψ (33)

结果形成四个输入信号x₁至x₄，该处理类似于描述的四声道立体声系统。

矩阵环绕的解码

矩阵环绕编码器将多声道音频信号(例如，5.1环绕信号)下混频为立体声信号。表示多声道音频信号的这个格式表示“矩阵环绕”。例如，5.1环绕信号的声道可以由矩阵编码器以以下的方式下混频(为简单起见，我们忽略低频效果声道)：

x_{1} (n) = l (n) + \frac{1}{\sqrt{2}} c (n) + j \frac{1}{\sqrt{2}} l_{s} (n) + j \frac{1}{\sqrt{6}} r_{s} (n)

x_{2} (n) = r (n) + \frac{1}{\sqrt{2}} c (n) - j \frac{1}{\sqrt{2}} r_{s} (n) - j \frac{1}{\sqrt{6}} l_{s} (n)

这里I、r、c、l_s和r_s分别地表示左前、右前、中央、左后和右后部声道。j表示90度相移，并且-j是-90度相移。其它的矩阵编码器可以使用描述的下混频的变型。

与先前对于2至M个声道转换所描述的类似，人们可以将空间分解适用于矩阵环绕下混频信号。因此，对于每个子频带，每次独立的声音子频带，计算局部的声音子频带和方向因子。独立的声音子频带和局部的声音子频带的线性组合被从该环绕系统的每个扬声器发出，也就是说，发出矩阵解码的环绕信号。

注意到，由于在矩阵的环绕下混频信号中的异相分量，标准化的相关很可能同样采用负值。如果是这种情形，相应的方向因子将是负值，表示在原始多声道音频信号中声音来源于后面的声道(在矩阵下混频之前)。

这种解码矩阵环绕的方式是非常有吸引力的，因为其具有低的复杂度，并且同时丰富的周围环境是由估算的独立的声音子频带再现的。不需要产生人造的周围环境，其是完全可计算的集合体。

实施例细节

为了计算子频带信号，可以使用离散(快速)傅里叶变换(DFT)。为了降低由复杂度降低和更好的音频质量激发的频带的数目，该DFT频带可以被合成使得每个合成的频带具有由人类听觉系统的频率分辨率激发的频率分辨率。该描述的处理过程然后对于每个合成的子频带执行。做为选择的，可以使用正交镜像滤波器(QMF)组或者任何其它的非级联的或者级联的滤波器组。

两个临界信号类型是瞬态和静态的/音调的信号。为了有效地阐明两者，可以以自适应的时间-频率分辨率方式使用滤波器组。将检测瞬态，并且该滤波器组的时间分辨率(或者做为选择的，仅该处理过程)将被增加以有效地处理该瞬态。静态的/音调的信号分量同样将被检测，并且该滤波器组的时间分辨率和/或处理过程对于这种类型的信号将被降低。作为用于检测稳定的/音调的信号分量的准则，人们可以使用“音调测量”。

该算法我们的实施例使用快速傅里叶变换(FFT)。对于44.1kHz采样速率，我们使用在256和1024之间的FFT大小。我们合成的子频带具有大约人类听觉系统的两倍临界带宽的带宽。这导致对于44.1kHz采样速率使用大约20个合成的子频带。

应用例子

电视机

为了播放基于立体声视听TV内容，为了得到“稳定的中心”(例如，电影对白出现在屏幕的中央，用于在所有位置上的收听者)的好处可以产生中央声道。做为选择的，如果想要的话，立体声可以转换为5.1环绕。

立体声到多声道转换盒

转换设备将转换音频内容为一种适用于在两个以上的扬声器上播放的格式。例如，这个盒子可以被用于立体声音乐播放器，并且连接到5.1扬声器装置。该用户可以具有多种选择：具有前虚拟级的立体声+中央声道5.1环绕，和具有环绕收听者的±110°虚拟声级的周围环境5.1环绕，或者所有扬声器安排在前面，用于更好的/更宽的前虚拟级。

这样的转换盒可以以立体声模拟线路输入音频输入和/或数字SP-DIF音频输入为特色。该输出或者是多声道线路输出，或者做为选择的数字音频输出，例如，SP-DIF。

具有改进的播放性能的设备和装置

就以更多的扬声器播放立体声或者多声道环绕音频内容而言，与传统地相比较这样的设备和装置将支持改进的播放。此外，它们可以支持转换立体声内容为多声道环绕内容。

多声道扬声器装置

多声道扬声器装置展望具有转换其音频输入信号为其特点用于每个扬声器的信号的性能。

汽车音响

汽车音响是一个挑战性话题。由于收听者的位置，和由于障碍物(座位、各个收听者人体)，以及用于扬声器放置的限制，其很难播放立体声或者多声道音频信号，使得它们再现好的虚拟声级。该提出的算法可以用于计算用于设置在特殊位置上的扬声器的信号，使得虚拟声级对于不在棒头击球面的中心点中的收听者被改善。

其他的使用领域

描述了用于立体声和多声道音频信号的知觉地激发的空间分解。横向独立的声音和局部的声音以及其特定的角度(或者电平差)被在许多的子频带中和作为时间函数估算。给出一个假设的信号模拟，计算这些信号的最小均方估算。

此外，其描述了该分解的立体声信号可以如何在多个扬声器、扬声器阵列和波场合成系统上播放。此外，其描述了提出的空间分解如何应用于“解码”用于多声道扬声器播放的立体混响声信号格式。此外，其略述了描述的原理如何应用于麦克风信号、立体混响声B格式信号和矩阵的环绕信号。

Claims

1.一种从多个输入音频声道(x1，...，xL)产生多个输出音频声道(y1，...，yM)的方法，其中输出声道的数目等于或者高于输入声道的数目，该方法包括步骤：

-利用输入子频带X1(i)，...，XL(i)的线性组合，计算表示信号分量的一个或多个独立的声音子频带，该信号分量在输入子频带之间是独立的；

-利用输入子频带X1(i)，...，XL(i)的线性组合，计算一个或多个局部的直达声子频带，其表示被包含在一个以上的输入子频带中的信号分量，和计算表示比率的相应的方向因子，这些信号分量被以该比率包含在两个或更多个输入子频带中；

-产生输出子频带Y1(i)...YM(i)，包括步骤：

-将输出子频带设置为零；

-对于每个独立的声音子频带，选择输出子频带的子集，并且将这些添加给相应的独立的声音子频带的缩放版本；

-对于每个方向因子选择一对输出子频带，并且将这些添加给相应的局部的直达声子频带的缩放版本；

-将输出子频带，Y1(i)...YM(i)，转换为时域音频信号y1...yM。

2.根据权利要求1的方法，其中，至少一个独立的声音子频带N(i)是通过从输入子频带中除去也存在于另一输入子频带的一个或多个之中的信号分量计算的，并且在至少一个选择的一对输入子频带上，

局部的直达声子频带S(i)是按照包含在属于相应的对的输入子频带中的信号分量计算的，并且方向因子A(i)被计算为一比率，直达声子频带S(i)被以该比率包含在属于相应的对的输入子频带中。

3.根据权利要求1或者2的方法，其中，独立的声音子频带N(i)，局部的直达声子频带S(i)，和方向因子A(i)的计算被计算为输入子频带X_i(i)...X_L(i)、输入子频带功率、和在输入子频带对之间的标准化互相关的函数。

4.根据权利要求1至3的方法，其中，独立的声音子频带N(i)和局部的直达声子频带S(i)的计算是输入子频带X₁(i)...X_L(i)的线性组合，这里线性组合的权重是借助于最小均方准则确定的。

5.根据权利要求4的方法，其中，估算的独立的声音子频带N(i)和局部的直达声子频带S(i)的子频带功率被调整，使得其子频带功率等于被计算为输入子频带功率和在输入子频带对之间标准化的互相关的函数的相应的子频带功率。

6.根据权利要求1至5的方法，其中，输入声道x₁...x_L仅是多声道音频信号x₁...x_D的声道的子集，这里输出声道y₁...y_M被以无处理的输入声道补充。

7.根据权利要求1的方法，其中，输入声道x₁...x_L和输出声道y₁...y_M对应于用于位于相对于特定的收听位置的特定的方向上的扬声器的信号，并且输出信号子频带的产生如下：

独立的声音子频带N(i)和局部的直达声子频带S(i)的线性组合使得该输出子频带Y₁(i)...Y_M(i)按照以下产生：

独立的声音子频带N(i)被混合进输出子频带中，使得模拟预先定义的方向发出相应的声音；

局部的直达声子频带S(i)被混合进输出子频带中，使得模拟由相应的方向因子A(i)确定的方向发出相应的声音。

8.根据权利要求7的方法，其中，通过将子频带信号应用于对应于最接近于特定的方向的扬声器的输出子频带来模拟特定的方向发出声音。

9.根据权利要求7的方法，其中，通过将具有不同增益的相同的子频带信号应用于对应于直接邻近于特定的方向的二个扬声器的输出子频带来模拟特定的方向发出声音。

10.根据权利要求7的方法，其中，通过将具有特定的延迟和增益因子的相同的滤波子频带信号应用于多个输出子频带以模拟声波场来模拟特定的方向发出声音。

11.根据权利要求1至10的方法，其中，该独立的声音子频带N(i)、局部的声音子频带S(i)和方向因子A(i)被修改以控制再现的虚拟声级这样的宽度的属性，并且指向独立的声音比率。

12.根据权利要求1至11的方法，其中，所有的方法步骤被作为时间的函数重复。

13.根据权利要求12的方法，其中，该处理的重复率适用于特定的输入信号特性，诸如，瞬态的存在或者静态的信号分量。

14.根据权利要求1至13的方法，其中，使用模拟人类听觉系统的频率分辨率的准则选择子频带的数目和相应的子频带带宽。

15.根据先前权利要求的任何一个的方法，其中，该输入声道表示立体声信号，并且该输出声道表示多声道音频信号。

16.根据权利要求1至14的方法，其中，该输入立体声声道表示矩阵编码的环境信号，并且该输出声道表示多声道音频信号。

17.根据权利要求1至14的方法，其中，该输入声道是麦克风信号，并且该输出声道表示多声道音频信号。

18.根据权利要求1至14的方法，其中，该输入声道是立体混响声B格式信号的线性组合，并且该输出声道表示多声道音频信号。

19.根据权利要求1至18的方法，其中，该输出多声道音频信号表示用于在波场合成系统上重放的信号。

20.一种音频转换设备，其中该设备包括执行权利要求1至19的方法中的一个方法的步骤的装置。

21.根据权利要求20的音频转换设备，其中，该设备被嵌入在音频汽车系统中。

22.根据权利要求20的音频转换设备，其中，该设备被嵌入在电视或者电影院系统中。