CN102859590B

CN102859590B - 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序

Info

Publication number: CN102859590B
Application number: CN201180020677.6A
Authority: CN
Inventors: 法比安·库奇; 于尔根·赫勒; 克里斯托弗·弗勒; 克里斯多佛·图尔尼里
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-02-24
Filing date: 2011-02-15
Publication date: 2015-08-19
Anticipated expiration: 2031-02-15
Also published as: AU2011219918A1; WO2011104146A1; US20130216047A1; BR112012021369B1; US9357305B2; CN103811010A; JP2013520691A; KR101410575B1; KR20120128143A; RU2012140890A; CA2790956C; CN102859590A; MX2012009785A; EP2539889B1; RU2586851C2; CA2790956A1; ES2605248T3; CN103811010B; JP5508550B2; BR112012021369A2

Abstract

一种用于基于多声道麦克风信号产生增强下混频信号的装置，包括：空间分析器，被配置为基于多声道麦克风信号来计算空间提示参数集合，空间提示参数集合包括对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息。该装置还包括：滤波器计算器，根据对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息来计算增强滤波器参数。该装置还包括：滤波器，使用增强滤波器参数对麦克风信号或从麦克风信号中导出的信号进行滤波，以获得增强下混频信号。

Description

产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序

技术领域

根据本发明的实施例涉及一种用于产生增强下混频信号的装置、一种用于产生增强下混频信号的方法、以及一种产生增强下混频信号的计算机程序。

根据本发明的实施例涉及一种针对空间音频麦克风的增强下混频计算。

背景技术

利用小麦克风配置记录环绕声音仍是一种挑战。最广泛已知的这种配置之一是声场麦克风以及对应的环绕解码器（例如，参见参考文献[3]），对应的环绕解码器对声场麦克风的四个几乎一致的麦克风胶囊信号进行滤波和组合，以产生环绕声音输出声道。尽管保持了高单声道信号保真度，但是该方法的缺陷在于其与一阶麦克风方向响应的有限方向性相关的有限声道分离。

备选地，可以应用基于观察到的声场的参数表示的技术。在参考文献[2]中，已经提出了一种使用传统的一致立体麦克风对来记录环境声音。示出了如何根据这些定向麦克风信号估计空间提示参数直射-散射声比和声音到达方向，以及如何应用该信息来驱动空间音频编码合成，从而产生环境声音。在参考文献[2]中，还讨论了参数信息（即，声音的到达方向（DOA）和声场的散射声比（DSR））如何用于直接计算在MPEG环绕（MPS）编码方案中使用的特定空间参数（例如，参见参考文献[6]）。

MPEG环绕是多声道音频信号的参数表示，代表了高质量空间音频编码的高效方法。MPS利用了以下事实：从感知的观点，多声道音频信号相对于不同的扩音器声道包含显著冗余。MPS编码器考虑多个扬声器信号作为输入，其中，必须预先知道扬声器的对应空间配置。基于这些输入信号，MPS编码器计算频率子带下的空间参数，例如，两个声道之间的声道电平差（CLD）和两个声道之间的声道间相关性（ICC）。然后根据这些空间参数导出实际MPS辅助信息。此外，编码器计算能够由一个或多个音频声道构成的下混频信号。

已经发现立体声麦克风输入信号非常适合于估计空间提示参数。然而，还发现未处理的立体声麦克风输入信号通常不太适合于直接用作对应的MPEG环绕下混频信号。在许多情况下已经发现，左声道和右声道之间的串扰太高，导致MPEG环绕解码信号中的不良声道分离。

由于这种情况，需要一种基于多声道麦克风信号产生增强下混频信号的构思，使得增强下混频信号在MPEG环绕解码之后产生足够好的空间音频质量和定位特性。

发明内容

通过所要求保护的用于产生增强下混频信号的装置、所要求保护的用于产生增强下混频信号的方法以及所要求保护的用于产生增强下混频信号的计算机程序来实现上述目标。

根据本发明的实施例创建了一种用于基于多声道麦克风信号产生增强下混频信号的装置。该装置包括：空间分析器，被配置为基于多声道麦克风信号来计算空间提示参数集合，空间提示参数集合包括对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息。该装置还包括：滤波器计算器，根据对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息来计算增强滤波器参数。该装置还包括：滤波器，使用增强滤波器参数对麦克风信号或从麦克风信号中导出的信号进行滤波，以获得增强下混频信号。

根据本发明的该实施例基于以下发现：可以通过滤波操作根据输入的多声道麦克风信号导出比输入的多声道麦克风信号更适合的增强下混频信号，以及可以根据空间提示参数高效地导出针对这种信号增强滤波操作的滤波器参数。

相应地，能够再使用同样的信息（即，空间提示参数，也非常适合于导出MPGE环绕参数），来计算增强滤波器参数。相应地，可以使用上述构思来创建高效系统。

此外，即使多声道麦克风信号的声道信号仅包括低空间分离，也能够导出在MPEG环绕解码器中被处理时允许良好声道分离的下混频信号。相应地，与传统系统相比，增强下混频信号可以在MPEG环绕解码之后产生显著改善的空间音频质量和定位特性。

总之，根据本发明的上述实施例允许以适度计算量来提供具有良好空间分离特性的增强下混频信号。

在优选实施例中，滤波器计算器被配置为计算增强滤波器参数，使得增强下混频信号与期望下混频信号近似。使用该方法，可以确保增强滤波器参数非常适合于期望的滤波结果。例如，可以计算增强滤波器参数，使得增强下混频信号的一个或多个统计特性与下混频信号的期望统计特性近似。相应地，可以实现增强的下混频信号非常适合于期望值，其中可以在期望相关性方面以数值方式定义期望值。

在优选实施例中，滤波器计算器被配置为根据空间提示参数计算多声道麦克风信号（或，更精确地，多声道麦克风信号的声道信号）与下混频信号的期望声道信号之间的期望相关值。在这种情况下，滤波器计算器优选地被配置为根据期望互相关值计算增强滤波器参数。已经发现，所述互相关值是对下混频信号的声道信号是否呈现足够良好声道分离特性的良好度量。同样，还发现，可以基于空间提示参数以适度的计算量来计算期望的相关值。

在优选实施例中，滤波器计算器被配置为根据方向相关增益因子和一个或多个下混频矩阵值来计算期望互相关值，方向相关增益因子描述了多声道麦克风信号的直达声分量对多个扩音器信号的期望贡献，一个或多个下混频矩阵值描述了多个音频声道（例如，扩音器信号）对增强下混频信号的一个或多个声道的贡献。已经发现，方向相关增益因子和下混频矩阵值均非常适合于计算期望互相关值，并且发现方向相关增益因子和增强下混频矩阵值是容易获得的。此外，已经发现基于所述信息容易获得期望互相关值。

在优选实施例中，滤波器计算器被配置为将方向信息映射到方向相关增益因子。已经发现，多声道幅度平移（panning）定律可以用于根据方向信息以适度工作量确定增益因子。已经发现，到达方向信息非常适合于确定方向相关增益因子，方向相关增益因子例如可以描述哪个扬声器应当呈现直达声分量。容易理解，根据到达方向信息（简要地，被指定为方向信息）向不同扬声器信号分发直达声分量，并且确定对哪个扬声器应当呈现直达声分量加以描述的增益因子相对简单。例如，用于将方向信息映射到方向相关增益因子集合的映射规则可以简单地确定与到达方向相关联的那些扬声器能够呈现（或主要呈现）直达声分量，而与其他方向相关联的其他扬声器仅呈现直达声分量的一小部分，或者甚至抑制直达声分量。

在优选实施例中，滤波器计算器被配置为考虑直达声功率信息和散射声功率信息，来计算期望互相关值。已经发现，对两个所述声音分量（直达声分量和散射声分量）的功率的考虑获得特别良好的听觉印象，这是因为直达声分量和散射声分量均可以被适当地分配给（典型地，多声道）下混频信号的声道信号。

在优选实施例中，滤波器计算器被配置为根据方向信息对直达声功率信息加权，并且对散射声功率信息应用与方向信息无关的预定权重，以便计算期望互相关值。相应地，可以在直达声分量与散射声分量之间进行区分，以获得对期望互相关值的特别现实的估计。

在优选实施例中，滤波器计算器被配置为基于维纳-霍普夫（Wiener-Hopf）方程导出增强滤波器参数。在这种情况下，维纳-霍普夫方程描述了相关值、增强滤波器参数与期望互相关值之间的关系，所述相关值描述了多声道麦克风信号的不同声道对之间的相关性，期望互相关值是多声道麦克风信号的声道信号与下混频信号的期望声道信号之间的期望互相关值。已经发现，基于维纳-霍普夫方程能够获得非常适合于下混频信号的声道信号的期望相关特性的增强滤波器参数。

在优选实施例中，滤波器计算器被配置为根据期望下混频信号的模型来计算增强滤波器参数。通过对期望下混频信号进行建模，可以计算增强滤波器参数，使得获得允许对多声道解码器中的期望多声道扬声器信号的良好重构的下混频信号。

在一些实施例中，期望下混频声道的模型可以包括在可单独获得声道信号（例如，扩音器信号）的情况下执行的理想下混频模型。此外，建模可以包括即使多声道麦克风信号包括仅具有有限空间分离的声道信号，也可以根据多声道麦克风信号获得单独声道信号的模型。相应地，例如，通过将用于获得单独声道信号（例如，扩音器信号）以及用于根据所述单独声道信号获得期望下混频声道的建模相组合，来获得期望下混频信号的总模型。因此，这对于以相对小计算量可获得增强滤波器参数的计算而言是足够良好的参考。

在优选实施例中，滤波器计算器被配置为选择性地执行单声道滤波或双声道滤波，在单声道滤波中，通过对多声道麦克风信号的第一声道的滤波来导出下混频信号的第一声道，并且通过对多声道麦克风信号的第二声道的滤波来导出下混频信号的第二声道，同时避免从多声道麦克风信号的第一声道到下混频信号的第二声道的串扰以及从多声道麦克风信号的第二声道到下混频信号的第一声道的串扰，在双声道滤波中，通过对多声道麦克风信号的第一和第二声道进行滤波来导出下混频信号的第一声道，并且通过对多声道麦克风信号的第一和第二声道进行滤波来导出下混频信号的第二声道。根据对多声道麦克风信号的第一声道和多声道麦克风信号的第二声道之间相关性加以描述的相关值来进行对单声道滤波和双声道滤波的选择。通过在单声道滤波和双声道滤波之间进行选择，可以避免数字错误，如果在左声道和右声道高度相关的情况下使用双声道滤波，则有时会出现数字错误。相应地，可以获得良好质量的下混频信号，而与多声道麦克风信号的声道信号是否高度相关无关。

根据本发明的另一实施例创建了一种用于产生增强下混频信号的方法。

根据本发明的另一实施例创建了一种用于执行产生增强下混频信号的方法的计算机程序。

方法和计算机程序可以基于与装置相同的发现，并且可以通过参照装置讨论的任何特征和功能来补充方法和计算机程序。

附图说明

参照附图顺序地描述根据本发明的实施例，在附图中：

图1示出了根据本发明实施例的用于产生增强下混频信号的装置的示意框图；

图2示出了根据本发明实施例的空间音频麦克风处理的图示说明；

图3示出了根据本发明实施例的增强下混频计算的图示说明；

图4示出了可以在根据本发明实施例中使用的用于计算期望下混频信号Y₁和Y₂的声道映射的图示说明；

图5示出了根据本发明实施例的基于预处理的麦克风信号的增强下混频计算的图示说明；

图6示出了根据本发明实施例的用于根据多声道麦克风信号导出增强滤波器参数的计算的示意表示；以及

图7示出了根据本发明另一实施例的用于根据多声道麦克风信号导出增强滤波器参数的计算的示意表示。

具体实施方式

1.根据图1用于产生增强下混频信号的装置

图1示出了基于多声道麦克风信号产生增强下混频信号的装置100的示意框图。装置100被配置为接收多声道麦克风信号110，并且基于多声道麦克风信号110提供增强下混频信号112。装置100包括：空间分析器120，被配置为基于多声道麦克风信号110来计算空间提示参数集合122。空间提示参数典型地包括对直达声（直达声被包括在多声道麦克风信号中）的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息。装置100还包括滤波器计算器130，根据空间提示参数122（即，根据对直达声的到达方向加以描述的方向信息）、直达声功率信息以及散射声功率信息来计算增强滤波器参数132。装置100还包括滤波器140，使用增强滤波器参数132对麦克风信号110或根据麦克风信号110导出的信号110’进行滤波，以获得增强下混频信号112。可选地可以使用可选预处理150根据多声道麦克风信号110来导出信号110’。

关于装置100的功能，应当注意，典型地提供增强下混频信号112，使得与多声道麦克风信号110相比增强下混频信号112实现了MPEG环绕解码之后改善的空间音频质量，这是因为增强滤波器参数132典型地由滤波器计算器130来提供，以便实现该目标。增强滤波器参数132的提供是基于空间分析器所提供的空间提示参数集合122，使得根据多声道麦克风信号110的空间特性来提供增强滤波器参数132，以便强调多声道麦克风信号110的空间特性。相应地，滤波器140所执行的滤波与输入的多声道麦克风信号110相比实现了对增强下混频信号112的空间特性的信号自适应改进。

后续更详细地描述由空间分析器120执行的空间分析、滤波器计算器130执行的滤波器参数计算和滤波器140执行的滤波有关的细节。

2.根据图2的用于产生增强下混频信号的装置

图2示出了用于产生增强下混频信号（可以采用双声道音频信号的形式）以及与具有多于两个声道的上混频信号相关联的空间提示集合的装置200的示意框图。装置200包括：麦克风装置205，被配置为提供包括第一声道信号210a和第二声道信号210b的双声道麦克风信号。

装置200还包括：处理器216，基于双声道麦克风信号提供与具有多于两个声道的上混频信号相关联的空间提示集合。处理器216还被配置为提供增强滤波器参数232。处理器216被配置为接收麦克风装置205提供的第一声道信号210a和第二声道信号210b作为其输入信号。处理器216被配置为提供增强滤波器参数232，并且还提供空间提示信息262。装置200还包括：双声道音频信号供应器240，被配置为接收麦克风装置205提供的第一声道信号210a和第二声道信号210b，并且提供第一声道信号210a和第二声道信号210b的处理版本作为包括声道信号212a、212b的双声道音频信号212。

麦克风装置205包括第一定向麦克风206和第二定向麦克风208。第一定向麦克风206和第二定向麦克风208优选地间隔不超过30cm。相应地，第一定向麦克风206和第二定向麦克风208接收到的信号具有强相关性，已经发现这对于信号分析器220计算分量能量信息（或分量功率信息）122a和方向信息122b是有利的。然而，对第一定向麦克风206和第二定向麦克风208进行定向，使得第二定向麦克风208的方向特性209是第一定向麦克风206的方向特性207的旋转版本。相应地，第一声道麦克风信号210a和第二声道麦克风信号210b具有强相关性（由于麦克风206和208的空间接近），然而也是不同的（由于定向麦克风206、208的不同方向特性207、209）。具体地，从近似恒定方向入射在麦克风装置205上的方向信号使第一声道麦克风信号210a和第二声道麦克风信号210b的强相关信号分量具有时间恒定的方向相关幅度比（或强度比）。从时变方向入射在麦克风阵列205上的环境音频信号使第一声道麦克风信号210a和第二声道麦克风信号210b的信号分量具有显著相关性但具有时间波动幅度比（或强度比）。相应地，麦克风装置205提供使得即使在麦克风206、208间距较小时，处理器216的信号分析器220也能够在直达声与散射声之间进行区分的双声道麦克风信号210a、210b。因此，装置200构成音频信号供应器，音频信号供应器能够以空间紧凑的形式来实现，但仍能够提供与具有多于两个声道的上混频信号相关联的空间提示。

空间提示262可以与空间音频解码器提供的双声道音频信号212a、212b相结合地使用，以提供环绕声音输出信号。在下文中，给出了关于装置200的一些其他说明。可选地，装置200包括：麦克风装置205，提供第一声道信号210a和第二声道信号210b。第一声道信号210a也可以用x₁(t)表示，第二声道信号210b也可以用x₂(t)表示。应当注意，第一声道信号210a和第二声道信号210b可以表示被输入到根据图1的装置100中的多声道麦克风信号110。

双声道音频信号供应器240接收第一声道信号210a和第二声道信号210b，并且典型地还接收增强滤波器参数信息232。双声道音频信号供应器240例如可以执行可选预处理150和滤波器140的功能，以提供由第一声道信号212a和第二声道信号212b表示的双声道音频信号212。双声道音频信号212可以等同于图1的装置100输出的增强下混频信号112。

信号分析器220可以被配置为接收第一声道信号210a和第二声道信号210b。同样，信号分析器220可以被配置为基于双声道麦克风信号210（即，基于第一声道信号210a和第二声道信号210b）获得分量能量信息122a和方向信息122b。优选地，信号分析器220被配置为获得分量能量信息122a和方向信息122b，使得分量能量信息122a描述对双声道麦克风信号的直达声分量的能量（或功率）以及双声道麦克风信号的散射声分量的能量（或功率）的估计，并且使得方向信息122描述对双声道麦克风信号210a、210b的直达声分量从哪个方向而来的估计。相应地，信号分析器220可以采用空间分析器120的功能，并且分量能量信息122a和方向信息122b可以等同于空间提示参数122。分量能量信息122a可以等同于直达声功率信息和散射声功率信息。处理器216还包括：空间辅助信息发生器260，从信号分析器220接收分量能量信息122a和方向信息122b。空间辅助信息发生器260被配置为基于分量能量信息122a和方向信息122b提供空间提示信息262。优选地，空间辅助信息发生器260被配置为将双声道麦克风信号210a、210b的分量能量信息122a和双声道麦克风信号210a、210b的方向信息122b映射到空间提示信息262上。相应地，获得空间辅助信息262，使得空间提示信息262描述与具有多于两个声道的上混频音频信号相关联的空间提示集合。

处理器216基于双声道麦克风信号210a、210b实现了对空间提示信息262的计算上非常高效的计算，空间提示信息262与具有多于两个声道的上混频音频信号相关联。信号分析器220能够从双声道麦克风信号中提取大量信息，即分量能量信息122a和方向信息122b，分量能量信息122a描述对直达声分量的能量估计以及对散射声分量的能量估计，方向信息122b描述了对双声道麦克风信号的直达声分量所源自的方向的估计。已经发现，信号分析器220基于双声道麦克风信号210a、210b获得的该信息甚至对于具有多于两个声道的上混频音频信号也足以导出空间提示信息262。重要地，已经发现分量能量信息122a和方向信息122b足以直接确定空间提示信息262，而无需实际使用上混频音频声道作为中间量。

此外，处理器216包括：滤波器计算器230，被配置为接收分量能量信息122a和方向信息122b，并且基于分量能量信息122a和方向信息122b提供增强滤波器参数信息232。相应地，滤波器计算器230可以接管滤波器计算器130的功能。

综上所述，装置200能够在两种情况下，以高效方式使用相同的中间信息122a、122b高效地确定增强下混频信号212和空间提示信息262。同样，应当注意，装置200能够使用空间上较小的麦克风装置205来获得（增强）下混频信号212和空间提示信息262。尽管使用小麦克风装置（可以是装置200的部件或者可以在装置200外部但与装置200相连），但下混频信号212包括非常良好的空间分离特性，这是因为通过滤波器计算器230来计算增强滤波器参数232。相应地，（增强）下混频信号212在与空间提示信息262相结合时可以非常适合于空间呈现（例如，使用MPEG环绕解码器的空间呈现）。

总之，图2示出了空间音频麦克风技术的示意框图。如所见，在模块216中使用立体声麦克风输入信号210a（也用x₁(t)表示）和210b（也用x₂(t)表示），来计算与多声道上混频信号（例如，双声道音频信号212）相关联的空间提示信息262的集合。此外，提供了双声道下混频信号212。

在以下部分中，对基于分析立体声麦克风信号确定空间提示信息262所需的步骤进行概述。这里，参照参考文献[2]中的描述。

3.立体声信号分析

在下文中，描述可以由空间分析器120或信号分析器220执行的立体声信号分析。应当注意，在存在多于两个所使用的麦克风并且存在多声道麦克风信号的多于两个声道信号的一些实施例中，可以使用增强信号分析。

本文描述的立体声信号分析可以用于提供空间提示参数122，可以采取分量能量信息122a和方向信息122b的形式。应当注意，立体声信号分析可以在时-频域中执行。相应地，可以将多声道麦克风信号110、210的声道信号210a、210b转换成用于其他分析目的的时-频域表示。

麦克风信号x₁(t)和x₂(t)的时-频域表示是X₁(k,i)和X₂(k,i)，其中，k和i是时间和频率索引。假定可以将X₁(k,i)和X₂(k,i)建模为：

X₁(k，i)＝S(k，i)+N₁(k，i)

X₂(k，i)＝α(k，i)S(k，i)+N₂(k，i).（1）

其中，a(k,i)是增益因子，S(k,i)是左声道中的直达声，N₁(k,i)和N₂(k,i)表示散射声。

根据a,E{SS^*},E{N₁N₁ ^*},和E{N₂N₂ ^*}计算空间音频编码（SAC）下混频信号112、212和辅助信息262，其中，E{.}是短时平均运算，并且^*表示复共轭。在下文中导出这些值。

根据（1），遵循

E {X_{1} X_{1}^{*}} = E {{SS}^{*}} + E {N_{1} N_{1}^{*}}

E {X_{2} X_{2}^{*}} = a^{2} E {{SS}^{*}} + E {N_{2} N_{2}^{*}}

E {X_{1} X_{2}^{*}} = aE {{SS}^{*}} + E {N_{1} N_{2}^{*}} . - - - (2)

应当注意，这里可以将E{SS^*}视为直达声功率信息，同样也可以视为直达声能量信息，并且可以将E{N₁N₁ ^*}和E{N₂N₂ ^*}视为散射声功率信息或散射声能量信息。可以将E{SS^*}和E{N₁N₁ ^*}视为分量能量信息，可以将a视为方向信息。

假定两个麦克风信号的散射声量相同，即，E{N₁N₁ ^*}=E{N₂N₂ ^*}=E{NN^*}，并且假定N₁与N₂之间的归一化互相关系数是Φ_diff，即，

Φ_{diff} = \frac{E {N_{1} N_{2}^{*}}}{\sqrt{E {N_{1} N_{1}^{*}} E {N_{2} N_{2}^{*}}}} . - - - (3)

Φ_diff例如可以取预定值，或者可以根据一些算法来计算Φ_diff。

给出这些假定的情况下，（2）可以写为：

E {X_{1} X_{1}^{*}} = E {{SS}^{*}} + E {{NN}^{*}}

E {X_{2} X_{2}^{*}} = a^{2} E {{SS}^{*}} + E {{NN}^{*}}

E {X_{1} X_{2}^{*}} = aE {{SS}^{*}} + Φ_{diff} E {{NN}^{*}} . - - - (4)

消去（2）中的E{SS^*}和a获得二次方程

AE{NN^＊}²+BE{NN^＊}+C＝0 (5)

其中，

A = 1 - Φ_{diff}^{2},

B = {2 Φ}_{diff} E {X_{1} X_{2}^{*}} - E {X_{1} X_{1}^{*}} - E {X_{2} X_{2}^{*}},

C = E {X_{1} X_{1}^{*}} E {X_{2} X_{2}^{*}} - E {X_{1} X_{2}^{*}}^{2} . - - - (6)

则E{NN^*}是（5）的两个解之一，物理上可能是一个解，即，

E {{NN}^{*}} = \frac{- B - \sqrt{B^{2} - 4 AC}}{2 A} . - - - (7)

（5）的另一解获得比麦克风信号功率大的散射声功率，这在物理上是不可能的。

给出（7）的情况下，容易计算a和E{SS^*}

a = \sqrt{\frac{E {X_{2} X_{2}^{*}} - E {{NN}^{*}}}{E {X_{1} X_{1}^{*}} - E {{NN}^{*}}}}

E {{SS}^{*}} = E {X_{1} X_{1}^{*}} - E {{NN}^{*}}

a^{2} E {{SS}^{*}} + E {X_{2} X_{2}^{*}} - E {{NN}^{*}} . - - - (8)

如在参考文献[2]中所讨论的，可以根据估计的幅度比a(k,i)来确定直达声的到达方向a(k，i)，

α(k，i)＝f(α(k，i))， (9)

特定映射依赖于用于记录声音的立体声麦克风的方向特性。

4．空间辅助信息的产生

在下文中，描述可以由空间辅助信息发生器260提供的空间提示信息262的产生。然而，应当注意产生空间提示信息262形式的空间辅助信息不是本发明实施例的必要特征。相应地，应当注意一些实施例中可以省略产生空间辅助信息。同样，应当注意，可以使用用于获得空间提示信息262或任何其他空间辅助信息的不同方法。

然而，还应当注意，在下文中讨论的产生空间辅助信息可以被视为用于产生空间提示信息的优选构思。

在给出立体声信号分析结果122a、122b（即，参数a（相应地根据方程（9）的α）、E {SS^*}和E{NN^*}）的情况下，例如通过空间辅助信息发生器260产生SAC解码器可兼容空间参数。已经发现，进行上述操作的一种高效方式是考虑多声道信号模型。作为示例，在下文中考虑如图4中所示的扩音器配置，这意味着

L (k, i) = g_{1} (k, i) \tilde{S} (k, i) + h_{1} (k, i) {\tilde{N}}_{1} (k, i)

R (k, i) = g_{2} (k, i) \tilde{S} (k, i) + h_{2} (k, i) {\tilde{N}}_{2} (k, i)

C (k, i) = g_{3} (k, i) \tilde{S} (k, i) + h_{3} (k, i) {\tilde{N}}_{3} (k, i)

L_{s} (k, i) = g_{4} (k, i) \tilde{S} (k, i) + h_{4} (k, i) {\tilde{N}}_{4} (k, i)

R_{s} (k, i) = g_{5} (k, i) \tilde{S} (k, i) + h_{5} (k, i) {\tilde{N}}_{5} (k, i), - - - (10)

其中，是直达声信号，并且至是散射（声道间无关的）信号。对应于立体声麦克风信号中直达声的增益补偿总量，即，

\tilde{S} (k, i) = 10^{\frac{g (α)}{20}} \sqrt{1 + a^{2}} S (k, i), - - - (11)

并且，散射声信号至具有等于E{NN^*}的所有相同功率。应当注意，该散射声功率定义是任意的，这是因为最终，增益h₁至h₅确定散射声的量。

应当注意，L(k,i),R(k,i),C(k,i),L_s(k,i)和R_s(k,i)例如可以是期望声道信号或期望扩音器信号。

在第一步骤中，根据直达声的到达方向α(k,i)，应用多声道幅度平移定律（例如，参见参考文献[7]和[4]）来确定增益因子g₁至g₅。然后，试探（heuristic）过程用于确定散射声增益h₁至h₅。恒定值h₁=1.0,h₂=1.0,h₃=0,h₄=1.0,和h₅=1.0是合理选择，即，环境平均地分布在前面和后面，而产生中心声道作为干信号。然而，对h₁至h₅的不同选择是可能的。

来自侧面和后面的直达声相对于从前向到达的声音而衰减。麦克风信号中包含的直达声优选地由因子g(α)增益补偿，因子g(α)依赖于麦克风的方向性图。

在给出环绕信号模型（10）的情况下，将对所使用的特定SAC的空间提示分析应用于信号模型，以获得针对MPEG环绕的空间提示。

（10）中定义的信号的功率谱是

P_{L} (k, i) = g_{1}^{2} E {\tilde{S} {\tilde{S}}^{*}} + h_{1}^{2} E {{NN}^{*}}

P_{R} (k, i) = g_{2}^{2} E {\tilde{S} {\tilde{S}}^{*}} + h_{2}^{2} E {{NN}^{*}}

P_{C} (k, i) = g_{3}^{2} E {\tilde{S} {\tilde{S}}^{*}} + h_{3}^{2} E {{NN}^{*}}

P_{L_{s}} (k, i) = g_{4}^{2} E {\tilde{S} {\tilde{S}}^{*}} + h_{4}^{2} {{NN}^{*}}

P_{R_{s}} (k, i) = g_{5}^{2} E {\tilde{S} {\tilde{S}}^{*}} + h_{5}^{2} {{NN}^{*}}, - - - (12)

其中，

E {\tilde{S} {\tilde{S}}^{*}} = 10^{\frac{g (α)}{10}} (1 + α^{2}) E {{SS}^{*}} . - - - (13)

在下文中使用的交叉谱是

P_{{LL}_{s}} (k, i) = g_{1} g_{4} 10^{\frac{g (α)}{10}} (1 + α^{2}) E {{SS}^{*}}

P_{{RR}_{s}} (k, i) = g_{2} g_{5} 10^{\frac{g (α)}{10}} (1 + α^{2}) E {{SS}^{*}} . - - - (14)

MPEG环绕在对环绕声道进一步处理之前将-3dB增益应用于环绕声道。这可以被认为用于产生可兼容的下混频和空间辅助信号。

MPEG环绕的第一2到1（TTO）盒使用L与L_s之间的声道间电平差（ICLD）和声道间相干性值（ICC）。基于（10）和用于补偿环绕声道的预缩放，这些提示是

{ICLD}_{{LL}_{s}} = 10 \log_{10} \frac{P_{L} (k, i)}{g_{s}^{2} P_{L_{s}} (k, i)}

{ICC}_{{LL}_{s}} = \frac{P_{{LL}_{s}} (k, i)}{\sqrt{P_{L} (k,, i) P_{L_{s}} (k, i)}} . - - - (15)

类似地，计算针对R和R_s的第二TTO盒的ICLD和ICC：

{ICID}_{{RR}_{s}} = {10 \log}_{10} \frac{P_{R} (k, i)}{g_{s}^{2} P_{R_{s}} (k, i)}

{ICC}_{{RR}_{s}} = \frac{P_{{RR}_{s}} (k, i)}{\sqrt{P_{R} (k, i) P_{R_{s}} (k, i)}}, - - - (16)

在“能量模式”中使用MPEG环绕的3到2（TTT）盒，例如，参见参考文献[1]。注意，TTT盒在计算下混频和空间辅助信息之前将中心声道按比例缩减了考虑环绕声道的预缩放，TTT盒所使用的两个ICLD参数是

{ICLD}_{1} = {10 \log}_{10} \frac{P_{L} + g_{s}^{2} P_{L_{s}} + P_{R} + g_{s}^{2} P_{R_{s}}}{\frac{1}{2} P_{c}}

{ICLD}_{2} = {10 \log}_{10} \frac{P_{L} + g_{s}^{2} P_{L_{s}}}{P_{R} + g_{s}^{2} P_{R_{s}}} . - - - (17)

注意，为了简洁标记，已经再次消去索引i和k。

相应地，基于空间提示参数122,122a,122b（即，基于分量能量信息122a和方向信息122b）通过空间附属信息发生器260获得包括ICLD_LLs,ICC_LLs,ICLD_RRs,ICC_RRs,ICLD₁ and ICLD₂的空间提示信息。

5.MPEG环绕解码

在下文中，描述可能的MPEG环绕解码，MPEG环绕解码用于根据下混频信号（例如，根据增强下混频信号112或增强下混频信号212），使用空间提示信息262（或任何其他适合的空间提示信息）导出多声道信号，例如，多扩音器信号。

在MPEG环绕解码器中，使用接收到的空间辅助信息262将接收到的下混频信号122、212扩充到多于两个声道。通过分别适当地将所谓的反向1到2(R-OTT)盒与反向3到2（R-TTT）盒装置级联来执行该上混频（例如，参见参考文献[6]）。尽管R-OTT盒基于单音频输入和辅助信息输出两个音频声道，但是R-TTT盒也能够基于双声道音频输入和关联的辅助信息确定三个音频声道。换言之，反向盒执行上述对应TTT和OTT盒的反向处理。

类似于在编码器处的多声道信号模型，解码器采用特定扩音器配置来正确地再现原始环绕声音。此外，解码器假定MPS编码器（MPEG环绕编码器）执行对多个输入声道的特定混合来计算正确的下混频信号。

在下个部分提出MPEG环绕立体声下混频的计算。

6.MPEG环绕立体声下混频信号的产生

在下文中，描述如何产生MPEG环绕立体声下混频信号。

在优选实施例中，确定下混频，使得在与左半球与右半球相对应的扩音器声道之间不存在串扰。这具有以下优点：不存在从左半球到右半球的不期望声能泄露，这在解码MPEG环绕流之后会显著增加左/右分离。此外，相同理由也应用于从右声道到左声道的信号泄露。

当MPEG环绕用于编码传统5.1环绕音频信号时，所使用的立体声下混频是

[Y₁ Y₂]^T＝M[L R C L_s R_s ]^T， (18)

其中，下混频矩阵是

M = [\begin{matrix} 1 & 0 & \sqrt{\frac{1}{2}} & g_{s} & 0 \\ 0 & 1 & \sqrt{\frac{1}{2}} & 0 & g_{s} \end{matrix}], - - - (19)

其中，g_s是针对环绕声道给出的上述预增益。

可以将根据（18），（19）的下混频计算视为映射，该映射是将对应扩音器位置所覆盖的回放区域到两个下混频声道的映射。针对传统下混频计算（18）、（19）的特定情况，在图4中示出了该映射。

7.增强下混频计算

7.1 增强下混频计算的概述

在下文中，描述与增强下混频计算有关的细节。为了便于理解本发明构思的优点，本文给出与一些传统系统的比较。

在如部分2中所述的空间音频麦克风的情况下，在没有下文中描述的增强下混频计算时，下混频信号基本上对应于立体声麦克风（例如，麦克风装置205的立体声麦克风）的记录信号。已经发现实际立体声麦克风由于它们的特定方向性图不提供左信号分量和右信号分量的期望分离。还已经发现，结果左声道和右声道（例如，声道信号210a和210b）之间的串扰太高，导致MPEG环绕解码信号的不良声道分离。

根据本发明的实施例创建了一种计算增强下混频信号112、212的方法，增强下混频信号112、212近似于期望的SAC下混频信号（例如，信号Y₁,Y₂），即，呈现与原始立体声输入110、210中包括的串扰电平不同的不同声道之间的期望串扰电平。这在使用关联的空间辅助信息262的空间音频解码之后获得改善的声音质量。

图1、2、3和5中示出的框图示意了提出的方法。如所见，通过下混频增强单元140,240,340对原始麦克风信号110,210,310进行处理，以获得增强下混频声道112,212,312。控制单元120,130,216,316控制麦克风信号110,210,310的修改。控制单元考虑用于扩音器回放的多声道信号模型，以及估计的空间提示参数122,122a,122b,322。根据该信息，控制单元确定增强的目标，即，期望下混频信号（例如，下混频信号Y₁,Y₂）的模型。以下描述本发明的细节。

7.2 期望立体声下混频信号的模型

在本部分中，讨论期望立体声下混频信号的模型，该模型也呈现了所提出的增强下混频计算的目标。

如果根据方程（10）对所采用的环绕信号模型应用方程（18）和（19），则根据以下方程获得期望下混频信号的模型

Y_{1} = (g_{1} + \frac{1}{\sqrt{2}} g_{3} + g_{s} g_{4}) \tilde{S} + {\tilde{N}}_{1}

Y_{2} = (g_{2} + \frac{1}{\sqrt{2}} g_{3} + g_{s} g_{5}) \tilde{S} + {\tilde{N}}_{2}, - - - (20)

其中，两个散射声信号和是

{\overset{&OverBar;}{N}}_{1} = h_{1} {\tilde{N}}_{1} + \frac{1}{\sqrt{2}} {\tilde{N}}_{3} + g_{s} h_{4} {\tilde{N}}_{4}

{\overset{&OverBar;}{N}}_{2} = h_{2} {\tilde{N}}_{2} + \frac{1}{\sqrt{2}} {\tilde{N}}_{3} + g_{s} h_{5} {\tilde{N}}_{5} . - - - (21)

左麦克风信号和右麦克风信号的散射声是N₁和N₂。因此，下混频应当基于与N₁和N₂有关的散射声。由于，如前所定义的，N₁,N₂的功率与1至5的功率相同，基于与1和2（21）具有相同功率的N₁和N₂的散射信号是

{\overset{&OverBar;}{N}}_{1} = \sqrt{h_{1}^{2} + \frac{1}{2} h_{3}^{2} + g_{s}^{2} h_{4}^{2} N_{1}}

{\overset{&OverBar;}{N}}_{2} = \sqrt{h_{2}^{2} + \frac{1}{2} h_{3}^{2} + g_{s}^{2} h_{5}^{2} N_{2}} . - - - (22)

相应地，期望立体声下混频信号的模型允许根据增益值g₁,g₂,g₃,g₄,g₅,g_s,h₁,h₂,h₃,h₄,h₅并且还根据立体声麦克风信号中直达声以及散射信号N₁,N₂的增益补偿总量来表示期望立体声下混频信号的声道信号Y₁,Y₂。

7.3单声道滤波

在下文中，描述以下方法：根据多声道麦克风信号的第一声道信号导出增强下混频信号的第一声道，并且根据多声道麦克风信号的第二声道信号导出增强下混频信号的第二声道。还应当注意，可以通过滤波器140或者通过双声道音频信号供应器240或者通过下混频增强器340来执行下文中描述的滤波。还应当注意，可以通过滤波器计算器130、滤波器计算器230或控制器316来提供增强滤波器参数H₁,H₂。

根据（20）确定期望下混频信号Y₁(k,i)和Y₂(k，i)的一种可能方法是对原始立体声麦克风输入X₁(k，i)和X₂(k,i)应用增强滤波器，即

{\hat{Y}}_{1} (k, i) = H_{1} (k, i) X_{1} (k, i)

{\hat{Y}}_{2} (k, i) = H_{2} (k, i) X_{2} (k, i) . - - - (23)

选择这些滤波器，使得和（即，通过对多声道麦克风信号的声道信号进行滤波而获得的实际下混频信号）分别近似于期望下混频信号Y₁(k,i)和Y₂(k,i)。适合的近似是，如分别在目标下混频信号Y₁(k,i)和Y₂(k,i)中给出的，和在多声道麦克风信号模型的能量方面共享相同的能量分布。换言之，选择滤波器，使得通过对多声道麦克风信号的声道信号进行滤波而获得的实际下混频信号在一些统计特性（例如，能量特性或互相关特性）方面近似于期望下混频信号。

在增强滤波器对应于维纳滤波器（例如，参见参考文献[5]）的情况下，可以根据以下方程确定H1(k,i)和H2(k,i)

H_{1} = \frac{E {X_{1} Y_{1}^{*}}}{E {X_{1} X_{1}^{*}}}

H_{2} = \frac{E {X_{2} Y_{2}^{*}}}{E {X_{2} X_{2}^{*}}} . - - - (24)

将（20）代入（22）并代入（24）中，获得

H_{1} = \frac{ω_{1} E {{SS}^{*}} + ω_{3} E {{NN}^{*}}}{E {{SS}^{*}} + E {{NN}^{*}}}

H_{2} = \frac{ω_{2} E {{SS}^{*}} + ω_{4} E {{NN}^{*}}}{a^{2} E {{SS}^{*}} + E {{NN}^{*}}}, - - - (25)

其中，

ω_{1} = 10^{\frac{g (α)}{20}} \sqrt{1 + a^{2}} (g_{1} + \frac{1}{\sqrt{2}} g_{3} + g_{s} g_{4}) - - - (26)

ω_{2} = 10^{\frac{g (α)}{20}} a \sqrt{1 + a^{2}} (g_{2} + \frac{1}{\sqrt{2}} g_{3} + g_{s} g_{5}) - - - (27)

ω_{3} = \sqrt{h_{1}^{2} + \frac{1}{2} h_{3}^{2} + g_{s}^{2} h_{4}^{2}} - - - (28)

ω_{4} = \sqrt{h_{2}^{2} + \frac{1}{2} h_{3}^{2} + g_{s}^{2} h_{5}^{2}} . - - - (29)

如所述，增强滤波器直接依赖于多声道信号模型（10）的不同分量。由于基于空间提示参数来估计这些分量，因此可以得出以下结论：针对增强下混频计算的滤波器H₁(k,i)和H₂(k,i)也依赖于这些空间提示参数。换言之，可以通过估计的空间提示参数来控制增强滤波器的计算，如图3所示。

7 4双声道滤波器

在该部分中，提出了题为“单声道滤波”的部分中讨论的单声道方法的备选方法。在这种情况下，根据两个麦克风输入信号X₁,X₂的滤波后版本来确定每个增强下混频声道该方法能够以最优方式组合两个麦克风声道，与单声道滤波方法相比可以期望改善的性能。

可以根据以下获得实际下混频信号

{\hat{Y}}_{1} (k, i) = [\begin{matrix} H_{1,1} & H_{1,2} \end{matrix}] [\begin{matrix} X_{1} (k, i) \\ X_{2} (k, i) \end{matrix}] - - - (30)

{\hat{Y}}_{2} (k, i) = [\begin{matrix} H_{2,1} & H_{2,2} \end{matrix}] [\begin{matrix} X_{1} (k, i) \\ X_{2} (k, i) \end{matrix}] - - - (31)

在下文中，示出了基于双声道维纳滤波器来估计增强滤波器的示例。为了表示简要，在下文中去掉了索引（k,i）。针对第一下混频声道的维纳-霍普夫方程方程是

[\begin{matrix} E {X_{1} X_{1}^{*}} & E {X_{1} X_{2}^{*}} \\ E {X_{2} X_{1}^{*}} & E {X_{2} X_{2}^{*}} \end{matrix}] [\begin{matrix} H_{1,1} \\ H_{1,2} \end{matrix}] = [\begin{matrix} E {X_{1} Y_{1}^{*}} \\ E {X_{2} Y_{1}^{*}} \end{matrix}] - - - (32)

因此获得该滤波器为

[\begin{matrix} H_{1,1} \\ H_{1,2} \end{matrix}] = \frac{1}{d} [\begin{matrix} E {X_{2} X_{2}^{*}} & - E {X_{1} X_{2}^{*}} \\ - E {X_{2} X_{1}^{*}} & E {X_{1} X_{1}^{*}} \end{matrix}] [\begin{matrix} E {X_{1} Y_{1}^{*}} \\ E {X_{2} Y_{1}^{*}} \end{matrix}]

[\begin{matrix} H_{2, 1} \\ H_{2,2} \end{matrix}] = \frac{1}{d} [\begin{matrix} E {X_{2} X_{2}^{*}} & - E {X_{1} X_{2}^{*}} \\ - E {X_{2} X_{1}^{*}} & E {X_{1} X_{1}^{*}} \end{matrix}] [\begin{matrix} E {X_{1} Y_{2}^{*}} \\ E {X_{2} Y_{2}^{*}} \end{matrix}] - - - (33)

其中，

d = E {X_{1} X_{1}^{*}} E {X_{2} X_{2}^{*}} - E {X_{1} X_{2}^{*}} E {X_{2} X_{1}^{*}} . - - - (34)

麦克风输入信号X₁,X₂和期望下混频声道Y₁,Y₂之间的互相关通过以下方程表示

E {X_{1} Y_{1}^{*}} = ω_{1} E {{SS}^{*}} + ω_{3} E {{NN}^{*}}

E {X_{2} Y_{1}^{*}} = a ω_{1} {{SS}^{*}} + ω_{3} Φ_{diff} E {{NN}^{*}} - - - (35)

E {X_{1} Y_{2}^{*}} = \frac{ω_{2}}{a} E {{SS}^{*}} + ω_{4} Φ_{diff} E {{NN}^{*}}

E {X_{2} Y_{2}^{*}} = ω_{2} E {{SS}^{*}} + ω_{4} E {{NN}^{*}}

其中，在（26）-（29）中已经引入了权重w_i。

7.5 单声道滤波与双声道滤波之间的选择

在下文中，描述了允许单声道滤波与双声道滤波之间的信号自适应选择的构思。

如所述，双声道滤波具有实际上有时（或者甚至经常）产生引入了音频伪像的滤波器的问题。只要左声道和右声道高度相关，维纳-霍普夫方程中的协方差矩阵就呈现较差条件。所得到的数值灵敏度则导致不合理的滤波器，并且引起音频伪像。为了防止上述问题，只要两个声道超过特定程度的相关性就使用单声道滤波。这可以通过只要满足式（37）就以如下方式计算滤波器来实现：

H_1，1＝H₁

H_1，2＝0

H_2，1＝0

H_2，2＝H₂， (36)

\frac{| E {X_{1} X_{2}^{*}} |}{\sqrt{E {X_{1} X_{1}^{*}} E {X_{2} X_{2}^{*}}}} > T, - - - (37)

其中，相干/相关阈值T确定在何种相关程度下使用单声道滤波。值T=0.9得到良好结果。

换言之，能够根据多声道麦克风信号的任何声道信号之间的相关程度，选择性地在单声道滤波与双声道滤波之间进行切换。如果相关性大于预定相关值，则可以使用单声道滤波来代替双声道滤波。

76 一般多声道情况

在下文中，将根据（10）对基于多声道信号模型的MPEG环绕立体声下混频信号的增强计算一般化为更一般的声道配置。类似于（10），假定K个扩音器声道的一般化的多声道信号模型由以下给出

Z_{l} (k, i) = g_{l} (k, i) \tilde{S} (k, i) + h_{l} (k, i) {\tilde{N}}_{l} (k, i), - - - (38)

其中，l=1,2...,K。增益因子g_l(k,i)依赖于回放配置内第l个扩音器的直达声的DOA和位置。如上所述可以预先确定和使用增益因子h_l。Z_l表示多个声道的期望声道信号，其中，l=1,2，...K。

根据以下方程通过适当混合运算来获得期望下混频声道j的信号Y_j(k,i)的计算

Y_{j} (k, i) = Σ_{l = 0}^{K - 1} m_{j, l} Z_{l} (k, i) . - - - (39)

混合权重m_j,l表示回放区域到第j个下混频声道的特定空间划分或映射，回放区域与第l个扩音器的位置相关联。

给出示例：在扩音器声道l（即，特定再现区域）不对第j个下混频信号做贡献的情况下，将对应的混合权重m_j,l设置为零。

类似于（23）、（30）和（30），相应地，通过适当地选择增强滤波器来修改原始麦克风输入声道X_j(k，i)，从而近似期望的下混频信号Y_j(k,i)。

在单声道滤波器的情况下，使得

{\hat{Y}}_{j} (k, i) = H_{l} (k, i) X_{j} (k, i) . - - - (40)

这里，表示多声道下混频信号的实际声道信号。

注意，可以在两个以上输入麦克风信号可用的情况下应用（40）。生成的滤波器还依赖于估计空间提示参数。这里，然而，不讨论基于多于两个麦克风输入声道对空间提示参数的估计，因为这不是本发明的实质部分。

能够导出针对一般多声道下混频增强滤波器、类似于（30）的所需方程。采用M个麦克风输入信号，通过向对应的麦克风信号X_m(k,i)应用M个增强滤波器来近似第j个期望下混频声道Y_j(k,i)：

{\tilde{Y}}_{j} (k, i) = H_{j}^{T} (k, i) X (k, i) - - - (41)

X(k，i)＝[X₁(k，i)X₂(k，i).....X_M(k，i)^T， (42)

H_j(k，i)＝[H_j，1(k，i)，H_j，2(k，i).....H_j，M(k，i)^T. (43)

可以使用一般化的信号模型（38）根据（39）来获得对应的期望下混频声道Y_j(k,i)。

可以通过对相应的维纳-霍普夫方程求解来获得多声道增强矩阵H_j(k,i)的元素。

E{X(k，i)X^H(k，i)}H_j(k，i)＝E{X(k，i)Y^*(k，i)}，(44)

其中，^H表示操作数的厄密共轭（hermitian）。

应当提及的是，如果在多声道信号模型（38）中选择较大数目K的扩音器，则可以将上述方法视为基于空间提示信息的一般麦克风串扰抑制器。在这种情况下，可以将扩音器位置直接视为直达声的对应DOA。应用本发明，可以使用一个或多个抑制滤波器来实现灵活的串扰抑制器。

8.麦克风信号的预处理

迄今为止，仅讨论了信号X_j(k,i)表示麦克风的输出信号的情况。备选地，所提出的新构思或方法也可以应用于预处理的麦克风信号。在图5中示出了对应的方法。

可以基于原始麦克风输入信号通过施加固定时间恒定波束成形（例如，参见参考文献[8]）来实现预处理。作为预处理的结果，在应用增强滤波器之前，已经减轻了到特定麦克风信号的不期望信号泄露的一些部分。

类似于上述滤波器，可以通过预处理级的输出信号X_j,mod(k,i)来代替X_j(k,i)，从而导出基于预处理的输入声道的增强滤波器。

9.根据图3的装置

图3示出了根据本发明另一实施例的基于多声道麦克风信号产生增强下混频信号的装置300的示意框图。

装置300包括：两个麦克风306、308，提供包括第一声道信号和第二声道信号的双声道麦克风信号310，第一声道信号由时-频域表示X₁(k,i)来表示，第二声道信号由第二时-频域表示X₂(k,i)来表示。装置300还包括：空间分析器320，接收双声道麦克风信号310，并且基于该双声道麦克风信号310提供空间提示参数322。空间分析器320可以采用空间分析器120或信号分析器220的功能，使得空间提示参数322可以等同于空间提示参数122或复合能量信息122a和方向信息122b。装置300还包括：控制设备316，接收空间提示参数322，并且还接收双声道麦克风信号310。控制单元316还接收多声道信号模型318，或者包括这种多声道信号模型318的参数。控制设备316向下混频增强设备340提供增强滤波器参数332。控制设备316例如可以采用滤波器计算器130或滤波器计算器230的功能，使得增强滤波器参数332可以等同于增强滤波器参数132或增强滤波器参数232。下混频增强设备340接收双声道麦克风信号310，并且还接收增强滤波器参数332，并且基于双声道麦克风信号310和增强滤波器参数332提供（实际）增强多声道下混频信号312。增强多声道下混频信号312的第一声道信号由时频表示来表示，增强多声道下混频信号312的第二声道信号由时频表示来表示。应当注意，下混频增强设备340可以采用滤波器140或双声道音频信号供应器340的功能。

10.根据图5的装置

图5示出了基于多声道麦克风信号产生增强下混频信号的装置500的示意框图。根据图5的装置500非常类似于根据图3的装置，使得相同的装置和信号可以用相同的附图标记来指示，并不再说明。然而除了装置300的功能框以外，装置500还包括：预处理580，接收多声道麦克风信号310，并且基于多声道麦克风信号310来提供多声道麦克风信号的预处理版本310’。在这种情况下，下混频增强340接收多声道麦克风信号310的处理版本310’，而不是多声道麦克风信号310本身。同样，控制设备316接收多声道麦克风信号的处理版本310’，而不是多声道麦克风信号310本身。然而，下混频增强340和控制设备316的功能实质上不受该修改的影响。

11．根据图4的声道信号到下混频信号的分配

如上所述，用于导出期望下混频声道Y₁,Y₂或其一些统计特征的下混频建模包括将直达声分量（例如，）和散射声分量（例如，）映射到声道信号（例如，L(k,i),R(k,i),C(k,i),L_s(k,i),R_s(k,i)或Z_l(k,i)），并且将扩音器声道信号映射到下混频声道信号。

关于直达声分量和散射声分量到扩音器声道信号的第一映射，可以使用由增益因子g_l描述的方向相关映射。然而，关于扩音器声道信号到下混频声道信号的映射，可以使用可以由下混频矩阵描述的固定假设。如图4所示，可以假定仅扩音器声道信号C,L和L_s对第一下混频声道信号Y₁有贡献，并且仅扩音器声道信号C,R和R_s对下混频声道信号Y₂有贡献。

在图4中示出了这一点。

12.根据图6的信号处理流

在下文中，参照图6描述根据本发明实施例中信号处理的流程图。图6示出了根据例如由时频表示X₁和X₂所表示的多声道麦克风信号导出增强滤波器参数H的信号处理流的示意表示。

处理流600例如包括：作为第一步骤，空间分析610可以采用空间提示参数计算的功能。相应地，可以基于多声道麦克风信号获得直达声功率信息（或直达声能量信息）E{SS^*}、散射声功率信息（或散射声能量信息）E{NN^*}、以及方向信息α。以上已经讨论了与直达声功率信息（或直达声能量信息）和散射声功率信息（或散射声能量信息）的导出以及方向信息有关的细节。

处理流600还包括：增益因子映射620，其中，将方向信息映射到多个增益因子（例如，增益因子g₁至g₅）。例如，可以使用多声道幅度平移定律来执行增益因子映射620，如上所述。

处理流600还包括：滤波器参数计算630，其中根据直达声功率信息、散射声功率信息、方向信息和增益因子导出增强滤波器参数H。此外，滤波器参数计算630可以使用例如对扩音器声道到下混频声道信号的期望映射加以描述的一个或多个恒定参数。同样，可以应用对散射声分量到扩音器信号的映射加以描述的预定参数。

滤波器参数计算例如包括w映射632。在可以根据方程26至29执行的w-映射中，可以获得用作中间量的值w₁至w₄。滤波器参数计算630还包括例如可以根据方程25执行的H映射634。在H映射634中，可以确定增强滤波器参数H。对于H映射，可以使用麦克风信号的声道与下混频信号的声道之间的期望互相关值E{X₁,Y₁ ^*},E{X₂Y₂ ^*}。可以基于直达声功率信息E{SS*}和E{NN*}来获得这些期望互相关值，如方程（25）中的分子所示，其与方程（24）的分子相同。

总之，可以应用图6的处理流，来根据声道信号X₁、X₂表示的多声道麦克风信号导出增强滤波器参数H。

13.根据图7的信号处理流

图7示出了根据本发明另一实施例的信号处理流700的示意表示。信号处理流700可以用于根据多声道麦克风信号导出增强滤波器参数H。

信号处理流700包括：空间分析710，可以等同于空间分析610。同样，信号处理流700包括：增益因子映射720，可以等同于增益因子映射620。

信号处理流700还包括滤波器参数计算730。滤波器参数计算730可以包括w-映射732，可以在一些情况下等同于w-映射632。然而，根据需要可以使用不同的w-映射。

滤波器参数计算730还包括：期望互相关计算724，在期望互相关计算过程中，可以计算多声道麦克风信号的声道与（期望）下混频信号的声道之间的期望互相关。例如可以根据方程35执行该计算。应当注意，可以在期望互相关计算734中应用期望下混频信号的模型。例如，可以在期望互相关计算734中应用根据方向信息将多声道麦克风信号的直达声分量映射到多个扩音器信号的假定。此外，也可以在期望互相关计算734中评价在扩音器信号中反映多声道麦克风信号的散射声分量的假定。此外，也可以在期望互相关计算734中应用于与多个扩音器声道到下混频信号的期望映射有关的假定。相应地，可以基于直达声功率信息、散射声功率信息、方向信息和方向相关增益因子（其中，后一信息可以组合以获得中间值w）获得麦克风信号的声道与（期望）下混频信号的声道之间的期望互相关E{X_i Y_j ^*}。

滤波器参数计算730还包括：对例如可以根据方程33和34执行的维纳-霍普夫方程进行求解736。为此，可以根据直达声功率信息、散射声功率信息以及多声道麦克风信号的声道与（期望）下混频信号的声道之间的期望互相关来建立维纳-霍普夫方程。作为维纳-霍普夫方程的解（例如，方程32），可以获得增强滤波器参数H。

综上所述，对增强滤波器参数H的确定在一些实施例中可以包括分开步骤，计算期望互相关，以及建立和求解维纳-霍普夫方程（步骤736）。

14.结论

综上所述，根据本发明的实施例创建了基于麦克风输入信号计算参数空间音频编码器的期望下混频信号的增强构思和方法。通过将立体声麦克风信号转换成与计算的MPS参数相对应的MPEG环绕下混频给出了重要示例。与参考文献[2]中提出的现有技术情况相比，增强下混频信号获得MPS解码之后空间音频质量以及定位特性的显著改善。根据本发明的简单实施例包括以下步骤1至4:

1.接收麦克风输入信号；

2.计算空间提示参数；

3.基于期望下混频声道的模型、解码器输出的多声道扩音器信号模型以及空间提示参数来确定下混频增强滤波器；以及

4.对麦克风输入信号应用增强滤波器，以获得用于空间音频麦克风的增强下混频信号。

根据本发明的另一简单实施例创建了一种产生下混频信号的装置、方法或计算机程序，该装置、方法或计算机程序包括：滤波器计算器，基于与麦克风信号有关的信息或者基于与预期回放设置有关的信息来计算增强滤波器参数，并且该装置、方法或计算机程序包括：滤波器装置（或滤波步骤），使用增强滤波器参数来滤波麦克风信号，以获得增强下混频信号。

可选地，该装置、方法和计算机程序的改善之处在于，滤波器计算器被配置为基于期望下混频声道的模型、针对解码器输出的多声道扬声器信号模型或空间提示参数来计算增强滤波器参数。

15.实现备选方式

尽管在装置的上下文中描述了一些方面，然而应清楚，这些方面也可以表示对相应方法的描述，其中，模块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也可以表示对相应装置的相应模块或项目或特征的描述。一些或所有方法步骤可以通过（或使用）硬件装置（例如，微处理器、可编程计算机或电路）来执行。在一些实施例中，最重要方法步骤中的一个或多个可以通过这样的装置来执行。

本发明的编码音频信号可以存储在数字记录介质上，或者可以在传输介质上传输。例如，无线传输介质或诸如互联网等有线传输介质。

根据特定实现的要求，本发明的实施例可以以硬件或软件的形式实现。可以使用数字存储介质来执行这种实现，所述数字存储介质例如是上面存储有电可读控制信号的软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，所述电可读控制信号与可编程计算机系统协作（或能够与可编程计算机系统协作），以执行相应的方法。因此，所述数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括数据载体，所述数据载体具有电可读控制信号，所述电可读控制信号可以与可编程计算机系统协作，以执行本文描述的方法之一。

通常，本发明的实施例可以被实现为具有程序代码的计算机程序产品，所述程序代码用于在所述计算机程序产品在计算机上运行时执行上述方法之一。程序代码例如可以存储在机器可读载体上。

其他实施例包括用于执行本文中描述的方法之一的计算机程序，所述计算机程序存储在机器可读载体上。

换言之，本发明的方法的实施例因此是一种具有程序代码的计算机程序，所述程序代码用于在计算机程序在计算机上运行时执行本文描述的方法之一。

本发明方法的另一实施例因此是一种数据载体（或数字存储介质，或计算机可读介质），包括记录在该数据载体上的计算机程序，所述计算机程序用于执行本文描述的方法之一。所述数据载体、数字存储介质或记录的介质一般是有形的和/或非瞬时的。

因此本发明的方法的另一实施例是一种数据流或信号序列，所述数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。所述数据流或信号序列可以例如被配置为经由数据通信连接（例如，经由互联网）来传递。

另一实施例包括一种处理装置，例如计算机或可编程逻辑装置，所述处理装置被配置为适于执行本文描述的方法之一。

另一实施例包括一种上面安装有计算机程序的计算机，所述计算机程序用于执行本文描述的方法之一。

根据本发明的另一实施例包括被配置为向接收机传送（例如，电方式或光方式）计算机程序的装置或系统，计算机程序用于执行本文描述的方法之一。接收机例如是计算机、移动设备、存储器设备等。装置或系统例如可以包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可以使用可编程逻辑装置（例如，现场可编程门阵列）来执行本文描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以执行本文描述的方法之一。通常，方法优选地由任何硬件设备来执行。

上述实施例仅用于说明本发明的原理。应理解，对于本领域技术人员来说，本文描述的布置和细节的修改和变化是显而易见的。因此，本发明仅由权利要求来限制，而不由本文中通过描述和说明实施例而提供的特定细节来限制。

参考文献

[1]ISO/IEC 23003-1:2007.Information technology-MPEGAudio technologies-Part 1:MPEG Surround.International StandardsOrganization,Geneva,Switzerland,2007。

[2]C.Faller.Microphone font-ends for spatial audio coders.In125th AES Convention,Paper 7508,San Francisco,Oct.2008。

[3]M.A.Gerzon.Periphony:Width-Height Sound Reproduction.J.Aud.Eng.Soc.,21(1):2-10,1973。

[4]D.Griesinger.Stereo and surround panning in practice.InPreprint 112th Conv.Aud.Eng.Soc.,May 2002。

[5]S.Haykin.Adaptive Filter Theory(third edition).Prentice Hall,1996。

[6]J.Herre,K.Kj¨orling,J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.R¨od′en,W.Oomen,K.Linzmeier,and K.S.Chong.Mpeg surround–the iso/mpeg standard for efficient andcompatible multi-channel audio coding.In Preprint 122th Conv.Aud.Eng.Soc.,May 2007。

[7]V.Pulkki.Virtual sound source positioning using Vector BaseAmplitude Panning.J.Audio Eng.Soc.,45:456–466,June 1997。

[8]B.D.Van Veen and K.M.Buckley.Beamforming:A versatileapproach to spatial filtering.IEEE ASSP Magazine,5(2):4–24,April 1988。

Claims

1.一种用于基于多声道麦克风信号产生增强下混频信号的装置，该装置包括：

空间分析器，被配置为基于多声道麦克风信号来计算空间提示参数集合，空间提示参数集合包括对直达声的到达方向加以描述的方向信息、直达声功率信息E{SS*}以及散射声功率信息E{NN*}；

滤波器计算器，根据对直达声的到达方向加以描述的方向信息、直达声功率信息E{SS*}以及散射声功率信息E{NN*}来计算增强滤波器参数；以及

滤波器，使用增强滤波器参数对麦克风信号或从麦克风信号中导出的信号进行滤波，以获得增强下混频信号；

其中，滤波器计算器被配置为根据方向相关增益因子和一个或多个下混频矩阵值来计算增强滤波器参数，方向相关增益因子描述了多声道麦克风信号的直达声分量对多个扩音器信号的期望贡献，所述一个或多个下混频矩阵值描述了多个音频声道对增强下混频信号的一个或多个声道的贡献。

2.根据权利要求1所述的装置，其中，滤波器计算器被配置为计算增强滤波器参数，使得增强下混频信号与期望下混频信号近似。

3.根据权利要求1或2所述的装置，其中，滤波器计算器被配置为根据空间提示参数计算多声道麦克风信号的声道信号X₁、X₂与下混频信号的期望声道信号Y₁、Y₂之间的期望互相关值E{X₁Y₁*}、E{X₂Y₂*}、E{X₁，Y₂*}和E{X₂Y₂*}，并且

其中，滤波器计算器被配置为根据期望互相关值计算增强滤波器参数。

4.根据权利要求3所述的装置，其中，滤波器计算器被配置为根据方向相关增益因子和一个或多个下混频矩阵值来计算期望互相关值，方向相关增益因子描述了多声道麦克风信号的直达声分量对多个扩音器信号的期望贡献，所述一个或多个下混频矩阵值描述了多个音频声道对增强下混频信号的一个或多个声道的贡献。

5.根据权利要求4所述的装置，其中，滤波器计算器被配置为将方向信息映射到方向相关增益因子集合。

6.根据权利要求3所述的装置，其中，滤波器计算器被配置为考虑直达声功率信息和散射声功率信息来计算期望互相关值E{X₁Y₁*}、E{X₂Y*}、E{X₁，Y₂*}和E{X₂Y₂*}。

7.根据权利要求6所述的装置，其中，滤波器计算器被配置为根据方向信息对直达声功率信息E{SS*}加权，并且对散射声功率信息E{NN*}应用与方向信息无关的预定权重，以便计算期望互相关值E{X₁Y₁*}、E{X₂Y₁*}、E{X₁，Y₂*}和E{X₂Y₂*}。

8.根据权利要求1所述的装置，其中，滤波器计算器被配置为根据以下方程计算滤波器参数H₁，H₂：

H_{1} = \frac{w_{1} E {SS *} + w_{3} E {NN *}}{E {SS *} + E {NN *}}

H_{2} = \frac{w_{2} E {SS *} + w_{4} E {NN *}}{a^{2} E {SS *} + E {NN *}}

其中，E{SS*}是直达声功率信息，

E{NN*}是散射声功率信息，

w₁和w₂是依赖于方向信息的系数，并且

w₃w₄是由散射声增益确定的系数，并且

滤波器被配置为根据以下方程，根据多声道麦克风信号的第一声道信号X₁(k，i)和第二声道信号X₂(k，i)来确定增强下混频信号的第一声道信号和第二声道信号

{\hat{Y}}_{1} (k, i) = H_{1} (k, i) X_{1} (k, i)

{\hat{Y}}_{2} (k, i) = H_{2} (k, i) X_{2} (k, i) .

9.根据权利要求1所述的装置，其中，滤波器计算器被配置为根据以下方程计算滤波器参数H_1.1、H_1，2、H_2，1和H_2，2：

[\begin{matrix} H_{1,1} \\ H_{1,2} \end{matrix}] = \frac{1}{d} [\begin{matrix} E {X_{2} X_{2}^{*}} & - E {X_{1} X_{2}^{*}} \\ - E {X_{2} X_{1}^{*}} & E {X_{1} X_{1}^{*} \end{matrix}] [\begin{matrix} E {X_{1} Y_{1}^{*}} \\ E {X_{2} Y_{1}^{*}} \end{matrix}]

[\begin{matrix} H_{2,1} \\ H_{2,2} \end{matrix}] = \frac{1}{d} [\begin{matrix} E {X_{2} X_{2}^{*}} & - E {X_{1} X_{2}^{*}} \\ - E {X_{2} X_{1}^{*}} & E {X_{1} X_{1}^{*} \end{matrix}] [\begin{matrix} E {X_{1} Y_{2}^{*}} \\ E {X_{2} Y_{2}^{*}} \end{matrix}]

其中，

d = E {X_{1} X_{1}^{*}} E {X_{2} X_{2}^{*}} - E {X_{1} X_{2}^{*}} E {X_{2} X_{1}^{*}} .

其中，X₁表示多声道麦克风信号的第一声道信号，

X₂表示多声道麦克风信号的第二声道信号，

E{·}表示短时平均运算，并且

*表示复共轭运算，

E{X₁Y₁*}、E{X₂Y₁*}、E{X₁，Y₂*}和E{X₂Y₂*}表示多声道麦克风信号的声道信号X₁、X₂与增强下混频信号的期望声道信号Y₁、Y₂之间的互相关值。

10.根据权利要求1所述的装置，其中，滤波器计算器被配置为计算增强滤波器参数H_j，1(k，i)至H_j，M(k，i)，使得根据与相似性的统计度量有关的增强滤波器参数近似，通过对多声道麦克风信号的声道信号X₁、X₂进行滤波来获得增强下混频信号的声道信号期望的声道信号Y_j(k，i)被定义为

Y_{j} (k, i) = Σ_{l = 0}^{K - 1} m_{j, l} Z_{l} (k, i),

其中，

K是扩音器的数量，M是麦克风输入信号的数量，m_j，1是描述多个音频声道对增强下混频信号的一个或多个声道的期望贡献的下混频矩阵值；并且

Z_{l} (k, i) = g_{l} (k, i) \tilde{S} (k, i) + h_{l} (k, i) \tilde{N} (k, i),

其中，

g₁是增益因子，依赖于方向信息，并且表示多声道麦克风信号的直达声分量对多个扩音器信号Z1的期望贡献；

h₁是预定值，描述了多声道麦克风信号的散射声分量对多个扩音器信号的期望贡献。

11.根据权利要求1所述的装置，其中，滤波器计算器被配置为基于维纳-霍普夫方程导出增强滤波器参数，

其中，维纳-霍普夫方程描述了相关值E{X₁X₁*}、E{X₁X₂*}、E{X₂X₁*}和E{X₂X₂*}、增强滤波器参数与期望互相关值E{X₁Y₁*}、E{X₂Y₁*}、E{X₁Y₂*}和E{X₂Y₂*}之间的关系，所述相关值描述了多声道麦克风信号的不同声道对之间的关系，所述期望互相关值是多声道麦克风信号的声道信号X₁、X₂与下混频信号的期望声道信号Y₁、Y₂之间的期望互相关值。

12.根据权利要求1所述的装置，其中，滤波器计算器被配置为根据期望下混频声道的模型来计算增强滤波器参数。

13.根据权利要求1所述的装置，其中，滤波器计算器被配置为根据对多声道麦克风信号的第一声道X₁和多声道麦克风信号的第二声道X₂之间的相关性加以描述的相关值选择性地执行单声道滤波或双声道滤波，

在单声道滤波中，通过对多声道麦克风信号的第一声道X₁的滤波来导出增强下混频信号的第一声道并且通过对多声道麦克风信号的第二声道X₂的滤波来导出增强下混频信号的第二声道同时避免从多声道麦克风信号的第一声道到增强下混频信号的第二声道的串扰以及从多声道麦克风信号的第二声道到增强下混频信号的第一声道的串扰，

在双声道滤波中，通过对多声道麦克风信号的第一和第二声道X₁、X₂进行滤波来导出增强下混频信号的第一声道并且通过对多声道麦克风信号的第一和第二声道X₁、X₂进行滤波来导出增强下混频信号的第二声道

14.一种用于基于多声道麦克风信号产生增强下混频信号的方法，该方法包括：

基于多声道麦克风信号来计算空间提示参数集合，空间提示参数集合包括对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息；

根据对直达声的到达方向加以描述的方向信息、直达声功率信息以及散射声功率信息来计算增强滤波器参数；以及

使用增强滤波器参数对麦克风信号或从麦克风信号中导出的信号进行滤波，以获得增强下混频信号；

其中，根据方向相关增益因子和一个或多个下混频矩阵值来计算增强滤波器参数，方向相关增益因子描述了多声道麦克风信号的直达声分量对多个扩音器信号的期望贡献，一个或多个下混频矩阵值描述了多个音频声道对增强下混频信号的一个或多个声道的期望贡献。