CN105765652A

CN105765652A - 用于生成下混音信号的构思

Info

Publication number: CN105765652A
Application number: CN201480053053.8A
Authority: CN
Inventors: 亚历山大·阿达米; 伊曼纽尔·哈比兹; 于尔根·赫勒
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-09-27
Filing date: 2014-09-02
Publication date: 2016-07-13
Anticipated expiration: 2034-09-02
Also published as: CA2925230C; US20160212561A1; RU2016116285A; MX359381B; MX2016003504A; KR20160067099A; RU2661310C2; EP3050054B1; CA2925230A1; KR101833380B1; EP2854133A1; ES2649481T3; JP2016538578A; BR112016006323A2; JP6275831B2; CN105765652B; US10021501B2; EP3050054A1; WO2015043891A1

Abstract

一种用于将第一输入信号(X₁)和第二输入信号(X2)下混音为下混音信号(X_D)的音频信号处理设备(1)包括：相异性提取器(2)，被配置为接收第一输入信号(X₁)和第二输入信号(X₂)并且输出提取的信号()，其中与第二输入信号(X₂)相比，提取的信号()与第一输入信号(X₁)较不相关；以及组合器(3)，被配置为对第一输入信号(X₁)和提取的信号()进行组合以获得下混音信号(X_D)。

Description

用于生成下混音信号的构思

技术领域

本发明涉及音频信号处理，具体地，涉及将多个输入信号下混音为下混音信号。

背景技术

在信号处理中，通常必须将两个或更多个信号混音为一个和信号。混音过程通常伴随着一些信号损坏，特别是在要混音的两个信号包含类似但相移的信号部分的情况。如果对这些信号进行求和，则由此产生的信号包含严重的梳状滤波器伪影。为了防止这些伪影，已经提出了不同的方法，这些方法在在计算复杂度方面的代价非常高或者基于将校正增益或校正项应用于已经受损的信号。

将多声道音频信号转换为较少量的声道通常意味着对数个音频声道进行混音。例如，ITU推荐使用具有静态增益的时域无源混音矩阵以从特定的多声道设置下转换为另一个多声道设置[1]。在[2]中，提出了非常类似的方法。

为了提高对话清晰度，在[3]中提出了使用基于ITU的下混音和基于矩阵的下混音的组合方法。此外，音频编码器例如在一些参数模块中利用声道的无源下混音[4、5、6]。

[7]中描述的方法对每一个输入和输出声道(即，在混音过程之前和之后的每一个单个声道)执行音量测量。通过获得输入能量之和(即，假定要混音的声道的能量)和输出能量(即，经混音的声道的能量)之比，可以得到增益，从而减小信号能量损耗和染色效应。

[8]中所述的方法执行无源下混音，然后无源下混音被转换到频域。然后，通过空间校正级对下混音进行分析，其中空间校正级试图检测任何空间不一致性并通过对声道间电平差和声道间相位差进行修改来校正该空间不一致性。然后，向信号应用均衡器以确保下混音信号具有与输入信号相同的功率。在最后一个步骤中，将下混音信号转换回时域。

在[9、10]中公开了不同的方法，其中，要下混音的两个信号被转换到频域并且构建期望/实际的值对。期望值作为单个能量之和的根来计算，而实际值作为和信号的能量的根来计算。然后，对两个值进行比较，并且根据实际值大于还是小于期望值，对实际值应用不同的校正。

备选地，存在目的是对齐信号的相位使得不会由于相位差而出现信号抵消效应的方法。例如针对参数立体声编码器提出了这些方法[11、12、13]。

在[1、2、3、4、5、6]中进行的无源下混音是对信号进行混音的最直接的方法。但是，如果不采取进一步动作，则由此产生的下混音信号可能遭受严重的信号损耗和梳状滤波效应。

[7、8、9、10]中所述的方法在第一步骤中在对两个信号进行等同混音的意义上执行无源下混音。此后，对经下混音的信号应用一些校正。这可以帮助减小梳状滤波器效应，但是另一方面，将引入调制伪影。这是由于随着时间快速地改变校正增益/校正项引起的。此外，要下混音的信号之间180度的相移仍然导致零值下混音，并且不能通过应用例如校正增益来得到补偿。

例如[11、12、13]中提到的相位对齐方法可以帮助避免不期望的信号抵消；但是由于仍然对经相位对齐的信号执行简单的相加过程，因此如果未对相位进行正确的估计，则可能出现梳状滤波器和抵消。此外，鲁棒地估计两个信号之间的相位关系并不是一项容易的任务，并且计算量很大，特别是在针对多于两个信号执行该过程的情况下。

发明内容

本发明的目的是提供将多个输入信号下混音为下混音信号的改进构思。

该目的是通过根据权利要求1所述的设备、根据权利要求16所述的系统、根据权利要求17所述的方法或根据权利要求18所述的计算机程序来实现的。

提供了一种用于将第一输入信号和第二输入信号下混音为下混音信号的音频信号处理设备，其中第一输入信号(X₁)和第二输入信号(X₂)至少部分地相关，所述音频信号处理设备包括：

相异性提取器，被配置为接收第一输入信号和第二输入信号并且输出提取的信号，其中与第二输入信号相比，提取的信号与所述第一输入信号较不相关，以及

组合器，被配置为对第一输入信号和提取的信号进行组合以获得下混音信号。

将在时频域中描述该设备，但是所有考虑对于时域信号也成立。第一输入信号和第二输入信号是要混音的信号，其中第一输入信号用作参考信号。两个信号被馈送到相异性提取器，在相异性提取器中，第二输入信号的关于第一输入信号的相关信号部分被拒绝并且仅第二输入信号的不相关信号部分被传送到提取器的输出端。

所提出的构思的改进在于对信号进行混音的方式。在第一步骤中，一个信号被选择用作参考。然后，确定参考信号的哪一部分已经存在于另一信号中，并且仅不存在于参考信号的那些部分(即，不相关信号)被添加到参考以构建下混音信号。因为仅关于参考的低相关信号部分或不相关信号部分与参考进行组合，因此使引入梳状滤波器效应的风险最小化。

总的来说，提出了将两个信号混音为一个下混音信号的新颖构思。该新颖方法的目的在于防止如梳状滤波一样产生下混音伪影。此外，所提出的方法的计算效率较高。

在本发明的一些实施例中，组合器包括能量缩放系统，所述能量缩放系统被配置为使得下混音的能量与第一输入信号和第二输入信号的总和能量之比与第一输入信号和第二输入信号的相关性无关。这种能量缩放设备可以确保下混音过程是能量守恒的(即，下混音信号包含与原始立体声信号相同的能量)或者至少确保感知的声音保持相同，而与第一输入信号和第二输入信号的相关性无关。

在本发明的实施例中，能量缩放系统包括第一能量缩放设备，所述第一能量缩放设备被配置为基于第一比例因子对第一输入信号进行缩放以获得经缩放的输入信号。

在本发明的一些实施例中，能量缩放系统包括第一比例因子供应器，所述第一比例因子供应器被配置为提供第一比例因子，其中第一比例因子供应器优选地被设计为处理器，所述处理器被配置为根据第一输入信号、第二输入信号、提取的信号和/或提取的信号的比例因子来计算第一比例因子。在下混音期间，可以自动地对参考信号(第一输入信号)进行缩放以使总能量水平守恒或者使能量水平与输入信号的相关性无关。

在本发明的实施例中，能量缩放系统包括第二能量缩放设备，所述第二能量缩放设备被配置为基于第二比例因子对提取的信号进行缩放，以获得经缩放的提取信号。

在本发明的一些实施例中，能量缩放系统包括第二比例因子供应器，所述第二比例因子供应器被配置为提供第二比例因子，其中，所述第二比例因子供应器优选地被设计为人机界面，所述人机界面被配置用于手动地输入第二比例因子。

第二比例因子可以被视为均衡器。通常，这可以是依赖于频率来完成的，并且在优选的实施例中，这可以是由录音师手动完成的。当然，许多不同的混音比例是可能的，并且这些混音比例高度依赖于录音师的经验和/或品味。

备选地，第二比例因子供应器优选地被设计为处理器，所述处理器被配置为根据第一输入信号、第二输入信号和/或提取的信号来计算第一比例因子。

在本发明的一些实施例中，组合器包括求和设备，所述求和设备用于基于第一输入信号并且基于提取的信号来输出下混音信号。因为仅向参考添加关于参考的低相关信号部分或者甚至不相关信号部分，因此使引入梳状滤波器效应的风险最小化。此外，使用求和设备的计算效率很高。

在本发明的一些实施例中，相异性提取器包括：相似性估计器，所述相似性估计器被配置为提供用于根据第一输入信号获得第一输入信号的存在于第二输入信号中的信号部分的滤波器系数；以及相似性减小器，被配置为基于滤波器系数来减小第一输入信号的存在于第二输入信号中的信号部分。在这些实现中，相异性提取器由两个子级构成：相似性估计器和相似性减小器。第一输入信号和第二输入信号被馈送到相似性估计级，在相似性估计级，估计第一输入信号的存在于第二输入信号中的信号部分并通过由此产生的滤波器系数来表示第一输入信号的存在于第二输入信号中的信号部分。滤波器系数、第一输入信号和第二输入信号被馈送到相似性减小器，在相似性减小器中，第二输入信号的与第一输入信号相似的信号部分被分别抑制和/或抵消。其结果是提取的信号，提取的信号是对第二输入信号关于第一输入信号的不相关信号部分的估计。

在本发明的一些实施例中，相似性减小器包括抵消级，所述抵消级具有信号抵消设备，所述信号抵消设备被配置为从第二输入信号中或者从根据第二输入信号得到的信号中减去所获得的第一输入信号的存在于第二输入信号中的信号部分或者根据所获得的信号部分得到的信号。该构思与在自适应噪声抵消的主题中使用的方法有关，但是区别在于，该方法并不是如最初期望的那样用于抵消噪声或不相关的分量，而是抵消相关的信号部分，其结果是提取的信号。

在本发明的一些实施例中，抵消级包括复滤波器设备，所述复滤波器设备被配置为通过使用复值滤波器系数来对第一输入信号进行滤波。该方法的优点在于可以对相移进行建模。

在本发明的一些实施例中，抵消级包括相移设备，所述相移设备被配置为将第二输入信号的相位与第一输入信号的相位对齐。针对第一输入信号和第二输入信号之间的反相，除了第一输入信号的突然信号下降之外，在下混音信号中还可能出现相位跳变和信号抵消效应。可以通过将第二输入信号的相位与第一输入信号的相位对齐来显著减小该效应。这种抵消级可以被称作逆相位对齐抵消级。

在本发明的一些实施例中，相似性减小器包括信号抑制级，所述信号抑制级具有信号抑制设备，所述信号抑制设备被配置为将第二输入信号与抑制增益因子相乘以获得提取的信号。已经观察到可以通过这些特征减小由于滤波器系数的估计误差引起的可听失真。

在本发明的一些实施例中，信号抑制级包括相移设备，所述相移设备被配置为将第二输入信号的相位与第一输入信号的相位对齐。抑制增益是实值，因此对两个输入信号的相位关系没有影响，但是因为无论如何必须对复值滤波器系数进行估计，因此可以得到关于输入信号之间的相对相位的附加信息。该信息可以用于将第二输入信号的相位向第一输入信号的相位调整。这可以是在应用抑制增益之前在信号抑制级中完成的，其中第二输入信号的相位移位了上文提到的复值滤波器因子的估计相位。这种抑制级可以称作逆相位对齐抑制级。

在本发明的一些实施例中，抵消级的输出信号被馈送到信号抑制级的输入端以获得提取的信号，或者信号抑制级的输出信号被馈送到抵消级的输入端以获得提取的信号。对相干信号分量使用抵消以及抑制的组合方法可以用于进一步提高下混音信号的质量。可以通过首先执行抵消过程然后应用抑制过程来获得由此产生的下混音信号。在其他实施例中，可以通过首先执行抑制过程然后应用抵消过程来获得由此产生的下混音信号。通过这种方式，可以进一步减小提取的信号中与第一信号有关的信号部分。可以如前所述对提取的信号以及第一输入信号进行能量缩放。

在本发明的一些实施例中，在从第二输入信号中提取出第一输入信号的存在于第二输入信号中的信号部分之前，根据加权因子对该信号部分进行加权。加权因子通常可以是依赖于时间和频率的，但是也可以被选择为常数。在一些实施例中，这里也可以使用具有较小修改的逆相位对齐抵消模块：类似地，必须在使用滤波器系数的绝对值进行滤波之后，完成使用加权因子进行加权。

在本发明的一些实施例中，相移设备被配置为根据加权因子将第二输入信号的相位与第一输入信号的相位对齐。

在本发明的一些实施例中，相移设备被配置为仅当加权因子小于或等于预定义的阈值时才将第二输入信号的相位与第一输入信号的相位对齐。

本发明还涉及一种用于将多个输入信号下混音为下混音信号的音频信号处理系统，该音频信号处理系统至少包括根据本发明的第一设备和根据本发明的第二设备，其中，第一设备的下混音信号作为第一输入信号或第二输入信号被馈送到第二设备。为了对多个输入声道进行下混音，可以使用级联的多个双声道下混音设备。

此外，本发明涉及一种用于将第一输入信号和第二输入信号下混音为下混音信号的方法，包括以下步骤：

估计不相关信号，该不相关信号是第二输入信号的分量并且与第一输入信号不相关，以及

对第一输入信号和不相关信号进行求和以获得下混音信号。

此外，本发明涉及一种计算机程序，用于当在计算机或信号处理器上执行时执行根据本发明的方法。

附图说明

接下来参照附图讨论优选的实施例，在附图中：

图1示出了音频信号处理设备的第一实施例；

图2更详细地示出了第一实施例；

图3示出了第一实施例的相似性减小器和组合器；

图4示出了第二实施例的相似性减小器；

图5示出了第三实施例的相似性减小器和组合器；

图6示出了第四实施例的相似性减小器；

图7示出了第五实施例的相似性减小器和组合器；

图8示出了第六实施例的相似性减小器和组合器；以及

图9示出了级联的多个音频信号处理设备。

具体实施方式

图1示出了所提出的新颖的下混音设备1的高层次系统描述。在时频域中描述了该设备，其中，k和m分别对应于频率索引和时间索引，但是所有考虑对于时域信号也是成立的。第一输入信号X₁(k，m)和第二输入信号X₂(k，m)是要混音的输入信号，其中第一输入信号X₁(k，m)可以用作参考信号。信号X₁(k，m)和X₂(k，m)二者被馈送到相异性提取器2，在相异性提取器2中，关于X₁(k，m)和X₂(k，m)的相关的信号部分被拒绝或者至少被减小，并且仅不相关的信号或低相关的部分被提取并传送到提取器的输出端。然后，使用第一能量缩放设备4对第一输入信号X₁(k，m)进行缩放，以满足某一预定义的能量约束，其结果是经缩放的参考信号X_1s(k，m)。由比例因子供应器5提供必要的比例因子也可以使用第二能量缩放设备6对提取的信号部分进行缩放，其结果是经缩放的不相关信号部分由第二比例因子供应器7提供相应的比例因子优选地，可以由录音师手动地确定比例因子使用求和设备8对经缩放的信号X_1s(k，m)和二者进行求和，以形成期望的下混音信号

图2示出了所提出的设备1的中层次系统描述。在一些实现中，相异性提取器2由两个子级构成：如图2所示的相似性估计器9和相似性减小器10。第一输入信号X₁(k，m)和第二输入信号X₂(k，m)被馈送到相似性估计级9，在相似性估计级9，估计X₁(k，m)的存在于X₂(k，m)中的信号部分并通过由此产生的滤波器系数W_k(l)来表示X₁(k，m)的存在于X₂(k，m)中的信号部分，其中l＝0...L-1，并且L是滤波器长度。滤波器系数W_k(l)、第一输入信号X₁(k，m)和第二输入信号X₂(k，m)被馈送到相似性减小器10，在相似性减小器10中，X₂(k，m)的与X₁(k，m)相似的信号部分被分别至少部分地抑制和/或抵消。其结果是残差信号残差信号是对X₂(k，m)关于X₁(k，m)的不相关信号部分的估计。

信号模型假定第二输入信号X₂(k，m)是第一输入信号X₁(k，m)的加权或滤波后的版本W′(k，m)X₁(k，m)与初始未知的独立信号U₂(k，m)的混音物，其中因此，X₂(k，m)被认为是由关于X₁(k，m)的相关信号部分和不相关信号部分之和构成：

X₂(k，m)＝W′(k，m)·X₁(k，m)+U₂(k，m)(1)

大写字母指示经频率转换的信号，并且k和m分别是频率索引和时间索引。现在，可以将期望的下混音信号定义为：

{\tilde{X}}_{D} (k, m) = G_{E_{x}} (k, m) X_{1} (k, m) + G_{E_{u}} (k, m) {\hat{U}}_{2} (k, m), - - - (2)

其中，是U₂(k，m)的估计，并且其中和是用于根据预定义约束来调整参考信号X₁(k，m)和另一输入信号X₂(k，m)的提取的信号部分的能量的比例因子。此外，它们可以用于对信号进行均衡。在一些场景中，这可能成为必须，特别是对于而言。在本文的其余部分中，为了清楚起见，将省略时频索引(k，m)。

最重要的目的是获得与X₁不相关的信号分量U₂。这可以通过以下方式来完成：利用在自适应噪声抵消的主题中使用的方法，但是区别在于，该方法并不是如最初期望的那样用于抵消噪声或不相关的分量，而是抵消相关的信号部分，其结果是对U₂的估计

图3示出了这种系统的第一实施例的组合器3和具有抵消级10a的相似性减小器10。该方法的优点在于允许W是复数因此可以对相移进行建模。

{\hat{U}}_{2} = X_{2} - {WX}_{1} - - - (3)

为了确定需要针对初始未知的复增益W′的估计的复增益W。这是通过在最小均方(MMS)的意义上对提取的信号的能量进行最小化来完成的：

\begin{matrix} J (W) = E {| X_{2} - {WX}_{1} |^{2}} \\ = E {(X_{2} - {WX}_{1}) {(X_{2} - {WX}_{1})}^{*}} \\ = E {X_{2} X_{2}^{*} - X_{2} W^{*} X_{1}^{*} - {WX}_{1} X_{2}^{*} + {WX}_{1} W^{*} X_{1}^{*}} \end{matrix} - - - (4)

将J(W)关于W^*的偏导数设置为0导致期望的滤波器系数，即：

\frac{\partial}{\partial W^{*}} J (W) = E {X_{2} X_{1}^{*}} - W E {| X_{1} |^{2}} \overset{!}{=} 0 - - - (5)

&DoubleRightArrow; W = \frac{E {X_{2} X_{1}^{*}}}{E {| X_{1} |^{2}}} . - - - (6)

在一个实施例中，在图3中通过灰色虚线矩形重点突出的抵消块10a可以由如图4所示的逆相位对齐抵消块10a’来替换，在图4中，抵消级10a’包括相移设备13和绝对滤波器设备11’，相移设备13被配置为将第二输入信号X₂的相位与第一输入信号X₁的相位对齐，并且绝对滤波器设备11’被配置为通过使用绝对值滤波器系数|W|来对经对齐的第一输入信号X′₂进行滤波。

针对第一输入信号X₁和第二输入信号X₂的反相，除了第一输入信号X₁的突然信号下降之外，在下混音信号中还可能出现相位跳变和信号抵消效应。可以通过将第二输入信号X₂的相位与第一输入信号X₁的相位对齐来显著减小该效应。此外，仅使用W的绝对值来对X₁进行滤波并且因而还执行抵消。

图5示出了第三实施例的相似性减小器10和组合器3，其中，相似性减小器10包括信号抑制级10b，信号抑制级10b具有信号抑制设备14，信号抑制设备14被配置为将第二输入信号X₂与抑制增益因子(G)相乘以获得提取的信号

实际上，使用(3)获得的提取的信号可能由于复增益W中的估计误差而包含可听的失真。作为一种备选方式，可以得到用于在最小均方误差(MMSE)的意义上获得对U₂的估计的估计器9(参见图2)。图5示出了所提出的方法的框图。

然后，通过下式给出提取的信号

\begin{matrix} G = \arg_{G}^{\min} E {| U_{2} - {\hat{U}}_{2} |^{2}} & G &Element; R \end{matrix} - - - (8)

\begin{matrix} J (G) = E {| U_{2} - {\hat{U}}_{2} |^{2}} = E {| U_{2} - {GX}_{2} |^{2}} = E {| U_{2} - {GWX}_{1} - {GU}_{2} |^{2}} \\ = E {(U_{2} - {GWX}_{1} - {GU}_{2}) {(U_{2} - {GWX}_{1} - {GU}_{2})}^{*}} \\ = E {| U_{2} |^{2}} - G E {| U_{2} |^{2}} + G^{2} E {| {WX}_{1} |^{2}} - G E {| U_{2} |^{2}} + G^{2} E {| U_{2} |^{2} \\ = Φ_{U_{2}} (1 - 2 G + G^{2}) + G^{2} Φ_{{WX}_{1}} \end{matrix} - - - (9)

将J(G)关于G的偏导数设置为0导致期望的增益：

\frac{\partial}{\partial G} J (G) = Φ_{U_{2}} (- 2 + 2 G) + 2 {GΦ}_{{WX}_{1}} \overset{!}{=} 0 - - - (10)

\begin{matrix} 2 Φ_{U_{2}} (- 1 + G) + 2 G + 2 {GΦ}_{{WX}_{1}} = 0 \\ - Φ_{U_{2}} + Φ_{U_{2}} G + {GΦ}_{{WX}_{1}} = 0 \\ G \cdot (Φ_{U_{2}} + Φ_{{WX}_{1}}) = Φ_{U_{2}} \\ G = \frac{Φ_{U_{2}}}{Φ_{U_{2}} + Φ_{{WX}_{1}}} = \frac{Φ_{U_{2}}}{Φ_{X_{2}}} \end{matrix} - - - (11)

根据(12)，可以用X₁的经滤波的版本和不相关信号U₂的能量之和来替代X₂的能量：

\begin{matrix} Φ_{X_{2}} = E {| X_{2} |^{2}} = E {({WX}_{1} + U_{2}) {({WX}_{1} + U_{2})}^{*}} \\ = E {| {WX}_{1} |^{2}} | + E {| U_{2} |^{2}} = Φ_{{WX}_{1}} + Φ_{U_{2} *} \end{matrix} - - - (12)

针对增益G，这导致：

其中，是X₂的先验SNR。使用(6)来确定复滤波器增益W。

在一个实施例中，在图5中通过灰色的虚线矩形重点突出的抑制模块10b可以由包括相移设备15的逆相位对齐抑制模块10b’来替换，其中相移设备15被配置为将第二输入信号X₂的相位与第一输入信号X₁的相位对齐。

图6示出了具有这种相移设备15的相似性减小器10b’作为本发明的第四实施例。抑制增益G是实值，因此对两个信号X₁和X₂的相位关系没有影响。但是因为无论如何必须对滤波器系数W进行估计，因此可以得到关于输入信号之间的相对相位的附加信息。该信息可以用于将X₂的相位向X₁的相位调整。这是在逆相位对齐抑制块10b’中完成的；在应用抑制增益G之前，X₂的相位移位了W的估计相位。利用相位对齐，可以将信号表达为：

\begin{matrix} {\hat{U}}_{2} = X_{2} \cdot e^{- j &angle; \hat{W}} \cdot G \\ = (| W | \cdot e^{j (&angle; W - &angle; \hat{W})} X_{1} + U_{2} \cdot e^{- j &angle; \hat{W}}) \cdot G, \end{matrix} - - - (14)

这显示如果对∠W进行正确估计，则X₁在内的残差分量与X₁同相。

在图7中示出了对相干信号分量使用抵消以及抑制的组合方法，其中，抵消级10a的输出信号被馈送到信号抑制级10b的输入端以获得提取的信号抵消级10a包括加权设备，加权设备被配置为对所获得的第一输入信号X₁的存在于第二输入信号X₂中的信号部分WX₁进行加权。

这里，通过首先执行加权抵消过程然后应用抑制增益来获得由此产生的下混音信号按前述方式对由此产生的信号以及X₁进行能量缩放。由于加权因子γ，因此抵消级之后的信号仍然包含与X₁相关的一些信号部分。为了进一步减小这些信号部分，针对组合方法得到抑制增益G_c：

\begin{matrix} G_{c} = \arg \min_{G_{c}} E {| U_{2} - {\hat{U}}_{2} |^{2}}, & G_{c} &Element; R \end{matrix} - - - (15)

J^{'} (G_{c}) = E {| U_{2} - {\hat{U}}_{2} |^{2}} = Φ_{U_{2}} - G_{c} Φ_{U_{2}} + {(1 - γ)}^{2} G_{c}^{2} {Φ_{W X}}_{_{1}} - G_{c} Φ_{U_{2}} + G_{c}^{2} Φ_{U_{2}} - - - (16)

\frac{\partial}{\partial G} J^{'} (G_{c}) = - Φ_{U_{2}} + 2 {(1 - γ)}^{2} G_{c} Φ_{{WX}_{1}} - Φ_{U_{2}} + 2 G_{c} Φ_{U_{2}} \overset{!}{=} 0 - - - (17)

G_{c} = \frac{1}{1 + {(1 - γ)}^{2} \frac{{Φ_{W X}}_{_{1}}}{Φ_{U_{2}}}} = \frac{1}{1 + {(1 - γ)}^{2} \frac{1}{{SNR}_{U_{2} {WX}_{1}}}} - - - (18)

参数γ通常依赖于时间和频率，但是也可以被选择为常数。确定时间和频率依赖的γ的一种可能性是：

γ = 1 - \frac{| E {X_{2} X_{1}^{*}} |}{\sqrt{Φ_{X_{1}} Φ_{X_{2}}}} - - - (19)

图8示出了第六实施例的相似性减小器10和组合器3。根据该实施例，(19)中的归一化互相关作为输入被馈送到映射函数，映射函数的输出可以用于确定实际的γ值。针对映射，可以使用逻辑函数，该逻辑函数可以被定义为：

f (i) = A_{l} + \frac{A_{u} - A_{l}}{{(1 + (- 1 + {(\frac{A_{u}}{Y_{0}})}^{v}) \cdot e^{- R (i + M)})}^{\frac{1}{v}}}, - - - (20)

其中，i定义了输入数据，A_u和A_l是上渐近线和下渐近线，R是增长率，v＞0影响渐近线附近的最大增长率，f₀规定f(0)的输出值，并且M是最大增长的数据点i。在这个实施例中，通过下式来确定γ：

γ = 1 - f (\frac{| E {X_{2} X_{1}^{*}} |}{\sqrt{Φ_{X_{1}} Φ_{X_{2}}}} - 0.5) - - - (21)

在一个实施例中，这里可以也可以使用具有较小修改的逆相位对齐抵消模块10a’。类似地，必须在使用W的绝对值进行滤波之后完成使用γ的加权。

图8示出的第六实施例包括逆相位处理的更复杂的应用。它仅影响被映射以主要被抑制的时频条(bin)，即，γ低于特定阈值Γ_th。由于该原因，引入了通过下式定义的标记F：

在一个实施例中，这里也可以使用具有较小修改的逆相位对齐抵消模块10a’。类似地，必须在使用W的绝对值进行滤波之后完成使用γ的加权。

在一些实施例中，比例因子供应器7提供了通过该可以控制贡献于下混音信号的关于X₁的不相关信号的能量。这些比例因子可以被视为均衡器。通常，这是依赖于频率来完成的，并且在优选的实施例中，这是由录音师手动完成的。当然，许多不同的混音比例是可能的，并且这些混音比例高度依赖于录音师的经验和/或品味。备选地，比例因子可以是信号X₁、X₂与的函数。

在一些实施例中，比例因子供应器4提供了通过该可以控制贡献于下混音信号的第一输入信号X₁的能量。如果下混音过程应当是能量守恒的(即，下混音信号包含与原始立体声信号相同的能量)或者至少如果感知的声音水平应当保持相同，则需要附加处理。进行以下考虑的目的在于使下混音信号中的单独的信号部分的感知声音水平保持恒定。在优选的实施例中，根据得到的最佳下混音能量考虑来对能量进行缩放。可以考虑两个信号和并且假定它们高度相关，如这将是例如针对幅度波动源的情况，其中信号可以被表达为使得下混音信号的结果是：

\begin{matrix} X_{D}^{c} = X_{1}^{c} + X_{2}^{c} \\ = X_{1}^{c} + a \cdot X_{1}^{c} \\ = (1 + a) \cdot X_{1}^{c} . \end{matrix} - - - (23)

通过下式给出的能量：

E {| X_{D}^{c} |^{2}} = {(1 + a)}^{2} \cdot E {| X_{1}^{c} |^{2}} . - - - (24)

现在假定两个信号完全不相关，其中下混音信号的结果是：

X_{D}^{u} = X_{1}^{u} + X_{2}^{u} . - - - (25)

通过下式给出的能量：

\begin{matrix} E {| X_{D}^{u} |^{2}} = E {| X_{1}^{u} |^{2}} + E {| X_{2}^{u} |^{2}} \\ = E {| X_{1}^{u} |^{2}} + b \cdot E {| X_{1}^{u} |^{2}} \\ = (1 + b) \cdot E {| X_{1}^{u} |^{2}} . \end{matrix} - - - (26)

根据这些考虑，可以看出相关信号部分的最佳下混音的能量的结果将是：

E {| X_{D_{o}}^{c} |^{2}} = E {| X_{1} |^{2}} + E {| {WX}_{1} |^{2}}, (27)

其中，W对应于(23)中的α，并且针对不相关信号部分，必须完成对能量的简单相加。然后，关于(1)和(2)中的假定的信号模型和期望的下混音信号的最终的最佳下混音能量的结果将是：

\begin{matrix} E {{| X_{D}^{o} |}^{2}} = E {{| {X_{D}^{o}}_{o} |}^{2}} + E {{| U_{2} |}^{2}} \\ = E {{| X_{1} |}^{2}} + E {{| {WX}_{1} |}^{2}} + E {{| U_{2} |}^{2}} . \end{matrix} - - - (28)

为了确保和包含相同量的能量，引入了能量比例因子和其中，后者是由比例因子供应器U2提供的。实际的下混音信号按照下式计算：

{\tilde{X}}_{D} = G_{E_{x}} \cdot X_{1} + G_{E_{u}} \cdot {\hat{U}}_{2} . - - - (29)

考虑到最佳的下混音能量和现在可以按如下方式得到

Φ_{X_{1}} + Φ_{{WX}_{1}} + Φ_{U_{2}} = G_{E_{x}}^{2} \cdot Φ_{X_{1}} + G_{E_{u}}^{2} \cdot Φ_{{\hat{U}}_{2}} - - - (31)

\begin{matrix} G_{E_{x}} = \sqrt{\frac{Φ_{X_{1}} + Φ_{{WX}_{1}} + Φ_{U_{2}} - G_{E_{u}}^{2} \cdot Φ_{{\hat{U}}_{2}}}{Φ_{X_{1}}}} \\ = \sqrt{1 + \frac{Φ_{{WX}_{1}}}{Φ_{X_{1}}} + \frac{Φ_{U_{2}}}{Φ_{X_{1}}} - G_{E_{u}}^{2} \frac{Φ_{{\hat{U}}_{2}}}{Φ_{X_{1}}}} \end{matrix} - - - (32)

利用(12)，等式(32)的中间部分被规定为：

\frac{Φ_{{WX}_{1}}}{Φ_{X_{1}}} + \frac{Φ_{U_{2}}}{Φ_{X_{1}}} = \frac{Φ_{X_{2}}}{Φ_{X_{1}}}

因此，它变成：

G_{E_{x}} = \sqrt{1 + \frac{Φ_{X_{2}}}{Φ_{X_{1}}} - G_{E_{u}}^{2} \frac{Φ_{{\hat{U}}_{2}}}{Φ_{X_{1}}}} . - - - (33)

为了对多个输入声道X₁、X₂、X₃进行下混音，可以使用级联的多个双声道下混音级1。在图9中，示出了针对三个输入信号X₁、X₂、X₃的示例。

针对两级系统的最终下混音信号的结果是：

本发明的实施例的关键特征是：

●将X₁视为参考信号并且将X₂视为X₁的经滤波的版本(因此相关信号部分WX₁)和关于X₁的不相关信号部分U₂的混音物。

●将X₂分离/分解为其两个前述的信号分量。经由以下方式对X₁和X₂进行相异性提取：

-对X₁和X₂的相似性进行估计，其结果是滤波器系数W，以及

-通过对相关信号部分进行抵消或抑制或其组合来进行相似性减小，其结果是估计的不相关信号部分

●对X₁进行能量缩放以满足预定义的能量水平。

●对进行能量缩放。

●对经能量缩放的信号进行求和以形成期望的下混音信号

●在频带内进行处理。

可选的实现特征是：

●进行逆相位对齐抑制或逆相位对齐抵消。

●对两个或更多个下混音块进行级联以执行多声道下混音。

●仅部分地应用逆相位对齐抑制。

虽然已经在装置的上下文中描述了一些方面，但是应当清楚的是，这些方面也表示对相应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中所述的方面也表示对相应块或项目或者相应装置的特征的描述。

根据特定实现需要，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的诸如数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)的非瞬时性存储介质来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

本发明方法的另一实施例因此是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，该计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传递。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，该处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机传递(例如，电子地或光学地)计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传递计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例仅说明本发明的原理。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。

附图标记：

1音频信号处理设备

2相异性提取器

3组合器

4第一能量缩放设备

5第一比例因子供应器

6第二能量缩放设备

7第二比例因子供应器

8求和设备

9相似性估计器

10相似性减小器

10a抵消级

10a’抵消级

10b抑制级

10b’抑制级

11复滤波器设备

11’绝对滤波器设备

12信号抵消设备

13相移设备

14抑制设备

15相移设备

16加权设备

X₁第一输入信号

X₂第二输入信号

下混音信号

提取的信号

第一比例因子

X_1s第一缩放输入信号

W滤波器系数

WX₁第一输入信号的存在于第二输入信号(X₂)中的信号部分

X′₂根据第二输入信号得到的信号

γ加权因子

γWX₁加权后的第一输入信号的存在于第二输入信号(X₂)中的信号部分

参考文献：

[1]ITU-RBS.775-2，“MultichannelStereophonicSoundSystemWithAndWithoutAccompanyingPicture，”07/2006.

[2]R.Dressler，(05.08.2004)DolbySurroundProLogicIIDecoderPrinciplesofOperation.[Online].Available：http：//WWW.dolby.com/uploadedFiles/Assets/US/Doc/Professional/209_Dolby_Surround_Pro_Logic_II_Decoder_Principlesof_Operation.pdf.

[3]K.Lopatka，B.Kunka，andA.Czyzewski，“Novel5.1DownmixAlgorithmwithImprovedDialogueIntelligibility，”in134thConventionoftheAES，2013.

[4]J.Breebaart，K.S.Chong，S.Disch，C.Faller，J.Herre，J.Hilpert，K.J.Koppens，K.Linzmeier，W.Oomen，H.Purnhagen，andJ.“MPEGSurround-theISO/MPEGStandardforEfficientandCompatibleMulti-ChannelAudioCoding，”J.AudioEng.Soc，vol.56，no.11，pp.932-955，2007.

[5]M.Neuendorf，M.Multrus，N.Rellerbach，R.J.FuchsGuillaume，J.Lecomte，WildeStefan，S.Bayer，S.Disch，C.Helmrich，R.Lefebvre，P.Gournay，B.Bessette，J.Lapierte，K.H.Purnhagen，L.Villemoes，W.Oomen，E.Schuijers，K.Kikuiri，T.Chinen，T.Norimatsu，C.K.Seng，E.Oh，M.Kim，S.Quackenbush，andB.Grill，“MPEGUnifiedSpeechandAudioCoding-TheISO/MPEGStandardforHigh-EfficiencyAudioCodingofallContentTypes，”J.AudioEng.Soc，vol.132ndConvention，2012.

[6]C.FallerandF.Baumgarte，“BinauralCueCoding-PartII：SchemesandApplicatiohs，”SpeechandAudioProcessing，IEEETransactionson，vol.11，no.6，pp.520-531，2003.

[7]F.Baumgarte，“EqualizationforAudioMixing，”PatentUS7,039,204B2，2003.

[8]J.Thompson，A.Warner，andB.Smith，“AnActiveMultichannelDownmixEnhancementforMinimizingSpatialandSpectralDistortions，”in127ndConventionoftheAES，October2009.

[9]G.Stoll，J.Groh，M.Link，J.B.Runow，M.Keil，R.Stoll，M.Stoll，andC.Stoll，“MethodforGeneratingaDownward-CompatibleSoundFormat，”USPatentUS2012/0014526，2012.

[10]B.RunowandJ.“OptimierterStereo-Dowmixvon5.1-Mehrkanalproduktionen：AnoptimizedStereo-Downmixofa5.1multichannelaudioproduction，”in25.Tonmeistertagung-VDTInternationalConvention，2008.

[11]Samsudin，E.Kurniawati，NgBoonPoh，F.Sattar，andS.George，“AStereotoMonoDowmixingSchemeforMPEG-4ParametricStereoEncoder，”inAcoustics，SpeechandSignalProcessing，2006.ICASSP2006Proceed-ings.2006IEEEInternationalConferenceon，vol.5，2006，p.V.2.

[12]M.Kim，E.Oh，andH.Shim，“Stereoaudiocodingimprovedbyphaseparameters，”in129thConventionoftheAES，2010.

[13]W.Wu，L.Miao，Y.Lang，andD.Virette，“ParametricStereoCodingSchemewithaNewDownmixMethodandWholeBandInterChannelTime/PhaseDifferences，”Acoustics，SpeechandSignalProcessing，IEEETransactionson，pp.556-560，2013.

Claims

1.一种用于将第一输入信号(X₁)和第二输入信号(X₂)下混音为下混音信号的音频信号处理设备(1)，其中所述第一输入信号(X₁)和所述第二输入信号(X₂)至少部分地相关，所述音频信号处理设备(1)包括：

相异性提取器(2)，被配置为接收所述第一输入信号(X₁)和所述第二输入信号(X₂)并且输出提取的信号其中与所述第二输入信号(X₂)相比，所述提取的信号与所述第一输入信号(X₁)较不相关，以及

组合器(3)，被配置为对所述第一输入信号(X₁)和所述提取的信号进行组合以获得所述下混音信号

2.根据前述权利要求所述的设备，其中，所述组合器(3)包括能量缩放系统(4、5、6、7)，所述能量缩放系统(4、5、6、7)被配置为使得所述下混音的能量与所述第一输入信号(X₁)和所述第二输入信号(X₂)的总和能量之比与所述第一输入信号(X₁)和所述第二输入信号(X₂)的相关性无关。

3.根据前述权利要求之一所述的设备，其中，所述能量缩放系统(4、5、6、7)包括第一能量缩放设备(4)，所述第一能量缩放设备(4)被配置为基于第一比例因子对所述第一输入信号(X₁)进行缩放以获得经缩放的输入信号(X_1s)。

4.根据前一权利要求所述的设备，其中，所述能量缩放系统(4、5、6、7)包括第一比例因子供应器(5)，所述第一比例因子供应器(5)被配置为提供所述第一比例因子其中所述第一比例因子供应器(5)优选地被设计为处理器(5)，所述处理器(5)被配置为根据所述第一输入信号(X₁)、所述第二输入信号(X₂)和/或所述提取的信号来计算所述第一比例因子

5.根据前述权利要求之一所述的设备，其中，所述能量缩放系统(4、5、6、7)包括第二能量缩放设备(6)，所述第二能量缩放设备(6)被配置为基于第二比例因子对所述提取的信号进行缩放，以获得经缩放的提取信号

6.根据前一权利要求所述的设备，其中，所述能量缩放系统(4、5、6、7)包括第二比例因子供应器(7)，所述第二比例因子供应器(7)被配置为提供所述第二比例因子其中，所述第二比例因子供应器(7)优选地被设计为人机界面，所述人机界面被配置用于手动地输入所述第二比例因子

7.根据前述权利要求之一所述的设备，其中，所述组合器(3)包括求和设备(8)，所述求和设备(8)用于基于所述第一输入信号(X₁)并且基于所述提取的信号来输出所述下混音信号

8.根据前述权利要求之一所述的设备，其中，所述相异性提取器(2)包括相似性估计器(9)，所述相似性估计器(9)被配置为提供用于根据所述第一输入信号(X₁)获得所述第一输入信号(X₁)的存在于所述第二输入信号(X₂)中的信号部分(WX₁、|WX₁|)的滤波器系数(W、|W|)，以及

所述相异性提取器(2)包括相似性减小器(10)，所述相似性减小器(10)被配置为基于所述滤波器系数(W，|W|)来减小所获得的所述第一输入信号的存在于所述第二输入信号(X₁)中的信号部分(WX₁、|WX₁|)。

9.根据前一权利要求所述的设备，其中，所述相似性减小器(10)包括抵消级(10a、10a’)，所述抵消级(10a、10a’)具有信号抵消设备(12)，所述信号抵消设备(12)被配置为从所述第二输入信号(X₂)中或者从根据所述第二输入信号(X₂)得到的信号(X′₂)中减去所获得的所述第一输入信号(X₁)的存在于所述第二输入信号(X₂)中的信号部分(WX₁、|WX₁|)或者根据所获得的信号部分(WX₁、|WX₁|)得到的信号(γWX₁)。

10.根据权利要求8或9所述的设备，其中，所述抵消级(10a)包括复滤波器设备(11)，所述复滤波器设备(11)被配置为通过使用复值滤波器系数W来对所述第一输入信号(X₁)进行滤波。

11.根据权利要求8至10之一所述的设备，其中，所述抵消级(10a’)包括相移设备(13)，所述相移设备(13)被配置为将所述第二输入信号(X₂)的相位与所述第一输入信号(X₁)的相位对齐。

12.根据权利要求8至11之一所述的设备，其中，所述相似性减小器(10)包括信号抑制级(10b、10b’)，所述信号抑制级(10b、10b’)具有信号抑制设备(14)，所述信号抑制设备(14)被配置为将所述第二输入信号(X₂)或根据所述第二输入信号(X₂)得到的信号(X′₂)与抑制增益因子(G)相乘以获得所述提取的信号

13.根据权利要求12所述的设备，其中，所述信号抑制级(10b’)包括相移设备(15)，所述相移设备(15)被配置为将所述第二输入信号(X₂)的相位与所述第一输入信号(X₁)的相位对齐。

14.根据权利要求8至11之一以及根据权利要求12或13之一所述的设备，其中，所述抵消级(10a)的输出信号被馈送到所述信号抑制级(10b)的输入端以获得所述提取的信号或者所述信号抑制级(10b)的输出信号被馈送到所述抵消级(10a)的输入端以获得所述提取的信号

15.根据前一权利要求所述的设备，其中，所述抵消级(10a)包括加权设备(16)，所述加权设备(16)被配置为根据加权因子(γ)对所获得的所述第一输入信号(X₁)的存在于所述第二输入信号(X₂)中的信号部分(WX₁、|WX₁|)进行加权。

16.根据权利要求11和15所述的设备，其中，所述相移设备(13)被配置为根据所述加权因子(γ)将所述第二输入信号(X₂)的相位与所述第一输入信号(X₁)的相位对齐。

17.根据前一权利要求所述的设备，其中，所述相移设备(13)被配置为仅当所述加权因子(γ)小于或等于预定义的阈值(Γ)时才将所述第二输入信号(X₂)的相位与所述第一输入信号(X₁)的相位对齐。

18.一种用于将多个输入信号(X₁、X₂、X₃)下混音为下混音信号的音频信号处理系统，至少包括根据前述权利要求之一所述的第一设备(1)和根据前述权利要求之一所述的第二设备(1’)，其中，所述第一设备的下混音信号作为第一输入信号或第二输入信号被馈送到第二设备。

19.一种用于将第一输入信号(X₁)和第二输入信号(X₂)下混音为下混音信号的方法，包括以下步骤：

从所述第二输入信号(X₂)中提取信号其中与所述第二输入信号(X₂)相比，提取的信号与所述第一输入信号(X₁)更不相关，

对所述第一输入信号(X₁)和提取的信号进行求和以获得所述下混音信号

20.一种计算机程序，用于当在计算机或信号处理器上执行时实现根据权利要求19所述的方法。