CN110419079A

CN110419079A - 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器

Info

Publication number: CN110419079A
Application number: CN201780082544.9A
Authority: CN
Inventors: 克里斯汀·鲍斯; 贝恩德·埃德勒; 纪尧姆·福克斯; 扬·比特; 萨沙·迪施; 弗罗林·吉多; 斯特凡·拜尔; 马库斯·马特拉斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-11-08
Filing date: 2017-10-30
Publication date: 2019-11-05
Anticipated expiration: 2037-10-30
Also published as: RU2727861C1; JP7210530B2; JP6817433B2; JP2023052322A; AU2017357452B2; US10665246B2; JP2019537057A; AR110147A1; AU2017357452A1; MX2019005214A; CA3045847C; TWI665660B; ZA201903536B; CA3045847A1; CN116741185A; PT3539127T; EP3539127B1; EP3748633A1; TW201830378A; US20190272833A1

Abstract

一种用于对具有两个或更多个声道的多声道信号(12)的至少两个声道进行下混频的下混频器，包括：处理器(10)，用于根据至少两个声道来计算部分下混频信号(14)；互补信号计算器(20)，用于根据多声道信号(12)来计算互补信号，该互补信号(22)不同于部分下混频信号(14)；以及加法器(30)，用于将部分下混频信号(14)与互补信号(22)相加以获得多声道信号的下混频信号(40)。

Description

用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器

技术领域

本发明涉及音频处理，更具体地，涉及对包括两个或更多个音频声道的多声道音频信号的处理。

背景技术

减少声道的数量对于以低比特率实现多声道编码是至关重要的。例如，参数立体声编码方案是基于来自左输入声道和右输入声道的适当单声道下混频。如此获得的单声道信号连同以参数形式描述听觉场景的辅助信息一起通过单声道编解码器来编码并传输。辅助信息通常由每频率子频带若干个空间参数组成。它们例如可以包括：

·声道间声级差(Inter-channel Level Difference；ILD)，其衡量声道之间的声级差(或平衡)。

·声道间时间差(Inter-channel Time Difference；ITD)或声道间相位差(Inter-channel Phase Difference；IPD)，其分别描述声道之间的时间差或相位差。

然而，下混频处理由于声道间相位未对准而易于产生信号抵消和染色(coloration)，其导致不期望的质量劣化。作为示例，如果声道相干且几乎为异相的，则下混频信号很可能显示出可察觉的频谱偏置，例如梳型滤波器的特性。

可以如由下式所表达的简单地通过对左声道和右声道的求和来在时域中执行下混频操作

m[n]＝w₁l[n]+w₂r[n]，

其中，l[n]和r[n]是左声道和右声道，n是时间索引，且w₁[n]和w₂[n]是确定混频的权重。如果权重随时间是恒定的，则我们称为被动下混频。其具有不考虑输入信号的缺点，而所获得的下混频信号的质量高度取决于输入信号特性。随时间调整权重可以在某种程度上减小此问题。

然而，为了解决主要问题，通常使用例如短期傅里叶变换(Short-Term FourierTransform；STFT)在频域中执行主动下混频。由此可使得权重取决于频率索引k和时间索引n，且权重可以更好地适配于信号特性。于是下混频信号表达为：

M[k，n]＝W₁[k，n]L[k，n]+W₂[k，n]R[k，n]

其中，M[k，n]、L[k，n]和R[k，n]分别是下混频信号、左声道和右声道在频率索引k和时间索引n下的STFT分量。权重W₁[k，n]和W₂[k，n]可以在时间和频率上被自适应调整。其目的在于通过使得因梳型滤波效应引起的频谱偏置最小化来保持两个输入声道的平均能量或幅度。

用于主动下混频的最直接方法是使下混频信号的能量均衡以针对每个频率区间或子频带得到两个输入声道的平均能量[1]。如图7b中所示的下混频信号于是可以用公式表示为：

M[k]＝W[k](L[k]+R[k])

其中

该直接解决方案具有若干缺点。首先，当两个声道具有幅度相等的反相时间频率分量(ILD＝0db和IPD＝pi)时，未定义该下混频信号。在这种情况下，因分母变成零而产生该奇异性。简单主动下混频的输出在这种情况下不可预测。在图7a中针对各种声道间声级差示出了此行为，在图7a中相位被绘制为IPD的函数。

对于ILD＝0dB，两个声道的总和在IPD＝pi处是不连续的，从而导致pi弧度的步阶。在其他条件下，相位以模2pi规律且连续地演进。

问题的第二个本质来自用于实现该能量均衡的归一化增益的重大变化。实际上，归一化增益可以在帧间且在相邻频率子频带间大幅度地波动。这导致下混频信号的不自然染色且导致阻断效应。使用用于STFT的合成窗口和重迭相加方法导致经处理音频帧之间的平滑转变。然而，归一化增益在连续帧之间的大的改变仍可能导致可听的转变假像。此外，该剧变的均衡由于来自区块变换的分析窗口的频率响应旁瓣的混淆也可能导致可听的假像。

作为替代方案，主动下混频可以通过在计算总和信号之前执行两个声道的相位对准来实现[2-4]。将对新总和信号进行的能量均衡于是受到限制，这是由于两个声道在对其进行求和之前已经同相。在[2]中，左声道的相位用于对准两个声道的相位的参考。如果左声道的相位并不能良好调节(例如，零或低声级噪声声道)，则下混频信号直接受到影响。在[3]中，通过在旋转之前采用总和信号的相位作为参考来解决这个重要问题。而且，未处理在ILD＝0dB和IPD＝IPD＝pi处的奇异性问题。出于这个原因，[4]通过使用宽带相位差参数以便提高这种情况下的稳定性来修正该方法。但是，这些方法中的每个都未考虑与不稳定性相关的问题的第二本质。声道的相位旋转也可能导致输入声道的不自然混频，且可能产生严重不稳定性和区块效应，尤其是在处理时间和频率的过程中发生大的变化时。

最后，存在类似于[5]和[6]的发展程度更高的技术，这些技术基于在下混频期间的信号抵消仅在两个声道之间相干的时间频率分量上发生的观测。在[5]中，在对输入声道的不相干部分进行求和之前，滤除相干分量。在[6]中，在对声道进行求和之前仅针对相干分量计算相位对准。此外，在时间和频率上将相位对准规则化，以避免稳定性和不连续性问题。两项技术在计算上是苛刻的，这是由于在[5]中，需要在每一帧处识别滤波器系数，且在[6]中，必须计算声道之间的协方差矩阵。

发明内容

本发明的目标是提供一种用于下混频或多声道处理的改进构思。

该目标通过以下各项来实现：权利要求1的下混频器、权利要求13的下混频方法、权利要求14的多声道编码器、权利要求15的多声道编码的方法、权利要求16的音频处理系统、权利要求17的处理音频信号的方法或权利要求18的计算机程序。

本发明基于以下发现：一种用于对具有两个或多个声道的多声道信号的至少两个声道进行下混频的下混频器不仅执行至少两个声道的加法从而根据至少两个声道计算下混频信号，而且该下混频器附加地包括用于根据多声道信号计算互补信号的互补信号计算器，其中互补信号不同于部分下混频信号。此外，下混频器包括加法器，其用于将部分下混频信号与互补信号相加以获得多声道信号的下混频信号。该过程是有利的，这是因为不同于部分下混频信号的互补信号填充下混频信号内的任何时域或频域空缺部分，该空缺部分可以由于至少两个声道的某些相位星座(phase constellations)而发生。特别地，当两个声道同相时，则通常在执行将两个声道直接相加在一起时应当不会发生问题。然而，当两个声道异相时，则将两个声道相加在一起会产生具有甚至逼近零能量的极低能量的信号。然而，由于互补信号现在被加到部分下混频信号的事实，最终所获得的下混频信号仍具有显著能量，或至少并未显示出这种严重能量波动。

本发明是有利的，这是由于本发明引入了旨在使在传统下混频中观测到的典型信号抵消和不稳定性最小化的用于下混频两个或更多个声道的过程。

此外，实施例为有利的，这是由于实施例表示具有使来自多声道下混频的常见问题最小化的潜力的低复杂过程。

优选实施例依赖于与互补信号混频的总和信号的受控能量或幅度均衡，该互补信号也是从输入信号导出但不同于部分下混频信号。总和信号的能量均衡被控制从而避免奇异点处的问题，而且使由于增益的大波动引起的显著信号减损最小化。优选地，互补信号在此补偿剩余能量损耗或补偿该剩余能量损耗的至少一部分。

在实施例中，处理器被配置为计算部分下混频信号，使得当至少两个声道同相时，满足至少两个声道与部分下混频声道之间的预定义能量相关或幅度相关关系，且使得当至少两个声道异相时，在部分下混频信号中产生能量损耗。在该实施例中，互补信号计算器被配置为计算互补信号，使得通过将部分下混频信号与互补信号相加在一起而部分或完全地补偿部分下混频信号的能量损耗。

在实施例中，该互补信号计算器被配置用于计算互补信号，使得互补信号相对于部分下混频信号的相干索引为0.7，其中相干索引0.0表示完全相干，且相干索引1表示完全相干。因此，确保一方面部分下混频信号和另一方面互补信号充分不同于彼此。

优选地，下混频产生两个声道的总和信号，例如L+R，如同在传统被动方法或主动下混频方法中所进行的。随后被称作W₁的被应用于该总和信号的增益旨在均衡总和声道的能量，从而匹配输入声道的平均能量或平均幅度。然而，与传统主动下混频方法相比，W₁值受限，以避免不稳定性问题且避免基于减损总和信号而恢复能量关系。

用互补信号进行第二混频。选择互补信号，使得其能量在L和R异相时并不消失。由于限制被引入至W₁值中，加权因子W₂补偿能量均衡。

附图说明

随后关于附图论述优选实施例，在附图中：

图1是根据实施例的下混频器的框图；

图2a是用于示出能量损耗补偿特征的流程图；

图2b是示出了互补信号计算器的实施例的框图；

图3是示出了在频谱域中操作且具有连接到不同替代元件或累积处理元件的加法器输出的下混频器的示意性框图；

图4示出了通过处理器实施的用于处理部分下混频信号的优选过程；

图5示出了实施例中多声道编码器的框图；

图6示出了多声道解码器的框图；

图7a示出了根据现有技术的总和分量的奇异点；

图7b示出了图7a的现有技术示例中用于计算下混频的等式；

图8a示出了根据实施例的下混频的能量关系；

图8b示出了用于图8a的实施例的等式；

图8c示出了具有加权因子的更粗略频率分辨率的替代等式；

图8d示出了图8a的实施例的下混频相位；

图9a示出了另一实施例中总和信号的增益限制图；

图9b示出了针对图9a的实施例的用于计算下混频信号M的等式；

图9c示出了用于计算经操控加权因子从而计算图9a的实施例的总和信号的操控函数；

图9d示出了针对图9a至图9c的实施例的对用于计算互补信号的加权因子W₂的计算；

图9e示出了图9a至图9d的下混频的能量关系；

图9f示出了针对图9a至图9e的实施例的增益W₂；

图10a示出了另一实施例的下混频能量；

图10b示出了针对图10a的实施例的用于计算下混频信号和第一加权因子W₁的等式；

图10c示出了针对10a至图10b的实施例的用于计算第二或互补信号加权因子的过程；

图10d示出了图10c的实施例的参数p和q的等式；

图10e示出了针对图10a至图10d中示出的实施例的作为下混频的ILD和IPD的函数的增益W₂。

具体实施方式

图1示出了用于下混频具有两个或更多个声道的多声道信号12的至少两个声道的下混频器。具体地，多声道信号可以仅是具有左声道L和右声道R的立体声信号，或多声道信号可以具有三个或甚至更多个声道。声道也可以包括音频对象或由音频对象组成。下混频器包括处理器10，其用于根据来自多声道信号12的至少两个声道计算部分下混频信号14。此外，下混频器包括用于根据多声道信号12计算互补信号的互补信号计算器20，其中由区块20输出的互补信号22不同于由区块10输出的部分下混频信号14。另外，下混频器包括加法器30，用于将部分下混频信号与互补信号相加以获得多声道信号12的下混频信号40。通常，下混频信号40仅具有单个声道或可选地具有多于一个声道。然而，通常，下混频信号具有少于多声道信号12中包括的声道的声道。因此，当多声道信号具有例如五个声道时，下混频信号可以具有四个声道、三个声道、两个声道或单个声道。具有一个或两个声道的下混频信号优于具有多于两个声道的下混频信号。在两声道信号作为多声道信号12的情况下，下混频信号40仅具有单个声道。

在实施例中，处理器10被配置为计算部分下混频信号14，使得当至少两个声道同相时，满足至少两个声道与部分下混频信号之间的预定义能量相关或幅度相关关系，且使得当至少两个声道异相时，相对于至少两个声道在部分下混频信号中产生能量损耗。预定义关系的实施例和示例是：下混频信号的幅度与输入信号的幅度处于某种关系，或例如下混频信号的逐子频带能量与输入信号的能量处于预定义关系。一个特定的感兴趣的关系是：下混频信号在全带宽上或子频带中的能量等于两个下混频信号或多于两个下混频信号的平均能量。因此，关系可以关于能量或关于幅度。此外，图1的互补信号计算器20被配置为计算互补信号22，使得通过在图1的加法器30中将部分下混频信号14与互补信号22相加以获得下混频信号来部分或完全补偿如图1中14处所示的部分下混频信号的能量损耗。

通常，实施例基于与也是从输入声道导出的互补信号混频的总和信号的受控能量或幅度均衡。

实施例基于与也是从输入声道导出的互补信号混频的总和信号的受控能量或幅度均衡。总和信号的能量均衡被控制从而避免奇异点处的问题，而且显著地使由于增益的大波动而引起的信号减损最小化。互补信号在此用于补偿剩余能量损耗或能量损耗的至少一部分。新的下混频的通式可以表达为

M[k，n]＝W₁[k，n](L[k，n]+R[k，n])+W₂[k，n]S[k，n]

其中，互补信号S[k，n]必须尽可能理想地与总和信号正交，但可以实际上被选择为

S[k，n]＝L[k，n]

或

S[k，n]＝R[k，n]

或

S[k，n]＝L[k，n]-R[k，n]。

在所有情况下，下混频如其在传统被动和主动下混频方法中进行的一样首先产生总和声道L+R。增益W₁[k，n]旨在均衡总和声道的能量从而匹配输入声道的平均能量或平均幅度。然而，不同于传统主动下混频方法，W₁[k，n]受限以避免不稳定性问题且避免能量关系基于减损总和信号被恢复。

第二混频通过互补信号进行。互补信号被选择，使得其能量在L[k，n]和R[k，n]异相时并不消失。W₂[k，n]补偿由于W₁[k，n]中引入的限制的能量均衡。

如图所示，互补信号计算器20被配置为计算互补信号，使得互补信号不同于部分下混频信号。数量上，优选的是互补信号相对于部分下混频信号的相干索引低于0.7。按此尺度，相干索引0.0表示完全不相干，且相干索引1.0表示完全相干。因此，低于0.7的相干索引已证明为有用的，使得部分下混频信号和互补信号充分不同于彼此。然而，甚至更优选的是低于0.5且甚至低于0.3的相干索引。

图2a示出了由处理器执行的过程。具体地，如图2a的项目50中所示，处理器利用相对于至少两个声道的能量损耗计算部分下混频信号，该至少两个声道表示到处理器中的输入。此外，互补信号计算器52计算图1的互补信号22以部分或完全地补偿能量损耗。

在图2b中所示的实施例中，互补信号计算器包括互补信号选择器或互补信号确定器23、加权因子计算器24和加权器25以最终获得互补信号22。特定地，互补信号选择器或互补信号确定器23被配置为使用信号组中的一个信号来计算互补信号，该信号组由诸如L之类的第一声道、诸如R之类的第二声道、如图2b中指示为L-R的第一声道与第二声道之间的差组成。替代地，差也可以是R-L。由互补信号选择器23使用的其他信号可以是多声道信号的其他声道，亦即，并未由处理器选择用于计算部分下混频信号的声道。例如，此声道可以是中心声道，或环绕声道或包括对象的任何其他附加声道。在其他实施例中，由互补信号选择器使用的信号是去相关的第一声道、去相关的第二声道、去相关的其他声道或甚至如由处理器14计算的去相关部分下混频信号。然而，在优选实施例中，诸如L之类的第一声道或诸如R之类的第二声道或甚至优选地左声道与右声道之间的差或右声道与左声道之间的差优选用于计算互补信号。

互补信号选择器23的输出被输入到加权因子计算器24。加权因子计算器另外通常接收待由处理器10组合的两个或更多个信号，且加权因子计算器计算26处所示的权重W₂。这些权重连同由互补信号选择器23使用并确定的信号一起被输入至加权器25中，且加权器接着使用来自区块26的加权因子来对从区块23输出的对应信号进行加权以最终获得互补信号22。

加权因子可以仅是时间相关的，使得对于某个时间块或时间帧，计算单个加权因子W₂。然而，在其他实施例中，优选的是使用时间和频率相关加权因子W₂，使得对于互补信号的某个块或帧，不仅该时间块的单个加权因子可用，而且由区块23产生或选择的信号的一组不同频率值或频谱范围的一组加权因子W₂可用。

在图3中示出了不仅用于互补信号计算器20而且用于处理器10的针对时间和频率相关加权因子的对应实施例。

特定地，图3示出了优选实施例中的下混频器，该下混频器包括用于将时域输入声道转换成频域输入声道的时间频谱转换器60，其中每个频域输入声道具有频谱序列。每个频谱具有独立时间索引n，且在每个频谱内，特定频率索引k指代与频率索引唯一地相关联的频率分量。因此，在示例中，当区块具有512个频谱值时，则频率k从0到511以便唯一地识别512个不同频率索引中的每个。

时间频谱转换器60被配置用于应用FFT且优选地应用重迭FFT，使得通过区块60获得的频谱序列与输入声道的重迭块有关。然而，也可以使用非重迭频谱转换算法和诸如DCT等的除FFT外的其他转换。

具体地，图1的处理器10包括第一加权因子计算器15，其用于计算各个频谱索引k的权重W₁或子频带b的加权因子W₁，其中子频带比频率的频谱值更宽，且通常包括两个或更多个频谱值。

图1的互补信号计算器20包括计算加权因子W₂的第二加权因子计算器。因此，项目24可以类似地构建为图2b的项目24。

此外，计算部分下混频信号的图1的处理器10包括下混频加权器16，其接收加权因子W₁作为输入且输出被转发至加法器30的部分下混频信号14。此外，图3中所示的实施例另外包括已经针对图2b描述的加权器25，该加权器25接收第二加权因子W₂作为输入。

加法器30输出下混频信号40。下混频40可以用于若干不同情形。使用下混频信号40的一种方式是将该下混频信号输入至图3中所示的频域下混频编码器64中，该频域下混频编码器64输出已编码的下混频信号。替代性过程是将下混频信号40的频域表示插入到频谱时间转换器62中，以便在区块62的输出处获得时域下混频信号。其他实施例是将下混频信号40馈送至其他下混频处理器66中，该其他下混频处理器66产生某种处理下混频声道，例如传输的下混频声道、存储的下混频声道，或已执行某种均衡、增益变化等的下混频声道。

在实施例中，处理器10被配置用于计算如图3中的区块15所示的时间或频率相关加权因子W₁，从而根据至少两个声道与至少两个声道的总和信号之间的预定义能量或幅度关系而对至少两个声道的总和进行加权。此外，在也在图4的项目70中示出的该过程之后，处理器被配置为针对某个频率索引k以及某个时间索引n、或针对某个频谱子频带b以及某个时间索引n将所计算的加权因子W₁与预定义的阈值进行比较，如在图4的区块72处所指示的。该比较优选地针对每个频谱索引k或针对每个子频带索引b或针对每个时间索引n以及优选地针对一个频谱索引k或b以及针对每个时间索引n执行。当所计算的加权因子与预定义阈值处于第一关系，例如在73处所示的低于阈值时，则如图4中的74处所指示的使用所计算的加权因子W₁。然而，当所计算的加权因子与预定义阈值处于不同于与预定义阈值的第一关系的第二关系，例如如75处所指示高于阈值时，使用预定义阈值而非所计算的加权因子从而在例如图3的区块16中计算部分下混频信号。这是对W₁的“硬”限制。在其他实施例中，执行一种“软限制”。在该实施例中，使用修改函数来导出修改后的加权因子，其中修改函数使得相比于所计算的加权因子，修改后的加权因子更接近于预定义阈值。

图8a至图8d中的实施例使用硬限制，而图9a至图9f中的实施例和图10a至图10e中的实施例使用软限制，亦即修改函数。

在其他实施例中，执行关于区块70和区块76的图4中的过程，但并不执行如关于区块72所论述的与阈值的比较。在区块70中的计算之后，使用上述区块76的修改函数导出修改后的加权因子，其中修改函数使得修改后的加权因子导致部分下混频信号的能量比预定义能量关系的能量小。优选地，在无具体比较的情况下应用的修改函数使得其对于W₁的高值将经操控或修改后的加权因子限于某个极限值，或仅具有极小增加，例如对数或ln函数；或使得尽管不限于特定值但仅具有极缓慢增加，使得如之前所论述的稳定性问题基本上被避免或至少被减小。

在图8a至图8d中所示的优选实施例中，下混频由下式给出：

M[k，n]＝W₁[k，n](L[k，n]+R[k，n])+W₂[k，n]L[k，n]

其中

在以上等式中，A是优选地等于2的平方根的实值常数，但A也可以具有在0.5或5之间的不同值。取决于应用，甚至也可以使用与上述值不同的值。

给定

|L[k，n]+R[k，n]|≤|L[k，n]|+|R[k，n]|，

W₁[k，n]和W₂[k，n]始终为正，且W₁[k，n]限于或例如为0.5。

混频增益可以如先前的方程式中所描述针对STFT的每个索引k逐频率区间地计算，或可以针对集合了STFT的一组索引b的每个非重迭子频带被逐频带地计算。增益基于以下等式来计算：

由于均衡期间的能量保持并非硬约束条件，因此所得下混频信号的能量相比于输入声道的平均能量发生变化。能量关系取决于如图8a中所示的ILD和IPD。

与保持输出能量与输入声道的平均能量之间的恒定关系的简单主动下混频方法形成对比，新下混频信号并未显示出如图8d中所示的任何奇异性。实际上，在图7a中，幅度Pi(180°)的跳跃可以在IP＝Pi和ILD＝0dB处观测到，而在图8d中，跳跃为2Pi(360°)，这对应于展开相域中的连续改变。

收听测试结果确认，相比于传统主动下混频，新的下混频方法引起较大范围的立体声信号的显著较低的不稳定性和减损。

在此上下文中，图8a示出了沿着x轴以dB为单位的原始左声道与原始右声道之间的声道间声级差。此外，沿着y轴以在0与1.4之间的相对尺度指示下混频能量，且参数是声道间相位差IPD。具体地，看起来，所得下混频信号的能量特别地取决于声道之间的相位而发生变化，且对于Pi(180°)的相位，亦即对于异相情形，能量变化至少对于正声道间声级差处于良好形状。图8b示出了用于计算下混频信号M的等式，且还变得清楚的是，选择左声道作为互补信号。图8c示出了不仅针对单个频谱索引而且针对子频带的加权因子W₁和W₂，其中来自STFT的一组索引亦即至少两个频谱值k被加在一起以获得某个子频带。

相比于图7a和图7b中所示的现有技术，在图8d与图7a比较时，不再包括任何奇异性。

图9a至图9f示出了另一实施例，其中使用左信号L与右信号R之间的差作为互补信号的基础来计算下混频。特定地，在该实施例中，M[k，n]＝W₁[k，n](L[k，n]+R[k，n])+W₂[k，n](L[k，n]-R[k，n])

其中，计算增益W₁[k，n]和W₂[k，n]的集合，使得在每种条件下保持下混频信号与输入声道之间的能量关系。

首先，计算增益W₁[k，n]用于均衡能量直到给定极限为止，其中A再次是等于或不同于该值的实值数：

结果，总和信号的增益W₁[k，n]如图9a中所示的限于范围[0，1]。在针对x的等式中，替代性实施方式是使用不用平方根的分母。

如果两个声道具有大于pi/2的IPD，则W₁可以不再补偿能量损耗，于是其来自增益W₂。W₂被计算为以下二次等式的根中的一个：

等式的根由下式给出：

其中

于是可以选择两个根中的一个。对于两个根，如图9e中所示针对所有条件保持该能量关系。

如果两个声道具有大于pi/2的IPD，则W₁可以不再补偿能量损耗，于是其将来自增益W₂。W₂被计算为以下二次等式的根中的一个：

等式的根由下式给出：

其中

于是可以选择两个根中的一个。对于两个根，如图9f中所示针对所有条件保持该能量关系。

优选地，具有最小绝对值的根被适应性地选择用于W₂[k，n]。这种适应性选择对于ILD＝0dB将导致从一个根到另一根的切换，其再次可能产生不连续性。

与现有技术相比较，该方法在不引入任何奇异性情况下解决了下混频和频谱偏置的梳型滤波效应。其在所有条件下维持能量关系，但相比于优选实施例引入更多的不稳定性。

因此，图9a示出了在该实施例的部分下混频信号的计算中通过总和信号的因子W₁获得的增益限制的比较。特定地，直线是如之前针对图4的区块76论述的在值的归一化之前或修改之前的情形。并且，另一条线逼近作为加权因子W₁函数的修改函数的值1。变得清楚的是，修改函数的影响发生于高于0.5的值处，但仅对于约0.8和大于0.8的值W₁，偏差变得实际可见。

图9b示出了该实施例的通过图1的框图实施的等式。

此外，图9c示出了如何计算值W₁，且因此，图9a示出了图9c的功能情形。最终，图9d示出了W₂的计算，亦即，由图1的互补信号产生器20使用的加权因子的计算。

图9e示出，对于第一声道与第二声道之间的所有相位差且对于第一声道与第二声道之间的所有声级差ALD，下混频能量始终相同且等于1。

然而，图9f示出由于如下事实通过图9d的E_M的等式的规则的计算引发的不连续性：存在可变成0的在图9d中所示的p的等式中和q的等式中的分母。

图10a至图10e示出了可以被视为两个较早描述的替代例之间的折衷的其他实施例。

下混频由下式给出；

M＝W₁[k](L[k]+R[k])+W₂[k](L[k]-R[k])

其中

在x的等式中，替代实施方式是使用不用平方根的分母。

在该情况下，待求解的二次等式为：

此次，增益W₂确切地并非被视为二次等式的根中的一个而是：

其中

因此，并非始终如图10a中所示地保持能量关系。另一方面，增益W₂在图10e中并未显示出任何不连续性，且相比于第二实施例不稳定性问题被减小。

因此，图10a示出了图10a至图10e示出的此实施例的能量关系，其中还是在y轴示出下混频能量，在x轴示出声道间声级差。图10b示出了由图1应用的等式以及被执行以用于如相对区块76中所示的计算第一加权因子W₁的过程。此外，图10c示出了相对图9a至图9f的实施例的W₂的替代性计算。具体地，p受绝对值函数影响，在将图10c与图9d中的类似等式比较时其显现。

图10d接着又示出了p和q的计算，且图10d在底部粗略地对应于图10d中的等式。

图10e示出了根据图10a至图10d中所示的实施例的该的新下混频的能量关系，且看起来增益W₂仅逼近最大值0.5。

尽管前述描述内容和某些图提供了详述等式，但应注意的是，即使在并未准确地计算等式时，但在计算等式但结果被修改时，已经获得了优势。特定地，图3的第一加权因子计算器15和第二加权因子计算器24的功能性被执行，使得第一加权因子或第二加权因子具有在基于以上给定的等式所确定的值的±20％的范围内的值。在优选实施例中，加权因子被确定为具有在通过以上等式确定的值的±10％的范围内的值。在甚至更优选实施例中，偏差仅为±1％，且在最优选实施例中，准确地得到等式的结果。但如所陈述的，当应用根据上述等式的±20％的偏差时，仍获得本发明的优势。

图5示出了多声道编码器的实施例，其中可以使用如之前针对图1至图4、图8a至图10e论述的本发明的下混频器。具体地，多声道编码器包括参数计算器82，其用于从具有两个或更多个声道的多声道信号12的至少两个声道计算多声道参数84。此外，多声道编码器包括下混频器80，其可以如之前所论述地实施且提供一个或多个下混频声道40。多声道参数84和一个或多个下混频声道40两者被输入到输出接口86中，其用于输出已编码的多声道信号，该已编码的多声道信号包括一个或多个下混频声道和/或多声道参数。替代地，输出接口可以被配置用于将已编码的多声道信号存储或传输到例如图6中所示的多声道解码器。图6中所示的多声道解码器接收已编码的多声道信号88作为输入。该信号被输入到输入接口90中，且输入接口90一方面输出多声道参数92且另一方面输出一个或多个下混频声道94。两个数据项(亦即，多声道参数92和下混频声道94)被输入到多声道重构器96中，该多声道重构器96在其输出处重构原始输入声道的近似且通常输出如由附图标记98所指示的输出声道，该输出声道可以包括输出音频对象或类似于输出音频对象的任何项目或由输出音频对象或类似于输出音频对象的任何项目组成。特定地，图5中的多声道编码器和图6中的多声道解码器一起表示音频处理系统，其中多声道编码器如关于图5所论述地操作，并且其中多声道解码器例如如图6中所示地实施且通常被配置用于对已编码的多声道信号进行解码以获得在图6中98处所示的重构的音频信号。因此，关于图5和图6所示的过程另外表示一种处理音频信号的方法，该方法包括多声道编码方法和对应的多声道解码方法。

本发明的经编码音频信号可以存储在数字存储介质或非暂时性存储介质上，或可以在传输介质(例如，无线传输介质或有线传输介质，例如因特网)上传输。

尽管已经在装置的上下文中描述一些方面，但清楚的是，这些方面也表示对应方法的描述，其中区块或装置对应于方法步骤或方法步骤的特征。类似地，方法步骤的上下文中所描述的方面也表示对应区块或项目或对应装置的特征的描述。

取决于某些实施要求，本发明的实施例可以用硬件或软件实施。可以使用上面存储有电子可读控制信号的数字存储介质来执行该实施方式，该介质是例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，该电子可读控制信号与可编程计算机系统协作(或能够协作)以使得执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作，以使得本文中所描述方法中的一个被执行。

一般而言，本发明的实施例可以实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码操作性地用于执行这些方法中的一个。程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行本文中描述的方法中的一个的计算机程序，其存储于机器可读载体或非暂时性存储介质上。

换言之，因此，本发明方法的实施例是具有程序代码的计算机程序，当在计算机上运行该计算机程序时该程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的又一实施例是包括记录在其上的计算机程序的数据载体(或数字存储介质，或计算机可读介质)，该计算机程序用于执行本文中所描述的方法中的一个。

因此，本发明方法的又一实施例是表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由因特网)被传送。

又一实施例包括被配置为或适于执行本文中所描述的方法中的一个的处理构件(例如，计算机或可编程逻辑设备)。

又一实施例包括计算机，该计算机具有安装于其上的用于执行本文中所描述的方法中的一个的计算机程序。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可以用于执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行本文中所描述的方法中的一个。一般而言，这些方法优选地由任何硬件装置执行。

上述实施例仅说明本发明的原理。应理解，本文中所描述的布置和细节的修改和变化对于本领域技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限定，而非由通过对本文中的实施例的描述和解释所呈现的具体细节来限定。

参考文献

[1]US 7,343,281 B2，“PROCESSING OF MULTI-CHANNEL SIGNALS”，KoninklijkePhilips Electronics N.V.，Eindhoven(NL)

[2]Samsudin，E.Kurniawati，Ng Boon Poh，F.Sattar，and S.George，“A Stereoto Mono Downmixing Scheme for MPEG-4Parametric Stereo Encoder，”in IEEEInternational Conference on Acoustics，Speech and Signal Processing，vol.5，2006，pp.529-532.

[3]T.M.N.Hoang，S.Ragot，B.and P.Scalart，“Parametric StereoExtension of ITU-T G.722Based on a New Downmixing Scheme，”IEEE InternationalWorkshop on Multimedia Signal Processing(MMSP)(2010).

[4]W.Wu，L.Miao，Y.Lang，and D.Virette，“Parametric Stereo Coding Schemewith a New Downmix Method and Whole Band Inter Channel Time/PhaseDifferences，”in IEEE International Conference on Acoustics，Speech and SignalProcessing，2013，pp.556-560.

[5]Alexander Adami，A.P.Habets，J ü rgen Herre，“DOWN-MIXINGUSING COHERENCE SUPPRESSION”，2014IEEE International Conference on Acoustic，Speech and Signal Processing(ICASSP)

[6]Vilkamo，Juha；Kuntz，Achim；Füg，Simone，“Reduction of SpectralArtifacts in Multichannel Downmixing with Adaptive Phase Alignment”，AESAugust 22，2014。

Claims

1.一种用于对具有两个或多个声道的多声道信号(12)的至少两个声道进行下混频的下混频器，包括：

处理器(10)，用于根据所述至少两个声道计算部分下混频信号(14)；

互补信号计算器(20)，用于根据所述多声道信号(12)计算互补信号，所述互补信号(22)不同于所述部分下混频信号(14)；以及

加法器(30)，用于将所述部分下混频信号(14)与所述互补信号(22)相加以获得所述多声道信号的下混频信号(40)。

2.根据权利要求1所述的下混频器，其中，所述处理器(10)被配置为计算(50)所述部分下混频信号(14)，使得当所述至少两个声道同相时，满足所述多声道信号(12)的所述至少两个声道与所述部分下混频声道之间的预定义能量或幅度关系，并且使得当所述至少两个声道异相时，相对所述至少两个声道在所述部分下混频信号中产生能量损耗，并且

其中，所述互补信号计算器被配置为计算(52)所述互补信号，使得通过在所述加法器(30)中将所述部分下混频信号(14)与所述互补信号(22)相加来部分或完全补偿所述部分下混频信号(14)的所述能量或幅度损耗。

3.根据权利要求1或2所述的下混频器，

其中，所述互补信号计算器(20)被配置为计算所述互补信号(22)，使得所述互补信号相对于所述部分下混频信号的(14)相干索引低于0.7，其中，相干索引0.0示出完全不相干，并且相干索引1.0示出完全相干。

4.根据前述权利要求中任一项所述的下混频器，

其中，所述互补信号计算器(20)被配置为将包括以下各项的以下信号组中的一个信号用于计算所述互补信号：所述至少两个声道中的第一声道、所述至少两个声道中的第二声道、所述第一声道与所述第二声道之间的差、所述第二声道与所述第一声道之间的差、当所述多声道信号具有多于所述至少两个声道的声道时所述多声道信号中的另一声道、或去相关的第一声道、去相关的第二声道、另一去相关的声道、涉及所述第一声道和所述第二声道的去相关差、或去相关的部分下混频信号(14)。

5.根据前述权利要求中任一项所述的下混频器，其中，所述处理器(10)被配置为：

根据所述至少两个声道与所述至少两个声道的总和信号之间的预定义能量或幅度关系来计算(70)时间或频率相关加权因子，所述时间或频率相关加权因子用于对所述至少两个声道的总和进行加权；以及

将所计算的加权因子与预定义阈值进行比较(72)；以及

当所计算的加权因子与预定义阈值处于第一关系时，使用(74)所计算的加权因子来计算所述部分下混频信号(14)，或者

当所计算的加权因子与所述预定义阈值处于不同于所述第一关系的第二关系时，使用(76)所述预定义阈值而非所计算的加权因子来计算所述部分下混频信号，或者

当所计算的加权因子与所述预定义阈值处于不同于所述第一关系的第二关系时，使用修改函数(76)导出修改后的加权因子，其中，所述修改函数使得该修改后的加权因子相比于所计算的加权因子更接近于所述预定义阈值。

6.根据前述权利要求中任一项所述的下混频器，其中，所述处理器(10)被配置为：

使用修改函数导出修改后的加权因子，其中，所述修改函数使得修改后的加权因子导致所述部分下混频信号的能量小于由所述预定义能量关系定义的能量。

7.根据前述权利要求中任一项所述的下混频器，

其中，所述处理器(10)被配置为使用时间或频率相关加权因子加权(16)所述至少两个声道的总和信号，其中，计算所述加权因子W₁，使得所述加权因子的值在基于针对频率区间k和时间索引n的以下等式所确定的值的±20％的范围内：

或

在基于针对子频带b和时间索引n的以下等式所确定的值的±20％的范围内：

其中，A是实值常数，其中，L表示所述多声道信号(12)的所述至少两个声道中的第一声道，且R表示所述多声道信号(12)的所述至少两个声道中的第二声道。

8.根据前述权利要求中任一项所述的下混频器，

其中，所述互补信号计算器(20)被配置为使用所述至少两个声道中的一个声道，并且使用时间或频率相关互补加权因子W₂来对所使用的声道进行加权，其中，计算所述互补加权因子W₂，使得所述互补加权因子的值在基于针对频率区间k和时间索引n的以下等式确定的值的±20％的范围内：

或

其中，L表示所述多声道信号(12)的第一声道，且R表示所述多声道信号(12)的第二声道。

9.根据权利要求1至7中任一项所述的下混频器，

其中，所述互补信号产生器(20)被配置为使用所述多声道信号(12)的第一声道与所述第二声道之间的差，并且使用时间和频率相关互补加权因子来对差信号进行加权，其中，计算所述互补加权因子，使得所述互补加权因子的值在基于以下等式所确定的值的±20％的范围内：

其中

其中，L是所述多声道信号(12)的所述第一声道，且R是所述多声道信号(12)的所述第二声道。

10.根据权利要求1至7中任一项所述的下混频器，

其中

11.根据前述权利要求中任一项所述的下混频器，

其中，所述处理器(10)被配置为：

根据所述至少两个声道计算总和信号；

根据所述总和信号与所述至少两个声道之间的预定关系来计算(15)用于对所述总和信号进行加权的加权因子；

修改(76)高于预定义阈值的所计算的加权因子，以及

应用修改后的加权因子对所述总和信号进行加权以获得所述部分下混频信号(14)。

12.根据前述权利要求中任一项所述的下混频器，

其中，所述处理器(10)被配置为将所计算的加权因子修改为在所述预定义阈值的±20％的范围内，或修改所计算的加权因子，使得所计算的加权因子的值在基于以下等式计算的值的±20％的范围内：

其中

其中，A是实值常数，L是多声道信号(12)的第一声道，且R是所述多声道信号(12)的第二声道。

13.一种用于对具有两个或更多个声道的多声道信号(12)的至少两个声道进行下混频的方法，包括：

根据所述至少两个声道来计算部分下混频信号(14)；

根据所述多声道信号(12)来计算互补信号，所述互补信号(22)不同于所述部分下混频信号(14)；以及

将所述部分下混频信号(14)与所述互补信号(22)相加以获得所述多声道信号的下混频信号(40)。

14.一种多声道编码器，包括：

参数计算器(82)，用于根据具有两个或多于两个声道的多声道信号的至少两个声道来计算多声道参数(84)，以及

根据权利要求1至12中任一项所述的下混频器(80)；以及

输出接口(86)，用于输出或存储包括所述一个或多个下混频声道(40)和/或所述多声道参数(84)的已编码的多声道信号。

15.一种用于对多声道信号进行编码的方法，包括：

根据具有两个或多于两个声道的多声道信号的至少两个声道来计算多声道参数(84)；以及

根据权利要求13所述的方法进行下混频；以及

输出或存储包括所述一个或多个下混频声道(40)和所述多声道参数(84)的已编码的多声道信号(88)。

16.一种音频处理系统，包括：

根据权利要求14所述的多声道编码器，用于产生已编码的多声道信号(88)；以及

多声道解码器，用于对已编码的多声道信号(88)进行解码以获得重构的音频信号(98)。

17.一种用于处理音频信号的方法，包括：

根据权利要求15所述的多声道编码；以及

对已编码的多声道信号进行多声道解码以获得重构的音频信号(98)。

18.一种计算机程序，用于当所述计算机程序在计算机或处理器上运行时执行根据权利要求13、15或17中任一项所述的方法。