CN108604454A

CN108604454A - 音频信号处理装置和输入音频信号处理方法

Info

Publication number: CN108604454A
Application number: CN201680081853.XA
Authority: CN
Inventors: 尤尔根·盖格; 彼得·格罗舍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2018-09-28
Anticipated expiration: 2036-03-16
Also published as: EP3335218A1; CN108604454B; EP3335218B1; US10484808B2; WO2017157427A1; US20180213342A1

Abstract

本发明涉及音频信号处理装置(100)和一种用于将输入音频信号(101)处理为输出音频信号(103)的方法。所述音频信号处理装置(100)包括：分解器(105)，用于将所述输入音频信号(101)分解为直接音频信号(102a)和漫射音频信号(102b)；修改器(107)，用于修改所述直接音频信号(102a)，以获得修改后的直接音频信号(102a')，其中所述修改器(107)包括带宽扩展器(107a)，用于扩展所述直接音频信号(102a)的频率范围中的上转折频率；合路器(109)，用于将所述修改后的直接音频信号(102a')与所述漫射音频信号(102b)进行合并，以获得所述输出音频信号(103)。

Description

音频信号处理装置和输入音频信号处理方法

技术领域

一般而言，本发明涉及音频信号处理领域，更具体地说，本发明涉及音频信号处理装置和输入音频信号的处理方法，尤其涉及一种压缩的音频信号的处理方法。

背景技术

通常，使用诸如MP3之类的有损编码方案来压缩音频文件，尤其是音乐文件，会导致音频质量降低。音频不能恢复到其原来的质量，例如，由于压缩导致高频丢失，瞬变失真或弱化，并且引入其它伪像。

早期为解决这个问题，尝试提出通过，例如，在US7916876和EP1915026中所公开的带宽扩展技术来恢复原来的音频质量。近来尝试提出通过，例如，在US6865430和US6606388中所公开的均衡或低音最大化技术来解决这个问题。US9135920公开了立体声信号的中间/侧面分解，相对于修改整个信号而言，这是非常简单的改进。

常规的用于改善压缩音频文件尤其是音乐文件质量的方法仅依靠带宽扩展来再生成高频和/或一般音响效果，以便提高感知质量(例如，均衡)。因此，传统的带宽扩展系统的实现通常都包括一个单独的步骤来检测转折频率，并随后对由于压缩导致丢失的估计转折频率以上的音频文件部分进行估计。然而，一般来说，高频音频内容在感知上几乎没有相关性(12kHz以上的频率上，许多人根本觉察不到声音)，而高频转折频率的检测实际上是一项艰巨的任务。此外，常规方法中未能解决对音乐质量感知的其他重要影响，即为频谱图中所谓的“洞”，其产生可听伪像(“音乐噪声”和“尖叫声音”)，导致攻击损失。

因此，需要一种改进的音频信号处理装置和方法，允许增强压缩音频信号的质量。

发明内容

本发明旨在提供一种改进的信号处理装置和方法，特别是能够提高压缩音频信号的质量。

通过独立权利要求的主题实现上述及其它目的。进一步，实现方式显而易见有别于从属权利要求、描述及图。

根据第一方面，本发明涉及一种音频信号处理装置，用于将输入音频信号尤其是通过有损压缩技术压缩的音频信号处理成输出音频信号，以缓解由于压缩造成的可明显感知到的失真。所述音频信号处理装置包括：分解器，用于将所述输入音频信号分解为直接音频信号和漫射音频信号；修改器，用于修改所述直接音频信号，以获得修改后的直接音频信号，其中所述修改器包括带宽扩展器，用于扩展所述直接音频信号的频率范围中的上转折频率；合路器，用于将所述修改后的直接音频信号与所述漫射音频信号进行合并，以获得所述输出音频信号。

此处表述的“直接音频信号”是指由声源直接发射的输入音频信号成分，“漫射音频信号”是指由声源环境反射的输入音频信号成分。在此将同等表述“主音频信号”和“环境音频信号”作为“直接音频信号”和“漫射音频信号”。

因此，提供了一种改进的音频信号处理装置，通过将所述输入音频信号分解成直接成分和漫射成分，并通过直接成分处理，提高压缩输入音频信号的质量。这因为所述直接音频信号成分一般涉及声源的原始信号，而所述漫射音频信号成分涉及环境(混响)对所述直接音频信号的响应，因此，所述漫射音频信号成分已包括所述输入音频信号中自然存在的混响，从而可通过一种有利的方式应用以下模块。

根据本发明的第一方面，在所述音频信号处理装置的第一种可能实现方式中，所述分解器包括上混频器，用于将所述输入音频信号上混成多个上混音频信号，其中所述分解器用于基于所述多个上混音频信号生成所述直接音频信号和所述漫射音频信号。

上混频器允许高效地生成所述直接音频信号和所述漫射音频信号，从而对所述直接音频信号和所述漫射音频信号进行进一步不同的处理。

根据第一方面的第一种实现方式，在所述音频信号处理装置的第二种可能实现方式中，所述多个上混音频信号包括中心音频信号，其中所述分解器还包括下混频器，用于对所述多个上混音频信号中的中心音频信号进行下混，以获得所述直接音频信号。

因此，所述修改器的所有部件都可以在数量减少的信道上工作，从而降低了该装置的整体计算复杂度。

根据第一方面的第一或第二种实现方式，在所述音频信号处理装置的第三种可能实现方式中，所述分解器还包括均衡器，用于均衡所述多个上混音频信号。

所述多个上混信号上的均衡器能够针对每个信号进行单独设置。因此，所述均衡器可用于通过对所有单独信号进行良好的控制，高效地实现期望的效果。在实现方式中，所述均衡器可用于增强低频处的直接音频信号和中频处的漫射音频信号，从而增强了所述直接音频信号的低音和所述漫射音频信号的环境声效。可以针对不同的目标对所述均衡器进行其它可能的配置。

根据第一方面或第一方面的第一至第三种实现方式中的任一实现方式，在所述音频信号处理装置的第四种可能实现方式中，所述带宽扩展器包括多个带通滤波器，用于从所述直接音频信号中提取多个直接音频信号成分，其中每个直接音频信号成分与所述多个带通滤波器定义的多个频带中的对应频带相关联，所述带宽扩展器还包括能量估计器，用于针对所述多个频带中的每个频带，估计与所述对应频带相关联的所述直接音频信号成分的能量。

不同的频带分离和这些频带中的能量估计允许对转折频率进行隐式估计。因此，以下处理步骤可以在细粒度的光谱分辨率上进行。

根据第一方面的第四种实现方式，在所述音频信号处理装置的第五种可能实现方式中，所述带宽扩展器还包括谐波生成器，用于基于所述多个直接音频信号成分中的第一直接音频信号成分生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分，用于当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时，调整所述多个直接音频信号成分中的第二直接音频信号成分。

在实际能量等于或接近所述目标能量的情况下，不会产生谐波，降低了本发明实施例的计算复杂度。

根据第一方面的第五种实现方式，在所述音频信号处理装置的第六种可能实现方式中，基于以下等式确定所述第二直接音频信号成分的目标能量：

T_x＝β₁T_x-1，

其中T_x表示所述第二直接音频信号成分的目标能量，T_x-1表示与直接低于所述第二直接音频信号成分的频带的一个频带相关联的直接音频信号成分的目标能量，β₁表示第一调整因子且β₁＜1。

在实现方式中，通过以下等式定义所述第一调整因子β₁：

其中T_x-2表示与直接低于所述频带的频带相关联的直接音频信号成分的目标能量，所述频带低于所述第二直接音频信号成分的频带。

因此，可以通过可用的测量能量估计值来递归地估计目标能量。

根据第一方面的第五或第六种实现方式，在所述音频信号处理装置的第七种可能实现方式中，所述带宽扩展器还包括定标器，用于通过基于所述第一直接音频信号成分的能量确定的缩放因子，对所述第二直接音频信号成分的调整直接音频信号成分进行缩放。

该实现方式允许通过位于其中一个频带中的转折频率，来避免需要通过单独的步骤对信号中的转折频率进行明确检测。

根据第一方面的第七种实现方式，在所述音频信号处理装置的第八种可能实现方式中，所述定标器用于基于以下等式确定对所述第二直接音频信号成分中的调整直接音频信号成分进行缩放的缩放因子G_h：

其中T_h表示所述第二直接音频信号成分中的调整直接音频信号成分的目标能量，E_h表示所述第二直接音频信号成分中的调整直接音频信号成分的能量，其中，基于以下等式定义T_h和E_h：

T_h＝T_x-l·E_x

E_h＝β₂·E_l

其中E_x表示所述第二直接音频信号成分的能量，E_l表示所述第一直接音频信号成分的能量，l表示泄漏因子，β₂表示第二调整因子。

在实现方式中，所述泄漏参数l的取值范围为0.5到1.0，优选为0.8，所述第二调整因子β₂的取值范围可为0.3到0.5，优选为0.4。

因此，根据所述第一直接音频信号成分的能量估计所述调整直接音频信号的能量，降低了该装置的计算复杂度。

根据本发明第一方面或第一方面的第一至第八种实现方式中的任一实现方式，在所述音频信号处理装置的第九种可能实现方式中，所述修改器还包括瞬态修改器，用于检测所述直接音频信号中的至少一个瞬变，修改所述直接音频信号中的瞬变。

因此，可以恢复由于压缩而削弱或损失的瞬变。

根据本发明的第一方面或第一方面的第一至第九种实现方式中的任一实现方式，在所述音频信号处理装置的第十种可能实现方式中，所述修改器还包括混响滤波器，用于通过所述直接音频信号的不同频带的不同混响时长对所述直接音频信号进行滤波，其中与所述直接音频信号中的至少一个高频带相关联的混响时长大于与所述直接音频信号中的至少一个低频带相关联的混响时长。

在实现方式中，对于低于4000Hz的频率，所述混响时长为T₆₀＝0.2秒，对于4000Hz和10000Hz之间的频率，所述混响时长为T₆₀＝0.4秒。这允许补偿观察到的效果，即环境信号成分在较高的频率处衰减得更强。如果在低频处没有产生额外的混响，则可以保持对低频成分的更清晰的感知。

根据第一方面的第十种实现方式，在所述音频信号处理装置的第十一种可能实现方式中，所述修改器还包括混响调节器，用于基于第三调整因子调整所述混响滤波器滤波的所述直接音频信号，其中所述第三调整因子取决于所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比。

可以保证根据信号中已有的实际混响量控制混响。

根据第一方面的第十一种实现方式，在所述音频信号处理装置的第十二种可能实现方式中，所述混响调节器用于基于所述第三调整因子调节所述混响滤波器滤波的直接音频信号，使得所述修改后的直接音频信号的能量与所述输出音频信号的漫射音频信号的能量之比大于所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比的预定义分数。

在实现方式中，所述漫射音频信号的能量与所述分解器提供的所述直接音频信号的能量之比的预定义分数约为0.8，即20％，确保信号的整体平衡不会变化太大。

综上所述，仅对所述直接音频信号做上述至少部分的修改是有利的。由于所述漫射信号主要包括固定的声音，所以与完整信号或所述漫射信号相比，所述瞬态修改器可以更好地检测来自所述直接信号的瞬变，并将其从所述直接信号中移除，提高了瞬变检测性能。所述混响模块通过混响滤波器滤波生成额外的人工混响。理想情况下，该滤波器应用于原始信号中，因此，其仅应用于所述直接信号，而非所述发散信号。类似地，因为针对直接信号可更好的生成谐波，所以带宽扩展仅理想地应用于所述直接信号而非所述漫射信号中。多声道EQ模块可对分离的直接和漫射信号进行不同的EQ设置，从而更加精细地调整该系统。

根据第二方面，本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号处理方法。所述音频信号处理方法包括以下步骤：将所述输入音频信号分解为直接音频信号和漫射音频信号，其中所述直接音频信号包括声源直接发射的输入音频信号成分，所述漫射音频信号包括由声源环境反射的输入音频信号成分；通过扩展所述直接音频信号的频率范围内的上转折频率，修改所述直接音频信号以获得修改后的直接音频信号；将所述修改后的直接音频信号与所述漫射音频信号进行合并，以获得所述输出音频信号。

根据本发明第二方面，在所述音频信号处理方法的第一种可能实现方式中，所述分解步骤包括：将所述输入音频信号上混合成多个上混音频信号，并基于所述多个上混音频信号生成所述直接音频信号和所述漫射音频信号。

根据第二方面的第一种实现方式，在所述音频信号处理方法的第二种可能实现方式中，所述多个上混音频信号包括中心音频信号，其中所述分解步骤还包括：将所述多个上混音频信号中的中心音频信号进行下混以获得所述直接音频信号。

根据第二方面的第一或第二种实现方式，在所述音频信号处理方法的第三种可能实现方式中，所述分解步骤还包括：均衡所述多个上混音频信号。

根据本发明的第二方面或第二方面的第一至第三种实现方式中的任一实现方式，在所述音频信号处理方法的第四种可能实现方式中，所述方法还包括以下步骤：通过多个带通滤波器从所述直接音频中提取多个直接音频信号成分，其中每个直接音频信号成分与所述多个带通滤波器定义的多个频带中的对应频带相关联，所述方法还包括以下步骤：针对所述多个频带中的每一个频带，对与所述相应的频带相关联的直接音频信号成分的能量进行估计。

根据第二方面的第四种实现方式，在所述音频信号处理方法的第五种可能实现方式中，所述方法还包括以下步骤：基于所述多个直接音频信号成分中的第一直接音频信号成分生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分，用于当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时，调整所述多个直接音频信号成分的第二直接音频信号成分。

根据第二方面的第五种实现方式，在所述音频信号处理方法的第六种可能实现方式中，基于以下等式确定所述第二直接音频信号成分的目标能量：

T_x＝β₁T_x-1，

在实现方式中，通过以下等式定义所述第一调整因子β₁：

根据第二方面的第五或第六种实现方式，在所述音频信号处理方法的第七种可能实现方式中，所述方法还包括以下步骤：通过基于所述第一直接音频信号成分的能量确定的缩放因子，对所述第二直接音频信号成分的调整直接音频信号成分进行缩放。

根据第二方面的第七种实现方式，在所述音频信号处理方法的第八种可能实现方式中，所述方法还包括以下步骤：确定缩放因子G_h，从而基于以下等式对所述第二直接音频信号成分的调整直接音频信号成分进行缩放：

T_h＝T_x-l·E_x和

E_h＝β₂·E_l，

根据本发明第二方面或第二方面的第一至第八种实现方式中的任一实现方式，在所述音频信号处理方法的第九种可能实现方式中，所述方法还包括以下步骤：检测所述直接音频信号中的至少一个瞬变，修改所述直接音频信号中的瞬变。

根据本发明的第二方面或第二方面的第一至第九种实现方式中的任一实现方式，在所述音频信号处理方法的第十种可能实现方式中，所述方法还包括以下步骤：针对所述直接音频信号的不同频带，通过具有不同混响时长的混响滤波器对所述直接音频信号进行过滤，其中与所述直接音频信号中的至少一个高频带相关联的混响时长大于与所述直接音频信号中的至少一个低频带相关联的混响时长。

根据第二方面的第十种实现方式，在所述音频信号处理方法的第十一种可能实现方式中，所述方法还包括以下步骤：基于第三调整因子调整所述混响滤波器滤波的直接音频信号，其中，所述第三调整因子取决于所述漫射音频信号的能量与所述直接音频信号能量之间的比值。

根据第二方面的第十一种实现方式，在所述音频信号处理方法的第十二种可能实现方式中，基于所述第三调整因子调整由所述混响滤波器滤波的直接音频信号，使得所述修改后的直接音频信号的能量与所述输出音频信号的所述漫射音频信号的能量之间的比值大于所述漫射音频信号能量与所述直接音频信号能量之间的比值的预定义分数。

根据第三方面，本发明涉及一种包括程序代码的计算机程序，所述程序代码用于在计算机上执行时执行根据本发明第二方面或第二方面中的任何一种实现方式的音频信号处理方法。

本发明可以以硬件和/或软件及其任意组合来实现。

附图说明

本发明的具体实现方式将结合以下附图进行描述，其中：

图1示出了实施例提供的一种音频信号处理装置的示意图；

图2示出了实施例提供的一种音频信号处理装置的示意图；

图3更详细地示出了实施例提供的一种音频信号处理装置的带宽扩展器的示意图；

图4示出了实施例提供的一种图3所示的带宽扩展器的一个方面的示意图；

图5更详细地示出了实施例提供的一种音频信号处理装置的组件示意图；

图6示出了实施例提供的一种音频信号处理方法的示意图；

图7示出了实施例提供的一种通过音频信号处理装置和音频信号处理方法处理的原始音乐，压缩音乐和复原音乐的频谱图。

在各附图中，相同的或至少功能等同的特征使用相同的标号。

具体实现形式

以下结合附图进行描述，所述附图是本公开的一部分，并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是，在不脱离本发明范围的情况下，可以利用其它方面，并做出结构或逻辑上的改变。因此，以下详细的描述并不当作限定，本发明的范围由所附权利要求书界定。

例如，可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用，反之亦然。例如，如果描述了特定方法步骤，则对应设备可以包括用于执行所描述的方法步骤的单元，即使此类单元没有在图中明确描述或图示。此外，应理解，本文所描述的各种示例性方面的特征可以相互组合，除非另外明确说明。

图1示出了实施例提供的一种用于将输入音频信号101处理为输出音频信号103的音频信号处理装置100的示意图。下面将进一步进行详细描述，根据本发明实施例，所述输入音频信号101和/或所述输出音频信号103可以是具有不同声道数量的立体声音频信号或多声道信号。所述输入音频信号101可以是通过有损压缩技术进行压缩后的输入音频信号101。

所述音频信号处理装置100包括：分解器105，用于将所述输入音频信号101分解为直接音频信号102a和漫射音频信号102b；修改器107，用于修改所述直接音频信号102a以获得修改后的直接音频信号102a'，其中所述修改器107包括带宽扩展器107a，用于将所述直接音频信号102a的频率范围扩展到更高频率，或者换言之，扩展或增高频率范围内的上转折频率；合路器109，用于将所述修改后的直接音频信号102a'与所述漫射音频信号102b进行合并，以获得最终输出音频信号103。

图2示出了实施例提供的一种音频信号处理装置100的示意图。在图2所示的实施例中，所述音频信号处理装置100用于处理作为立体声信号实现的输入音频信号101，即包括左声道L₀和右声道R₀，并且将所述输出音频信号提供为立体声信号，即包括左声道L_out和右声道R_out。

在图2所示的实施例中，所述音频信号处理装置100的分解器105包括上混频器105a、均衡器105b和下混频器105c。所述修改器107包括：针对左右声道的相应带宽扩展器107a、瞬态修改器107b和混响模块107c。所述瞬态修改器107b包括瞬态检测模块107b-1和瞬态修改模块107b-2。下面将更加详细地描述图2中所示的音频信号处理装置100的不同组件如何根据本发明的实施例进行工作。

第一阶段中，所述分解器105将输入音频信号L₀和R₀分解成其直接和漫射信号成分。所述分解器105的上混频器105a用于将所述输入音频信号L₀和R₀上混成多个上混音频信号。在图2所示的实施例中，所述分解器105的上混频器105a用于将所述输入音频信号L₀和R₀上混成包括中心信号C、左右声道直接信号L₁和R₁、左右声道漫射信号L_s和R_s的5声道信号：L₁、C、R₁、L_s和R_s。

在一实施例中，所述上混频器105a中可实现J.He、E.L.Tan和W.S.Gan于2014年发表于《IEEE/ACM音频、语音及语言处理汇刊》第22(2)卷第505页至517页中的《基于线性估计的立体声音频信号的主要环境提取》所描述的上混算法，以便分离所述直接信号成分与所述漫射信号成分。在一实施例中，可以按照如下直接成分和漫射成分写入所述输入信号x：

x₀[m，l]＝p₀[m，l]+a₀[m，l]

x₁[m，l]＝p₁[m，l]+a₁[m，l]，

其中，下标0和1分别表示所述输入立体声信号的左右声道。参考图2，所述输入立体声信号x₀的左声道与L₀相对应，所述输入立体声信号x₁的右声道与R₀相对应。符号p和a分别表示所述输入音频信号x的直接(或主要)和漫射(或环境)成分。因为通常在短时傅立叶变换(short-time Fourier transform，简称STFT)域中完成处理，即针对每个时间和频率点独立地进行处理，所以由离散时间m和离散频率点l表示信号。假设使用所述直接信号的振幅平移，p₁可以如下表示：

p₁＝k·p₀，

其中k表示平移指数。在一实施例中，假设环境功率，即两个声道中的漫射信号相等，并且两个环境(即漫射信号)相对于彼此并且相对于直接信号是不相关的。

基于这些假设，零延迟的自相关和互相关可以表示为：

其中P表示信号功率。在一实施例中，可以测量信号的自相关和互相关，并且由此可以基于以下关系导出平移指数k：

平移至左边的直接信号即主信号的特征在于平移指数0≤k＜1，而平移至右边的直接信号的平移指数为k＞1。

基于估计的平移指数，可以在本发明的上下文中通过几种方法来估计信号的直接和漫射部分，例如，J.He、E.L.Tan和W.S.Gan于2014年发表于《IEEE/ACM音频、语音及语言处理汇刊》第22(2)卷第505页至517页中的《基于线性估计的立体声音频信号的主要环境提取》中描述的主成分分析，其中可以通过以下方式表示所述直接和漫射信号：

在本发明实施例中，可以通过逆STFT将估计的频域信号传送回时域。其它主要环境的提取方法同样适用，例如基于最小二乘法的方法。

因为大多数直接/漫射分离方法实际上并不会产生漫射(不相关)环境信号，所以产生的漫射信号，即环境信号可以进一步去相关。

除所述直接/漫射分离之外，可从所述直接信号中提取中央声道。在本发明实施例中，可通过一种方法将左声道和中央声道之间的所有左平移信号以及中央声道和右声道之间的所有右平移信号重新进行平移。在本发明一实施例中，可以使用非能量守恒平移原则，其中，基于以下等式将所述平移指数k转换成平移角度：

其中，在本发明一实施例中，通过以下等式，根据所述平移角度的正负对所述中央声道信号x_c进行不同的计算，正如C.Faller(2006年)在《音频工程学会杂志》第54(11)卷第1051页至1034页发表的《立体声信号的多重扬声器重放》：

所述平移角度再次映射至范围以便在两个扬声器之间重新平移信号。所述信号x^o表示原始的未平移的直接信号，其可以与新的中心平移增益g_c一起用于提取中心信号x_c。在本发明实施例中，基于非能量守恒平移原则计算信号x 0′和x 1′。针对频率相关的平移指数k，通常可在频域中完成所述中心信号的提取，这反映了对于每个时频点而言，只有一个平移源激活这一设想。。

根据本发明的实施例，根据一些听觉感应的分组机制将频率组合在一起，而非直接在所有频率点上工作，从而降低处理伪像的复杂性和数量。

从图2所示的实施例中可以看出，如上所述，所述上混频器105a的输出信号p₀、p₁、x_c、a₀和a₁分别为左直接信号L₁、右直接信号R₁、中心直接信号C、左漫射信号L_s和右漫射信号R_s。

使用所述上混频器105a的优点在于：在随后的处理步骤中，可在直接和漫射部分以及中央声道进行不同的信号修改，对于增强压缩音乐尤其有用。例如，在本发明实施例中，在表现音乐的音频输入信号包括歌声的情况下，对所述中央声道进行均衡。此外，仅根据所述直接信号创建额外的混响是合理的，因为所述漫射信号已经包含一些混响。

在下一阶段中，提供所述上混频器105a的输出信号作为多声道均衡器105b的输入。在一实施例中，所述均衡器105b包括中心频率为62.5Hz、125Hz、250Hz、500Hz、1000Hz、2000Hz、4000H、8000Hz和16000Hz的滤波器组。针对这种频率划分，提出的一种均衡器配置是将所有直接信号的增益(以dB为单位)设置为[2 2 0 0 0 0 0 2 3]，将所有漫射信号的增益设置为[-2 -2 0 2 3 3 2 0 0]。这种设置增强了直接信号的低音和漫射信号的中频，导致再现漫射(即，环境声音)的温和平滑，同时使低频保持清晰和明确。由于漫射声音成分通常表现出比直接声音成分更少的高频内容，并且直接声音成分受到的高频损失所致的影响更大，所以可以为直接和漫射均衡器105b中的高频率设置不同的增益，也可另外设置所述均衡器105b，例如，为所述中心信号C设置单独增益，其可用于对歌手的声音进行特殊的均衡。

从图2所示的实施例中可以看出，所述均衡器105b的输出信号为左直接信号L₂、右直接信号R₂、中心直接信号C₂、左漫射信号L_s2和右漫射信号R_s2。

根据本发明实施例，所述漫射信号成分基本上不会改变，且保持不受其它系统组件影响，而所述直接信号成分则被所述修改器107进一步处理。

在图2所示的实施例中，对所述中心信号进行单独的处理，且所述下混频器105c用于将所述中心信号混合成直接的左信号和右信号。在一实施例中，可通过一简单方法将述下混频105c中的中心信号C₂按照以下关系混合成所述直接左信号L₃和直接右信号R₃：

其中，L₂、C₂和R₂表示所述下混频器105c的输入信号。

在下一阶段中，将所述下混频器105c的输出信号L₃和R₃作为输入信号提供给所述修改器107，特别是其两个带宽(bandwidth，简称BW)扩展器107a。如下面图3的上下文中提供的更详细的描述，所述BW扩展器107a的主要目的在于创建所述压缩输入音频信号的丢失的高频成分。

在图2所示的音频信号处理装置100的下一阶段中，将所述BW扩展器107a的输出信号L₄和R₄作为输入信号提供给所述瞬态修改器107b，其包括瞬态检测模块107b-1和瞬态修改模块107b-2。

所述瞬态修改器107b的主要目在于找到所述直接信号内的瞬态信号部分，并提供增强或衰减这些瞬态信号部分的可能性。在一实施例中，所述瞬态修改器107b包括所述瞬态检测模块107b-1和所述瞬态修改模块107b-2，用于根据以下算法检测和修改所述直接信号的瞬变。

瞬态信号可分为两个部分或阶段，即攻击阶段和维持阶段。这些部件或阶段可以单独检测和修改。为检测瞬态的攻击阶段和保持阶段，可基于信号s[t])的当前帧在时间步长t处的最大绝对幅度计算不同的信号包络：

x_max＝20log₁₀(max_i|s[t]|)和

s_att，f[t]＝α_att，f·s_f，att[t-1]+(1-α_att，f)·x_max，

其中，在一实施例中，若x_max＞s_att，f，则选择α_att，f为α_att，f，a；否则，则选择α_att，f为α_att，f，r。

值s_att，ft[)对应于用于攻击检测的快速包络。相应地，可以计算用于攻击检测的慢包络s_att，s。可通过等式e_att＝s_att，f-s_att，s估计所述攻击包络。为了进行释放整形，可以相应地计算快速包络和慢包络，其可用于估计释放包络e_rel。然后，可直接将所述攻击包络和所述释放包络分别用作攻击增益和释放增益。可限制这些增益小于最大增益限制，其可设置为6dB。另外，这些增益可以缩放以改变效果，如使其更大或更小，甚至应用与瞬态抑制相对应的负增益。在实践中，所述平滑常数α的值可以以时间常数t来表示，这使其更容易调整。在一实施例中，时间常数t与平滑常数α之间的关系如下：

其中，f_s表示采样率。在下表中给出所述时间常数的有用值：

t_att,f,a	0.008s
		t_att,f,r	0.004s
t_att,s,a	0.015s
		t_att,s,r	0.004s
t_rel,f,a	0.02s
		t_rel,f,r	0.004s
t_rel,s,a	0.02s
		t_rel,s,r	0.02s

可假设在进行上混之后，所述直接信号包括瞬态信号，而所述漫射信号主要包括时间平滑的环境信号。

本发明的实施例通过将直接声音成分与漫射声音成分进行分离来简化对瞬变的检测。实际上，在直接声音成分中，瞬态声音成分更清晰，而在漫射声音成分中，混响效果可以抹去瞬态声音。另外，在检测到瞬态声音之后，可以选择性地仅对所述直接声音成分进行修改(通常是增强)。这是有益的，因为其允许仅提升所述直接声音成分，同时避免通常涉及混响的漫射声音成分的所有修改。由于混响是环境的一个属性，混响的任何变化都会产生不自然的聆听体验。因此，瞬态检测和修改更加高效，如果仅应用于直接信号，则会创造更自然的聆听体验。

从图2所示的实施例中可以看出，在下一阶段，将所述瞬态修改器107的输出信号L₅和R₅作为输入信号提供给所述混响模块107c，以便为所述直接信号加入一些人工混响。如下面图5的上下文的详细描述，该流程的目的旨在恢复有损压缩过程中去除的漫射，即环境信号成分。

图3示出了用于扩展直接信号的频率范围中的上转折频率，即重建压缩音频信号丢失的高频成分的带宽扩展器107a的一部分的可能实现方式的示意图。在图3所示的实施例中，所述带宽扩展器107a包括多个带通滤波器107a-1(为了清楚起见，在图3中仅示出一个)、能量估计器107a-2l和107a-2h、目标能量模块107a-3、谐波生成器107a-4、定标器107a-5和加法器107a-6。

图4示例性地示出了图3中的带宽扩展器107a对示例性直接信号的频率分布的影响。这个例子示出了从图3的直接信号x提取的六个频带信号B₁至B₆，其中三个低频带信号B₁、B₂和B₃也称为X_L1、X_L2和X_L3，三个高频带信号B₄、B₅和B₆也分别称为X_H1、X_H2和X_H3，以表示所述低频带信号X_L1与所述高频带信号X_H1之间的成对关联，所述低频带信号X_L2与所述高频带信号X_H2之间的成对关联，以及所述低频带信号X_L3与所述高频带信号X_H3之间的成对关联。所述六个频带信号B₁至B₆还称为直接音频信号成分B₁至B₆，所述三个低频带信号B₁、B₂和B₃或X_L1、X_L2和X_L3是或者组成第一直接音频信号成分，所述三个高频带信号B₄、B₅和B₆或X_H1、X_H2和X_H3是或者组成对应的第二直接音频信号成分，其都为或共同组成三对第一直接音频信号成分和第二直接音频信号成分。

从图4所示的例子可以看出，高频带中，频带B₄、B₅和B₆中的测量能量E₄、E₅和E₆低于目标能量T₄、T₅和T₆。如下所述，所述带宽扩展器107a提供这个“缺失能量”(图4中的虚线区域)。

下文中，将结合图4来描述所述带宽扩展器107a的实施例，以提供更好的理解。

在一实施例中，所述多个带通滤波器107a-1用于从所述直接音频信号x如直接音频信号L₃和R₃(见图2)中的任意一个中提取多个直接音频信号成分，其中每个直接音频信号成分与所述多个带通滤波器107a-1定义的多个频带中的对应频带相关联。所述能量估计器107a-2l(l＝低)和107a-2h(h＝高)用于针对所述多个频带中的每个频带，估计与所述对应频带相关联的直接音频信号成分的能量，例如，B₁至B₆分别为X_L1至X_H3。所述谐波生成器107a-4用于基于所述多个直接音频信号成分中的第一直接音频信号成分，如X_L1至X_L3中的任意一个，生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分，以便当第二直接音频信号成分的能量小于所述第二直接音频信号成分的目标能量时，调整所述多个直接音频信号成分中的第二直接音频信号成分，如对应的X_H1至X_H3中的任意一个。

更具体地说，为了在图3所示的实施例中生成所述压缩音频信号的丢失的高频成分，在第一阶段，所述多个带通滤波器107a-1用于从所述输入信号x中提取特定频带，其中x代表如L₃或R₃中的任一个。在一实施例中，可将这些频带分组为一对低频带X_l和高频带X_h。这意味着对于每一个低频带X_l，i(对应于图4所示的X_Li)，存在相应的高频带X_h，i(其对应于图4所示X_Hi)，其中l表示低频带，h表示高频带，i表示低频或高频带内的频带索引以及各自的对(如图4所示的示例，i＝1……3)。

在下一阶段中，可以在每个频带x中计算实际信号能量E_x，其中x是能量估计器107a-2l和107a-2h在所有频带(例如，图4所示的示例中，x＝1……6)上的频带索引。对于每个高频带X_h，i，所述目标能量模块107a-3可以计算目标能量T_h，i。然后，若频带E_h，i的实际信号能量低于该频带T_h，i的目标能量时，谐波生成器107a-4则创建谐波，例如图3中的谐波信号s_h。根据基于低频带E_l，i的估计能量进行的谐波能量估计，所述定标器107a-5可相应地设置所述生成的谐波的增益。

所述修改器107中的带宽扩展器107a实现以上描述的根据本发明的实施例的带宽扩展过程，旨在创建一个实际的频谱包络，其表示趋向更高频带的衰减能量曲线。因为是进行隐式估计，所以有利的是，该过程避免了显式检测信号中的转折频率的需要。

在一实施例中，所述谐波生成器107-4用于生成比所述原始信号高一个倍频程的谐波。对于这样的实现方式，可按如下定义该频带：每个频带分别具有上和下转折频率f_l和f_u。可以使用参数r来定义分辨率，其对应于低频带的数量和高频带的数量。通过低频带和高频带之间的倍频程关系，根据f_i+r,l＝2·f_i,l(例如，具有对应的下转折频率f_i+r,l的频带B_i+r可以是高频带X_H2，然后B_i可与所述低频带X_L2相对应)和f_i+r,u＝2·f_i,u，下转折频率和上转折频率相关，其中i是频带的索引(例如，图4中i＝1……3)。将f₀定义为第一频带的下转折频率，f_1,l＝f₀，可以根据f_x,l＝f₀·2^(x-1)/r和f_x,u＝f₀·2^x/r，设置所有频带的转折频率，其中x是所有频带的频带索引(例如，图4中x＝1……6)。

可以使用合适的具有相应下转折频率和上转折频率的带通滤波器，例如8阶巴特沃斯滤波器。所述第一频带的下转折频率的可能值为f₀＝4500Hz。可以设置最后一个低频带的上转折频率为9000Hz，所述高频带的倍频程范围为9000Hz至18000Hz。针对r＝3的频带分辨率，这意味着存在三个低频带(例如，图4中所示的X_L1至X_L3)和三个高频带(例如，图4中所示的X_H1至X_H3)，所以，可分别设置第二和第三低频带的下转折频率为5666Hz和7138Hz。针对每个频带x，可计算能量E_x，例如，通过均方根能量进行计算：

其中N是所观察的短时间帧中的样本数目，s_x是频带x中的信号，例如，图4中的B₂。

对于低频带，可以设置目标能量等于所计算的能量，T_l，i＝E_l，i。针对高频带，根据Arora于2006年在AES所发表的《便携式播放器应用的音频的高质量盲带宽扩展》中描述的以下关系，可以设置所述目标能量以确保能量的衰减曲线：

更一般地，可根据以下关系设置目标能量，以确保衰减的能量曲线：

T_x＝β₁ T_x-1，

其中T_x表示所述第二直接音频信号成分的目标能量(例如，图4中的高频带B₅的T₅)，T_x-1表示直接音频信号成分的目标能量(例如，图4中的高频带B₄的T₄)，所述直接音频信号成分与直接低于所述第二直接音频信号成分的频带的一个频带相关联，β₁表示第一调整因子且β₁＜1。因此，上述实施例中，通过比值T_x-1/T_x-2给出所述第一调整因子β₁。

可通过以下方式创建谐波信号s_h：

s_h＝2·|s_x|，

其中s_x是谐波生成器107a-4的输入，例如，图4中的X_L1。

可通过许多不同的函数创建谐波，例如N.Oo、W.S.Gan、M.O.Hawksford(2011年)在《音频工程学会杂志》第59(11)卷第804页至824页所发表的《虚拟低音系统非线性处理的感知驱动的客观分级》中描述的半波或全波整流器、削波器或指数函数。谐波产生后，可以使用带通滤波器避免混淆，并消除直流成分。一对相对应的低频带和高频带的下转折频率和上转折频率根据f_i+r,l＝2·f_i,l和f_i+r,u＝2·f_i,u相互关联，其中例如具有对应的上转折频率f_i+r,u的频带B_i+r可以为高频带X_H2，B_i可为低频带X_L2)。

如上所述，根据本发明实施例，当实际能量E_x低于所述目标能量时，仅在高频带(图4：B4……B6)中产生谐波，例如，当

T_x＞l·E_x，

其中l表示泄漏参数。所产生的谐波的目标能量为：T_h＝T_x-l·E_x，以便保证高频带中的剩余能量和谐波产生的能量加起来等于T_x。所述定标器107a-5可根据以下关系确定所产生的谐波G_h的增益：

其中E_h是所产生的谐波的能量。为了通过这种方式确定增益G_h，可以(从另一个值)估算所产生的谐波的能量，或者从所产生的谐波直接测量。根据本发明的进一步实施例，可以基于所述低频带信号，例如，B₁的相应低频带能量E_l估计所生成的谐波的能量。在一实施例中，可以基于以下关系估计所述谐波能量：

E_h≈0.4·E_l。

在一实施例中，可限制所述谐波增益G_h为最大增益G_h＜G_max，其中G_max约为6dB。

因此，在一实施例中，所述定标器107a-5用于基于以下等式确定对所述第二直接音频信号(例如，图4中的X_H2)成分的调整直接音频信号成分s_h进行缩放的缩放因子G_h：

其中T_h表示所述第二直接音频信号成分的调整直接音频信号成分的目标能量，E_h表示所述第二直接音频信号成分的调整直接音频信号成分s_h的能量，其中基于以下等式定义T_h和E_h：

T_h＝T_x-l·E_x和

E_h＝β₂·E_l，

其中E_x表示所述第二直接音频信号成分(如图4中的X_H2)的能量，E_l表示所述第一直接音频信号成分E_x-r(如图4中的X_L2)的能量，l表示泄漏因子，β₂表示第二调整因子。

根据本发明实施例，所述泄漏参数l取值范围为0.5到1.0，优选为0.8，所述第二调整因子β₂的取值范围为0.3到0.5，优选为0.4。

所述加法器107a-6从所述定标器107a-5的输出信号(潜在于不同频带中)和输入信号x的总和中获取所述BW扩展器107a的最终输出信号y(例如，图2中的L₄和R₄)。

如上所述，有利地，本发明的实施例不要求显式估计所述转折频率。相反，所述音频信号处理装置可以基于位于任何高频带中的转折频率进行工作。另外，如果需要，本发明的实施例确保信号仅被修改。在实际能量等于或接近目标能量的情况下，不会产生谐波，这降低了本发明实施例的计算复杂度。此外，所述带宽扩展器107a的最终结果是声音自然的输出信号，其具有比原始输入信号更高的带宽。

图5示出了实施例提供的一种混响模块107c和合路器109的示意图。如上简要描述，所述混响模块107c的目的是向直接信号添加一些人工混响，以便恢复可能已经通过有损压缩方案去除的环境信号成分。图5所示的混响模块107c包括混响滤波器107c-1、混响调节器107c-2、以及两个乘法单元107c-3和107c-4和两个加法器或求和单元107c-5和107c-6。所述合路器109又包括两个加法器或求和单元109a和109b。

在图5所示的实施例中，所述混响滤波器107c过滤所述直接信号L₅和R₅，以便计算人工混响信号L_rev和R_rev。可在时域或频域中通过适当的脉冲响应简单地对直接信号进行滤波(卷积)，从而将所述人工混响信号添加至所述直接信号。

本发明实施例实现人工混响，其呈现了依赖于频率的混响时长，用于模拟在针对较低频率增加的混响时长的房间中可以观察到的自然混响效果。所述混响模块107c实现填充丢失的环境(漫射)信号成分的有益实现在于增加较高频率的混响时长。这允许补偿频率较高的环境信号成分衰减更强的观察效果。如果没有为低频创建额外的混响，则可以保留对低频成分更清晰的感知。在一实施例中，可为低于4000Hz的频率设置频率依赖的混响时长T₆₀＝0.2秒，为4000Hz和10000Hz之间的频率设置T₆₀＝0.4秒，和为10000Hz以上的频率设置T₆₀＝0.2秒。因此，在一实施例中，所述混响滤波器107c-1用于针对所述直接音频信号的不同频带通过不同的混响时长对所述直接音频信号进行滤波，其中与所述直接音频信号的至少一个高频带相关联的混响时长大于与所述直接音频信号的至少一个低频带相关联的混响时长。

在立体声信号情况下，在每个输入声道上通过两个不相关的混响滤波器生成立体声混响是有益的。

从图5所示的实施例可以看出，所述人工混响信号成分L_rev和R_rev可以分别通过乘法单元107c-4和107c-3中的增益因子G_L和G_R进行增益等级调整。

为了确定增益因子G_L和G_R，可以通过固定值来控制根据本发明实施例的混响强度。然而，为了实现在不改变信号包含的感知的混响量的情况下掩蔽可听伪像的期望效果，根据本发明实施例，可以根据输入信号来设置混响效果强度的最优值。所述混响调节器107c-2用于估计最优的增益因子，以基于直接信号和漫射信号实现期望的效果，如下文的进一步详细描述。因此，所述混响调节器107c-2用于基于第三调整因子即所述增益因子G_L和G_R，根据所述漫射音频信号和所述直接音频信号之间的能量比值来调整所述混响滤波器107c-1滤波的所述直接音频信号。

在本发明实施例中，所述混响调节器107c-2用于估计所述输入信号的直接漫射能量比，并控制增益，以便仅稍微改变所述输出信号的直接漫射能量比。根据本发明实施例，如果直接漫射能量比降低10–20％，则可以在不显著改变直接信号和漫射信号的感知平衡的情况下实现期望的效果。

直接漫射信号比可以根据所述左声道直接信号L₅的能量E_dir，L和右声道直接信号R₅的能量E_dir，R分别通过以下等式来确定：

和

并且，直接漫射信号比可以根据左声道信号L_S2的能量E_dif,L和右漫射信号声道R_S2的能量E_dif,R分别通过以下等式来确定：

和

根据本发明实施例，估计信号能量还可以采用一些时间平滑操作，例如使用一阶无限冲激响应(infinite impulse response，简称IIR)滤波器。从直接和漫射能量测量结果，可以如下估计直接漫射能量比R_L和R_R：

和

同样，可以分别通过输出漫射信号E_{dif，out，L}和E_{dif，out，R}的相应能量计算左输出信号声道和右输出信号声道(L_out和R_out)的直接漫射能量比R_L，out和R_R，out的：

和

然后，可以利用之前的结果确定以下关系：

和

取决于所选择的输入输出直接漫射能量比的设置(通常，可以使用在范围内的设置来实现期望的效果)，所述最优增益因子G_L和G_R可以按如下确定。

假设所述混响滤波器107c-1产生的漫射信号与所述上混频器105a产生的原始漫射信号不相关，并且使用以下关系：

和

其中E_{dif，out，L}和E_{dif，out，R}可近似为：

E_{dif，out，L}＝E_dif，L+G_L·E_rev，L和

E_{dif，out，R}＝E_dif，R+G_R·E_rev，R。

根据得出：

和

为了减少计算复杂度，在本发明实施例中，可以通过结合所述混响滤波器107c-1的传递函数(同样在漫射信号假设下)根据E_dir估计E_rev，从而避免E_rev的显式估计。

假设所述直接信号成分与声源的原始信号相关，所述漫射即环境信号成分与环境(混响)对所述直接声音成分的响应相关，将所述混响模块107c仅应用于所述直接信号是十分有益的，因为所述漫射信号已经包含自然存在于所述输入音频信号中的混响。由于漫射/环境成分通常在强直接成分出现之后丢失(通常是由于有损压缩利用的时间掩蔽效应)，本发明的实施例允许向所述直接成分施加混响，其取代了缺失的环境成分。结果，环境成分中的所有空洞都得以填充(702)，有效地减少了可听见的伪像。

从图5所示的实施例可以看出，在分别通过乘法单元107c-4和107c-3利用相应的增益因子G_L和G_R调整了人工混响信号L_rev和R_rev之后，该人工混响信号L_rev和R_rev被添加至加法器或求和单元107c-6和107c-5中的直接信号L₅和R₅。在最后阶段，分别通过加法器109a和109b，将修改后的直接信号L₆和R₆添加至漫射信号L_s2和R_s2，以获得最终输出信号L_out和Ro_ut。

图6示出了用于将输入音频信号处理为输出音频信号如图1所示的输入音频信号101和输出音频信号103的音频信号处理方法600的示意图。所述音频信号处理方法600包括以下步骤：将所述输入音频信号101分解601成直接音频信号102a和漫射音频信号102b；通过扩展或增高所述直接音频信号102a的频率范围内的上转折频率，修改603所述直接音频信号102a以获得修改后的直接音频信号102a'；将所述修改后的直接音频信号102a'与所述漫射音频信号102b进行合并605，以获得所述输出音频信号103。

图7示出了实施例提供的一种通过音频信号处理装置100和音频信号处理方法处理的一段原始未压缩音乐，压缩音乐和复原音乐的三个相应频谱图。所述压缩音乐的频谱图显示丢失了信号的高频部分，削弱了混响和瞬变。该复原音乐的频谱图中，恢复(701)了高频成分，以及混响(702)和瞬变(703)的部分。

尽管本发明的特定特征或方面可能已经仅结合几种实现方式或实施例中的一种进行公开，但此类特征或方面可以和其它实现方式或实施例中的一个或多个特征或方面相结合，只要对于任何给定或特定的应用是有需要或有利。而且，在一定程度上，术语“包括”、“有”、“具有”或这些词的其他变形在详细的说明书或权利要求书中使用，这类术语和所述术语“包含”是类似的，都是表示包括的含义。同样，术语“示例性地”，“例如”仅表示为示例，而不是最好或最优的。可以使用术语“耦合”和“连接”及其派生词。应当理解，这些术语可以用于指示两个元件彼此协作或交互，而不管它们是直接物理接触还是电接触，或者它们彼此不直接接触。

尽管本文中已说明和描述特定方面，但所属领域的技术人员应了解，多种替代和/或等效实现方式可在不脱离本发明的范围的情况下所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。

尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的，除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序，否则这些元件不必限于以所述特定顺序来实施。

通过以上启示，对于本领域技术人员来说，许多替代、修改和变化是显而易见的。当然，本领域普通技术人员容易认识到除本文所述的应用之外，还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明，但本领域普通技术人员将认识到在不偏离本发明的范围的前提下，仍可对本发明作出许多改变。因此，应理解，只要是在所附权利要求书及其等效物的范围内，可以用不同于本文具体描述的方式来实践本发明。

Claims

1.一种用于将输入音频信号(101；L₀，R₀)处理为输出音频信号(103；L_out，R_out)的音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)包括：

分解器(105)，用于将所述输入音频信号(101；L₀，R₀)分解为直接音频信号(102a；L₃，R₃)和漫射音频信号(102b；L_s2，R_s2)；

修改器(107)，用于修改所述直接音频信号(102a；L₃，R₃)，以获得修改后的直接音频信号(102a'；L₆，R₆)，其中所述修改器(107)包括带宽扩展器(107a)，用于扩展所述直接音频信号(102a；L₃，R₃)的频率范围中的上转折频率；

合路器(109)，用于将所述修改后的直接音频信号(102a'；L₆，R₆)与所述漫射音频信号(102b；L_s2，R_s2)进行合并，以获得所述输出音频信号(103；L_out，R_out)。

2.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述分解器(105)包括上混频器(105a)，用于将所述输入音频信号(101；L₀，R₀)上混成多个上混音频信号(L₁、C、R₁、L_s和R_s)，其中所述分解器(105)用于基于所述多个上混音频信号(L₁、C、R₁、L_s和R_s)生成所述直接音频信号(102a；L₃，R₃)和所述漫射音频信号(102b；L_s2，R_s2)。

3.根据权利要求2所述的音频信号处理装置(100)，其特征在于，所述多个上混音频信号(L₁、C、R₁、L_s和R_s)包括中心音频信号(C)，其中，所述分解器(105)还包括下混频器(105c)，用于对所述多个上混音频信号(L₁、C、R₁、L_s和R_s)中的中心音频信号(C)进行下混，以获得所述直接音频信号(102a；L₃，R₃)。

4.根据权利要求2或3所述的音频信号处理装置(100)，其特征在于，所述分解器(105)还包括均衡器(105b)，用于均衡所述多个上混音频信号(L₁、C、R₁、L_s和R_s)。

5.根据上述权利要求任意一项所述的音频信号处理装置(100)，其特征在于，所述带宽扩展器(107a)包括多个带通滤波器(107a-1)，用于从所述直接音频信号(102a；L₃，R₃)中提取多个直接音频信号成分(X_l，X_h；B₁–B₆)，其中每个直接音频信号成分与所述多个带通滤波器(107a-1)定义的多个频带中的对应频带相关联，所述带宽扩展器(107a)还包括能量估计器(107a-2l，107a-2h)，用于针对所述多个频带中的每个频带，估计与所述对应频带相关联的所述直接音频信号成分的能量。

6.根据权利要求5所述的音频信号处理装置(100)，其特征在于，所述带宽扩展器(107a)还包括谐波生成器(107a-4)，用于当所述第二直接音频信号成分(X_H)的能量(E_x；E4)小于所述第二直接音频信号成分(X_H)的目标能量(T_x；T₄)时，基于所述多个直接音频信号成分中的第一直接音频信号成分(X_l；X_L1，B₁)生成包括所述第一直接音频信号成分的谐波的调整直接音频信号成分(s_h)，从而调整所述多个直接音频信号成分中的第二直接音频信号成分(X_h；X_H1，B₄)。

7.根据权利要求6所述的音频信号处理装置(100)，其特征在于，基于以下等式确定所述第二直接音频信号成分(X_h；X_H1，B₄)的目标能量(T_x；T₄)：

T_x＝β₁T_x-1，

其中T_x表示所述第二直接音频信号成分(X_h；X_H1，B₄)的目标能量，T_x-1表示与直接低于所述第二直接音频信号成分(X_h；X_H1，B₄)的频带的一个频带相关联的直接音频信号成分的目标能量，β₁表示第一调整因子且β₁＜1。

8.根据权利要求6或7所述的音频信号处理装置(100)，其特征在于，所述带宽扩展器(107a)还包括定标器(107a-5)，用于通过基于所述第一直接音频信号成分(X_l；X_L1，B₁)的能量确定的缩放因子，对所述第二直接音频信号成分(X_h；X_H1，B₄)的调整直接音频信号成分(s_h)进行缩放。

9.根据权利要求8所述的音频信号处理装置(100)，其特征在于，所述定标器(107a-5)用于基于以下等式确定对所述第二直接音频信号成分(X_h；X_H1，B₄)的调整直接音频信号成分(s_h)进行缩放的缩放因子G_h：

其中T_h表示所述第二直接音频信号成分的调整直接音频信号成分(s_h)的目标能量，E_h表示所述第二直接音频信号成分的调整直接音频信号成分(s_h)的能量，其中，基于以下等式定义T_h和E_h：

T_h＝T_x-l·E_x和

E_h＝β₂·E_l，

10.根据上述权利要求任意一项所述的音频信号处理装置(100)，其特征在于，所述修改器(107)还包括瞬态修改器(107b)，用于检测所述直接音频信号(102a；L₃，R₃)中的至少一个瞬变，修改所述直接音频信号(102a；L₃，R₃)中的瞬变。

11.根据上述权利要求任意一项所述的音频信号处理装置(100)，其特征在于，所述修改器(107)还包括混响滤波器(107c-1)，用于通过所述直接音频信号(102a；L₃，R₃)的不同频带的不同混响时长对所述直接音频信号(102a；L₃，R₃)进行过滤，其中与所述直接音频信号(102a；L₃，R₃)中的至少一个高频带相关联的混响时长大于与所述直接音频信号(102a；L₃，R₃)中的至少一个低频带相关联的混响时长。

12.根据权利要求11所述的音频信号处理装置(100)，其特征在于，所述修改器(107)还包括混响调节器(107c-2)，用于基于第三调整因子调整所述混响滤波器(107c-1)过滤的所述直接音频信号，其中所述第三调整因子取决于所述漫射音频信号(102b；L_s2，R_s2)的能量与所述分解器(105)提供的所述直接音频信号(102a；L₃，R₃)的能量之比。

13.根据权利要求12所述的音频信号处理装置(100)，其特征在于，所述混响调节器(107c-2)用于基于所述第三调整因子调节所述混响滤波器(107c-1)过滤的直接音频信号，使得所述修改后的直接音频信号的能量与所述输出音频信号(103)的漫射音频信号的能量之比大于所述漫射音频信号(102b；L_s2，R_s2)的能量与所述分解器(105)提供的所述直接音频信号(102a；L₃，R₃)的能量之比的预定义分数。

14.一种用于将输入音频信号(101；L₀，R₀)处理为输出音频信号(103；L_out，R_out)的音频信号处理方法(600)，其特征在于，所述音频信号处理方法(600)包括：

将所述输入音频信号(101；L₀，R₀)分解为(601)直接音频信号(102a；L₃，R₃)和漫射音频信号(102b；L_s2，R_s2)；

通过扩展所述直接音频信号(102a；L₃，R₃)的频率范围中的上转折频率，修改(603)所述直接音频信号(102a；L₃，R₃)，以获得修改后的直接音频信号(102a'；L₆，R₆)；

将所述修改后的直接音频信号(102a'；L₆，R₆)与所述漫射音频信号(102b；L_s2，R_s2)进行合并(605)，以获得所述输出音频信号(103；L_out，R_out)。

15.一种计算机程序，其特征在于，包括在计算机上执行时用于执行如权利要求14所述的方法(600)的程序代码。