CN113273225B

CN113273225B - 音频处理

Info

Publication number: CN113273225B
Application number: CN201980087089.0A
Authority: CN
Inventors: S·威萨; M-V·莱蒂南; J·维罗莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-11-16
Filing date: 2019-11-08
Publication date: 2023-04-07
Anticipated expiration: 2039-11-08
Also published as: EP3881566A4; EP3881566A1; GB2579348A; WO2020099716A1; CN113273225A; US20220014866A1; GB201818690D0

Abstract

根据示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号(101)的技术，所述技术包括：基于输入音频信号(101)导出(104)第一信号分量(105‑1)和第二信号分量(105‑2)，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；将所述第二信号分量(105‑2)处理(112)为经修改的第二信号分量(113)，其中所述空间音频图像的宽度从第二信号分量(105‑2)的宽度扩展；将所述第一信号分量(105‑1)与所述经修改的第二信号分量(112)组合(114)成输出音频信号(115)，该输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

Description

音频处理

技术领域

本发明的示例性和非限制性实施例涉及音频信号的处理。特别地，本发明的各种实施例涉及对由例如双声道立体声信号之类的多声道音频信号表示的空间图像的修改。

背景技术

许多便携式手持设备，例如手机、便携式媒体播放器设备、平板电脑、笔记本电脑等，都具有一对能够回放立体声的扬声器。通常，两个扬声器位于设备的相对两端或两侧，以使它们之间的距离最大，从而有利于立体声音频的再现。但是，由于这种设备的尺寸较小，两个扬声器通常彼此仍相对靠近，从而在再现的立体声音频中导致狭窄的空间音频图像。因此，所感知的空间音频图像可能与例如通过家庭立体声系统的扬声器回放相同的立体声音频信号所感知的空间音频图像非常不同，在家庭立体声系统中两个扬声器可以被布置在相对于彼此的合适位置(例如，距离彼此足够远)，以确保空间音频图像在其整个宽度上的再现。

所谓的立体声加宽是本领域中已知的一种技术，用于在通过便携式手持设备的扬声器再现时增强立体声音频信号的可感知的空间音频图像。这种技术旨在处理立体声音频信号，使得再现的声音不仅被感知为源自位于扬声器之间的方向，而且至少部分声场被感知为其好像源自并非位于扬声器之间的方向，从而使空间音频图像的可感知宽度从立体声音频信号中传达的宽度变宽。在本文中，我们将这种空间音频图像称为加宽或放大的空间音频图像。在O.Kirkeby，PA Nelson，H.Hamada和F.Orduna-Bustamante于IEEETransactions on Speech and Audio Processing(IEEE语音和音频处理事务)第6卷所著的“Fast deconvolution of multichannel systems using regularization”(“使用正则化的多声道系统的快速反卷积”)中描述了提供立体声加宽的处理示例。

尽管上面通过参考双声道立体声音频信号进行了概述，但立体声加宽可以应用于具有两个以上声道的多声道音频信号，例如5.1声道或7.1声道环绕声，以便通过(便携式手持设备的)一对扬声器进行播放。在一些上下文中，术语“虚拟环绕声”被应用来指代这样的经处理音频信号，该信号传达了最初在多声道环绕声信号中传达的空间音频图像。因此，即使在整个本公开中主要使用术语立体声加宽，该术语也应被广义地解释，涵盖用于处理在多声道音频信号(即，双声道立体声音频信号或多于两个声道的环绕声)中传送的空间音频图像以在加宽的空间音频图像上提供音频播放的技术。

为了描述的简洁和清楚，在本公开中，我们使用术语多声道音频信号来指代具有两个或更多个声道的音频信号。此外，术语立体声信号用于指代立体声音频信号，术语环绕信号用于指代具有两个以上声道的多声道音频信号。

当应用于立体声信号时，本领域中已知的立体声加宽技术通常包括将对侧声道信号的经处理(例如，滤波后的)版本添加到立体声信号的左声道和右声道信号中的每一个，以便导出具有加宽空间音频图像的输出立体声信号(以下称为加宽的立体声信号)。换而言之，将立体声信号的右声道信号的经处理版本添加到立体声信号的左声道信号以创建加宽的立体声信号的左声道，并将立体声信号的左声道信号的经处理版本添加到立体声信号的右声道信号以创建加宽的立体声信号的右声道。此外，导出加宽的立体声信号的过程还可以包括在将相应的经处理的对侧信号添加到立体声信号之前，对立体声信号的左声道信号和右声道信号中的每一个声道信号进行预滤波(或以其他方式处理)，以便在加宽的立体声信号中保持期望的频率响应。

沿着上述思路，立体声加宽很容易概括为加宽多声道输入音频信号的空间音频图像，从而导出具有加宽空间音频图像的输出多声道音频信号(在下文中称为加宽的多声道信号)。在这方面，该处理涉及将加宽的多声道音频信号的左声道创建为多声道输入音频信号的声道的(第一)滤波版本的之和，以及将加宽的多声道音频的右声道创建为多声道输入音频信号的声道的(第二)滤波版本之和。在此，可以为每对输入声道(多声道输入信号的声道)和输出声道(左和右)提供专用的预定义滤波器。作为这方面的示例，加宽多声道信号左声道和右声道信号S_out，left and S_out，right可以分别根据等式(1)基于多声道音频信号S的声道来定义：

其中S(i，b，n)表示多声道信号S的声道i的时间帧n中的频率仓b，H_left(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于左声道信号S_out，left(b，n)创建的各个声道分量的滤波器，且H_right(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于右声道信号S_out，right(b，n)创建的各个声道分量的滤波器。

实际上，将经处理的对侧信号与多声道信号的(经处理的)左右声道信号相加会导致用于驱动用于回放的扬声器的可用动态范围的减小。另一方面，在许多尺寸较小的便携式手持设备中，扬声器同样很小，因此通常在相对较低的信号电平下就容易出现失真，并且由于回放信号中的(经处理的)对侧信号而引起的信号分量的引入可能会导致这样的情况，即失真已经发生在较低的可感知信号电平处，而没有立体声加宽。因此，为了确保声音不失真，加宽的立体声信号的音频回放电平通常需要低于未处理的立体声信号的电平。因此，与未加宽的立体声信号相比，加宽的立体声信号通常被感知为更柔和/或更失真。

立体声加宽中涉及的另一个挑战是空间音频图像中心部分的劣化的衔接和音色(“衔接(engagement)为的概念例如在D.Griesinger所著的“Phase Coherence as aMeasure of Acoustic Quality，part two：Perceiving Engagement”(“相位相干性作为声学质量的度量，第二部分：感知衔接”)中讨论，其可在本专利申请提交时可获得，例如，在http：//www.akutek.info/Papers/DG_Perceiving_Engagement.pdf)。在许多现实生活中的立体声信号中，空间音频图像的中心部分包括感知上重要的音频内容，例如在音乐的情况下，歌手的声音通常呈现在空间音频图像的中心。因此，通过在立体声信号的两个声道中并因此通过设备的两个扬声器再现相同的信号，来呈现在空间音频图像的中心的声音分量。当将立体声加宽应用于这样的输入立体声信号时(例如，根据上述等式(1))，所得到的加宽的立体声信号的每个声道都包括对输入立体声信号的声道执行的两个滤波操作的结果。这可能导致梳状滤波效果，这可能导致感知到的音色差异，这可以被称为声音的“染色”。此外，梳状滤波效果可能进一步导致声源的衔接劣化。

发明内容

根据示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号的方法，所述方法包括：基于输入音频信号导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；将第二信号分量处理为经修改的第二信号分量，其中所述空间音频图像的宽度从第二信号分量的宽度扩展；将所述第一信号分量与所述经修改的第二信号分量组合成输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

根据另一个示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号的装置，所述装置包括：信号分解器，用于基于所述输入音频信号来导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；立体声加宽处理器，用于将第二信号分量处理为经修改的第二信号分量，其中，所述空间音频图像的宽度从第二信号分量的宽度扩展；以及信号组合器，用于将所述第一信号分量和所述经修改的第二信号分量组合成输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

根据另一个示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号的装置，所述装置被配置为：基于所述输入音频信号，来导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；将所述第二信号分量处理为经修改的第二信号分量，其中所述空间音频图像的宽度从所述第二信号分量的宽度扩展；以及将所述第一信号分量和所述经修改的第二信号分量组合为输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

根据另一个示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号的装置，所述装置包括：用于基于所述输入音频信号来导出第一信号分量和第二信号分量的模块，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；用于将所述第二信号分量处理为经修改的第二信号分量的模块，其中所述空间音频图像的宽度从所述第二信号分量的宽度扩展；用于将所述第一信号分量与所述经修改的第二信号分量组合成输出音频信号的模块，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

根据另一个示例实施例，提供了一种用于处理包括多声道音频信号的输入音频信号的装置，其中所述装置包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，当由所述至少一个处理器执行时，所述计算机程序代码使所述装置执行以下操作：基于所述输入音频信号，来导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；将所述第二信号分量处理为经修改的第二信号分量，其中所述空间音频图像的宽度从所述第二信号分量的宽度扩展；以及将所述第一信号分量和所述经修改的第二信号分量组合为输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

根据另一示例实施例，提供一种计算机程序，所述计算机程序包括计算机可读程序代码，所述计算机可读程序代码被配置为当在计算装置上执行所述程序代码时，使得执行至少根据前述示例实施例的方法。

根据示例实施例的所述计算机程序可以被体现在易失性或非易失性计算机可读记录介质上，例如作为计算机程序产品，包括在其上存储了程序代码的至少一个计算机可读非暂时性介质，所述程序在由装置执行时使所述装置至少执行上文针对根据本发明示例性实施例的计算机程序所描述的操作。

本专利申请中提出的本发明的示例性实施例不应解释为对所附权利要求的适用性构成限制。动词“包含”及其派生词在本专利申请中用作开放式限制，不排除未引用特征的存在。除非另有明确说明，否则下文所述的特征可以相互自由组合。

本发明的一些特征在所附的权利要求书中提出。然而，当结合附图阅读时，从以下一些示例实施例的描述中将最好地理解本发明的方面，包括其结构和操作方法，以及其附加的目的和优点。

附图说明

在附图的各图中，通过示例而非限制的方式示出了本发明的实施例，其中

图1A示出了根据示例的音频处理系统的一些元件的框图；

图1B示出了根据示例的音频处理系统的一些元件的框图；

图2示出了被应用于实现根据示例的音频处理系统的设备的一些元件的框图；

图3示出了根据示例的信号分解器的一些元件的框图；

图4示出了根据示例的重新平移器的一些元件的框图；

图5示出了根据示例的立体声加宽处理器的一些元件的框图；

图6示出了描述根据示例的用于音频处理的方法的流程图；以及

图7示出了根据示例的装置的一些元件的框图。

具体实施方式

图1A示出了音频处理系统100的一些组件和/或实体的框图，其可以用作本公开中描述的音频处理技术的各种实施例的框架。音频处理系统100获得立体声音频信号作为输入信号101，并提供具有至少部分加宽的空间音频图像的立体声音频信号作为输出信号115。在下文中，将输入信号101和输出信号115分别称为立体声信号101和加宽的立体声信号115。在涉及音频处理系统100的以下示例中，除非另外明确说明，否则将这些信号中的每一个假定为相应的双声道立体声音频信号。而且，除非另外明确指出，否则基于输入信号101导出的每个中间音频信号同样是相应的双声道音频信号。

然而，音频处理系统100容易地概括为这样的一种系统，其使得能够处理空间音频信号(即具有两个以上声道的多声道音频信号，例如5.1声道空间音频信号或7.1声道空间音频信号)，其某些方面也将在下面提供的示例中进行说明。

音频处理系统100可以进一步接收两个控制输入：第一控制输入，其指示在立体声信号101中应用的目标扬声器配置；第二控制输入，其指示在旨在回放加宽的立体声信号115的设备中的输出扬声器配置。

根据图1A所示示例的音频处理系统100包括：变换实体(或变换器)102，其用于将立体声音频信号101从时域转换为变换域立体声信号103；信号分解器104，其用于基于变换域立体声信号103导出表示空间音频图像的聚焦部分的第一信号分量105-1和表示空间音频图像的非聚焦部分的第二信号分量105-2；重新平移器106，其用于所述第一信号分量105-1生成经修改的第一信号分量107，其中取决于目标扬声器配置和/或取决于旨在对加宽的立体声信号115回放的设备中的输出扬声器配置，空间音频图像的聚焦部分中表示的一个或多个声源被重新定位；逆变换实体108-1，其用于将经修改的第一信号分量107从变换域转换为时域经修改的第一信号分量109-1；逆变换实体108-2，其用于将第二信号分量105-2从变换域转换为时域第二信号分量109-2；延迟元件110，其用于将经修改的第一信号分量109-1延迟预定的时间延迟；立体声加宽处理器112，其用于基于第二信号分量109-2生成经修改的第二信号分量113，其中空间音频图像的宽度从第二信号分量109-2的宽度扩展；信号组合器114，其用于将延迟的第一信号分量111和经修改的第二信号分量113组合成加宽的立体声信号115，该立体声信号115传达部分扩展的空间音频图像。

图1B示出了音频处理系统100′的一些组件和/或实体的框图，其是图1A所示的音频处理系统100的变型。在音频处理系统100′中，与音频处理系统100的区别在于省略了逆变换实体108-1和108-2，将延迟元件100替换为用于将经修改的第一信号107延迟为延迟的经修改的第一信号分量111′的延迟元件110′，立体声加宽处理器112′被立体声加宽处理器112′代替，用于基于变换域第二信号分量105-2生成经修改(变换域)第二信号分量113′，并且信号组合器114′被信号组合器114′代替，用于将延迟的经修改的第一信号分量111′和经修改的第二信号分量113′组合成在变换域中的加宽的立体声信号115′。而且，音频处理系统100′包括变换实体108′，该变换实体108′用于将加宽的立体声信号115′从变换域转换为时域的加宽的立体声信号115。在省略可选延迟元件110′的情况下，信号组合器114′接收经修改的第一信号分量107(而不是其延迟版本)，并且操作以将经修改的第一信号分量107与经修改的第二信号分量113′组合以创建变换域加宽立体声信号115′。

在下文中，主要通过与根据图1A的示例的音频处理系统100及其实体有关的示例来描述本公开中描述的音频处理技术，而音频处理系统100′及其实体在适用的情况下被单独地描述。在其他示例中，音频处理系统100或音频处理系统100′可以包括其他实体，并且/或者图1A和1B中所示的某些实体可以省略或与其他实体组合。特别是，图1A和1B以及后续的图2至5用来说明相应实体的逻辑组件，因此不强加关于相应实体的实现的结构性限制，但是例如相应的硬件模块、相应的软件模块、或硬件模块和软件模块的相应组合可以被应用，以与该实体的其他逻辑组件分开得实现实体的任何逻辑组件，以实现实体的两个或更多个逻辑组件的任何子组合，或以组合得实现实体的所有逻辑组件。

音频处理系统100、100′可以由一个或多个计算设备实现，并且所得的加宽的立体声信号115可以被提供以通过这些设备之一的扬声器来进行回放。通常，音频处理系统100、100′在诸如移动电话、媒体播放器设备、平板电脑、膝上型计算机等的便携式手持设备中实现，这也适用于通过设备中提供的一对扬声器回放加宽的立体声信号115。在另一个示例中，音频处理系统100、100′被设置在第一设备中，而加宽的立体声信号115的回放被设置在第二设备中。在另一示例中，在第一设备中设置音频处理系统100、100′的第一部分，而在第二设备中设置音频处理系统100、100′的第二部分和加宽的立体声信号115的回放。在后两个示例中，第二设备可以包括便捷式手持设备，例如移动电话、媒体播放器设备、平板计算机、膝上电脑等，而第一设备可以包括任何类型的计算设备，例如，便携式计算机、便携式手持设备、台式计算机、服务器设备等。

图2示出了实现音频处理系统100或音频处理系统100′的便携式手持设备50的一些组件和/或实体的框图。为了描述的简洁和清楚起见，在下面的描述中，假设在设备50中提供了音频处理系统100、100′的元件以及所产生的加宽的立体声信号的回放。设备50还包括用于存储信息(例如立体声信号101)的存储设备52，以及用于与其他设备进行通信并可能从中接收立体声信号101的通信接口54。设备50可选地还包括音频预处理器56，该音频预处理器56可被用于在将立体声信号101提供给音频处理系统100、100′之前对从存储器52读取或经由通信接口54接收的立体声信号101进行预处理。音频预处理器56可以例如将以编码格式存储的音频信号解码为时域立体声音频信号101。

仍参考图2，音频处理系统100、100′还可从或经由音频预处理器56与立体声信号101一起接收第一控制输入，第一控制输入指示应用在立体声信号101中的目标扬声器配置。设备50还包括扬声器配置实体62，其可以提供指示设备50中的输出扬声器配置的第二控制输入。设备50可以可选地包括传感器64，并且扬声器配置实体62可以基于从传感器64接收的传感器信号来导出输出扬声器配置。音频处理系统100、100′将在其中导出的加宽的立体声信号115提供给音频驱动器58，以通过扬声器60进行回放。

立体声信号101可以例如在信号处理系统100、100′处被接收，例如通过从设备50中的存储器或大容量存储没备读取立体声信号。在另一示例中，经由通信接口(诸如网络接口)从将立体声信号存储在存储器中的另一设备或从其中提供的大容量存储设备获得立体声信号。加宽的立体声信号115可以被提供用于由设备50的音频回放系统进行渲染。附加地或替代地，加宽的立体声信号可以存储在设备50中的存储器或大容量存储设备中，和/或经由通信接口提供给另一设备以存储在其中。

如上所述，音频处理系统100、100′可以接收第一控制输入，该第一控制输入传达定义应用于立体声信号101的目标扬声器配置的信息。目标扬声器配置也可以称为(立体声信号101的)声道配置。该信息例如可以从伴随立体声信号101的元数据中获得，例如在其中存储立体声信号101的音频容器中包括的元数据。在另一个示例中，可以通过设备50的用户接口接收(作为用户输入)定义在立体声信号101中应用的目标扬声器配置的信息。可以通过针对立体声信号101的每个声道指示相对于假定的收听点的相应目标扬声器位置来定义目标扬声器配置。作为示例，扬声器的目标位置可以包括目标方向，该目标方向可以被定义为相对于参考方向(例如，前方)的角度。因此，例如在双声道立体声信号的情况下，目标扬声器配置可以被定义为相对于针对左扬声器和右扬声器的前方的相应目标角度∝_in(1)和∝_in(2)。相对于前方的目标角∝_in(i)可以替代地由单个目标角∝_in表示，单个目标角∝_in限定了相对于前方的目标角的绝对值，例如∝_in(1)＝∝_in和∝_in(2)＝-∝_in。

在又一示例中，在音频处理系统100、100′中没有接收到第一控制输入，而是音频处理系统100、100′的元件中利用定义应用于立体声信号101中的目标扬声器配置的信息的元件(信号分解器104、重新平移器106)改为应用这方面的预定义信息。在这方面的示例包括应用固定的预定义目标扬声器配置。另一个示例涉及根据所接收的立体声信号101中的音频声道的数量来选择多个预定目标扬声器配置中的一个。在这方面的非限制性示例包括：响应于双声道信号101(因此被假定为双声道立体声音频信号)选择目标扬声器配置，其中声道相对于前方成±30度放置，和/或响应于六声道信号(因此假定代表5.1声道环绕信号)选择目标扬声器配置，其中所述声道以相对于前方的0度、±30度和±110度的目标角∝_in(i)定位，并以低频效果(LFE)声道补充。

如前所述，音频处理系统100、100′可以接收第二控制输入，第二控制输入传达定义设备50中的输出扬声器配置的信息。其中，输出扬声器配置可以相对于收听位置定义相应的输出扬声器位置，这可以指示假定的收听位置或收听者的实际位置。输出扬声器配置可定义例如针对每个输出扬声器的相对于参考方向(例如，前方)的相应输出扬声器方向。就这一点而言，输出扬声器方向可以被定义为针对每个输出扬声器的相对于参考方向的相应输出扬声器角度∝_out(i)。相对于参考方向的输出扬声器角∝_out(i)可以可替代地由单个输出扬声器角∝_out表示，例如在有两个扬声器的情况下，其定义相对于参考方向的输出扬声器角∝_out(i)的绝对值，例如使得∝_out(1)＝∝_out和∝_out(2)＝-∝_out。

输出扬声器角∝_out(i)可以直接在第二控制输入中指示，或者第二控制输入可以将输出扬声器位置定义为相对于一个或多个预定参考位置和/或参考方向的距离，例如，使得第一输出扬声器被安置在沿定义相对于收听者(或相对于假定的收听位置)的前方的(概念上的)线向前y₁米且从该前方向左x₁米，并且第二输出扬声器被安置在沿定义相对于收听者(或相对于假定的收听位置)的前方的(概念上的)线向前y₂米且从该前方向左x₂米。因此，可以分别将针对第一输出扬声、第二输出扬声器的输出扬声器角∝_out(1)和∝_out(2)计算为

第二控制输入可以传达定义静态或动态输出扬声器位置的信息：在应用静态输出扬声器位置的情况下，可以基于听众相对于设备50的每个扬声器的假定的平均距离和位置来获得和/或定义输出扬声器位置，而在应用动态输出扬声器位置的情况下，可以基于传感器信号(例如，来自摄像机的视频信号)来定义和更新(例如，以预定的时间间隔)相对于听众的输出扬声器位置。

定义相对于听众的位置的输出扬声器位置的信息可以被应用以使得能够控制立体声加宽处理，从而使得空间音频图像被加宽到超出设备50的扬声器所跨越的方向范围，而同时确保空间音频图像的聚焦部分(通常包括感知上重要的音频内容)被安置在空间音频图像中设备50的扬声器之间的方向上。

音频处理系统100、100′可以被安排为处理排列成输入帧序列的立体声信号101，每个输入帧包括针对每个声道的数字音频信号的相应段，被提供为按照预定义采样频率的相应输入样本的时间序列。在典型示例中，音频处理系统100、100′采用固定的预定帧长度。在其他示例中，帧长度可以是可以从多个预定帧长度中选择的可选帧长度，或者帧长度可以是可以从预定帧长度范围中选择的可调帧长度。帧长度可以被定义为针对立体声信号101的每个声道的包括在帧中的数量样本L，其按照预定的采样频率映射到对应的时间上的持续段。作为这方面的示例，音频处理系统100、100′可以采用20毫秒(ms)的固定帧长，以8、16、32或48kHz的采样频率分别得到每声道L＝160、L＝320、L＝640和L＝960个样本的帧。帧可以不重叠，也可以部分重叠。然而，这些值用作非限制性示例，并且可以替代地使用不同于这些示例的帧长度和/或采样频率，这取决于例如所需的音频带宽，所需的成帧延迟和/或可用的处理能力。

再次参考图1A和1B，音频处理系统100、100′可以包括变换实体102，其被布置为将立体声信号101从时域转换成变换域立体声信号103。通常，变换域包括频域。在示例中，变换实体102使用预定义的分析窗口长度(例如20毫秒)采用短时离散傅立叶变换(STFT)将立体声信号101的每个声道转换为变换域立体声103的相应声道。在另一个示例中，变换实体102采用(分析)复调制正交镜像滤波器(QMF)组来进行时频域转换。在这方面，STFT和QMF组作为这方面的非限制性示例，并且在其他示例中，可以采用本领域中已知的任何合适的变换技术来创建变换域立体声信号103。

变换实体102可以进一步将每个声道划分为多个频率子带，从而产生变换域立体声信号103，该变换域立体声信号103为立体声信号101的每个声道提供相应的时频表示。给定帧中的给定频带可以被称为时频块。可以例如根据所需的频率分辨率和/或可用的计算能力，选择频率子带的数量和频率子带的相应带宽。在一个示例中，根据本领域已知的Bark尺度、等矩形带宽(ERB)尺度或第三倍频带尺度，子带结构包括24个频率子带。在其他示例中，可以采用具有相同或不同带宽的不同数量的频率子带。在这方面的具体示例是覆盖整个输入频谱或其连续子集的单个频率子带。

表示变换域立体声信号103的声道i的时间帧n中的频率仓b的时频块可以被表示为S(i，b，n)。变换域立体声信号103，例如时频块S(i，b，n)被传递到信号分解器104以分解成第一信号分量105-1和第二信号分量105-2。如前所述，多个连续的频率仓可以被分组为频率子带，从而提供多个频率子带k＝0，...，K-1。对于每个频率子带k，最低仓(即，表示该频率子带中的最低频率的频率仓)可以被表示为b_k,low，而最高仓(即，表示该频率子带中的最高频率的频率仓)可以被表示为b_k,high。

再次参考图1A和1B，音频处理系统100、100′可以包括信号分解器104，其被布置为基于变换域立体声信号103来导出第一信号分量105-1和第二信号分量105-2。在下文中，第一信号分量105-1被称为表示空间音频图像的聚焦部分的信号分量，第二信号分量105-2被称为表示空间音频图像信号的非聚焦部分的信号分量。非聚焦部分表示音频图像中未被聚焦部分表示的那些部分，因此可以被称为空间音频图像的音频部分的“外围”部分。这里，分解过程不改变声道的数量，因此在本示例中，第一信号分量105-1和第二信号分量105-2中的每一个被提供为各自的双声道音频信号。应当注意，在本公开中使用的术语聚焦部分和非聚焦部分是分配给由立体声信号101表示的空间音频图像的空间子部分的名称，而这些指定并不意味着要对基础立体声信号101或变换域立体声信号103进行任何特定处理(或已经应用)，例如用以主动强调或不强调由立体声信号101表示的空间音频图像的任何部分。

信号分解器104可以基于变换域立体声信号103来导出第一信号分量105，该第一信号分量105表示在预定义聚焦范围内的空间音频图像的那些相干声音，因此这些声音构成该空间音频信号的聚焦部分。相反，信号分解器104可以基于变换域立体声信号103导出第二信号分量105，该第二信号分量105表示在该预定义聚焦范围之外的空间音频图像的相干声源或声音分量以及该空间音频图像的所有非相干声源，这样的声源或分量因此构成了该空间音频图像的非聚焦部分。因此，信号分解器104将由立体声信号101表示的声场分解为随后的立体声加宽处理所排除的第一信号分量105-1和随后进行立体声加宽处理的第二信号分量105-2。

图3示出了根据示例的信号分解器104的一些组件和/或实体的框图。如图3所示，信号分解器104可以在概念上分为分解分析器104a和信号划分器126。在下文中，将更详细地描述根据图3的示例的信号分解器104的实体。在其他示例中，信号分解器104可包括其他实体和/或图3中描绘的一些实体可被省略或与其他实体组合。

信号分解器104可以包括相干分析器116，用于基于变换域立体声信号103估计描述在变换域立体声信号103的声道之间的相干性的相干值117。相干值117被提供给分解系数确定器124以在其中进一步处理。

相干值117的计算可以涉及基于表示变换域立体声信号103的时频块S(i，b，n)，导出多个时间帧n中的多个频率子带k的相应相干值γ(k，n)。例如，可以根据等式(3)计算相干值117：

其中，Re表示实部算子，＊表示复共轭。

仍然参考图3，信号分解器104可以包括能量估计器118，用于基于变换域立体声信号103估计变换域立体声信号103的能量。能量值119被提供用于方向估计器120，以用于其中的方向角估计。

能量值119的计算可以涉及基于时频块S(i，b，n)来导出多个时间帧n中的多个音频声道i中的多个频率子带k的相应能量值E(i，k，n)。作为示例，能量值E(i，k，n)可以例如根据等式(4)来计算：

仍然参考图3，信号分解器104可以包括方向估计器120，用于基于能量值119来估计由立体声信号101表示的声音的可感知到的到达方向，其中该能量值119是考虑到立体声中应用的目标扬声器配置的指示信号101。方向估计可以包括基于目标扬声器位置的能量值来计算方向角121，方向角121被提供给聚焦估计器122以在其中进一步分析。

方向估计可以包括基于估计的能量E(i，k，n)和目标扬声器位置∝_in(i)，导出针对多个时间帧n中多个频率子带k的相应方向角θ(k，n)，方向角θ(k，n)由此指示在输入帧的频率子带中声音的所估计感知到达方向。例如可以根据等式(5)和(6)使用切线定律来执行方向估计，其中基本假设是立体声信号101表示的声场中的声源使用振幅平移被布置(在很大程度上)在它们期望的空间位置中：

其中

其中，∝_in表示分别定义左扬声器和右扬声器相对于前方的目标位置的目标角度∝_in(1)和∝_in(2)的绝对值，在该示例中，目标位置相对于前方对称地定位。在其他示例中，左扬声器和右扬声器的目标位置可以相对于前方非对称地定位(例如使得|∝_in(1)|≠|∝_in(2)|)。对等式(5)的修改使得其解释该方面对于本领域技术人员而言是简单的任务。

仍然参考图3，信号分解器104可以包括聚焦估计器122，其用于鉴于空间音频图像内预定义聚焦范围，基于立体声信号101表示的声音的所估计感知到达方向，来确定一个或多个聚焦系数123，其中聚焦系数123指示声音的所估计到达方向与聚焦范围之间的关系。聚焦范围可以例如被定义为空间音频图像中的单个角度范围或两个或更多个角度子范围。换句话说，聚焦范围可以被定义为在空间音频图像内声音的到达方向集合。

可以至少部分地基于方向角121来导出聚焦系数123。聚焦估计器122可以可选地进一步接收立体声信号101中应用的目标扬声器配置的指示和/或设备50中输出扬声器位置的指示，并进一步鉴于这些信息中的一个或两个计算聚焦系数123。聚焦系数123被提供给分解系数确定器124以用于其中的进一步处理。

通常，一个或多个角度范围定义了到达方向集合，该到达方向集合覆盖了围绕空间音频图像中心的预定义部分，由此将聚焦估计渲染为“前面”估计。聚焦估计可以涉及：例如根据等式(7)，基于方向角θ(k，n)，导出针对多个时间帧n中的多个频率子带k相应的聚焦系数χ(k，n)。：

在等式(7)中，第一阈值θ_Th1和第二阈值θ_Th2(其中，θ_Th1＜θ_Th2)用于定义主要(中心)角度范围(围绕前方的角度-θ_Th1到θ_Th1之间)，次要角度范围(相对于前方从-θ_Th2到-θ_Th1和从θ_Th1到θ_Th2)和非聚焦范围(在相对于前方的-θ_Th2和θ_Th2之外)。作为非限制性示例，可以将第一阈值和第二阈值设置为θ_Th1＝5°和θ_Th2＝15°，而在其他示例中，可以替代地应用不同的阈值θ_Th1和θ_Th2。因此，根据等式(7)的聚焦估计应用包括两个角度范围(即，主要角度范围和次要角度范围)的聚焦范围，并且响应于声源方向位于主要角度范围内来将聚焦系数χ(k，n)设置为单位一，并响应于声源方向位于聚焦范围之外来将聚焦系数χ(k，n)设置为零，而响应于声源方向位于次要角度范围内来应用声源方向的预定义函数以将聚焦系数χ(k，n)设置为介于单位一和0之间的值。通常，响应于声源方向位于聚焦范围内来将聚焦系数χ(k，n)设置为非零值，并且响应于声源方向位于聚焦范围外来将聚焦系数χ(k，n)设置为零值。在示例中，可以修改等式(7)，使得不应用次要角度范围，因此可以仅应用单个阈值来限定聚焦范围和非聚焦范围之间的界限。

沿着前面所述的路线，聚焦范围可以被定义为一个或多个角度范围。作为示例，聚焦范围可以包括单个预定义角度范围，或两个或更多个预定义角度范围。根据另一示例，聚焦范围中的至少一个是可选择的或自适应的，例如从而使得可以取决于立体声信号101中应用的目标扬声器配置和/或取决于输出扬声器是否位于设备50中来选择或调整角度范围(例如，通过选择或调整定义相应角度范围的一个或多个阈值)。

仍参考图3，信号分解器104可包括分解系数确定器124，用于基于相干值117和聚焦系数123导出分解系数125。分解系数125被提供给信号划分器126，以在其中分解变换域立体声信号103。

分解系数确定的目的是提供用于频率子带k和帧n的分解系数β(k，n)的较高的值，该值在立体声信号101的声道之间表现出较高的相干性，并传达在空间音频图像的聚焦部分内的定向声音分量(参见前面对聚焦估计器122的描述)。就这一点而言，分解系数确定可以包括：例如根据等式(8)，基于相应相干值γ(k，n)和相应聚焦系数χ(k，n)，导出针对多个时间帧n中的多个频率子带k的相应分解系数β(k，n)：

β(k，n)＝γ(k，n)χ(k，n). (8)

在示例中，可以像为信号划分器126提供的分解系数125那样应用分解系数β(k，n)，以分解其中的变换域立体声信号103。在另一示例中，基于能量的时间平滑被应用于从等式(8)获得的分解系数β(k，n)，以便导出平滑的分解系数β′(k，n)，其可以被提供用于信号划分器126以被应用于其中的变换域立体声信号103的分解。分解系数的平滑导致在分配给第一信号分量105-1和第二信号分量105-2的空间音频图像的子部分中随时间的更慢的变化，这可以通过避免其中的空间音频图像中的小规模波动来使得在所得的加宽立体声信号115中实现改善的可感知质量。例如，根据等式(9a)，可以给出提供基于能量的时间平滑的加权：

β′(k，n)＝A(k，n)/B(k，n)， (9a)

其中

其中E(k，n)表示在针对时间帧n的频率子带k的变换域立体声信号103的总能量(例如基于使用等式(4)导出的能量E(i，k，n)可推导)，并且a和b(其中，优选地，a+b＝1)表示预定义的加权因子。作为非限制性示例，可以应用值a＝0.2和b＝0.8，而在其他示例中，可以替代地应用从0到1范围内的其他值。

仍然参考图3，信号分解器104可以包括信号划分器126，用于基于变换域立体声信号103来导出表示空间音频图像的聚焦部分的第一信号分量105-1和表示空间音频图像的非聚焦部分(例如，“外围”部分)的第二信号分量105-2。基于分解系数125来执行变换域立体声信号103的分解。作为示例，根据等式(10a)，可以基于时频块S(i，b，n)针对多个时间帧n中的多个声道i中的多个频率子带k执行信号分解：

其中，S_dr(i，b，n)表示第一信号分量105-1的声道i的时间帧n中的频率仓b，S_sw(i，b，n)表示第二信号分量105-2的声道i的时间帧n中的频率仓b，并且p表示预定义的常数参数(例如p＝0.5)。通常，等式(9)中的缩放系数β(b，n)^p可以被另一缩放系数代替，该另一缩放系数随着分解系数β(b，n)的值增大而增加(并且随着分解系数β(b，n)的值减小而减小)，并且等式(10a)中的缩放系数(1-β(b，n))^p可以用另一缩放系数代替，该另一缩放系数随着分解系数β(b，n)的值增加而减小(并且随着分解系数β(b，n)的值减小而增加)。

在另一个示例中，可以根据等式(10b)，基于时频块S(i，b，n)针对多个时间帧n中的多个声道i中的多个频率子带k执行信号分解：

其中β_Th表示预定义的阈值，其值在0到1的范围内，例如β_Th＝0.5。如果应用等式(10b)，则在上文中所述的分解系数125的时间平滑和/或所得信号分量S_sw(i，b，n)和S_dr(i，b，n)的时间平滑对于改进所得的加宽立体声信号115的可感知质量可能是有利的。

根据等式(8)的分解系数β(k，n)是在时频块的基础上导出的，而等式(10a)和(10b)是在频仓基础上应用分解系数β(k，n)的。就这一点而言，可以将针对频率子带k导出的分解系数β(k，n)应用于频率子带k内的每个频率仓b。

因此，变换域立体声信号103在每个时频块中被划分为第一信号分量105-1和第二信号分量105-2，第一信号分量105-1表示位于由立体声信号101表示的空间音频图像的聚焦部分中的声音分量，第二信号分量105-2表示位于立体声信号101表示的空间音频图像的聚焦部分之外的声音分量。随后第一信号分量105-1被提供用于回放而不对其施加立体声加宽，而第二信号分量105-2随后在经历立体声加宽之后被提供用于回放。

再次参考图1A和1B，音频处理系统100、100′可以包括重新平移器106，其被布置为基于第一信号分量105-1来生成经修改的第一信号分量107，其中由第一信号分量105-1表示的一个或多个声源取决于目标扬声器配置和/或取决于设备50的输出扬声器位置，在空间音频图像中被重新定位。在一个示例中，重新平移器106被布置为根据在目标扬声器配置和输出扬声器配置之间的差异(例如，取决于目标扬声器位置和设备50中输出扬声器位置之间的差异)，来重新定位在第一信号分量105-1中传达的声源。在这方面，我们可以考虑一个示例，其中当设备处于相距用户的平均距离时，设备50中的两个输出扬声器被定位在输出角度∝_out(i)＝±15度处。我们可以进一步假设在目标扬声器配置中，扬声器被定位在目标角度∝_in(i)＝±30度处。因此，当被设备50的输出扬声器再现时，在由被定位在例如相对于前方成10度方向角处的声音立体声信号101的空间音频图像中的音频源可以在由例如相对于前方成5度方向角的位置处被感知到。通过重新平移器106对声源的重新定位用于根据目标扬声器配置与设备50中的输出扬声器位置来补偿由于扬声器位置之间的不匹配而导致的可感知到达方向的偏差。

图4示出了根据示例的重新平移器106的一些组件和/或实体的框图。在下文中，更详细地描述了根据图4的示例的重新平移器106的实体。在其他示例中，重新平移器106可以包括其他实体，并且/或者图4中描绘的一些实体可以被省略或与其他实体组合。

重新平移器106可以包括能量估计器128，其用于估计第一信号分量105-1的能量。能量值129被提供给方向估计器130和重新平移增益确定器136，以用于在其中进行的进一步处理。能量值计算可涉及基于时频块S_dr(i，b，n)，导出针对多个时间帧n中多个音频声道i中的多个频率子带k的相应能量值E_dr(i，k，n)。作为示例，能量值E_dr(i，k，n)可以例如根据等式(11)来计算：

在另一示例中，在能量估计器118中计算出的能量值119(例如根据等式(4))可以在重新平移器106中重用，从而省去了在重新平移器106中的专用能量估计器128。即使信号分解器104的能量估计器118基于变换域立体声信号103而不是第一信号分量105-1估计能量值119，能量值119也能够使方向估计器130和重平移增益确定器136进行正确操作。

仍然参考图4，重新平移器106可以包括方向估计器130，用于鉴于立体声信号101中应用的目标扬声器配置，基于能量值129估计由第一信号分量105-1表示的声音的可感知到达方向，方向估计可以包括鉴于目标扬声器位置基于能量值129来计算方向角131，方向角131被提供给方向调节器132以用于在其中进行的进一步处理。

方向估计可以包括基于估计的能量E_dr(i，k，n)和目标扬声器位置∝_in(i)，来导出针对多个时间帧n中的多频率子带k的相应方向角θ_dr(k，n)，方向角θ_dr(k，n)从而指示在第一信号分量105-1的频率子带中的声音的所估计感知到达方向。方向估计可以例如根据等式(12)和(13)执行：

其中

在另一示例中，在能量估计器128中计算的方向角121(例如，根据等式(5)和(6))可以在重新平移器106中被重用，从而省去在重新平移器106中的专用方向估计器130。即使信号分解器104的方向估计器120基于从变换域立体声信号103而不是第一信号分量105-1导出的能量值119估计方向角121，声源位置也相同或基本相同，因此方向角121使得方向调节器132能够正确操作。

仍然参考图4，重新平移器106可以包括方向调整器132，用于修改由第一信号分量105-1表示的声音的所估计可感知到达方向。方向调节器132可以取决于在立体声信号101中应用的目标扬声器配置的指示，并且取决于设备50中的输出扬声器位置的指示，来基于方向角131导出经修改的方向角133。经修改的方向角133被提供给平移增益确定器134，以用于在其中进行的进一步处理。

方向调整可包括鉴于装置50的输出扬声器位置，将方向角131映射到表示声音的调整后的可感知到达方向的相应经修改的方向角133。目标扬声器配置可以由目标角度∝_in(i)指示，并且设备50的输出扬声器位置可以由相应的输出扬声器角度∝_out(i)指示。根据非限制性示例，假设立体声信号101的声道的相对于前方的对称目标位置(即目标角度∝_in)和设备50相对于前方的对称输出扬声器位置(即输出扬声器角∝_out)，那么可以通过根据等式(14)确定映射系数μ，来提供在方向角131与经修改的方向角132之间的映射：

μ＝∝_in/∝_out， (14)

这可以应用于例如根据等式(15)导出针对多个时间帧n中多个频率子带k的相应经修改的方向角θ′(k，n)：

θ′(k，n)＝μθ(k，n) (15)

上面的示例假定目标∝_in(i)角度和输出扬声器角度∝_out(i)被相对于前方对称定位。根据另一个非限制性示例，可以根据等式(16)和(17)提供在方向角131和经修改的方向角132之间的映射：

θ′(k，n)＝(∝_in,hr/∝_out,hr)(θ(k，n)-∝_out，c) (17)

其中∝_out，c表示定义在左右输出扬声器之间的中心位置(即方向)的角度，∝_out，hr表示定义用于左右输出扬声器的一半范围位置(即方向)的角度，且∝_in，hr表示定义用于左右目标扬声器位置的一半范围位置(即方向)。根据等式(16)和(17)的方法适用于这样的一般情况，其中左右目标扬声器位置∝_in(i)相对于前方(或另一参考方向)被对称布置，并且左右输出扬声器位置∝_out(i)相对于前方(或另一参考方向)被要么对称布置，要么不对称地布置。

根据等式(14)和(15)的对映射系数μ的确定和对经修改的方向角θ′(k，n)的导出用作非限制性示例，并且可以代之以应用导出经修改的方向角133的不同过程。

仍参考图4，重新平移器106可以包括平移增益确定器134，用于基于经修改的方向角133计算一组平移增益135。平移增益确定可以包括，例如，使用本领域中已知的矢量基础幅值平移(VBAP)技术，基于经修改的方向角θ′(k，n)，来计算针对多个时间帧n的多个音频声道i中的多个频率子带k的相应的平移增益g′(i，k，n)。

仍参考图4，重新平移器106可以包括重新平移增益确定器136，用于基于平移增益135和能量值129导出重新平移增益137。重新平移增益137被提供给重新平移处理器138，用于在其中导出经修改的第一信号分量107。

重新平移增益确定过程可以包括：例如根据等式(18)，计算在针对多个时间帧n中的多个频率子带k的相应总能量E_s(k，n)，：

E_s(k，n)＝∑_iE_dr(i，k，n) (18)

重新平移增益确定还可以包括：例如根据等式(19)，基于总能量E_s(k，n)和平移增益g′(i，k，n)，计算针对多个时间帧n中的多个音频声道i中的多个音频子带k的相应目标能量E_t(i，k，n)，：

E_t(i，k，n)＝g′(i，k，n)²E_s(k，n) (19)

可以将目标能量E_t(i，k，n)与能量值E_dr(i，k，n)一起应用，以例如根据等式(20)导出针对多个时间帧n中的多个音频声道i中的多个频率子带k的相应重新平移增益g_r(i，k，n)：

在示例中，从等式(20)获得的重新平移增益g_r(i，k，n)可以如重新平移增益137那样被应用，其被被提供给重新平移处理器138以在其中导出经修改的第一信号分量107。在另一示例中，基于能量的时间平滑被应用于从等式(20)获得的重新平移增益g_r(i，k，n)，以导出平滑的重新平移增益g′_r(i，k，n)，其可以被提供给重新平移处理器138以在其中被应用于重新平移。重新平移增益g_r(i，k，n)的平滑导致在分配给第一信号分量105-1的空间音频图像的子部分内随时间的更慢的变化，这可以使得能够通过避免在其中加宽的空间音频图像的各个部分中存在小规模的波动来改善在所得到的加宽立体声信号115中的可感知质量。

仍然参考图4，重新平移器106可以包括重新平移处理器138，用于根据第一重新平移增益137，基于第一信号分量105-1来导出经修改的第一信号分量107。在得到的经修改的第一信号分量107中，根据在方向调节器132中导出的经修改的方向角132，空间音频图像的聚焦部分中的声源被重新定位(即重新平移)，以解决在立体声信号101中应用的目标扬声器配置与设备50中的输出扬声器位置之间的(可能的)差异，从而将聚焦部分保持在空间音频图像内的预期位置。经修改的第一信号分量107被提供给逆变换实体108-1，以用于在其中从变换域转换到时域。

用于导出经修改的第一信号分量107的过程可以包括：例如根据等式(21)，取决于重新平移增益g_r(i，k，n)，基于第一信号分量105-1的对应时频块S_dr(i，b，n)来导出针对多个时间帧n中的多个音频声道i中的多个频率仓b的相应时频块S_dr，rp(i，b，n)，：

S_dr，rp(i，b，n)＝g_r(i，b，n)S_dr(i，b，n)。 (21)

根据等式(20)的重新平移增益g_r(i，k，n)是在时频块的基础上导出的，而等式(21)是在频率仓的基础上应用重新平移增益g_r(i，k，n)。就这一点而言，可以将针对频率子带k导出的重新平移增益g_r(i，k，n)应用于频率子带k内的每个频率仓b。

返回参考图1A，音频处理系统可以包括逆变换实体108-1，该逆变换实体108-1被布置为将经修改的第一信号分量107从变换域变换到(返回)时域，从而提供时域经修改的第一信号分量109-1。类似的，音频处理系统100可以包括逆变换实体108-2，其被布置为将第二信号分量105-2从变换域变换到(返回)时域，从而提供时域第二信号分量109-2。逆变换实体108-1和逆变换实体108-2都利用对在变换实体102中执行的时间到变换域的变换进行反转的可应用的逆变换。作为这方面的非限制性示例，逆变换实体108-1、108-2可以应用逆STFT或(合成)QMF库来提供逆变换。所得的时域经修改的第一信号分量109-1可以表示为s_dr(i，m)，所得的时域第二信号分量109-2可以表示为s_sw(i，m)，其中i表示声道，m表示时间索引(即样本索引)。

再次参考图1B，如前所述，在音频处理系统100′中，省略了逆变换实体108-1、108-2，并且将经修改的第一信号分量107作为变换域信号提供给(可选的)延迟元件110′，而变换域第二信号分量105-2作为变换域信号被提供给立体声加宽处理器112′。

再次参考图1A，音频处理系统100可以包括立体声加宽处理器112，其被布置为基于第二信号分量109-2生成经修改的第二信号分量113，其中空间音频图像的宽度是从第二信号分量109-2表示的信号扩展。立体声加宽处理器112可以应用本领域中已知的任何立体声加宽技术来扩展空间音频图像的宽度。在示例中，立体声加宽处理器112将第二信号分量s_sw(i，m)处理为经修改的第二信号分量s′_sw(i，m)。其中第二信号分量s_sw(i，m)和经修改的第二信号分量s′_sw(i，m)分别为时域信号。

图5示出了根据非限制性示例的立体声加宽处理器112的一些组件和/或实体的框图。在此示例中，应用了四个滤波器H_LL、H_RL、H_LR和H_RR来创建加宽的空间音频图像：经修改的第二信号分量113的左声道被创建为由滤波器H_LL滤波的第二信号分量109-2的左声道与由滤波器H_LR滤波的第二信号分量109-2的右声道之和，而经修改的第二信号分量113的右声道被创建为由滤波器H_RL滤波的第二信号分量109-2的左声道与由滤波器H_RR滤波的第二信号分量109-2的右声道之和。在图5的示例中，基于时域第二信号分量109-2执行立体声加宽过程。在其他示例中，可以在变换域中执行立体声加宽过程(例如，利用图5的滤波结构的立体声加宽过程)。在该替代示例中，逆变换实体108-2和立体声加宽处理器112的顺序被改变。

在一个示例中，立体声加宽处理器112可以配备有专用滤波器集合H_LL、H_RL、H_LR和H_RR，其被设计为针对预定义的一对目标扬声器配置和设备50中的输出扬声器位置产生期望的立体声加宽程度。在另一个示例中，立体声加宽处理器112可以设置有多个滤波器集合H_LL、H_RL、H_LR和H_RR，每个集合被设计为针对相应的一对目标扬声器配置和设备50中的输出扬声器位置产生期望的立体声加宽程度。在后一示例中，根据指示的目标扬声器配置和设备50中的输出扬声器位置选择滤波器集合。在具有多个滤波器集合的情况下，立体声加宽处理器112可以例如响应于指示的输出扬声器位置的变化(例如，用户相对于输出扬声器50的位置的变化)，来动态地切换滤波器集合。有多种方法可以设计滤波器集合H_LL、H_RL、H_LR和HRR。在这方面，更多的信息可以在例如，O.Kirkeby、P.A.Nelson、H.Hamada和F.Orduna-Bustamante于IEEE Transactions on Speech and Audio Processing(关于语音和音频处理的事务)(第6卷，第2号，第189-194页，1998年)上发表的“Fast deconvolution ofmultichannel systems using regularization(《使用正则化对多声道系统进行快速反卷积》)”中，以及S.Bharitkar和C.Kyriakakis发表“Immersive Audio Signal Processing(《沉浸式音频信号处理》)”(第4章，施普林格，2006年)中得到。

再次参考图1B，如上所述，在音频处理系统100′中，立体声加宽处理器112′被安排为基于变换域第二信号分量105-2生成(变换域)经修改的第二信号分量113′，以用于提供给信号组合器114′。空间音频处理器112′可以利用STFT，而空间音频处理器112′的其他操作特征可以类似于前面在(时域)空间音频处理器112的上下文中描述的那些特征，除了空间音频处理器112′的输入信号、空间音频处理器112′中的处理以及空间音频处理器112′的输出信号是各自的变换域信号。

返回参考图1A，音频处理系统100可以包括延迟元件110，该延迟元件110被布置为将经修改的第一信号分量109-1延迟预定的时间延迟，从而创建延迟的第一信号分量111。时间延迟被选择为使得其与在立体声加宽处理器112中应用的立体声加宽处理导致的延迟匹配或基本匹配，从而使延迟的第一信号分量111在时间上与经修改的第二信号分量113对准。在示例中，延迟元件110将经修改的第一信号分量s_dr(i，m)处理成延迟的第一信号分量s′_dr(i，m)。在图1A的示例中，在时域中施加时间延迟。在替代示例中，可以改变逆变换实体108-1和延迟元件110的顺序，从而导致在变换域中应用预定的时间延迟。

再次参考图1B，如前所述，在音频处理系统100′中，延迟元件110′是可选的，并且如果被包括，则延迟元件110′被安排为在变换域中操作，换句话说，被安排为将预定义的时间延迟应用到经修改的第一信号分量107，以在变换域中创建延迟的经修改的第一信号分量111′，以用于作为变换域信号提供给组合器信号114′。

再次参考图1A，音频处理系统100可以包括信号组合器114，被安排为将延迟的第一信号分量111和经修改的第二信号分量113组合为加宽的立体声信号115，其中空间音频图像的宽度从立体声信号101的宽度扩展。作为这方面的示例，例如根据等式(22)，可以将加宽的立体声信号115导出为延迟的第一信号分量111和经修改的第二信号分量113的总和、平均值或另一线性组合：

s_out(i，m)＝s′_sw(i，m)+s′_dr(i，m)， (22)

其中s_out(i，m)表示加宽的立体声信号115。

再次参考图1B，如上所述，在音频处理系统100′中，信号组合器114′被安排为在变换域中操作，换句话说，被安排为将(变换域)延迟的经修改的第一信号分量113′与(变换域)经修改的第二信号分量113′组合成(变换域)加宽的立体声信号115′，以提供给逆变换实体108′。逆变换实体108′被安排为将(变换域)加宽的立体声信号115′从变换域转换为(时域)加宽的立体声信号115。变换实体108′可以以类似于上文在变换实体108-1、108-2的上下文中所描述的方式来执行转换。

前面通过多个示例描述的示例性音频处理系统100、100′中的每一个可以以多种方式进一步变化。在下文中，描述了在这方面的非限制性示例。

在上文中，音频处理系统100、100′的元件的描述是指在多个频率子带k中对相关音频信号的处理。在一个示例中，音频处理系统100、100’的每个元件中的音频信号的处理是在(所有)频率子带k上执行的。在其他示例中，在音频处理系统100、100′的至少某些元件中，音频信号的处理是在有限数量的频率子带k中进行的。作为这方面的示例，在音频处理系统100、100′的特定元件中的处理可以针对预定义数量的最低频率子带k来执行，针对预定义数量的最高频率子带k来执行，或针对在频率范围中间的频率子带k的预定义子集来执行，使得从该处理中排除第一预定义数量的最低频率子带k和第二预定义数量的最高频率子带k。从处理中排除的频率子带k(例如，在频率范围的较低端的那些和/或在频率范围的较高端的)可以被从相应元件的输入传递到输出而未经修改。作为其中可以仅针对频率子带k的有限子集执行处理的音频处理系统100、100′的元件的非限制性示例，涉及重新平移器116和立体声加宽处理器112、112′中的一个或两个，其仅可以处理各自期望的频率子范围内的各自的输入信号，例如在预定义数量的最低频率子带k中或在频率范围的中间的频率子带k的预定义子集中。

在另一个示例中，如前面已经描述的，输入音频信号101可以包括与双声道立体声音频信号不同的多声道信号，例如环绕信号。例如，在输入音频信号101包括5.1声道环绕信号的情况下，前面参考立体声信号101的左声道和右声道描述的音频处理技术可以应用于5.1声道环绕信号的左前和右前声道，以导出输出音频信号115的左声道和右声道。5.1声道环绕信号的其他声道可以被处理，例如从而使得由预定增益因子(例如，以一个具有值

的因子)缩放的5.1声道环绕信号的中心声道被添加到从音频处理系统100、100′获得的输出音频信号115的左声道和右声道中，而5.1声道环绕声信号的左后声道和右后声道可使用常规立体声加宽技术进行处理，该技术利用与左后扬声器和右后扬声器各自的目标位置(例如，相对于前方为±110度)相对应的目标响应。5.1声道环绕信号的LFE声道可以在将其缩放版本添加到输出音频信号115的左右声道之前，被添加到5.1声道环绕信号的中心信号。

在另一个示例中，附加地或替代地，音频处理系统100、100′可以使得在能够调整在所得的加宽立体声信号115中第一信号分量105-1和第二信号分量105-2的贡献之间的平衡。这可以通过向第一信号分量105-1(或其衍生物)和第二信号分量105-2(或其衍生物)施加各自不同的缩放增益来提供。就这一点而言，例如，可以将相应的缩放增益应用在信号组合器114、114′中以相应地按比例缩放从第一和第二信号分量105-1、105-2导出的信号分量，或应用在信号划分器126中以相应地按比例缩放第一和第二信号分量105-1、105-2。可以定义单个相应的缩放增益，用于在所有频率子带上或在频率子带的预定义子集中缩放第一和第二信号分量105-1、105-2(或其相应的衍生)。可替代地或附加地，可以在频率子带上施加不同的缩放增益，从而使得能够仅在某些频率子带上调整来自和第一和第二信号分量105-1、105-2的贡献之间的平衡，和/或在不同的频率子带上不同地调整平衡。

在另一示例中，替代地或附加地，音频处理系统100、100′可以彼此独立地缩放第一信号分量105-1和第二信号分量105-2(或其各自的衍生)中的一个或两个，从而使得能够对第一和第二信号分量中的一个或两个进行均衡(跨频率子带)。这可以通过例如对第一信号分量105-1(或其衍生)和第二信号分量105-2(或其衍生)应用各自的均衡增益来提供。可以为第一信号分量105-1和/或第二信号分量105-2的一个或多个频率子带定义专用的均衡增益。就这一点而言，对于第一和第二信号分量105-1、105-2中的每一个，可以例如在信号划分器126中或在信号组合器114、114′中应用各自的均衡增益，以缩放第一和第二信号分量105-1、105-2(或其相应的衍生)中的相应一个信号分量的相应频率子带。对于特定的频率子带，第一信号分量和第二信号分量105-1、105-2的均衡增益可以相同，或者第一信号分量和第二信号分量105-1、105-2可以应用不同的均衡增益。

在另一个示例中，附加地或替换地，音频处理系统100、100′可以接收传感器信号，该传感器信号使得能够导出指示在输出扬声器和收听者耳朵之间的距离的信息，该距离可以被应用以相应地导出或调整指示输出扬声器配置(例如，第二控制输入)的信息。作为示例，传感器信号可以源自用作传感器64的摄像机，而扬声器配置实体62可以基于来自摄像机的传感器信号并且可能还基于设备50中的扬声器60相对于摄像机位置的位置信息，来相应地导出指示相对于收听位置的输出扬声器配置的第二控制输入。利用该信息，扬声器配置实体62可以导出用户是以正常或典型距离(例如，从30到40cm)或更远的距离(例如，比40厘米远)将设备50保持在靠近他/她的面部(例如，小于30cm)的位置。响应于检测到该设备靠近用户的面部，扬声器配置实体62可以相应地调整输出扬声器的位置，例如，输出扬声器角度∝_out(i)，以指示由于用户靠近设备50而导致输出扬声器之间的大于正常角度的角度，而响应于检测到设备距离用户面部更远，扬声器配置实体62可以相应地调整输出扬声器的位置，例如输出扬声器角度∝_out(i)，以指示由于用户距离设备50较远而导致输出扬声器之间的小于正常角度的角度。更新的输出扬声器配置可能会影响例如信号分解器104和/或重新平移器106的操作。

前面通过多个示例描述的音频处理系统100、100′的操作使得能够将立体声信号101自适应地分解为第一信号分量105-1和第二信号分量105-2，第一信号分量105-1表示空间音频图像的聚焦部分并且被提供用于回放而无需对其应用立体声加宽，并且第二信号分量105-2表示受到立体声加宽处理的空间音频图像的外围(非聚焦)部分。特别地，由于分解是在立体声信号101传送的音频内容的基础上逐帧进行的，因此音频处理系统100、100′使得能够既适应具有不同特征的相对静态的空间音频图像，又适应随时间的空间音频图像的变化。

所公开的立体声加宽技术依赖于从立体声加宽处理中排除空间音频图像的聚焦部分内的相干声源，并将立体声加宽处理主要应用于聚焦部分之外的相干声音和非相干声音(例如环境)，这使得能够改善音色和衔接，并减少聚焦部分内声音的“染色”，同时仍可提供很大程度的可感知立体声加宽。此外，所公开的立体声加宽技术从立体声加宽处理中排除了聚焦部分内的相干声音，从而允许加宽立体声信号115具有更高的动态范围，因此与通过本领域中已知的立体声加宽技术产生的加宽的立体声信号相比，能够以更高的可感知信号电平驱动扬声器50而没有听觉失真。

音频处理系统100、100′的组件可以被安排为例如根据图6中描述的流程图所示的方法200进行操作。方法200用作用于处理包括表示空间音频图像的多声道音频信号的输入音频信号的方法。

方法200包括基于输入音频信号101导出第一信号分量105-1和第二信号分量105-2，第一信号分量105-1包括表示空间音频图像的聚焦部分的多声道音频信号，第二信号分量105-2包括表示空间音频图像的非聚焦部分的多声道音频信号，如框202所示。方法200还包括将第二信号分量105-2处理为经修改的第二信号分量113，其中，空间音频图像的宽度从第二信号分量105-2的宽度扩展，如框204所示。方法200还包括将第一信号分量105-2与经修改的第二信号分量113组合成输出音频信号115，输出音频信号115包括表示部分扩展的空间音频图像的多声道音频信号，如框206所示。例如，考虑到与前面描述的音频处理系统100和/或音频处理系统100′的操作有关的示例，方法200可以以多种方式变化。

图7示出了示例性装置300的一些组件的框图。装置300可以包括在图7中未示出的其他组件、元件或部分。装置300可以用于例如在音频处理系统100、100′的背景下实现前述的一个或多个组件。装置300可以实现例如设备50或其一个或多个组件。

装置300包括处理器316和用于存储数据和计算机程序代码317的存储器315。存储器315和存储在其中的计算机程序代码317的一部分还可以被安排成与处理器316一起在音频处理系统100，100′的背景下实现前述的操作、过程和/或功能中的至少一些。

装置300包括用于与其他设备通信的通信部分312。通信部分312包括至少一个能够与其他装置进行有线或无线通信的通信装置。通信部分312的通信装置也可以被称为相应的通信模块。

装置300还可以包括用户I/O(输入/输出)组件318，其可以与处理器316和一部分计算机程序代码317一起被安排为提供用户接口，以用于接收来自装置300的用户的输入和/或向装置300的用户提供输出以控制由装置300实现的音频处理系统100、100′的操作的至少一些方面。用户I/O组件318可以包括硬件组件，诸如显示器、触摸屏、触摸板、鼠标、键盘和/或一个或多个键或按钮的设置等。用户I/O组件318也可以被称为外围设备。处理器316可以被安排为，例如根据计算机程序代码317的一部分，并可能进一步根据通过用户I/O组件318接收的用户输入和/或根据通过通信部分312接收的信息，来控制装置300的操作。

尽管处理器316被描绘为单个组件，但是其可以被实现为一个或多个单独的处理组件。类似地，尽管存储器315被描绘为单个组件，但是它可以被实现为一个或多个分开的组件，其中的一些或全部可以被集成/可移除和/或可以提供永久/半永久/动态/高速缓存的存储。

存储在存储器315中的计算机程序代码317可以包括计算机可执行指令，该计算机可执行指令在被加载到处理器316中时控制装置300的一个或多个操作方面。作为示例，计算机可执行指令可以作为一个或多个指令的一个或多个序列被提供。处理器316能够通过从存储器315读取其中包括的一个或多个指令的一个或多个序列来加载并执行计算机程序代码317。一个或多个指令的一个或多个序列可以被配置为，当由处理器316执行时，使装置300执行在音频处理系统100、100′的背景中前述的操作、过程和/或功能中的至少一些。

因此，装置300可包含至少一个处理器316及至少一个存储器315，其包含用于一个或多个程序的计算机程序代码317，至少一个存储器315及计算机程序代码317被配置以与至少一个处理器316一起使得装置300执行在音频处理系统100、100′的背景中前述的操作、过程和/或功能中的至少一些。

存储在存储器315中的计算机程序可以例如作为包括至少一个其上存储有计算机程序代码317的计算机可读非暂时性介质的相应计算机程序产品来提供，计算机程序代码当被装置300执行时使装置300至少执行在音频处理系统100、100′的背景中前述的操作、过程和/或功能中的至少一些。计算机可读非暂时性介质可以包括存储设备或记录介质，例如CD-ROM、DVD、蓝光光盘或有形地体现计算机程序的另一种制造品。作为另一示例，计算机程序可以作为被配置为可靠地传送计算机程序的信号而被提供。

对处理器的引用不应被理解为仅包含可编程处理器，还应包含专用电路，例如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理器等。在前面描述中描述的特征可以在除了明确描述的组合以外的其他组合中使用。

尽管在上文中已经参考某些特征和/或元件描述了一些功能，但是无论是否描述，那些功能都可以由其他特征和/或元件执行。尽管已经参考某些实施例描述了特征，但是无论是否被描述，那些特征都可以在其他实施例中存在。

Claims

1.一种用于处理包括多声道音频信号的输入音频信号的装置，所述装置包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，当由所述至少一个处理器执行时，所述计算机程序代码致使所述装置执行以下操作：

基于所述输入音频信号来导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；

将所述第二信号分量处理为经修改的第二信号分量，其中所述空间音频图像的宽度从所述第二信号分量的宽度扩展；

修改所述第一信号分量，其中所述修改致使所述装置基于所述第一信号分量生成经修改的第一信号分量，其中由所述第一信号分量表示的一个或多个声源根据目标扬声器配置和输出扬声器配置中的一个或多个而在所述空间音频图像中被重新定位；以及

将所述经修改的第一信号分量与所述经修改的第二信号分量组合成输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

2.根据权利要求1的装置，其中所述装置被致使导出所述第一信号分量和所述第二信号分量被进一步致使：

基于所述输入音频信号，导出表示位于预定义聚焦范围内的所述空间音频图像的相干声音的第一信号分量；以及

基于所述输入音频信号，导出表示位于所述预定义聚焦范围之外的所述空间音频图像的相干声音和所述空间音频图像的非相干声音的第二信号分量。

3.根据权利要求2所述的装置，其中，所述聚焦范围包括一个或多个预定义的角度范围，所述预定义的角度范围定义在所述空间音频图像内的声音到达方向集合。

4.根据权利要求3所述的装置，其中，所述一个或多个角度范围包括定义以所述空间音频图像的前方为中心的声音到达方向的范围的角度范围。

5.根据权利要求2至4中的任一项所述的装置，其中，所述装置被致使导出所述第一信号分量和所述第二信号分量被进一步致使：

基于所述输入音频信号针对多个频率子带导出相应相干值，所述相应相干值描述在相应频率子带中所述输入音频信号的声道之间的相干性；

鉴于所述预定义聚焦范围基于所估计声音到达方向，针对所述多个频率子带导出相应聚焦系数，所述相应聚焦系数指示在相应频率子带中在所估计声音到达方向与所述预定义聚焦范围之间的关系；

基于所述相干值和聚焦系数，针对所述多个频率子带导出相应分解系数；以及

使用所述分解系数将所述输入音频信号分解为所述第一信号分量和第二信号分量。

6.根据权利要求5的装置，其中所述装置被致使导出所述聚焦系数被安排为针对所述多个频率子带，

响应于针对频率子带的所估计声音到达方向位于所述聚焦范围内，将所述频率子带的聚焦系数设置为非零值；以及

响应于针对频率子带的所估计声音到达方向位于所述聚焦范围之外，将所述频率子带的聚焦系数设置为零值。

7.根据权利要求5所述的装置，其中，所述装置被致使确定所述分解系数被安排为：针对所述多个频率子带，将相应分解系数导出为针对相应频率子带的相干值和聚焦系数的乘积。

8.根据权利要求5所述的装置，其中，所述装置被致使分解所述输入音频信号被安排为：针对所述多个频率子带，

将每个频率子带中的第一信号分量导出为所述相应频率子带中的输入音频信号与第一缩放系数的乘积，所述第一缩放系数随着针对所述相应频率子带导出的分解系数的值的增加而增加；以及

将每个频率子带中的第二信号分量导出为所述相应频率子带中的输入音频信号与第二缩放系数的乘积，所述第二缩放系数随着针对所述相应频率子带导出的分解系数的值的增加而减小。

9.根据权利要求1所述的装置，还被致使：在将所述第一信号分量与所述经修改的第二信号分量组合之前将所述第一信号分量延迟预定义时间延迟，从而创建与所述经修改的第二信号分量在时间上对齐的经延迟的第一信号分量。

10.根据权利要求1所述的装置，其中，所述目标扬声器配置为所述输入音频信号的每个声道定义相对于假定收听位置的相应目标扬声器位置；以及所述输出扬声器配置为每个输出扬声器定义相对于所述收听位置的相应输出扬声器位置。

11.根据权利要求10所述的装置，其中，以下一项或多项适用：

所述目标扬声器配置为所述输入音频信号的每个声道定义目标方向，所述目标方向被定义为相对于参考方向的角度；

所述输出扬声器配置为每个输出扬声器定义相对于所述参考方向的相应输出扬声器方向。

12.根据权利要求10所述的装置，其中，所述装置被致使修改所述第一信号分量进一步致使所述装置：

根据所述目标扬声器配置和输出扬声器配置之间的差异，来修改由所述第一信号分量表示的一个或多个声源的所估计到达方向；

基于经修改的到达方向，来计算针对所述第一信号分量的每个声道的针对多个频率子带的相应平移增益；

基于在所述第一信号分量的声道中的所述多个频率子带中的平移增益和估计的能量水平，来导出针对所述第一信号分量的每个声道的针对多个频率子带的相应重新平移增益；以及

根据所述重新平移增益，基于所述第一信号分量来导出针对所述第一信号分量的每个声道在所述多个频率子带中的经修改的第一信号分量。

13.根据权利要求12所述的装置，其中，所述装置被致使导出所述经修改的第一信号分量被安排为：将每个频率子带中以及每个声道中的经修改的第一信号分量导出为相应声道中的相应频率子带中第一信号分量与针对相应信道中的相应频率子带导出的重新平移增益的乘积。

14.根据权利要求1所述的装置，其中，所述多声道音频信号中的每一个包括各自的双声道音频信号。

15.一种用于处理包括多声道音频信号的输入音频信号的方法，所述方法包括：

基于所述输入音频信号，来导出第一信号分量和第二信号分量，所述第一信号分量包括表示由所述输入音频信号传达的空间音频图像的聚焦部分的多声道音频信号，所述第二信号分量包括表示所述空间音频图像的非聚焦部分的多声道音频信号；

修改所述第一信号分量，其中所述修改致使装置基于所述第一信号分量生成经修改的第一信号分量，其中由所述第一信号分量表示的一个或多个声源根据目标扬声器配置和输出扬声器配置中的一个或多个而在所述空间音频图像中被重新定位；以及

将所述经修改的第一信号分量和所述经修改的第二信号分量组合成输出音频信号，所述输出音频信号包括表示部分扩展的空间音频图像的多声道音频信号。

16.根据权利要求15所述的方法，其中导出所述第一信号分量和所述第二信号分量还包括：

基于所述输入音频信号导出表示位于预定义聚焦范围内的所述空间音频图像的相干声音的第一信号分量；以及

基于所述输入音频信号导出表示位于所述预定义聚焦范围之外的所述空间音频图像的相干声音和所述空间音频图像的非相干声音的第二信号分量。

17.根据权利要求16所述的方法，其中，所述聚焦范围包括一个或多个预定义的角度范围，所述预定义的角度范围定义所述空间音频图像内的声音到达方向集合。

18.根据权利要求17所述的方法，其中，所述一个或多个角度范围包括以所述空间音频图像的前方为中心的声音到达方向的范围的角度范围。

19.根据权利要求16所述的方法，其中，导出所述第一信号分量和所述第二信号分量包括：

20.根据权利要求19所述的方法，其中，导出所述聚焦系数被安排为针对所述多个频率子带，