CN112019993A

CN112019993A - 音频处理

Info

Publication number: CN112019993A
Application number: CN202010473489.XA
Authority: CN
Inventors: R·瓦纳宁; S·威萨; M-V·莱蒂南; J·维罗莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-05-29
Filing date: 2020-05-29
Publication date: 2020-12-01
Anticipated expiration: 2040-05-29
Also published as: EP3745744A3; EP3745744A2; GB2584630A; CN112019993B; CN115190414A; GB201907601D0

Abstract

一种用于处理包括多个声道的输入音频信号的设备，该设备包括：用于基于输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量的装置，其中，第一信号分量取决于由输入音频信号传达的空间音频图像的至少第一部分，第二信号分量取决于空间音频图像的不同于第一部分的至少第二部分；用于跨声道混音多个输入声道的跨声道混音装置；用于将第二信号分量引导到跨声道混音装置以用于对第二信号分量的多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量的装置；用于使得第一信号分量能够旁路跨声道混音装置的旁路装置；以及用于将第一信号分量和修改的第二信号分量组合成输出音频信号的装置，该输出音频信号包括被配置用于由耳机设备渲染的两个输出声道。

Description

音频处理

技术领域

本发明的示例性和非限制性实施例涉及音频信号的处理。特别地，本发明的各种实施例涉及对由诸如两声道立体声信号的多声道音频信号表示的空间图像的修改。

背景技术

所谓的立体声加宽是本领域中已知的一种技术，该技术用于在经由音频输出设备再现时增强立体声音频信号的可感知的空间音频图像。这样的技术旨在处理立体声音频信号，使得再现的声音不仅被感知为源自定位在音频输出设备之间的方向，而且至少一部分声场被感知为好像源自不定位在音频输出设备之间的方向，从而加宽了立体声音频信号中传达的空间音频图像的可感知宽度。这里，将这种空间音频图像称为加宽或放大的空间音频图像。

尽管上面通过参考两声道立体声音频信号进行了概述，但立体声加宽可以应用于具有两个以上声道的多声道音频信号，例如用于通过一对音频输出设备播放的5.1声道或7.1声道环绕声。在某些上下文中，术语虚拟环绕声适用于表示处理的音频信号，该声音信号传达了最初在多声道环绕声信号中传达的空间音频图像。因此，即使在整个本公开中主要使用术语立体声加宽，该术语也应被广义地解释，覆盖用于处理在多声道音频信号(即，两声道立体声音频信号或两个以上声道的环绕声)中传达的空间音频图像以在加宽的空间音频图像上提供音频播放的技术。

为了描述的简洁和清楚，在本公开中，使用术语多声道音频信号来指代具有两个或更多个声道的音频信号。此外，术语立体声信号用于指代立体声音频信号，而术语环绕信号用于指代具有两个以上声道的多声道音频信号。

当应用于立体声信号时，本领域中已知的立体声加宽技术通常涉及将对侧声道信号的处理的(例如，滤波的)版本添加到该立体声信号的左声道信号和右声道信号中的每一个，以便导出具有加宽的空间音频图像的输出立体声信号(在下文中称为加宽立体声信号)。换句话说，将立体声信号的右声道信号的处理版本添加到立体声信号的左声道信号中，以创建加宽立体声信号的左声道，并且立体声信号的左声道信号的处理版本被添加到立体声信号的右声道信号以创建加宽立体声信号的右声道。此外，导出加宽立体声信号的过程可以进一步涉及在将相应处理的对侧信号添加到立体声信号的左声道信号和右声道信号中的每个之前，对其进行预滤波(或以其他方式处理)，以便在加宽立体声信号中保留期望的频率响应。

沿着上述思路，立体声加宽很容易概括为加宽多声道输入音频信号的空间音频图像，从而导出具有加宽空间音频图像的输出多声道音频信号(以下称为加宽多声道信号)。在这方面，处理涉及将加宽多声道音频信号的左声道创建为多声道输入音频信号的声道的(第一)滤波版本之和，以及将加宽多声道音频信号的右声道创建为多声道输入音频信号的声道的(第二)滤波版本之和。在此，可以为每对输入声道(多声道输入信号的声道)和输出声道(左和右)提供专用的预定义滤波器。作为这方面的示例，可以根据等式(1)，基于多声道音频信号S的声道分别定义加宽多声道信号的左和右声道信号，S_out，left和S_out，right：

其中，S(i，b，n)表示多声道信号S的声道i的时间帧n中的频率仓(frequency bin)b，H_left(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于创建左声道信号S_out，left(b，n)的相应声道分量的滤波器，并且H_right(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于创建右声道信号S_out，right(b，n)的相应声道分量的滤波器。

立体声加宽所涉及的挑战是空间音频图像的中央部分的音质下降。在许多现实生活中的立体声信号中，空间音频图像的中央部分包括感知上重要的音频内容，例如在音乐的情况下，歌手的声音通常渲染在空间音频图像的中央。在空间音频图像的中央的声音分量是通过在立体声信号的两个声道中并因此经由两个音频输出设备再现相同的信号来渲染的。当将立体声加宽应用于这样的输入立体声信号时(例如，根据上述等式(1))，所得到的加宽立体声信号的每个声道都涉及对输入立体声信号的声道执行的两个滤波操作的结果。这可能会导致梳状滤波效果，该效果会导致感知到的音质的差异，这可能被称为声音的“着色”。而且，梳状滤波效果可能进一步导致声源的接合性下降。

在某些情况下，音频输出设备是耳机设备的一部分，该耳机设备包括戴在用户左耳处、上方或之中的左音频输出设备以及戴在用户右耳处、上方或之中的右音频输出设备。

通过耳机正常播放立体声音频可能会使声音在用户的头部内被用户感知。立体声平移(panning)提示将声音定位在头部内两耳之间。

为了解决这个问题，使用扬声器虚拟化方法来处理音频信号，使得用户通过耳机收听的感觉类似于用户通过扬声器收听的感觉。这可以通过使用适当的头部相关变换函数(HRTF)或双耳室冲激响应(BRIR)对音频信号进行滤波来实现。

发明内容

根据各种但并非全部示例，提供了一种用于处理包括多个声道的输入音频信号的设备，该设备包括：用于基于该输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量的装置，其中，该第一信号分量取决于由该输入音频信号传达的空间音频图像的至少第一部分，该第二信号分量取决于该空间音频图像的不同于该第一部分的至少第二部分；用于跨声道混音多个输入声道的跨声道混音装置；用于将该第二信号分量引导到该跨声道混音装置以用于对该第二信号分量的该多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量的装置；用于使得该第一信号分量能够旁路该跨声道混音装置的旁路装置；以及用于将该第一信号分量和该修改的第二信号分量组合成输出音频信号的装置，该输出音频信号包括被配置用于由耳机设备渲染的两个输出声道。

在一些但不一定是全部示例中，该用于跨声道混音多个输入声道的跨声道混音装置包括用于在将这些声道混音以产生包括两个输出声道的修改的第二信号分量之前将头部相关变换函数应用于该多个输入声道中的每一个的装置，其中，应用于被混音以提供输出声道的输入声道的该头部相关变换函数取决于该输入声道的标识和该输出声道的标识。

在一些但不一定是全部示例中，该用于跨声道混音多个输入声道的跨声道混音装置包括用于在将这些声道混音以产生包括两个输出声道的修改的第二信号分量之前将耳机滤波器应用于该多个输入声道中的每一个的装置，其中，应用于被混音以提供输出声道的输入声道的该耳机滤波器取决于该输入声道的标识和该输出声道的标识，其中，用于输入声道的该耳机滤波器将该输入声道的直接版本与该输入声道的环境版本混音。

在一些但不一定是全部示例中，在该耳机滤波器中的混音中，与该输入声道的该环境版本相比的该输入声道的该直接版本的相对增益是用户能控制的参数。

在一些但不一定是全部示例中，用于输入声道的该耳机滤波器将该输入声道的单路径直接版本与该输入声道的多路径环境版本混音；其中，头部相关变换函数用于形成该输入声道的该单路径直接版本；其中，将间接路径滤波器与头部相关变换函数结合用于该多路径中的每个路径，以形成该输入声道的该多路径环境版本。在一些但不一定是全部示例中，该间接路径滤波器包括去相关装置或混响装置。

在一些但不一定是全部示例中，该跨声道混音被配置为导致耳机设备的立体声加宽，从而使得与该修改的第二信号分量相关联的空间音频图像的宽度大于在该第二信号分量的跨声道混音之前与该第二信号分量相关联的空间音频图像的宽度。

在一些但不一定是全部示例中，该第一部分是相对于该耳机设备的用户的前方和中央，并且该第二部分是相对于该耳机设备的该用户的外围且不与该第一部分重叠。

在一些但不一定是全部示例中，该第一部分和第二部分是连续的。

在一些但不一定是全部示例中，该旁路装置使得该输入音频信号的分量能够旁路该跨声道混音装置，该分量表示在两个立体声声道之间相干并且位于前方和中央的声源。

在一些但不一定是全部示例中，控制输入控制以下中的一个或多个：

控制该第一部分和/或该第二部分；

控制输入信号到第一分量和第二分量的分解；

控制该第一分量和该第二分量的相对增益；

控制该第二分量的加宽；

控制在第二分量加宽期间的直接与环境增益比；

控制第一分量的平移；

控制是否有该第一分量的平移；

控制第一分量的平移范围；以及

控制基于能量的时间平滑。

在一些但不一定是全部示例中，当该输入音频信号包括在不同位置处被重复并且在该耳机设备处没有耳间时间差并且没有频率相关耳间声级差地被渲染的相同声源时，当该输入音频信号的该声源位于相对该耳机设备的用户的前方和中央的第一位置时，则当该输入音频信号的该声源在第二位置处被重复时，在该耳机设备处有耳间时间差和频率相关耳间声级差地渲染该声源，该第二位置是相对外围并且不是该耳机设备的用户的前方和中央。

在一些但不一定是全部示例中，提供了一种包括该设备和被配置用于接收和渲染该输出音频信号的耳机设备的系统。

在一些但不一定是全部示例中，该设备被配置为用于渲染该输出音频信号的耳机设备。

根据各种但并不一定是全部示例，提供了一种用于处理包括至少一个输入声道/多个输入声道的输入音频信号的方法，该方法包括：

基于该输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量，其中，

该第一信号分量取决于由该输入音频信号传达的空间音频图像的至少第一部分，该第二信号分量取决于该空间音频图像的不同于该第一部分的至少第二部分；

对该第二信号分量的该多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量，同时使得该第一信号分量能够旁路跨声道混音；以及

将该第一信号分量和该修改的第二信号分量组合成输出音频信号，该输出音频信号包括被配置用于由耳机设备渲染的两个输出声道。

根据各种但不一定是全部示例，提供了一种用于处理包括至少一个输入声道/多个输入声道的输入音频信号的设备，该设备包括至少一个处理器；至少一个包括计算机程序代码的存储器，所述计算机程序代码当由所述至少一个处理器执行时使所述设备：

跨声道混音该第二信号分量的该多个输入声道中的至少一些以产生修改的第二信号分量，同时使得该第一信号分量能够旁路跨声道混音；以及

根据各种但不一定是全部示例，提供了一种计算机程序，该计算机程序包括被配置为使计算机执行以下操作的计算机可读程序代码：

基于该输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量，其中，该第一信号分量取决于由该输入音频信号传达的空间音频图像的至少第一部分，该第二信号分量取决于该空间音频图像的不同于该第一部分的至少第二部分；对该第二信号分量的该多个输入声道中的至少一些执行跨声道混音以产生修改的第二信号分量，同时使得该第一信号分量能够旁路跨声道混音。

根据各种但不一定是全部示例，提供了一种用于处理包括多个声道的输入音频信号以产生被配置用于由耳机设备渲染以产生空间音频图像的两声道输出音频信号的设备，该设备包括：

用于处理包括多个声道的输入音频信号以产生被配置用于由耳机设备渲染的两声道输出音频信号的装置；

用于空间处理该输入音频信号以在该空间音频图像的外围位置而非中央位置添加在该输出音频信号的两个声道中的相干音频事件之间能测量的位置相关耳间时间差和在该输出音频信号的两个声道中的相干音频事件之间能测量的频率相关和位置相关耳间声级差的装置。

在一些但不一定是全部示例中，用于导出该第一和第二信号分量的装置被布置为：

基于该输入音频信号，导出该第一信号分量，该第一信号分量表示驻留在该空间音频图像的该第一部分内的该空间音频图像的相干声音；以及

基于该输入音频信号，导出该第二信号分量，该第二信号分量表示驻留在该空间音频图像的该第二部分内并且在该空间音频图像的该第一部分之外的该空间音频图像的相干声音和该空间音频图像的非相干声音。

在一些但不一定是全部示例中，该空间音频图像的该第一部分包括一个或多个角度范围，该角度范围定义了该空间音频图像内的一组声音到达方向。

在一些但不一定是全部示例中，所述一个或多个角度范围包括定义了以该空间音频图像的前方方向为中央的声音到达，方向范围的角度范围。

在一些但不一定是全部示例中，用于导出该第一和第二信号分量的装置包括：

用于基于该输入音频信号为多个频率子带导出相应的相干性值的装置，该相干性值描述了在相应频率子带中在该输入音频信号的声道之间的相干性；

用于基于根据该空间音频图像的该第一部分的估计声音到达方向为所述多个频率子带导出相应方向系数的装置，该相应方向系数指示在该相应的频率子带中在该估计声音到达方向与该空间音频图像的第一部分之间的关系；

用于基于所述相干性值和方向系数为所述多个频率子带导出相应的分解系数的装置；以及

使用该分解系数将该输入音频信号分解为该第一和第二信号分量的装置。

在一些但不一定是全部示例中，用于导出该方向系数的装置被布置为对于所述多个频率子带：

响应于频率子带的该估计声音到达方向驻留在该空间音频图像的该第一部分内，将该频率子带的该方向系数设置为非零值；以及

响应于频率子带的该估计声音到达方向驻留在该空间音频图像的该第二部分内，将该频率子带的该方向系数设置为零值。

在一些但不一定是全部示例中，用于确定该分解系数的装置被布置为：对于所述多个频率子带，将该相应分解系数导出为该相干性值和针对相应频率子而导出的方向系数的乘积。

在一些但不一定是全部示例中，用于分解该输入音频信号的装置被布置为对于所述多个频率子带：

将每个频率子带中的第一信号分量导出为相应频率子带中的输入音频信号与第一缩放系数的乘积，该第一缩放系数随着针对相应频率子带而导出的分解系数的值的增加而增加；以及

将每个频率子带中的第二信号分量导出为相应频率子带中的输入音频信号与第二缩放系数的乘积，该第二缩放系数随着针对相应频率子带导出的分解系数的值的增加而减小。

在一些但不一定是全部示例中，该设备包括用于在将该第一信号分量与该修改的第二信号分量组合之前将该第一信号分量延迟预定时间延迟从而创建在时间上与该修改的第二信号分量对准的延迟的第一信号分量的装置。

在一些但不一定是全部示例中，该设备包括用于在将该第一信号分量与该修改的第二信号分量组合之前修改该第一信号分量的装置，其中，该修改包括基于该第一信号分量生成修改的第一信号分量，其中，在该空间音频图像中平移由该第一信号分量表示的一个或多个声源信号。

在一些但不一定是全部示例中，所述多个输入声道中的每一个包括两个声道。

根据各种但不一定是全部示例，提供了如所附权利要求中要求保护的示例。

根据示例实施例，提供了一种计算机程序，该计算机程序包括计算机可读程序代码，该计算机可读程序代码被配置为当在计算设备上执行所述程序代码时，导致执行至少根据前述示例实施例的方法。

根据示例实施例的计算机程序可以体现在易失性或非易失性计算机可读记录介质上，例如，作为包括其上存储有程序代码的至少一个计算机可读非暂时性介质的计算机程序产品，该程序当由设备执行时得该设备至少执行上文针对根据本发明的示例性实施例的计算机程序描述的操作。

在该专利申请中提出的本发明的示例性实施例不应解释为对所附权利要求的适用性构成限制。动词“包括”及其派生词在本专利申请中用作开放式限制，其不排除也存在未叙述的特征。除非另有明确说明，否则下文所述的特征可以相互自由组合。

本发明的一些特征在所附的权利要求书中提出。然而，当结合附图阅读时，从以下一些示例性实施例的描述中，将最好地理解本发明的方面，关于其构造和其操作方法，以及其另外的目的和优点。

定义

耳机设备是具有在用户的左耳处、上方或之中佩戴的左音频输出设备以及在用户的右耳处、上方或之中佩戴的右音频输出设备的设备。用户在左耳中听到的音频取决于左音频输出设备输出的音频，而不取决于右音频输出设备输出的音频。用户在右耳中听到的音频取决于右音频输出设备输出的音频，而不取决于左音频输出设备输出的音频。耳机以无线方式或通过有线连接接收输入信号。在一些但不一定是全部示例中，耳机设备包括将用户的耳朵与外部环境声音隔离开的声学隔离器。在一些示例中，耳机设备可以包括覆盖用户的耳朵并提供至少一些声学隔离的“罐(can)”。在一些示例中，耳机设备可以包括可变形的“芽(bud)”，其紧密贴合在用户的耳朵内并提供至少一些声学隔离。每个音频输出设备包括将接收的电信号转换为声压波或振动的换能器。

多声道音频信号：在本公开中，使用术语多声道音频信号来指代具有两个或更多个声道的音频信号。

立体声信号：术语立体声信号用于指代立体声音频信号。

环绕声信号：术语环绕声用于指代具有两个以上声道的多声道音频信号。

附图说明

在附图的图中，通过示例而非限制的方式示出了本发明的实施例，其中：

图1A示出了根据示例的用于耳机的音频处理系统的一些元件的框图；

图1B示出了根据示例的用于耳机的音频处理系统的一些元件的框图；

图2示出了根据示例的被应用于实现用于耳机的音频处理系统的设备的一些元件的框图；

图3示出了根据示例的信号分解器的一些元件的框图；

图4示出了根据示例的用于耳机的重新平移器的一些元件的框图；

图5示出了根据示例的用于耳机的立体声加宽处理器的一些元件的框图；

图6示出了根据示例的描绘用于耳机的音频处理的方法的流程图；以及

图7示出了根据示例的设备的一些元件的框图。

具体实施方式

在下面的示例中，公开了一种用于处理包括多个声道的输入音频信号101的设备100、100′、50，该设备100、100′、50包括：用于基于输入音频信号101来导出包括至少一个输入声道的第一信号分量105-1和包括多个输入声道的第二信号分量105-2的装置104，其中，第一信号分量105-1取决于由输入音频信号101传达的空间音频图像的至少第一部分，第二信号分量105-2取决于空间音频图像的至少不同于第一部分的第二部分；用于对多个输入声道跨声道混音的跨声道混音装置112、112′；用于将第二信号分量105-2引导到跨声道混音装置112、112′用于对第二信号分量105-2的多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量113、113′的装置104；用于使得第一信号分量105-1能够旁路跨声道混音装置112、112′的旁路装置104、106；用于将第一信号分量111、111′和修改的第二信号分量113、113′组合成输出音频信号115的装置114、114′，该输出音频信号115包括被配置用于由耳机设备20渲染的两个输出声道。

图1A示出了音频处理系统100的一些组件和/或实体的框图，音频处理系统100可以用作本公开中描述的音频处理技术的各种实施例的框架。音频处理系统100获得立体声音频信号作为输入信号101，并提供具有至少部分加宽的空间音频图像的立体声音频信号作为输出信号115。以下将输入信号101和输出信号115分别称为立体声信号101和加宽立体声信号115。在涉及音频处理系统100的以下示例中，除非另有明确说明，否则将这些信号中的每一个假设为相应的两声道立体声音频信号。此外，除非另外明确指出，否则基于输入信号101导出的每个中间音频信号同样分别是相应的两声道音频信号。

然而，音频处理系统100容易地概括为一种能够处理空间音频信号(即具有两个以上声道的多声道音频信号，例如5.1声道空间音频信号或7.1声道空间音频信号)的系统，其某些方面也将在下面提供的示例中进行描述。

音频处理系统100还可以接收控制输入10和目标声源(虚拟扬声器)位置的指示12。

根据图1A所示的示例的音频处理系统100包括：用于将立体声音频信号101从时域转换成变换域立体声信号103的变换实体(或变换器)102；用于基于变换域立体声信号103导出表示空间音频图像的焦点部分的第一信号分量105-1和表示空间音频图像的非焦点部分的第二信号分量105-2的信号分解器104；用于基于第一信号分量105-1生成修改的第一信号分量107的重新平移器106，其中，根据目标配置将空间音频图像的焦点部分中表示的一个或多个声源进行重新定位；用于将修改的第一信号分量107从变换域转换为时域修改的第一信号分量109-1的逆变换实体108-1；用于变换将第二信号分量105-2从变换域转换为时域第二信号分量109-2的逆变换实体108-2；用于将修改的第一信号分量109-1延迟预定的时间延迟的延迟单元110；用于基于第二信号分量109-2生成修改的第二信号分量113的立体声加宽(用于耳机)处理器112，其中，空间音频图像的宽度从第二信号分量109-2的宽度扩展；以及用于将延迟的第一信号分量111和修改的第二信号分量113组合成加宽立体声信号115的信号组合器114，该加宽立体声信号115传达部分扩展的空间音频图像。

图1B示出了音频处理系统100′的一些组件和/或实体的框图，音频处理系统100′是图1A所示的音频处理系统100的变型。在音频处理系统100′中，与音频处理系统100的区别在于省略了逆变换实体108-1和108-2，将延迟元件110替换为用于将修改的第一信号分量100延迟成延迟的修改的第一信号分量111′的可选延迟元件110′，将立体声加宽处理器112替换为用于基于变换域第二信号分量105-2生成修改的(变换域)第二信号分量113′的立体声加宽处理器112′，并且将信号组合器114替换为用于将延迟的修改的第一信号分量111′和修改的第二信号分量113′组合成变换域中的加宽立体声信号115′的信号组合器114′。此外，音频处理系统100′包括用于将加宽立体声信号115′从变换域转换为时域加宽立体声信号115的变换实体108′。在省略可选延迟元件110′的情况下，信号组合器114′接收修改的第一信号分量107(而不是其延迟版本)，并且进行操作以将修改的第一信号分量107与修改的第二信号分量113′组合以创建变换域加宽立体声信号115′。

在下文中，主要通过与根据图1A的示例的音频处理系统100及其实体有关的示例来描述本公开中描述的音频处理技术，而音频处理系统100′及其实体在适用时被分开地描述。在进一步示例中，音频处理系统100或音频处理系统100′可以包括进一步的实体，并且/或者图1A和1B中所示的某些实体可以省略或与其他实体组合。特别地，图1A和图1B以及随后的图2至图5用于示出相应实体的逻辑组件，并且因此不对相应实体的实施方式应用结构上的限制，而是例如相应硬件装置、相应软件装置或硬件装置和软件装置的相应组合可以应用于与实体的其他逻辑组件分离地实现该实体的任何逻辑组件，以实现实体的两个或更多个逻辑组件的任何子组合，或组合地实现实体的所有逻辑组件。

音频处理系统100、100′可以由一个或多个计算设备实现，并且所得到的加宽立体声信号115可以被提供用于经由耳机设备播放。通常，音频处理系统100、100′被实现在任何类型的计算设备中，例如便携式手持设备、台式计算机、服务器设备等。便携式手持设备的示例包括移动电话、媒体播放器设备、平板计算机、膝上型计算机等。计算设备也可以用于通过耳机设备播放加宽立体声信号115。在另一示例中，在耳机设备中提供音频处理系统100、100′，并且在耳机设备中提供加宽立体声信号115的播放。在另一示例中，在第一设备中提供音频处理系统100、100′的第一部分，而在耳机设备中提供音频处理系统100、100′的第二部分和加宽立体声信号115的播放。

图2示出了实现音频处理系统100或音频处理系统100′的便携式手持设备50的一些组件和/或实体的框图。为了描述的简洁和清楚起见，在下面的描述中，假设在设备50中提供了音频处理系统100、100′的元件以及所得到的加宽立体声信号的播放。设备50还包括用于存储信息(例如立体声信号101)的存储器设备52，以及用于与其他设备进行通信并可能从其接收立体声信号101的通信接口54。设备50可选地还包括音频预处理器56，该音频预处理器56可被用于在将立体声信号101提供给音频处理系统100、100′之前对从存储器52读取或经由通信接口54接收的立体声信号101进行预处理。例如，音频预处理器56可以将以编码格式存储的音频信号解码为时域立体声音频信号101。

仍参考图2，音频处理系统100、100′还可以从音频预处理器56或经由音频预处理器56，与立体声信号101一起接收第一控制输入10和指示12。

控制输入12用于控制信号分解104和/或重新平移106和/或立体声加宽112、112′。在以下描述中提供了更多细节。

指示12指示目标声源(虚拟扬声器)的位置。有效地，这意味着如果输入音频信号将由扬声器再现时扬声器的位置。

虚拟扬声器位置通常与输入音频信号的扬声器格式匹配。对于立体声输入信号，虚拟扬声器位置可以例如对应于相对于前方方向+/-30度的扬声器角度。对于多声道音频信号，例如对于5.1，这些角度通常为0、+/-30和+/-110度。但是，实践中，虚拟扬声器位置可以具有任何有意义的值。目标声源位置指示也可以通过其他方式(通过用户接口)提供，可以是硬编码值，也可以省略。在至少一些示例中，指示12被用于控制信号分解104。在一些但不一定是全部示例中，其可以被用于立体声加宽112。

音频处理系统100、100'将在其中导出的加宽立体声信号115提供给用于与耳机设备20进行通信的接口以用于渲染。

耳机设备20是具有在用户的左耳处、上方或之中佩戴的左音频输出设备21以及在用户的右耳处、上方或之中佩戴的右音频输出设备22的设备。用户在左耳中听到的音频取决于左音频输出设备21输出的音频，而不取决于右音频输出设备22输出的音频。用户在右耳中听到的音频取决于右音频输出设备22输出的音频，而不取决于左音频输出设备21输出的音频。耳机设备20无线地或通过有线连接来接收输入信号。在一些但不一定是全部示例中，耳机设备20包括将用户的耳朵与外部环境声学隔离开的声学隔离器23。在一些示例中，耳机设备可以包括左右“罐”23，其覆盖用户的耳朵，容纳相应的音频输出设备21、22并提供至少一些声学隔离。在一些示例中，耳机设备可以包括可变形的“芽”，其紧密贴合在用户的相应左耳和右耳内、围绕相应的音频输出设备21、22并提供至少一些声学隔离。

每个音频输出设备21、22包括将接收的电信号转换为声压波或振动的换能器。

立体声信号101可以例如通过从设备50中的存储器或大容量存储设备读取立体声信号，而在信号处理系统100、100′处被接收。在另一个示例中，立体声信号是经由通信接口(例如网络接口)从将立体声信号存储在存储器中的另一设备或从设置在其中的大容量存储设备获得的。可以提供加宽立体声信号115以用于由耳机设备20渲染。附加地或替代地，可以将加宽立体声信号115存储在设备50中的存储器或大容量存储设备中和/或经由通信接口向另一设备提供以存储在其中。

定义虚拟扬声器位置的信息12可用于控制立体声加宽处理，以便在所需位置处感知音频源，该位置也可以在耳机的物理位置之外的位置。该处理可以包括维持在耳机的物理位置之间的一些部分(诸如空间音频图像的焦点部分)。

音频处理系统100、100′可以被布置为处理被布置成输入帧序列的立体声信号101，每个输入帧包括针对每个声道的相应数字音频信号段，被提供为采用预定采样频率的相应的输入样本时间序列。在典型的示例中，音频处理系统100、100′采用固定的预定帧长度。在其他示例中，该帧长度可以是可以从多个预定帧长度中选择的可选帧长度，或者该帧长度可以是可以从预定帧长度范围中选择的可调帧长度。帧长度可以被定义为包括在用于立体声信号101的每个声道的帧中的数量样本L，其以预定采样频率映射到对应的持续时间。作为示例，就这一点而言，音频处理系统100、100′可以采用20毫秒(ms)的固定帧长度，该固定帧长度在8、16、32或48kHz的采样频率下分别得出每声道L＝160、L＝320、L＝640和L＝960个样本的帧。该帧可以不重叠，也可以部分重叠。然而，这些值用作非限制性示例，并且取决于例如所需的音频带宽、所需的成帧延迟和/或可用的处理能力，可以代替使用与这些示例不同的帧长度和/或采样频率。

再次参考图1A和1B，音频处理系统100、100′可以包括变换实体102，该变换实体被布置为将立体声信号101从时域转换成变换域立体声信号103。通常，变换域涉及频域。在示例中，变换实体102采用短时离散傅立叶变换(STFT)，以使用预定分析窗口长度(例如20毫秒)将立体声信号101的每个声道转换为变换域立体声信号103的相应声道。在另一示例中，变换实体102采用(分析)复调制正交镜滤波器(QMF)库以用于时频域转换。在这一点上，STFT和QMF库用作非限制性示例，并且在进一步示例中，可以采用本领域中已知的任何合适的变换技术来创建变换域立体声信号103。

变换实体102可以进一步将每个声道划分为多个频率子带，从而得到变换域立体声信号103，该变换域立体声信号103为立体声信号101的每个声道提供相应的时频表示。给定帧中的频带可以被称为时频图块(tile)。可以例如根据所需的频率分辨率和/或可用的计算能力，来选择频率子带的数量和频率子带的相应带宽。在示例中，子带结构涉及根据本领域已知的Bark比例(Bark scale)、等效矩形带(ERB)比例或第三个八度音阶比例(octaveband scale)的24个频率子带。在其他示例中，可以采用具有相同或不同带宽的不同数量的频率子带。在这方面的一个具体示例是覆盖整个输入频谱或其连续子集的单个频率子带。

表示变换域立体声信号103的声道i的时间帧n中的频率仓b的时频图块可以标示为S(i，b，n)。声道i表示单个虚拟扬声器或输入声道。变换域立体声信号103(例如时频图块S(i，b，n))被传递到信号分解器104以分解成其中的第一信号分量105-1和第二信号分量105-2。如前所述，多个连续的频率仓可以被分组为一个频率子带，从而提供多个频率子带k＝0，…，K-1。对于每个频率子带k，最低仓(即表示该频率子带中的最低频率的频率仓)可以标示为b_k，low，最高仓(即表示该频率子带中的最高频率的频率仓)可以标示为b_k，high。

再次参考图1A和1B，音频处理系统100、100′可以包括信号分解器104，该信号分解器104被布置为基于变换域立体声信号103来导出第一信号分量105-1和第二信号分量105-2。在下文中，第一信号分量105-1被称为表示空间音频图像的焦点部分的信号分量，第二信号分量105-2被称为表示空间音频图像的非焦点部分的信号分量。焦点部分表示音频图像中位于前方和中央的部分，可以视为“前方”。非焦点部分表示音频图像中未被焦点部分表示的那些部分(不是前方和中央)，并且因此可以称为空间音频图像的“外围”部分。这里，分解过程不改变声道的数量，并且因此在本示例中，第一信号分量105-1和第二信号分量105-2中的每一个被提供为相应的两声道音频信号。应当注意，在本公开中使用的术语焦点部分和非焦点部分是指派给由立体声信号101表示的空间音频图像的空间子部分的名称，尽管这些名称并不意味着将应用于(或已经被应用于)基础立体声信号101或变换域立体声信号103的任何特定处理，例如以积极强调或不强调由立体声信号101表示的空间音频图像的任何部分。

信号分解器104可以基于变换域立体声信号103来导出第一信号分量105，该第一信号分量105表示在预定焦点范围内的空间音频图像的那些相干声音，因此这些声音构成了空间音频图像的焦点部分。焦点范围可以由控制输入10定义。

相比之下，信号分解器104可以基于变换域立体声信号103来导出第二信号分量105，该第二信号分量105表示空间音频图像的在预定焦点范围之外的相干声源或声音分量以及空间音频图像的所有非相干声源，这样的声源或分量因此构成了空间音频图像的非焦点部分。因此，信号分解器104将由立体声信号101表示的声场分解为从随后的立体声加宽处理中排除的第一信号分量105-1和随后经历立体声加宽处理的第二信号分量105-2。

图3示出了根据示例的信号分解器104的一些组件和/或实体的框图。如图3所示，信号分解器104可以在概念上划分为分解分析器104a和信号划分器126。在下文中，将更详细地描述根据图3的示例的信号分解器104的实体。在其他示例中，信号分解器104可以包括进一步的实体，并且/或者图3中描绘的一些实体可以被省略或与其他实体组合。

信号分解器104可以包括相干分析器116，用于基于变换域立体声信号103来估计描述在变换域立体声信号103的声道之间的相干性的相干性值117。相干性值117被提供用于分解系数确定器124以用于在其中进一步处理。

相干性值117的计算可以涉及基于表示变换域立体声信号103的时频图块S(i，b，n)来导出对于多个时间帧n中的多个频率子带k的相应相干性值γ(k，n)。作为示例，相干性值117可以例如根据等式(3)来计算：

其中，Re表示实部算子，*表示复共轭。

当声道的音频受两个声道共同的音频事件支配时，术语γ(k，n)具有很大的价值。共同的音频事件通常会导致整个频率仓b上的复杂相量分布。对于频带内的所有频率仓，在完全相干(即，γ(k，n)＝1))的情况下，两个声道的相位都相同。

仍然参考图3，信号分解器104可以包括能量估计器118，用于基于变换域立体声信号103来估计变换域立体声信号103的能量。能量值119被提供给方向估计器120以用于其中的方向角估计。

能量值119的计算可以涉及基于时频图块S(i，b，n)来导出多个时间帧n中的多个音频声道i中的多个频率子带k的相应能量值E(i，k，n)。作为示例，可以例如根据等式(4)计算能量值E(i，k，n)：

仍然参考图3，信号分解器104可以包括方向估计器120，该方向估计器120用于根据在立体声信号101中应用的目标虚拟扬声器配置来基于能量值119估计立体声信号101所表示的声音的可感知到的到达方向。方向估计可以包括根据目标虚拟扬声器位置来基于能量值计算方向角121，该方向角121被提供用于焦点估计器122以在其中进一步分析。

目标声源(虚拟扬声器)配置也可以称为(立体声信号101的)声道配置。该信息可以例如从立体声信号101所伴随的元数据12(例如包括在其中存储立体声信号101的音频容器中的元数据)中获得。在另一示例中，可以经由设备50的用户接口接收(作为用户输入)定义应用于立体声信号101中的目标虚拟扬声器配置的信息。目标虚拟扬声器配置可以通过针对立体声信号101每个声道指示相对于假设的收听点的相应目标虚拟扬声器位置来定义。作为示例，虚拟扬声器的目标位置可以包括目标方向，该目标方向可以被定义为相对于参考方向(例如，前方方向方向)的角度。因此，例如在两声道立体声信号的情况下，目标虚拟扬声器配置可以被定义为相对于左、右虚拟扬声器的前方方向的相应的目标角度∝_in(1)和∝_in(2)。相对于前方方向的目标角∝_in(i)可以替代地由单个目标角∝_in指示，该单个目标角定义了相对于前方方向方向的目标角的绝对值，例如使得∝_in(1)＝∝_in并且∝_in(2)＝-∝_in。

在进一步示例中，在音频处理系统100、100′中没有接收到指示12，并且利用定义了应用于立体声信号101中的目标虚拟扬声器配置的信息的音频处理系统100、100′的元件(信号分解器104、重新平移器106)在这方面替代地应用预定信息。在这方面的示例涉及应用固定的预定目标虚拟扬声器配置。另一示例涉及根据所接收的立体声信号101中的音频声道的数量来选择多个预定目标虚拟扬声器配置中的一个。在这方面的非限制性示例包括响应于两声道信号101(其因此被假设为两声道立体声音频信号)选择其中声道相对于前方方向为±30度的目标虚拟扬声器配置，和/或响应于六声道信号(其因此被假设为表示5.1声道环绕声信号)选择其中声道相对于前方方向以0度、±30度和±110度的目标角度∝_in(i)定位并辅以低频效果(LFE)声道的目标虚拟扬声器配置。

方向估计器120被配置为估计由立体声信号101表示的声音的可感知的到达方向。方向估计可以涉及基于估计的能量E(i，k，n)和目标虚拟扬声器位置∝_ig(i)为多个时间帧n中的多个频率子带k导出相应的方向角121，θ(k，n)，从而指示在输入帧的频率子带中的声音的所估计的感知到达方向。方向估计可以例如根据等式(5)和(6)使用切线定律进行，其中，基本假设是将立体声信号101表示的声场中的声源使用幅度平移布置成在所需的空间位置中(到显著的程度)：

其中

其中，∝_in表示分别定义左虚拟扬声器和右虚拟扬声器相对于前方方向的目标位置的目标角度∝_in(1)和∝_in(2)的绝对值，左虚拟扬声器和右虚拟扬声器在本示例中相对于前方方向被对称(且等距)定位。在其他示例中，左虚拟扬声器和右虚拟扬声器的目标位置可以相对于前方方向非对称地定位(例如，使得|∝_in(1)|≠|∝_in(2)|)。对等式(5)的修改使得其解决了这一方面，对于本领域技术人员而言这是简单的任务。

例如，在非对称(虚拟)扬声器位置的情况下，等式(5)的修改可以如下执行。首先，计算扬声器之间的一半角度：

接下来，计算扬声器之间的中央点：

使用这些值，对于非对称情况，等式(5)可以表示为

其中，g₁和g₂在等式(6)中计算。

仍然参考图3，信号分解器104可以包括焦点估计器122，焦点估计器122用于根据空间音频图像内的定义的焦点范围来基于立体声信号101所表示的声音的估计的可感知到达方向(方向角121)确定一个或多个焦点系数123，其中，焦点系数123指示在声音的估计到达方向(方向角121)与焦点范围之间的关系。焦点范围可以例如被定义为空间音频图像中的单个角度范围、或两个或更多个角度子范围。换句话说，焦点范围可以被定义为空间音频图像内的声音的到达方向的集合。焦点范围可以由控制输入10定义。

焦点估计器122可以至少部分地基于方向角121来导出焦点系数123。焦点估计器122可以可选地还接收应用于立体声信号101中的目标虚拟扬声器配置的指示12，并进一步根据该信息来计算焦点系数123。焦点系数123被提供给分解系数确定器124以在其中进一步处理。

通常，焦点范围的一个或多个角度范围定义了这样的到达方向集合，该到达方向集合覆盖了围绕空间音频图像的中央的定义部分从而将焦点估计渲染为“前方”估计。焦点估计可以涉及例如根据等式(7)，基于方向角121θ(k，n)来导出多个时间帧n中的多个频率子带k的相应的焦点(前方)系数χ(k，n)：

在等式(7)中，第一阈值θ_Th1和第二阈值θ_Th2，其中θ_Th1＜θ_Th2，用于定义主(中央)角焦点范围(在前方方向周围的角度-θ_Th1至θ_Th1之间)、辅角焦点范围(相对于前方方向从-θ_Th2至-θ_Th1和从θ_Th1至θ_Th2)和非焦点范围(相对于前方方向在-θ_Th2和θ_Th2之外)。定义焦点范围的系数θ_Th1θ_Th2可以由控制输入10定义。

作为非限制性示例，可以将第一阈值和第二阈值设置为θ_Th1＝5°和θ_Th2＝15°，而在其他示例中，可以使用不同的阈值θ_Th1和θ_Th2来代替。因此，根据等式(7)的焦点估计应用包括两个角度范围(即，主角焦点范围和辅角焦点范围)的焦点范围，并且响应于声源方向驻留在主角焦点范围内将焦点系数χ(k，n)设置为统一值(unity)，并响应于声源方向驻留在焦点范围.之外将焦点系数χ(k，n)设置为零，而声源方向的预定函数被应用于响应于声源方向驻留在辅角焦点范围内将焦点系数χ(k，n)设置为介于统一值和0之间的值。通常，响应于声源方向驻留在焦点范围内，将焦点系数χ(k，n)设置为非零值，并且响应于感知的声源方向(方向角121θ(k，n)，)驻留在焦点范围外，将焦点系数χ(k，n)设置为零值。在示例中，可以修改等式(7)，使得不应用辅角焦点范围，因此可以仅应用单个阈值来定义焦点范围和非焦点范围之间的限制。

沿着前面所述的思路，焦点范围可以被定义为一个或多个连续的不重叠角焦点范围。作为示例，焦点范围可以包括单个定义的角度范围、或两个或更多个定义的角度范围。

根据另一示例，焦点范围中的至少一个是可选的，例如使得可以根据与立体声输入信号12相关联的目标(或假设)虚拟扬声器配置以及控制输入10中存在的焦点范围参数选择或调整角焦点范围(例如，通过选择或调整定义相应的角焦点范围的一个或多个阈值)。例如，控制信息可用于控制将发送声音图像的多大部分(或什么角度)以加宽。

仍然参考图3，信号分解器104可以包括分解系数确定器124，分解系数确定器124用于基于相干性值117和焦点系数123来导出分解系数125。分解系数125被提供给信号划分器126以用于在其中分解变换域立体声信号103。

信号划分器126被配置为基于变换域立体声信号103和分解系数125导出表示空间音频图像的焦点部分的第一信号分量105-1和表示空间音频图像的非焦点部分(例如“外围”部分)第二信号分量105-2。

分解系数确定旨在的为频率子带k和帧n的分解系数β(k，n)提供较高值，该较高值表现出立体声信号101的声道之间的较高相干性，并传达在空间音频图像的焦点部分内的方向性声音分量(参见前面的焦点估计器122的描述)。就这一点而言，分解系数确定可以涉及基于相应的相干性值γ(k，n)和相应的焦点系数χ(k，n)，例如根据等式(8)导出多个时间帧n中的多个频率子带k的相应分解系数β(k，n)：

β(k，n)＝γ(k，n)χ(k，n).(8)

在示例中，可以应用分解系数β(k，n)，作为例如被提供给信号划分器126以在其中分解变换域立体声信号103的分解系数125。

在另一示例中，基于能量的时间平滑被应用于从等式(8)获得的分解系数β(k，n)，以便导出平滑的分解系数β′(k，n)，其可以被提供给信号划分器126以被应用于在其中分解变换域立体声信号103。分解系数的平滑导致指派给第一信号分量105-1和第二信号分量105-2的空间音频图像的子部分随时间的变化较慢，这可以通过避免其中的空间音频图像中的小规模波动在所得的加宽立体声信号中实现改善的可感知质量。例如，根据等式(9a)，可以提供提供基于能量的时间平滑的加权：

β′(k，n)＝A(k，n)/B(k，n)， (9a)

其中

其中，E(k，n)表示在时间帧n中的频率子带k的变换域立体声信号103的总能量(例如，基于使用等式(4)导出的能量E(i，k，n)可导出)，并且a和b(其中，优选地，a+b＝1)表示预定加权因子。可以通过控制输入10定义基于能量的时间平滑(a和b)的加权因子。作为非限制性示例，可以应用值a＝0.2和b＝0.8，而在其他示例中，可以代替地应用0到1范围内的其他值。

仍然参考图3，信号分解器104可以包括信号划分器126，信号划分器126用于基于变换域立体声信号103和分解系数125来导出表示空间音频图像的焦点部分的第一信号分量105-1和表示空间音频图像的非焦点部分(例如“外围”部分)的第二信号分量105-2。

作为示例，可以根据等式(10a)，基于时频图块S(i，b，n)，对多个时间帧n内的多个声道i中的多个频率子带k进行信号分解：

其中，S_dr(i，b，n)表示在表示空间音频图像的焦点部分的第一信号分量105-1的声道i的时间帧n中的频率仓b，

S_sw(i，b，n)表示空间音频图像的非焦点部分(例如“外围”部分)的第二信号分量105-2的声道i时间帧n中的频率仓b，

p表示预定常数参数(例如p＝0.5或1)，以及

β(b，n)等于频率子带k内每个频率仓b的分解系数β(k，n)。

信号划分器126创建表示空间音频图像的焦点部分的第一信号分量105-1和表示空间音频图像的非焦点部分(例如“外围”部分)的第二信号分量105-2，但是，它不一定将时频图块S(i，b，n)放入第一信号分量105-1或第二信号分量105-2中。如在该示例中那样，它可以取决于分解系数β(k，n)在第一信号分量105-1或第二信号分量105-2中的一个中更重地缩放或加权时频图块S(i，b，n)的贡献。

等式(9)中的缩放系数β(b，n)^p可以被替换为另一缩放系数，该另一缩放系数随着分解系数β(b，n)的值增加而增加(并且随着分解系数β(b，n)的值减小而减小)，并且等式(10a)中的缩放系数(1-β(b，n))^p可以被替换为另一缩放系数，该另一缩放系数随分解系数β(b，n)的值增加而减小(并随分解系数β(b，n)的值减小而增加)。

在另一个示例中，可以根据等式(10b)，基于时频图块S(i，b，n)，针对在多个时间帧n中的多个声道i中的多个频率子带k进行信号分解：

其中，β_Th表示定义的阈值，其值在0到1的范围内，例如β_Th＝0.5。信号分解参数β_Th可以由控制输入10定义。如果应用等式(10b)，则在上文中描述的分解系数125的时间平滑和/或所得信号分量S_sw(i，b，n)和S_dr(i，b，n)的时间平滑可以有利于改善所得到的加宽立体声信号115的可感知质量。

根据等式(8)的分解系数β(k，n)是在时频图块的基础上导出的，而等式(10a)和(10b)是在频率仓基础上应用分解系数β(b，n)。就这一点而言，针对频率子带k导出的分解系数β(k，n)可以应用于频率子带k内的每个频率仓b。

因此，变换域立体声信号103在每个时频图块S(i，b，n)中被划分为第一信号分量105-1和第二信号分量105-2，第一信号分量105-1表示位于由立体声信号101表示的空间音频图像的焦点部分中的声音分量，第二信号分量105-2表示位于由立体声信号101表示的空间音频图像的焦点部分之外的声音分量。第一信号分量105-1随后被提供用于播放而不对其应用立体声加宽，而第二信号分量105-2随后被提供用于在经历立体声加宽之后进行播放。

再次参考图1A和1B，音频处理系统100、100′可以包括重新平移器106，其被布置为基于第一信号分量105-1生成修改的第一信号分量107，其中，由第一信号分量105-1表示的一个或多个声源在空间音频图像中被重新定位。

图4示出了根据示例的重新平移器106的一些组件和/或实体的框图。在下文中，更详细地描述了根据图4的示例的重新平移器106的实体。在其他示例中，重新平移器106可以包括进一步实体，并且/或者图4中描绘的一些实体可以省略或与其他实体组合。

重新平移器106可以包括用于估计第一信号分量105-1的能量的能量估计器128。为方向估计器130和重新平移增益确定器136提供能量值129，以在其中进行进一步处理。能量值计算可以涉及基于时频图块S_dr(i，b，n)来导出对于多个时间帧n中的多个音频声道i(多个虚拟扬声器)中的多个频率子带k的相应能量值E_dr(i，k，n)。作为示例，可以例如根据等式(11)计算能量值E_dr(i，k，n)：

在另一个示例中，在能量估计器118中计算出的能量值119(例如根据等式(4))可以在重新平移器106中重新使用，从而在重新平移器106中省去了专用的能量估计器128。即使信号分解器104的能量估计器118基于变换域立体声信号103而不是第一信号分量105-1估计能量值119，能量值119也使得方向估计器130和重新平移增益确定器136能够正确操作。

仍然参考图4，重新平移器106可以包括方向估计器130，该方向估计器130用于根据在立体声信号101中应用的目标虚拟扬声器配置来基于能量值129估计由第一信号分量105-1表示的声音的可感知到达方向。方向估计可以包括：根据目标虚拟扬声器位置来基于能量值129计算方向角131，该方向角131被提供给方向调整器132以在其中进行进一步处理。

方向估计可以涉及基于估计的能量E_dr(i，k，n)和目标虚拟扬声器的位置∝_in(i)，为多个时间帧n中的多个频率子带k导出相应的方向角131θ_dr(k，n)。方向角131θ_dr(k，n)指示第一信号分量105-1的频率子带中的声音的估计的感知到达方向(方向角131)。方向估计可以例如根据等式(12)和(13)进行：

其中

在另一示例中，在能量估计器128中计算的方向角121(例如，根据等式(5)和(6))可以在重新平移器106中被重新使用，从而在重新平移器106中省去了专用的方向估计器130。即使信号分解器104的方向估计器120基于从变换域立体声信号103而非第一信号分量105-1导出的能量值119估计方向角121，声源位置角是相同或基本相同的，并且因此方向角121使得方向调整器132能够正确操作。

仍然参考图4，重新平移器106可以包括方向调整器132，方向调整器132用于修改由第一信号分量105-1表示的声音的估计的可感知到达方向(方向角131)。方向调整器132可以基于方向角131导出修改的方向角133。修改的方向角133被提供给平移增益确定器134以在其中进一步处理。

方向调整可以包括根据控制信息10，将当前估计的可感知到达方向(方向角131)映射到相应的修改的方向角133，该相应的修改的方向角133表示声音的新的调整的可感知到达方向。

可通过确定映射系数μ，来提供在当前估计的可感知到达方向(方向角131)和新的调整的可感知到达方向(修改的方向角132)之间的映射，该映射系数可被应用于例如根据等式(15)为多个时间帧n中的多个频率子带k导出相应的修改的方向角θ′(k，n)。

θ′(k，n)＝μθ(k，n). (15)

用于平移的映射系数μ的值可以通过控制输入10明确定义。

如果立体声加宽112将信号105-2“加宽”一定量，则重新平移器106通过重新平移相同量将信号105-1加宽。作为实际示例，立体声加宽112可以加宽信号，使得最初在5度的位置处的声源在加宽之后被感知到在与原始信号中的10度相对应的位置处。因此，控制信息10可以具有这样的信息：需要以因子2(μ＝2)进行重新平移，使得重新平移的音频107的位置与立体声加宽音频113的位置匹配。

根据等式(14)和(15)确定映射系数μ和导出修改的方向角θ′(k，n)用作非限制性示例，并且可以替代地采用用于导出修改的方向角133的不同过程。

仍然参考图4，重新平移器106可以包括用于基于修改的方向角133来计算一组平移增益135的平移增益确定器134。平移增益确定可以包括例如使用本领域已知的矢量基振幅平移(VBAP)技术来基于修改的方向角θ′(k，n)来计算对于多个时间帧n中的多个音频声道i中的多个频率子带k的相应平移增益g′(i，k，n)。

例如，平移增益g′(i，k，n)可以基于切线定律来导出：

仍然参考图4，重新平移器106可以包括用于基于平移增益135和能量值129来导出重新平移增益137的重新平移增益确定器136。重新平移增益137被提供给重新平移处理器138用于在其中导出修改的第一信号分量107。

重新平移增益确定过程可以包括例如根据等式(18)计算对于多个时间帧n中的多个频率子带k的相应总能量E_s(k，n)：

E_s(k，n)＝∑_iE_dr(i，k，n). (18)

重新平移增益确定还可包括例如根据等式(19)，基于总能量E_s(k，n)和平移增益g′(i，k，n)，计算对于多个时间帧n中的多个音频声道i中的多个频率子带k的相应目标能量E_t(i，k，n)：

E_t(i，k，n)＝g′(i，k，n)²E_s(k，n). (19)

可以将目标能量E_t(i，k，n)与能量值E_dr(i，k，n)一起应用，以例如根据等式(20)导出在多个时间帧n中的多个音频声道i中的多个频率子带k的相应重新平移增益：

在示例中，从等式(20)获得的重新平移增益g_r(i，k，n)可以被应用为诸如重新平移增益137，该重新平移增益137被提供给重新平移处理器138以在其中导出修改的第一信号分量107。在另一示例中，将基于能量的时间平滑被应用于从等式(20)获得的重新平移增益g_r(i，k，n)，以导出平滑的重新平移增益g′_r(i，k，n)，其可以提供给重新平移处理器138以在其中应用于重新平移。重新平移增益g_r(i，k，n)的平滑导致在指派给第一信号分量105-1的空间音频图像的子部分内随着时间的变化变慢，这可以通过在其中避免在加宽空间音频图像的相应部分中的小规模波动而提高在所得的加宽立体声信号115中可感知的质量。

仍然参考图4，重新平移器106可以包括重新平移处理器138，重新平移处理器138用于基于第一信号分量105-1依赖重新平移增益137来导出修改的第一信号分量107。在所得的修改的第一信号分量107中，根据在方向调整器132中导出的修改的方向角132，对空间音频图像的焦点部分中的声源进行重新定位(即重新平移)，以解决在耳机上直接再现立体声信号和在耳机上再现立体声加宽112处理的立体声信号之间的(可能)差异。修改的第一信号分量107的声道被提供给逆变换实体108-1，以用于在其中进行从变换域到时域的转换。

导出修改的第一信号分量107的过程可以包括例如根据等式(21)，依赖于重新平移增益g_r(i，b，n)，基于第一信号分量105-1的对应时频图块S_dr(i，b，n)导出对于多个时间帧n中的多个音频声道i中的多个频率仓b的相应时频图块S_dr，rp(i，b，n)：

S_dr，rp(i，b，n)＝g_r(i，b，n)S_dr(i，b，n). (21)

根据等式(20)的重新平移增益g_r(i，k，n)是在时频图块基础上导出的，而等式(21)在频率仓基础上应用重新平移增益g_r(i，k，n)。就这一点而言，可以将针对频率子带k导出的重新平移增益g_r(i，k，n)应用于频率子带k内的每个频率仓b。

在其他示例中，平移可以对每个时频图块S(i，b，n)应用将受控增益g_r(i，b，n)、受控混响或去相关以及可选地受控延迟的不同组合，以产生修改的第一信号分量107的声道。混响或去相关通常仅在低声级处添加。

在一些实施例中，修改的第一信号分量107可以被划分为两个路径(例如，使用在控制信息10中接收的变量)。使用混响或去相关处理第二路径中的信号。第一路径中的信号未经处理且没有任何跨声道混音就被向前传递。两个路径中的信号被组合，例如通过对其求和。

返回参考图1A，音频处理系统可以包括逆变换实体108-1，该逆变换实体108-1被布置为将修改的第一信号分量107的声道从变换域变换(返回)到时域，从而提供时域修改的第一信号分量109-1。沿着类似的思路，音频处理系统100可以包括逆变换实体108-2，该逆变换实体被布置为将第二信号分量105-2的声道从变换域变换(返回)到时域，从而提供时域第二信号分量109-2。逆变换实体108-1和逆变换实体108-2两者都利用适用的逆变换，该逆变换反转在变换实体102中执行的时间到变换域的转换。作为这方面的非限制性示例因此，逆变换实体108-1、108-2可以应用逆STFT或(合成)QMF库来提供逆变换。所得的时域修改的第一信号分量109-1可以被表示为S_dr(i，m)，而所得的时域第二信号分量109-2可以被表示为S_sw(i，m)，其中，i表示声道，并且m表示时间索引(即样本索引)。

再次参考图1B，如上所述，在音频处理系统100′中，省略了逆变换实体108-1、108-2，并且将修改的第一信号分量107作为变换域信号提供给(可选的)延迟元件110′，变换域第二信号分量105-2作为变换域信号被提供给立体声加宽处理器112′。

返回参考图1A，音频处理系统100可以包括被布置为基于第二信号分量109-2生成修改的第二信号分量113的立体声加宽处理器112，其中，空间音频图像的宽度是从第二信号分量109-2表示的信号加宽。立体声加宽处理器112可以应用本领域中已知的任何立体声加宽技术来加宽空间音频图像的宽度。在示例中，立体声加宽处理器112将第二信号分量s_sw(i，m)处理为修改的第二信号分量s′_sw(i，m)，其中，第二信号分量s_sw(i，m)和修改的第二信号分量s′_sw(i，m)分别是时域信号。

立体声加宽技术可以涉及将对侧声道信号的处理的(例如，滤波后的)版本添加到立体声信号的左声道和右声道信号中的每一个，以便导出具有加宽空间音频图像的输出立体声信号(加宽立体声信号)。换句话说，将立体声信号的右声道信号的处理版本添加到立体声信号的左声道信号上以创建加宽立体声信号的左声道，将立体声信号的左声道信号的处理版本添加到立体声信号的右声道信号上以创建加宽立体声信号的右声道。导出加宽立体声信号的过程可以进一步涉及在将相应的处理的对侧信号添加到立体声信号之前，对立体声信号的左声道信号和右声道信号中的每个进行预滤波(或以其他方式处理)，以便在加宽立体声信号信号中保留期望的频率响应。

沿着上述思路，立体声加宽容易地概括为加宽多声道输入音频信号的空间音频图像，从而导出具有加宽空间音频图像的输出多声道音频信号(加宽多声道信号)。在这方面，该处理涉及将加宽多声道音频信号的左声道创建为多声道输入音频信号的声道的(第一)滤波版本之和，以及将加宽多声道音频信号的右声道创建为多声道输入音频信号的声道的(第二)滤波版本之和。可以为每对输入声道(多声道输入信号的声道)和输出声道(左和右)提供专用的预定滤波器。作为这方面的示例，可以根据等式(1)基于多声道音频信号S的声道分别定义加宽多声道信号的左和右声道信号S_out，left和S_out，right：

其中，S(i，b，n)表示多声道信号S的声道i的时间帧n中的频率仓b，H_left(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于创建左声道信号S_out，left(b，n)的相应声道分量的滤波器，并且H_right(i，b)表示用于对多声道信号S的声道i的频率仓b进行滤波以创建用于创建右声道信号S_out，right(b，n)的相应声道分量的滤波器。H_left(i，b)和H_right(i，b)是定向滤波器对。

在耳机的立体声加宽中，滤波器H_left(i，b)和H_right(i，b)可以包括HRTF，或者可以在处理链的后面使用HRTF(或BRIR)。在耳机的立体声加宽中，滤波器H_left(i，b)可以是90度的HRTF(即向左)。滤波器H_right(i，b)可以是-90度的HRTF(即向右)。

在耳机的立体声加宽中，滤波器H_left(i，b)可以包括直接(干)部分和包括一个或多个间接(湿)路径的环境部分。

其中，r是直接部分与环境部分之间的比率。

可以通过控制输入10定义直接环境比率r。

直接部分滤波器H_{left，direct}(i，b)可以是90度的HRTF(即向左)。

对于每个时频图决S(i，b，n)，间接部分滤波器H_{left，ambien}t(i，b)可以表示不同的间接路径，每个间接路径具有受控的增益、受控的混响或去相关以及可选地受控的延迟。每个不同的间接路径都使用相应的HRTF处理。通常选择HRTF的方向，以使其覆盖收听者周围的几个方向，从而创建包络和/或宽敞感。不同间接路径的滤波器通常在应用之前组合到单个滤波器H_{left，ambient}(i，b)中。

同样，滤波器H_right(i，b)可以包括直接(干)部分和包括一个或多个间接(湿)路径的环境部分。

其中，r是直接部分与环境部分之间的比率。

直接部分滤波器H_{right，direct}(i，b)可以是-90度(即向右)的HRTF。

对于每个时频图块S(i，b，n)，间接部分滤波器H_{right，ambient}(i，b)可以表示不同的间接路径，每个间接路径具有受控的增益、受控的混响或去相关以及可选地受控的延迟。每个不同的间接路径都使用相应的HRTF处理。通常选择HRTF的方向，以使其覆盖收听者周围的几个方向，从而创建包络和/或空间感。不同间接路径的滤波器通常在应用之前组合到单个滤波器H_{right，ambient}(i，b)中。

可以将目标虚拟扬声器位置指示12可选地提供给立体声加宽块112。于是，可以使用所指示的虚拟扬声器位置来为例如H_left和H_right滤波器选择对应的HRTF，例如为立体声信号，默认选择+/-30度HRTF。但是，为了对立体声信号产生最强的加宽效果，可以替代选择HRTFs到+/-90。概括起来，立体声加宽块112可以将指示的虚拟扬声器位置映射到修改的位置(以获得更强的加宽效果)，然后将其用于导出滤波器H_left和H_right。

图5示出了根据非限制性示例的立体声加宽处理器112的一些组件和/或实体的框图。

立体声加宽处理器112被配置为提供跨声道混音装置，跨声道混音装置用于在对这些声道混音以产生包括两个输出声道(左，右)的修改的第二信号分量113之前，将耳机滤波器H_LL、H_RL、H_LR和H_RR应用于多个输入声道中的每一个，其中，应用于被混音以提供输出声道的输入声道的耳机滤波器H_mn取决于输出声道m的标识和输入声道n的标识。

耳机滤波器H_mn可以包括取决于输出声道m的标识和输入声道n的标识的头部相关变换函数。

输入声道n的耳机滤波器H_mn可被配置为将输入声道的直接渲染版本与输入声道的环境渲染版本混音。在耳机滤波器的混音中，输入声道的直接版本与输入声道的环境版本相比的相对增益可以通过用户能控制的参数r控制。输入声道的耳机滤波器可被配置为将输入声道的单路径直接版本与输入声道的多路径环境版本混音，其中，头部相关变换函数用于形成输入声道的单路径直接版本，并且对于多路径中的每个路径，将间接路径滤波器和头部相关变换函数结合使用，以形成输入声道的多路径环境版本。间接路径滤波器可以包括去相关装置或混响装置。

跨声道混音导致耳机设备的立体声加宽，使得与修改的第二信号分量相关联的空间音频图像的宽度大于在第二信号分量的跨声道混音之前的与第二信号分量相关联的空间音频图像的宽度。

在该示例中，四个滤波器H_LL、H_RL、H_LR和H_RR被应用以创建加宽空间音频图像：修改的第二信号分量113的左声道被创建为由滤波器H_LL滤波后的第二信号分量109-2的左声道与由滤波器H_LR滤波后的第二信号分量109-2的右声道之和，而修改的第二信号分量113的右声道被创建为由滤波器H_RL滤波的第二信号分量109-2的左声道与由滤波器H_RR滤波的第二信号分量109-2的右声道之和。在图5的示例中，立体声加宽过程是基于时域第二信号分量109-2执行的。在其他示例中，可以在变换域中执行立体声加宽过程(例如，利用图5的滤波结构的立体声加宽过程)。在该替代示例中，逆变换实体108-2和立体声加宽处理器112的顺序被改变。

在示例中，立体声加宽处理器112可以设置有专用的滤波器组H_LL、H_RL、H_LR和H_RR，其被设计为产生用于目标虚拟扬声器配置的期望的立体声加宽程度。在另一个示例中，立体声加宽处理器112可以设置有多组滤波器H_LL、H_RL、H_LR和H_RR，每组滤波器被设计为针对目标虚拟扬声器配置产生期望的立体声加宽程度。在后一个示例中，根据指示的目标虚拟扬声器配置选择一组滤波器。在具有多组滤波器的情况下，立体声加宽处理器112可以例如响应于指示的虚拟扬声器位置的变化在滤波器组之间动态切换。有多种方法设计一组滤波器H_LL、H_RL、H_LR和H_RR。

在耳机的立体声加宽中，滤波器H_LL可以是上述滤波器H_left(left，b)，滤波器H_LR可以是上述滤波器H_left(right，b)，滤波器H_RR可以是上述滤波器H_right(right，b)，滤波器H_RL可以是上述滤波器H_right(left，b)。

由空间音频处理器112执行的立体声加宽可以在时域(图1A)或变换域(图1B)中执行。

返回参考图1A，音频处理系统100可以包括延迟元件110，该延迟元件110被布置为将修改的第一信号分量109-1延迟预定的时间延迟，从而创建延迟的第一信号分量111。选择时间延迟，使得它匹配或基本匹配由在立体声加宽处理器112中应用的立体声加宽处理引起的延迟，从而保持延迟的第一信号分量111在时间上与修改的第二信号分量113对准。在示例中，延迟元件110将修改的第一信号分量s_dr(i，m)修改为延迟的第一信号分量s′_dr(i，m)。在图1A的示例中，时间延迟应用于时域。在替代示例中，逆变换实体108-1和延迟元件110的顺序可以改变，从而导致在变换域中应用预定时间延迟。

再次参考图1B，如前所述，在音频处理系统100′中，延迟元件110′是可选的，并且如果包括延迟元件110′，则延迟元件110′被布置为在变换域中操作，换句话说，对修改的第一信号分量107应用预定时间延迟，以在变换域中创建延迟的修改的第一信号分量111′，以提供给组合器信号114′作为变换域信号。从前述内容将理解，如果想要在耳机外部产生对声源的感知，则需要立体声加宽112(使用例如HRTF)。但是，在耳机之间，可以定位声音而无需立体声加宽，例如，可以使用重新平移将声源定位在耳机之间(无法使用此方法将声音定位在耳机外部)。但是，焦点部分仅包含中央附近的声音，因此将它们定位耳机之间就足够了。外围部分113可以包含也在耳机位置之外感知到的声源。焦点部分111不包含在耳机位置之外感知到的声源，但是它们仍可以比它们原始的更宽。

返回参考图1A，音频处理系统100可以包括信号组合器114，该信号组合器114被布置为将延迟的第一信号分量111和修改的第二信号分量113组合为加宽立体声信号115，其中，空间音频图像的宽度为部分地从立体声信号101的宽度扩展的(在外围但不一定是前焦点部分)。作为这方面的示例，可以例如根据等式(22)，将加宽立体声信号115作为延迟的第一信号分量111和修改的第二信号分量113的和、平均值或另一线性组合来导出：

s_out(i，m)＝s′_sw(i，m)+s′_dr(i，m)， (22)

其中，s_out(i，m)表示加宽立体声信号115。

再次参考图1B，如上所述，在音频处理系统100′中，信号组合器114′被布置为在变换域中操作，换句话说，以将(变换域)延迟的修改的第一信号分量113′与(变换域)修改的第二信号分量113′组合成(变换域)加宽立体声信号115′，以提供给逆变换实体108′。逆变换实体108′被布置为将(变换域)加宽立体声信号115′从变换域转换为(时域)加宽立体声信号115。变换实体108′可以以如上文在变换实体108-1、108-2的上下文中描述的类似的方式执行转换。

前面通过多个示例描述的每个示例性音频处理系统100、100′可以以多种方式进一步变化。在下文中，描述了在这方面的非限制性示例。

在上文中，对音频处理系统100、100′的元件的描述是指在多个频率子带k中对相关音频信号的处理。在一个示例中，音频处理系统100、100′的每个元件中的音频信号的处理是在(所有)频率子带k上进行的。在其他示例中，在音频处理系统100、100′的至少某些元件中，音频信号的处理是在有限数量的频率子带k中进行的。作为这方面的示例，可以针对预定数量的最低频率子带k、针对预定数量的最高频率子带k、或针对频率范围的中间的预定频率子带k子集，来执行音频处理系统100、100′的特定元件中的处理，使得从处理中排除第一预定数量的最低频率子带k和第二预定数量的最高频率子带k。从处理中排除的频率子带k(例如，在频率范围的较低端的那些和/或在频率范围的较高端的那些)可以从相应元件的输入端到输出端未经修改地传递。涉及音频处理系统100、100′的元件的非限制性示例(其中可以仅对有限的频率子带k子集执行处理)涉及重新平移器116和立体声加宽处理器112、112′中的一个或两个，其可以仅处理相应期望的频率子范围内的相应输入信号，例如在预定数量的最低频率子带k中或在频率范围的中间的预定频率子带k子集中。

在另一示例中，如前面已经描述的，输入音频信号101可以包括与两声道立体声音频信号不同的多声道信号，例如环绕声信号。例如，在输入音频信号101包括5.1声道环绕声信号的情况下，前面参考立体声信号101的左右声道描述的音频处理技术可以应用于5.1声道环绕声信号的左前和右前声道，以导出输出音频信号115的左右声道。5.1声道环绕声信号的其他声道可被处理，例如使得将以预定增益因子(例如，乘以一个具有值

的因子)缩放的5.1声道环绕声信号的中央声道添加到从音频处理系统100、100′获得的输出音频信号115的左右声道，而5.1声道环绕声信号的左后和右后声道可使用常规立体声加宽技术进行处理，该技术利用对应于左后扬声器和右后扬声器的相应目标位置(例如，相对于前方方向为±110度)的加宽滤波器(利用例如HRTF或BRIR)。在将5.1声道环绕声信号的中央信号的缩放版本添加到输出音频信号115的左右声道之前，可以将5.1声道环绕声信号的LFE声道添加到5.1声道环绕声信号的中央信号。

在另一个示例中，如前所述，输入音频信号101可以包括N个空间分布的声道，对它们进行处理以产生专门为通过耳机设备播放而处理的两声道音频信号115。混音M个声道以产生两声道立体声音频信号115的第一信号分量111、111′可以在重新平移器106处发生。混音M′个声道以产生两声道立体声音频信号115的第二信号分量113、113′可以在耳机设备112的立体声加宽处理器处发生。

音频事件(声音对象)可能会在声音图像中移动。当音频事件(声音对象)位于焦点范围内时，音频事件将通过两声道立体声音频信号115的第一信号分量111、111′渲染。当音频事件位于非焦点外围范围内时，音频事件通过两声道立体声音频信号115的第二信号分量113、113′渲染。

在另一个示例中，另外地或可替代地，音频处理系统100、100′可以使得能够在所得的加宽立体声信号115中调整来自第一信号分量105-1和第二信号分量105-2的贡献之间的平衡。这可以例如通过向第一信号分量105-1(或其派生(derivative))和第二信号分量105-2(或其派生)应用相应的不同缩放增益来提供。就这一点而言，可以例如在信号组合器114、114′中应用相应的缩放增益，以相应地缩放从第一和第二信号分量105-1、105-2导出的信号分量，或者相应地在信号划分器126中缩放第一和第二信号分量105-1、105-2。可以定义单个的相应缩放增益，以用于在所有频率子带上或在频率子带的预定子集中缩放第一和第二信号分量105-1、105-2(或其相应的派生)。替代地或附加地，可以在频率子带上应用不同的缩放增益，从而使得能够仅在某些频率子带上调整来自第一和第二信号分量105-1、105-2的贡献之间的平衡和/或在不同的频率子带上不同地调整该平衡。

在另一示例中，替代地或附加地，音频处理系统100、100′可以使得能够彼此独立地缩放第一信号分量105-1和第二信号分量105-2(或其相应的派生)中的一个或两个，从而使得能够对第一和第二信号分量中的一个或两个进行均衡(跨频率子带)。这例如可以通过将相应的均衡增益应用于第一信号分量105-1(或其派生)和第二信号分量105-2(或其派生)来提供。可以为第一信号分量105-1和/或第二信号分量105-2的一个或多个频率子带定义专用的均衡增益。就这一点而言，对于第一和第二信号分量105-1、105-2中的每一个，可以例如在信号划分器126中或在信号组合器114、114′中应用均衡增益，以缩放第一和第二信号分量105-1、105-2(或其相应派生)中的相应一个的相应频率子带。对于某个频率子带，第一和第二信号分量105-1、105-2二者的均衡增益可以相同，或者可以对第一和第二信号分量105-1、105-2应用不同的均衡增益。

前面通过多个示例描述的音频处理系统100、100′的操作使得能够将立体声信号101自适应地分解为第一信号分量105-1和第二信号分量105-2，所述第一信号分量105-1表示空间音频图像的焦点部分并被提供用于播放而无需对其应用立体声加宽，所述第二信号分量105-2表示空间音频图像的经过立体声加宽处理的外围(非焦点)部分。特别地，由于分解是基于立体声信号101逐帧传达的音频内容来进行的，因此音频处理系统100、100′既可以适应具有不同特性的相对静态的空间音频图像，又可以适应空间音频图像随时间的变化。

所公开的立体声加宽技术依赖于从立体声加宽处理中排除空间音频图像的焦点部分内的相干声源，并将立体声加宽处理主要应用于焦点部分之外的相干声音和非相干声音(例如环境)，使得能够改善音质，并减少焦点部分内的声音“着色”，同时仍可提供很大程度的可感知立体声加宽。

在前面的示例中，控制输入10可以具有一个或多个不同的功能：

分解过程的参数可以通过控制输入来定义。控制输入10可以例如定义在分析中使用的焦点范围，以将信号划分为焦点(即，前中央)和非焦点(即，侧)信号。焦点范围例如可以通过θ_Th1和θ_Th2或β_Th来定义。信号分解参数β_Th可以例如通过控制输入10来定义。

控制输入10可以例如控制被加宽的外围信号113、113′与未加宽的前方信号111、111′之间的相对增益。例如，在某些示例中，它可以控制外围与前方的相对增益比。

加宽过程的参数例如可以由控制输入10定义。控制输入10可以例如控制在加宽中使用的直接与环境比r。参数可以包括例如非焦点声音被处理的方向(例如借助HRTF处理)，和/或为增加“加宽”效果而添加到声音中的环境量(例如混响)或感知到的外在化。将非焦点声音处理到不同的虚拟方向不是必需的，本发明的一个实施例可以使得仅使用混响、去相关器或其他增加非焦点声音的外在化的方法，来处理非焦点声音。

控制输入10可以例如显式地或隐式地控制是否发生平移。例如，如果焦点范围较窄，则可能不会发生平移。例如，如果外围与前方的相对增益比很小，则可能不会发生平移。

控制平移程度的映射系数μ的值例如可以由控制输入10显式定义，或者可以通过焦点范围的定义来控制。可以将超平移(overpan)因子μ用于修改在其中感知到焦点信号的前方中央扇区(即焦点声音)(例如，可以使其比原始信号听起来更宽)。控制输入10也可以是另一个参数或一组参数，这些参数可以修改在左右平移维度中听到焦点声音的位置。

用于基于能量的时间平滑(a和b)的加权因子可以例如由控制输入10定义。

例如，控制输入的全部、部分或没有控制输入可以由用户输入来控制。

控制输入10可以例如包括用于控制焦点声音的参数(例如，用于添加环境以对前方声音产生更好的外在化)。

控制输入10可以例如包括定义多个分析扇区(用于分解部分)和多个虚拟扬声器方向(用于立体声加宽块)的参数。非焦点声音可能会被划分到多个扇区，而不仅仅是左和右(在焦点范围之外)。焦点范围之外可能有几个角度区域，可以分别处理这些角度区域到例如本发明报告中的不同方向或不同环境量。

音频处理系统100、100′的组件可以被布置为例如根据图6中描绘的流程图所示的方法200来操作。方法200用作用于处理包括多声道音频信号的输入音频信号的方法，该多声道音频信号表示空间音频图像。

方法200包括：

在框202：基于输入音频信号101，导出包括至少一个输入声道的第一信号分量105-1和包括多个输入声道的第二信号分量105-2，其中，

第一信号分量105-1取决于输入音频信号101传达的空间音频图像的至少第一(焦点)部分，并且第二信号分量105-1至少取决于空间音频图像的不同于第一(焦点)部分的第二(非焦点)部分。

方法200进一步包括，在框204处，对第二信号分量105-2的多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量113，同时使得第一信号分量能够旁路跨声道混音。

方法200还包括，在框206处，将第一信号分量105-2和修改的第二信号分量113组合成输出音频信号115，该输出音频信号115包括被配置用于由耳机设备渲染的两个输出声道。

方法200可以例如根据与上述音频处理系统100和/或音频处理系统100′的操作有关的示例以多种方式变化。

跨声道混音使空间音频图像的宽度能够从第二信号分量105-2的宽度扩展。

图7示出了示例性设备300的一些组件的框图。设备300可以包括在图7中未示出的进一步的组件、元件或部分。可以例如在音频处理系统100、100′的上下文中实现前述的一个或多个组件中采用设备300。设备300可以实现例如设备50或其一个或多个组件。

设备300包括处理器316和用于存储数据和计算机程序代码317的存储器315。存储器315和存储在其中的计算机程序代码317的一部分可以进一步被布置为与处理器316一起实现在音频处理系统100、100′的上下文中前述的至少一些操作、过程和/或功能。

设备300包括用于与其他设备通信的通信部分312。通信部分312包括使得能够与其他设备进行有线或无线通信的至少一个通信设备。通信部分312的通信设备也可以被称为相应的通信装置。

设备300可以进一步包括用户I/O(输入/输出)组件318，该组件可以被布置为可能与处理器316和计算机程序代码317的一部分一起提供用户接口，用于从设备300的用户接收输入和/或向设备300的用户提供输出以控制由设备300实现的音频处理系统100、100′的至少某些方面的操作。用户I/O组件318可以包括硬件组件，例如作为显示器、触摸屏、触摸板、鼠标、键盘和/或一个或多个键或按钮等的布置。用户I/O组件318也可以称为外围设备。处理器316可以被布置为例如根据计算机程序代码317的一部分并可能进一步根据通过用户I/O组件318接收的用户输入和/或根据通过通信部分312接收的信息来控制设备300的操作。

尽管处理器316被描绘为单个组件，但是其可以被实现为一个或多个单独的处理组件。类似地，尽管存储器315被描绘为单个组件，但是其可以被实现为一个或多个单独的组件，其中的一些或全部可以被集成/可移动和/或可以提供永久/半永久/动态/缓存的存储。

存储在存储器315中的计算机程序代码317可以包括计算机可执行指令，该计算机可执行指令在被加载到处理器316中时控制设备300的一个或多个操作方面。作为示例，计算机可执行指令可被提供为一个或多个指令的一个多个序列。处理器316能够通过从存储器315读取其中包括的一个或多个指令的一个或多个序列来加载并执行计算机程序代码317。一个或多个指令的一个或多个序列可以被配置为在被处理器316执行时使设备300执行在音频处理系统100、100′的上下文中前述的至少一些操作、过程和/或功能。

因此，设备300可以包括至少一个处理器316和至少一个存储器315，存储器315包括用于一个或多个程序的计算机程序代码317，所述至少一个存储器315和计算机程序代码317经配置与所述至少一个处理器316一起使设备300执行在音频处理系统100、100′的上下文中前述的至少一些操作、过程和/或功能。

可以例如提供存储在存储器315中的计算机程序，作为包括至少一个其上存储有计算机程序代码317的计算机可读非暂时性介质的相应计算机程序产品，该计算机程序代码在由设备300执行时使设备300执行在音频处理系统100、100′的上下文中前述的至少一些操作、过程和/或功能。计算机可读非暂时性介质可以包括存储设备或记录介质，例如CD-ROM、DVD、蓝光光盘或有形地体现计算机程序的另一制品。作为另一示例，计算机程序可以被提供为被配置为可靠地传送计算机程序的信号。

不应将对处理器的引用理解为仅覆盖可编程处理器，还应覆盖专用电路，例如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理器等。除了明确描述的组合以外，可以以其他组合使用上述描述的特征。

在至少一些前述示例中，当输入音频信号101包括在不同位置处被重复并且在耳机设备20处没有耳间时间差并且没有频率相关耳间声级差地被渲染的相同声源时，当输入音频信号101的声源位于在耳机设备30的用户的相对前方和中央的第一位置时，则当输入音频信号的声源在第二位置处被重复时，在耳机设备30处有耳间时间差和频率相关耳间声级差地渲染声源，第二位置是相对外围并且不是耳机设备30的用户的前方和中央。

(用于耳机的)立体声加宽处理器112、112′在空间上处理输入音频信号101，以在空间音频图像的外围位置而非中央位置处，添加在输出音频信号的两个声道中的相干音频事件之间能测量的位置相关耳间时间差和在输出音频信号的两个声道中的相干音频事件之间能测量的频率相关和位置相关耳间声级差。

在前述示例中，存在由信号分解器104发起并且经由包括重新平移器106的旁路路由提供的旁路，从而使得第一信号分量105-1能够旁路立体声加宽(用于耳机)处理器112、112′。在某些但并不一定是全部示例中，旁路使得输入音频信号101的表示在两个立体声声道之间相干并位于前方和中央声源的分量能够旁路立体声加宽处理器112、112′(用于耳机)处的跨声道混音。

在以上示例中的至少一些中，第一焦点部分是相对于耳机设备的用户的前方和中央，并且第二部分是相对于耳机设备的用户的外围。在以上示例中的至少一些中，第一焦点部分不与第一部分重叠。在以上示例中的至少一些示例中，第一焦点部分和第二非焦点部分是连续的。

尽管以上描述讨论了其中具有第一焦点部分和由第一焦点部分左右分开的两个第二焦点部分的实施方式，但是第一焦点部分和第二焦点部分的其他布置也是可能的。对一部分的引用可以例如引用单个部分或多个部分。

在第二部分包括多个部分的情况下，则可以将不同的空间音频处理应用于第二部分中的每一个。例如，不同的控制输入可以用于不同的第二部分。相同的控制输入可以用于在中央方向的两侧对称设置的不同的第二部分。例如，不同的跨声道混音可以用于不同的第二部分以实现不同的加宽效果。相同的跨声道混音可用于在中央方向的两侧对称设置的不同的第二部分。例如，对于不同的第二部分可以使用不同的直接与环境比r，以实现不同的效果。相同的直接与环境比r可以用于对称地布置在中央方向的任一侧的不同的第二部分。

在第一部分包括多个部分的情况下，则可以对第二部分中的每一个应用不同的处理，例如重新平移。

在前述示例中，当耳机设备移动并且音频图像相对于耳机设备定向时，第一(焦点)部分固定在音频图像中。在其他示例中，音频图像相对于“世界”耳机设备定向，并且被处理为在耳机旋转时旋转。在该示例中，当耳机设备移动时，第一(焦点)部分可以固定在音频图像中，或者可以替代地随耳机设备一起旋转。耳机设备20可以包括用于跟踪其定向的电路。

在一些示例中，设备100、100′与耳机设备20分离，例如如图3所示。在其他示例中，设备100、100′是耳机设备20的一部分。在上述至少一些示例中，音频分为两个路径，中央和侧面声音。对于中央声音，音质很重要，因此设计处理时要保持这种音质良好。HRTF处理被避免。中央声音可以例如通过“重新平移”进行加宽，尽管“重新平移”不能产生在耳机外部的声源，它不会降低音质，并且进行一些加宽。对于侧面声音，具有最广泛的感知是最重要的。因此，HRTF用于获得这种效果(并在耳机外部提供声源)。这会使音质降级，但是这是为了获得最大的宽度的折衷方案。虽然人们会为中央声音保持音质，但最好将它们加宽。使侧面声音非常宽。

尽管在上文中已经参考某些特征和/或元件描述了一些功能，但是那些功能可以由其他特征和/或元件执行，无论是否描述。尽管已经参考某些实施例描述了特征，但是无论是否描述，那些特征也可以存在于其他实施例中。

Claims

1.一种用于处理包括多个声道的输入音频信号的设备，所述设备包括：

用于基于所述输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量的装置，其中，所述第一信号分量取决于由所述输入音频信号传达的空间音频图像的至少第一部分，所述第二信号分量取决于所述空间音频图像的不同于所述第一部分的至少第二部分；

用于跨声道混音多个输入声道的跨声道混音装置；

用于将所述第二信号分量引导到所述跨声道混音装置以用于对所述第二信号分量的所述多个输入声道中的至少一些跨声道混音以产生修改的第二信号分量的装置；

用于使得所述第一信号分量能够旁路所述跨声道混音装置的旁路装置；以及

用于将所述第一信号分量和所述修改的第二信号分量组合成输出音频信号的装置，所述输出音频信号包括被配置用于由耳机设备渲染的两个输出声道。

2.根据权利要求1所述的设备，其中，所述用于跨声道混音多个输入声道的跨声道混音装置包括用于在将这些声道混音以产生包括两个输出声道的修改的第二信号分量之前将头部相关变换函数应用于所述多个输入声道中的每一个的装置，其中，应用于被混音以提供输出声道的输入声道的所述头部相关变换函数取决于所述输入声道的标识和所述输出声道的标识。

3.根据权利要求1或2所述的设备，其中，所述用于跨声道混音多个输入声道的跨声道混音装置包括用于在将这些声道混音以产生包括两个输出声道的修改的第二信号分量之前将耳机滤波器应用于所述多个输入声道中的每一个的装置，其中，应用于被混音以提供输出声道的输入声道的所述耳机滤波器取决于所述输入声道的标识和所述输出声道的标识，其中，用于输入声道的所述耳机滤波器将所述输入声道的直接版本与所述输入声道的环境版本混音。

4.根据权利要求3所述的设备，其中，在所述耳机滤波器中的混音中，与所述输入声道的所述环境版本相比的所述输入声道的所述直接版本的相对增益是用户能控制的参数。

5.根据权利要求3或4所述的设备，其中，用于输入声道的所述耳机滤波器将所述输入声道的单路径直接版本与所述输入声道的多路径环境版本混音；以及

其中，头部相关变换函数用于形成所述输入声道的所述单路径直接版本；

其中，将间接路径滤波器与头部相关变换函数结合用于所述多路径中的每个路径，以形成所述输入声道的所述多路径环境版本。

6.根据权利要求5所述的设备，其中，所述间接路径滤波器包括去相关装置或混响装置。

7.根据任一前述权利要求中所述的设备，其中，所述跨声道混音导致耳机设备的立体声加宽，从而使得与所述修改的第二信号分量相关联的空间音频图像的宽度大于在所述第二信号分量的跨声道混音之前与所述第二信号分量相关联的空间音频图像的宽度。

8.根据任一前述权利要求所述的设备，其中，所述第一部分是相对于所述耳机设备的用户的前方和中央，并且所述第二部分是相对于所述耳机设备的所述用户的外围且不与所述第一部分重叠。

9.根据任一前述权利要求所述的设备，其中，所述第一部分和第二部分是连续的。

10.根据任一前述权利要求所述的设备，其中，所述旁路装置使得所述输入音频信号的分量能够旁路所述跨声道混音装置，所述分量表示在两个立体声声道之间相干并且位于前方和中央的声源。

11.根据任一前述权利要求所述的设备，其中，控制输入控制以下中的一个或多个：

控制所述第一部分和/或所述第二部分；

控制输入信号到第一分量和第二分量的分解；

控制所述第一分量和所述第二分量的相对增益；

控制所述第二分量的加宽；

控制在第二分量加宽期间的直接与环境增益比；

控制第一分量的平移；

控制是否有所述第一分量的平移；

控制第一分量的平移范围；以及

控制基于能量的时间平滑。

12.根据任一前述权利要求所述的设备，其中，当所述输入音频信号包括在不同位置处被重复并且在所述耳机设备处没有耳间时间差并且没有频率相关耳间声级差地被渲染的相同声源时，当所述输入音频信号的所述声源位于在所述耳机设备的用户的相对前方和中央的第一位置时，则当所述输入音频信号的所述声源在第二位置处被重复时，在所述耳机设备处有耳间时间差和频率相关耳间声级差地渲染所述声源，所述第二位置是相对外围并且不是所述耳机设备的用户的前方和中央。

13.根据权利要求1至12中任一项所述的设备，其被配置为用于渲染所述输出音频信号的耳机设备。

14.根据权利要求13所述的设备，其中，所述耳机设备被配置为产生空间音频图像，并且还包括：

用于处理包括所述多个声道的输入音频信号以产生被配置用于渲染的两声道输出音频信号的装置；

用于空间处理所述输入音频信号以在所述空间音频图像的外围位置而非中央位置添加在所述输出音频信号的两个声道中的相干音频事件之间能测量的位置相关耳间时间差和在所述输出音频信号的两个声道中的相干音频事件之间能测量的频率相关和位置相关耳间声级差的装置。

15.一种用于处理包括至少一个输入声道/多个输入声道的输入音频信号的方法，所述方法包括：

基于所述输入音频信号来导出包括至少一个输入声道的第一信号分量和包括多个输入声道的第二信号分量，其中，

所述第一信号分量取决于由所述输入音频信号传达的空间音频图像的至少第一部分，所述第二信号分量取决于所述空间音频图像的不同于所述第一部分的至少第二部分；

跨声道混音所述第二信号分量的所述多个输入声道中的至少一些，以产生修改的第二信号分量同时使得所述第一信号分量能够旁路跨声道混音；以及

将所述第一信号分量和所述修改的第二信号分量组合成输出音频信号，所述输出音频信号包括被配置用于由耳机设备渲染的两个输出声道。