CN110089134B

CN110089134B - 用于再现空间分布声音的方法、系统及计算机可读介质

Info

Publication number: CN110089134B
Application number: CN201780057585.2A
Authority: CN
Inventors: 拉斐尔·尼古拉·格雷夫; 洪·崇·图妍·方
Original assignee: A-VOLUTE
Current assignee: Steelcyrus France
Priority date: 2016-09-19
Filing date: 2017-09-19
Publication date: 2021-06-22
Anticipated expiration: 2037-09-19
Also published as: EP3297298A1; US10536793B2; US10085108B2; US20180084367A1; EP3297298B1; TW201820898A; WO2018050905A1; CN110089134A; US20180084364A1; US20190208349A1; TWI770059B

Abstract

本发明涉及一种用于再现多声道音频信号的空间分布声音的方法，包括：接收依赖于时间的输入音频信号并执行时间‑频率变换；对于每个时间‑频率片，根据针对所述时间‑频率片的不同输入声道的时间‑频率表示来确定有功方向矢量(I)和无功方向矢量(II)，根据有功方向矢量(I)和无功方向矢量(II)确定虚拟声源(VS1，VS2，VS3)相对于参考收听点(O)的位置，并且确定每个虚拟声源(VS1，VS2，VS3)的频率信号值，以及基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间‑频率信号值分配给电声换能器。

Description

用于再现空间分布声音的方法、系统及计算机可读介质

背景技术

本发明涉及一种用于再现多声道音频信号的空间分布声音的方法。

音频是传递任何种类信息(特别是声音方向信息)的重要介质。实际上，对于监视任务来说，人听觉系统比视觉系统更有效。由于多声道音频格式的发展，空间化已经成为以下所有音频领域的共同特征：电影、视频游戏、虚拟现实、音乐等。

通常，这种声音被混合到多个音频声道上，其中每个声道被馈送到专用扬声器。声音到不同声道的分布适于专用回放系统的配置(扬声器的位置)；以便再现所述声音的预期方向性。

因此，多声道音频流要求通过合适的扬声器布局来回放。例如，五声道格式化音频信号的每个声道与其五个扬声器阵列内的对应扬声器相关联。图1示出了由国际电信联盟(ITU)推荐的用于5.1环绕声配置的五声道扬声器布局的示例。存在布置在参考收听点O周围的左扬声器L、右扬声器R、中央扬声器C、环绕左扬声器LS和环绕右扬声器RS，参考收听点O是推荐的收听者的位置。以该参考收听点O作为中心，指示了扬声器的中心方向之间的相对角距离。

因此，根据专用于规定空间配置的音频文件格式对多声道音频信号进行编码，其中扬声器被布置距参考收听点的规定位置处。实际上，多声道音频信号的每个依赖于时间的输入音频信号与声道相关联，每个声道对应于扬声器的规定位置。

如果通过适当的声音系统(即具有所需数量的扬声器和它们之间的正确角距离)回放多声道音频，则正常听力收听者能够检测组成多声道音频混合的声源的位置。然而，如果实际的声音系统表现出不适当的特征，诸如扬声器太少或其角距离不准确，则音频内容的方向信息可能未被正确地递送给收听者。

专利申请WO2008/113428公开了一种在任意多声道格式之间进行转换的技术。输入多声道表示被转换成空间音频信号的不同输出多声道表示。导出空间音频信号的中间表示，该中间表示具有指示空间音频信号的一部分的起源方向的方向参数。使用空间音频信号的中间表示生成空间音频信号的输出多声道表示。

发明内容

该方法旨在提供一种用于利用音频系统再现多声道音频信号的空间分布声音的方法，该音频系统包括实际空间配置中的扬声器，该实际空间配置不同于与多声道音频信号的格式相关联的规定空间配置。

根据本发明的第一方面，该目的通过一种用于利用在实际空间配置中相对于参考收听点的实际位置处定位的电声换能器来再现多声道音频信号的空间分布声音的方法来实现，其中多声道音频信号包括依赖于时间的输入音频信号，每个依赖于时间的输入音频信号与输入声道相关联，每个声道对应于电声换能器在规定空间配置中相对于参考收听点的规定位置，所述方法包括以下步骤：

-接收依赖于时间的输入音频信号，

-对所述依赖于时间的输入音频信号执行时间-频率变换，以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示，每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片(time-frequency tile)，对于不同的输入声道来说时间-频率片是相同的，

-对于每个时间-频率片，根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量(active directional vector)和无功方向矢量(reactivedirectional vector)，其中，根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量；

-对于每个时间-频率片，根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置，并确定每个虚拟声源的频率信号值，

-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值分配给电声换能器，

-基于分配给电声换能器的时间-频率信号值，通过实际空间配置的电声换能器产生声音。

本发明方法的其他优选但非限制性的方面如下、分离的或技术上可行的组合：

-时间-频率片的有功方向矢量表示针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流，并且其中无功方向矢量表示在参考收听点处相对于声能流的声学扰动；

-每个输入声道与在参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联，并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数，所述声速矢量被用于确定有功方向矢量和无功方向矢量；

-由不同输入声道的时间-频率表示的总和定义的声压值被用于确定有功方向矢量和无功方向矢量；

-复数强度矢量由时间-频率片的声压值的共轭与所述时间-频率片的声速矢量之间的复数乘积产生；

-为了确定虚拟声源中的每一个的时间-频率信号值，确定虚拟麦克风信号，每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在参考收听点处并且方向上朝向所述虚拟声源的位置取向的虚拟麦克风的信号；

-通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值；

-基于有功方向矢量的方向和无功方向矢量的方向，影响虚拟声源中的每一个的时间-频率信号值；

-虚拟声源被布置在以参考收听点为中心的圆上；

-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值分配给电声换能器，包括：

·对于每个时间-频率片，通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号，以及

·将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号；

-每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器；

-对于每个时间-频率片存在三个虚拟声源，每个虚拟声源具有相对于参考收听点的位置，其中：

·第一虚拟声源的位置与参考收听点一起定义与来自参考收听点的有功方向矢量的方向共线的方向，

·第二虚拟声源的位置与参考收听点一起定义与具有第一取向的无功方向矢量的方向共线的方向，

·第三虚拟声源的位置与参考收听点一起定义与具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。

-对于每个时间-频率片存在两个虚拟声源，每个虚拟声源具有相对于参考收听点的位置，并且其中：

·第一虚拟声源的位置与参考收听点一起定义从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向，以及

·第二虚拟声源的位置与参考收听点一起定义从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。

根据本发明的第二方面，提供了一种非暂时性有形计算机可读介质，其上包含有计算机可执行指令，其在由计算机执行时，执行根据第一方面的方法。

根据本发明的第三方面，提供了一种用于再现多声道音频信号的空间分布声音的系统，所述系统包括：

-用于接收多个输入声道的依赖于时间的输入音频信号的输入端，

-处理器和存储器，用于：

·对所述依赖于时间的输入音频信号执行时间-频率变换，以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示，每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片，对于不同的输入声道来说时间-频率片是相同的，

·对于每个时间-频率片，根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量和无功方向矢量，其中，根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量，

·对于每个时间-频率片，根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置，并确定每个虚拟声源的时间-频率信号值，

·基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值分配给电声换能器；以及

-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端，所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。

该系统被配置用于实施根据本发明的方法。

附图说明

通过阅读下面作为非限制性示例给出的其优选实施例的详细描述并参考附图，本发明的其他方面、目的和优点将变得更加显而易见，在附图中：

-已经讨论过的图1示出了在针对多声道音频系统的规定配置中扬声器相对于参考收听点的规定位置的示例；

-图2是示出了该方法的步骤的图；

-图3是示出了该方法中的信号处理阶段的图；

-图4示意性地示出了有功方向矢量和无功方向矢量与虚拟声源的位置之间的关系的示例；

-图5示意性地示出了具有两个虚拟声源和有功方向矢量和无功方向矢量以及两个对应的虚拟麦克风的心形的虚拟空间配置的示例；

-图6示意性地示出了三个电声换能器和图5的两个虚拟声源的实际空间配置的示例；

-图7示意性地示出了具有三个虚拟声源和三个对应虚拟麦克风的心形以及有功方向矢量和无功方向矢量的虚拟空间配置的示例；

-图8示意性地示出了三个电声换能器和图7的三个虚拟声源的实际空间配置的示例。

具体实施方式

该方法可以由用于再现多声道音频信号的空间分布声音的系统来实施，所述系统包括：

-被配置为实施本发明的方法的处理器和存储器，

输入端接收包括多个输入声道的依赖于时间的输入音频信号的多声道音频信号(步骤S01)。每个依赖于时间的输入音频信号与输入声道相关联。每个输入声道对应于电声换能器相对于规定空间配置中的参考收听点的规定位置。例如，在图1所示的规定空间配置中，存在五个输入声道，对于每个扬声器LS、L、C、R、RS一个输入声道。

在平面波模型假设下，声源的位置(例如，每个扬声器的位置)可以仅由声源相对于参考收听点的方向来定义。然后，酉矢量(unitary vector)足以定位声源。因此，规定位置中的每个规定位置定义了表示声音方向并且源自参考收听点且指向每个扬声器的方向的酉矢量

。因此，每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向

相关联。例如，在图1所示的规定空间配置中，扬声器C的位置由声音矢量

定义，该声音矢量

源自参考收听点O并且朝向酉圆上的扬声器C的位置。该声音矢量

在收听点的前方延伸。以类似的方式，扬声器L的位置由声音矢量

定义，该声音矢量

源自参考收听点O并且朝向酉圆上的扬声器L的位置。在该示例中，声音矢量

的方向和声音矢量

的方向成30°角度。

然而，旨在回放多声道音频信号的实际音频系统包括被定位在相对于实际空间配置中的参考收听点的实际位置处的电声换能器。下面参考图2和图3描述用于再现多声道音频信号的空间分布声音的方法。图2示出了该方法的按时间组织的步骤，而图3示出了该方法的数学推理。

频率分析

所接收的依赖于时间的输入音频信号a_i(t)可以是模拟的，但它们最好是数字信号。存在与输入声道i一样多的输入音频信号a_i(t)。在频率分析期间(步骤S10)，通过执行时间-频率转换将依赖于时间的输入音频信号a_i(t)转换到频域(步骤S02)。通常，时间-频率转换使用诸如短时傅立叶变换(STFT)的傅立叶相关变换，其被用于在信号随时间变化时确定信号的局部部分的正弦频率和相位内容(phase content)。

更确切地说，每个依赖于时间的输入音频信号a_i(t)被转换成与所述依赖于时间的输入音频信号相关联的输入声道i的多个时间-频率表示A_i(k，n)。每个时间-频率表示A_i(k，n)对应于由时间帧和频率子带定义的时间-频率片。转换是在逐帧的基础上进行的。

优选地，帧长度在5ms和80ms之间。优选地，频率子带的宽度在10Hz和200Hz之间。优选地，帧间间隔在帧长度的1/16和一半之间。例如，对于48kHz的采样率和基于FFT的STFT处理框架，帧长度可以是具有46.875Hz的相关频率子带宽度(或仓宽度(bin width))和512个样本的帧间间隔的1024个样本。对于不同的输入声道i，时间-频率片是相同的。

在以下中，k被用作频率子带的频率索引并且n是帧索引，使得时间-频率表示A_i(k，n)指代与输入声道i的信号的第k个频率子带和第n个帧相关联的复数。

然后，时间-频率表示A_i(k，n)和声音方向

被用在时间-频率处理(步骤S03)中，其中时间-频率片的数据被处理。

空间分析

根据时间-频率片的时间-频率表示A_i(k，n)和声音方向

来执行空间分析(步骤S11)。对于每个时间-频率片，根据针对所述时间-频率片的不同输入声道的时间-频率表示A_i(k，n)来确定有功方向矢量

和无功方向矢量

(步骤S31)。

时间-频率片的有功方向矢量

与有功声强度矢量成比例，该有功声强度矢量表示在参考收听点处的针对所述时间-频率片的时间帧和频率子带的声能流。更具体地，有功方向矢量

对应于有功声强矢量，其通过参考收听点O处的声能E_P(k，n)和E_K(k，n)之和而被标准化(normalized)，其中加上负号以便使其从参考收听点O指向酉圆。可以使用不同的标准化或省略负号，在这种情况下，矢量将指向参考收听点O。

无功方向矢量

与无功声强度矢量成比例，其表示在参考收听点处的相对于相同时间-频率片的声能流的声学扰动。更具体地，无功方向矢量

对应于无功声强度矢量，其通过参考收听点O处的声能E_P(k，n)和E_K(k，n)之和而被标准化。还加上了负号，但其可以被省略。对于有功方向矢量，可以使用不同的标准化。

从感知角度来看，如果有功方向矢量

可以与主方向声场相关，则无功方向矢量

与环境扩散声场相关。此外，无功方向矢量

的方向信息使得能够处理该环境声场的空间特性，并且因此它不仅可以用于描述完全扩散环境声场而且可以描述部分扩散环境声场。

这种新方法本质上更加稳健，因为它有助于有功方向矢量

的可靠性，有功方向矢量是真实声空间线索(与经验感知线索的Gerzon矢量相比)，但也利用了声音通过无功方向矢量

的扩散。

已经发现的是，有功方向矢量

和无功方向矢量

的组合可以用于识别声源的位置，如图4所示。在该图4中，声音分布由布置在以参考收听点O为中心的酉圆上的两个虚拟声源VS1和VS2来表示。有功方向矢量

源自参考收听点O并且沿主要声流指向。在该示例中，两个不相关的声源VS1、VS2具有相等的能量(对于该时间-频率片)。因此，在参考收听点O处感知的声能流来自两个声源VS1、VS2的中间，并且因此有功方向矢量

在两个声源VS1、VS2之间延伸。无功方向矢量

在此垂直于有功方向矢量

，并且声源VS1、VS2的位置对应于有功方向矢量

和无功方向矢量

或无功方向矢量

的相反矢量之和。

然而，大多数时候，声源VS1、VS2并非完全不相关。已经发现的是，无论两个声源VS1、VS2的确切位置如何，当源信号完全不相关时，无功强度最大。相反，当源信号完全相关时，无功强度最小。以类似的方式，在声源信号完全不相关的情况下，当源方向相对于参考收听点O在空间上负相关(即相反)时，无功强度最大。相反，当源方向相对于参考收听点在空间上相关(即在相同方向上)时，无功强度最小。

为了确定有功方向矢量

和无功方向矢量

，使用规定空间配置中扬声器相对于参考收听点O的规定位置。如上所述，每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向

相关联。

针对相同的时间-频率片，由不同输入声道的时间-频率表示A_i(k，n)之和定义的所述时间-频率片的声压值P(k，n)被确定为：

时间-频率片的声速矢量

被确定，所述声速矢量

与由对应于与所述声音方向

相关联的输入声道i的时间-频率表示A_i(k，n)加权的每个声音方向

之和成比例：

其中

其中

、

和

是用于虚拟空间配置的参考帧的坐标系的酉矢量，ρ是空气的密度，并且c是声速。例如，20℃下干燥空气中的声速为每秒343.2米，其可以被近似为340m.s^-1。在海平面处并且在15℃下，空气密度约为1.225kg/m³，其可以被近似为1.2kg/m³。可以使用其他值。

由时间-频率片的声压值P(k，n)的共轭与所述时间-频率片的声速矢量

之间的复数乘积产生的复数强度矢量

被确定为：

并且被用于确定所述时间-频率片的有功方向矢量

和无功方向矢量

。更确切地说，有功方向矢量

是从复数乘积

的实部确定的，并且无功方向矢量

是从复数乘积

的虚部确定的。

有功方向矢量

和无功方向矢量

可以如下计算：

其中

应注意的是，有功方向矢量

和无功方向矢量

在此通过能量E_K(k，n)和E_P(k，n)而被标准化，但可以另外方式来计算。应注意的是，负号被加到有功方向矢量

和无功方向矢量

的表达中，以便使它们从参考收听点O指向酉圆。将可以省略负号，在这种情况下，矢量将指向参考收听点O。

一旦有功方向矢量

、无功方向矢量

、声压值P(k，n)和声速矢量

(或其等价物)已被确定，就可以执行音频源提取(步骤S12)以确定虚拟声源的位置和时间-频率信号值(步骤S32)。

音频源提取

该方法要求确定将在此后被用于确定实际空间配置的电声换能器的信号的虚拟声源的属性(位置和时间-频率信号值)。

对于每个时间-频率片，有功方向矢量

和无功方向矢量

被用于确定虚拟空间配置中虚拟声源相对于参考收听点的位置(步骤S32)。

所确定的虚拟声源的位置、有功方向矢量

、无功方向矢量

、声压值P(k，n)和声速矢量

被用于确定虚拟一阶方向麦克风信号(步骤S122)，该虚拟一阶方向麦克风信号对应于将由被布置在参考收听点O处并指向每个虚拟声源的虚拟麦克风获取的声音。存在与虚拟声源一样多的虚拟麦克风。

虚拟麦克风信号是声压值P(k，n)和可能由空气密度ρ和声速c加权的声速矢量

与声源方向上的酉矢量之间的标量乘积之和的函数。例如，与被布置在由

定义的方向上的虚拟声源相关联的虚拟心形麦克风信号M_j(k，n)可以如下计算：

虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源的声音，但还包含来自其他虚拟声源的干扰。然而，针对每个虚拟声源定义虚拟麦克风信号允许识别每个虚拟声源的虚拟声源信号。

应注意的是，可以通过修改虚拟声源的位置来执行空间操纵。这种方法比修改定义了规定位置的输入声道数据侧安全得多，这是因为保持了原始的主/环境能量比。

然而，源提取过程的细节根据虚拟声源的数量而改变。音频源提取过程估计虚拟声源的位置和频率信号值，其生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性。需要定义与源相关的声场模型，这是因为不同模型，音频源提取过程可能非常不同。实际上，在基于对声强度的有功分量和无功分量两者的利用进行分析的情况下，两个模型是可靠的，一个模型具有两个声源而一个模型具有三个声源。

“双源”模型处理扩散(并因此利用无功分量)作为声源的感知宽度或局部扩散的指示。两个声源足以模拟较宽的声源，它们的空间和信号相关性定义了这种复合声源的感知宽度。

“三源”模型处理扩散(并因此利用无功分量)作为声音场景内的环境水平或全局扩散的指示。两个相反方向的不相关声源适合于模拟该环境分量。

下面解释如何继续进行两个虚拟声源或三个虚拟声源。

源提取：两个虚拟声源

在以参考收听点O为中心的酉圆的空间配置中，虚拟声源被定位在酉圆上。因此，虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量

来定义。这如图5所示。

如上所述，源提取的第一步骤包括确定两个虚拟声源的位置(步骤S121)。如图5所示，每个酉源方向矢量

通过有功方向矢量

和无功方向矢量

.来定义。更准确地说，虚拟声源位于以下的相交处：

-酉圆以及

-与无功方向矢量

共线并且穿过源自参考收听点的有功方向矢量

的尖端的线。

如果所分析的声场是由两个不相关的声源(不必具有相等的能量)生成的，则该技术使得能够获取这两个声源的确切位置。如果用于生成声场的两个声源倾向于同相(相应地反相)，则不再能够获取它们的确切位置。该技术过度估计(相应地低估)两个声源方向之间的空间相关性。然而，信号相关性和空间相关性之间的这种关系在感知上是贯通的。

确定两个虚拟声源VS1、VS2的位置等同于求解线与圆(对于三维声场则是球)的相交的几何问题。求解这个问题等同于求解二阶方程，其解是：

其中

应注意的是存在：

-第一虚拟声源VS1的位置与参考收听点O一起定义了从有功方向矢量

和由正因子加权的无功方向矢量

之和得到的方向，以及

-第二虚拟声源VS2的位置与参考收听点O一起定义了从有功方向矢量

和由负因子加权的无功方向矢量

之和得到的方向。

因此，我们有了第一虚拟声源VS1的源方向矢量

，以及第二虚拟声源VS2的源方向矢量

。如图5所示，这些源方向矢量

、

将虚拟声源VS1、VS2定位在以参考收听点O为中心的酉圆上。

如上所述，在计算两个虚拟声源VS1、VS2的方向之后，可以通过将声压值P(k，n)和声速矢量

组合到源方向矢量

来创建两个虚拟定向麦克风。如图5所示，两个虚拟定向麦克风可以在源方向矢量

的方向上具有心形指向性图案VM1、VM2。然后，可以通过如下定义的虚拟麦克风信号M₁(k，n)、M₂(k，n)来估计这两个方向上的虚拟麦克风拾取：

如上所述，每个虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源VS1、VS2的声音信号，但是还包含来自其他虚拟声源的干扰：

其中

其中S₁(k，n)是第一虚拟声源VS1的时间-频率信号值，并且S₂(k，n)是第二虚拟声源VS2的时间-频率信号值。最后的处理步骤允许通过对来自虚拟麦克风信号的源信号进行解混(unmixing)来提取每个虚拟声源的时间-频率信号值S₁(k，n)、S₂(k，n)(步骤S123)：

其中

由源方向矢量

和

定义的两个虚拟声源VS1、VS2的位置以及它们相应的时间-频率信号值S₁(k，n)和S₂(k，n)已被确定。

应注意的是，两个虚拟声源VS1、VS2是等效的，在这个意义上它们包含主分量(通过有功方向矢量

)和环境分量(通过无功方向矢量

)两者。可以执行环境提取处理以实施额外的细化。

音频源提取：三个虚拟声源

如前所述，音频源提取的第一步骤包括通过由有功方向矢量

和无功方向矢量

定义的酉源方向矢量

来确定三个虚拟声源的位置。在以参考收听点O为中心的酉圆的空间配置中，虚拟声源被定位酉圆上。因此，虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量

来定义。酉源方向矢量

通过有功方向矢量

和无功方向矢量

来定义。这如图7所示。

如已经解释的，有功方向矢量

指示主要感知声音事件方向，无功强度指示“最大感知扩散的方向”。使用三个虚拟声源VS1、VS2、VS3因此出现相关以近似于声场属性：

-一个虚拟声源VS1在有功方向矢量

的方向上，以表示主要声学流的重建，以及

-空间上负相关的两个虚拟声源VS2、VS3分别在无功方向矢量

的方向上和其相反方向上，以表示声场的声学扰动。

因此，存在：

-第一虚拟声源VS1的位置与参考收听点O一起定义了与来自参考收听点的有功方向矢量

的方向共线的方向，

-第二虚拟声源VS2的位置与参考收听点O一起定义了与来自参考收听点的具有第一取向的无功方向矢量

的方向共线的方向，

-第三虚拟声源VS3的位置与参考收听点一起定义了与来自参考收听点O的具有与第一取向相反的第二取向的无功方向矢量

的方向共线的方向。

实际上，针对三源模型确定虚拟声源VS1、VS2、VS3的位置比针对双源模型来说简单得多，这是因为它们的源方向矢量

直接从有功方向矢量

和无功方向矢量

计算出：

其中第一虚拟声源VS1的第一源方向矢量为

，第二虚拟声源VS2的第二源方向矢量为

，并且第三虚拟声源VS3的第三源方向矢量为

。如图7所示，这些源方向矢量将虚拟声源VS1、VS2、VS3定位在以参考收听点O为中心的酉圆上。

如上所述，在计算三虚拟声源VS1、VS2、VS3的方向之后，可以通过将声压值P(k，n)、声速

组合到源方向矢量来创建三个虚拟方向麦克风。如图7所示，三虚拟方向麦克风可以在源方向矢量

的方向上具有心形指向性图案VM1、VM2、VM3。然后可以通过如下定义的虚拟麦克风信号来估计这三个方向上的虚拟麦克风拾取：

如上所述，每个虚拟麦克风信号M₁(k，n)、M₂(k，n)、M₃(k，n)突显在参考收听点O处感知的相应虚拟声源VS1、VS2、VS3的声音，但也包含来自其他虚拟声源VS1、VS2、VS3的干扰。更准确地说，由于第二源方向矢量

和第三源方向矢量

方向相反，所以第二虚拟声源VS2与第三虚拟声源VS3之间的干扰是可忽略的，而它们两者都干扰第一虚拟声源VS1：

其中

最后的处理步骤(步骤S123)允许通过对源时间-频率值进行解混来提取每个虚拟声源的时间-频率信号值：

与具有两个虚拟声源的模型相反，三个虚拟声源已经被分解在主分量和环境分量之间：

-第一虚拟声源VS1对应于主分量，以及

-第二虚拟声源VS2和第三虚拟声源VS3对应于环境分量。因此，可以在不要求额外环境提取处理的情况下直接实施进一步的细化。

声音合成

一旦已经确定了虚拟声源的属性(位置和时间-频率信号值)，就可以执行声音合成(步骤S13)。可以基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值S_j(k，n)分配(步骤S33)给所述电声换能器。这可以被称为空间合成。

为了这样做，使用与每个电声换能器h的实际位置有关的空间数据。空间数据由实际源方向矢量

(其中h＝1,2,3，...)例示，实际源方向矢量

源自参考收听点O并指向每个电声换能器的方向，如图6和图8所示。图6和图8两者都示出了具有被定位在相对于参考收听点O的实际位置处的三个电声换能器AET1、AET2、AET3的相同的实际空间配置。在由第一实际源方向矢量

表示的方向上，将第一电声换能器AET1布置在参考收听点O的前方。在由第二实际源方向矢量

表示的方向上，将第二电声换能器AET2布置在参考收听点O的左侧上，与第一实际源方向矢量

成直角。在由第三实际源方向矢量

表示的方向上，将第三电声换能器AET3布置在参考收听点O的右侧上，与第二实际源方向矢量

相反。这仅是示例，并且该方法不限于电声换能器的特定空间布局或特定数量的电声换能器。电声换能器可以是扬声器，但也可以是耳机。

对于每个时间-频率片，与虚拟源方向矢量相关联的各种时间-频率信号值S_j(k，n)与实际源方向矢量

结合使用以便导出平移(panning)增益G_jh(k，n)。对于时间-频率片(k，n)，平移增益G_jh(k，n)定义被馈送到电声换能器h的输出声道内的每个虚拟声源j的声级(以及潜在地相位)。

通过考虑所考虑的虚拟声源的虚拟源方向矢量

与电声换能器的实际源方向矢量

之间的几何关系来确定平移增益G_jh(k，n)。为简单起见，虚拟源方向矢量

以某种方式投影到实际源方向矢量

上。例如，在图6中，第二虚拟声源VS2比其他电声换能器AET1、AET3更靠近第二电声换能器AET2。平移增益G₂₂(k，n)将大于G₁₂(k，n)或G₂₃(k，n)。当然，在实践中，可以使用更复杂的三角公式或基于矢量的公式。例如，可以使用基于矢量的幅度平移(VBAP)，如Ville Pulkki在“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”，Audio Engineering Society，Inc，1997中所公开的。

应注意的是，还可以实施头部-相关的(head-related)传递函数(HRTF)处理以便合成双耳声音。由于HRTF可以取决于虚拟声源位置，因此可以存储一组预定的HRTF，并且基于虚拟声源的位置来选择要使用的HRTF，如Michael M.Goodwin和Jean-Marc Jot在“Binaural 3D audio rendering based on spatial audio scene coding”，AudioEngineering Society,123rd Convention,New York,NY,2007中所解释的。

对于相同的频率仓，虚拟源方向矢量

可以从一帧到下一帧快速变化。因此，平移增益G_jh(k，n)也可以从一帧到下一帧突然变化。可以通过组合相同频率仓的至少两个时间上连续的平移增益G_jh(k，n)来平滑平移增益G_jh(k，n)，诸如：

其中λ为0到1之间的实数。

对于每个时间-频率片，然后通过对该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号B_h(k，n)：

然后将时间-频率音频输出声道信号B_h(k，n)转换回依赖于时间的输出声道信号b_h(t)。逆短时傅里叶变换(ISTFT)可被用于该目的。

最后，每个依赖于时间的输出声道信号b_h(t)被馈送到每个对应的电声换能器，即所述输出声道的电声换能器。然后，电声换能器从所接收的依赖于时间的输出声道信号b_h(t)产生声音(步骤S04)。

如上所述的本发明的方法可以被实现为程序并被存储在非暂时性有形计算机可读介质中，诸如其上包含计算机可执行指令的CD-ROM、ROM、硬盘，所述计算机可执行指令在由计算机执行时，执行根据本发明的方法。

虽然已经关于某些优选实施例描述了本发明，但是对于本领域技术人员来说将显而易见的是，可以在不脱离所附权利要求限定的本发明的范围的情况下进行各种改变和修改。

Claims

1.一种用于利用在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1，AET2，AET3)来再现多声道音频信号的空间分布声音的方法，其中，所述多声道音频信号包括依赖于时间的输入音频信号，每个依赖于时间的输入音频信号与输入声道相关联，每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置，由规定配置中的所述依赖于时间的输入音频信号来定义声场，所述方法包括以下步骤：

-接收(S01)所述依赖于时间的输入音频信号，

-对所述依赖于时间的输入音频信号执行时间-频率转换(S02)，以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示，每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片，对于不同的输入声道来说时间-频率片是相同的，

-对于每个时间-频率片，根据针对所述时间-频率片的不同输入声道的时间-频率表示来确定(S31)有功方向矢量

和无功方向矢量

其中，所述有功方向矢量根据复数强度矢量的实部来确定，并且所述无功方向矢量根据所述复数强度矢量的虚部来确定，其中，所述复数强度矢量由针对时间-频率片的声压值的共轭和针对所述时间-频率片的声速矢量之间的复数乘积产生，

-对于每个时间-频率片，根据所述有功方向矢量

和所述无功方向矢量

确定虚拟声源(VS1，VS2，VS3)在虚拟空间配置中相对于参考收听点(O)的位置，并确定每个虚拟声源(VS1，VS2，VS3)的频率信号值(S32)，使得在所述位置的所述虚拟声源生成与由所述规定配置中的所述依赖于时间的输入音频信号所定义的声场相同的声场特性，其中，虚拟声源的位置由酉源方向矢量来定义，所述酉源方向矢量源自所述参考收听点(O)并由所述有功方向矢量

和所述无功方向矢量

的组合来定义，

-基于所述虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值分配(S33)给电声换能器，

-基于分配给电声换能器的时间-频率信号值，通过实际空间配置中的电声换能器来产生(S04)声音。

2.根据权利要求1所述的方法，其中，时间-频率片的有功方向矢量

表示在针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流，并且其中，所述无功方向矢量

表示在所述参考收听点处相对于所述声能流的声学扰动。

3.根据权利要求1所述的方法，其中，每个输入声道与在所述参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向

相关联，并且所述声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向

之和的函数。

4.根据权利要求1所述的方法，其中，由不同输入声道的时间-频率表示之和来定义所述声压值。

5.根据权利要求1所述的方法，其中，为了确定所述虚拟声源中的每个虚拟声源的时间-频率信号值，确定虚拟麦克风信号，每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在所述参考收听点(O)处并且方向上朝向所述虚拟声源的位置定向的虚拟麦克风的信号。

6.根据权利要求5所述的方法，其中，通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值。

7.根据权利要求5所述的方法，其中，所述虚拟声源被布置在以所述参考收听点(O)为中心的圆上，并且虚拟麦克风信号对应于将获取具有形状上与以所述参考收听点(O)为中心的圆相切的心形的心形指向性图案(VM1，VM2，VM3)的虚拟心形麦克风的信号。

8.根据权利要求1所述的方法，其中，基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器(AET1，AET2，AET3)的实际位置之间的比较，将所述虚拟声源(VS1，VS2，VS3)的时间-频率信号值分配给所述电声换能器(AET1，AET2，AET3)，包括：

-对于每个时间-频率片，通过对与电声换能器相关联的输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号，以及

-将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号。

9.根据权利要求8所述的方法，其中，每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器。

10.根据权利要求1所述的方法，其中，对于每个时间-频率片存在三个虚拟声源，每个虚拟声源具有相对于所述参考收听点的位置，其中：

-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义与来自所述参考收听点(O)的有功方向矢量

的方向共线的方向

-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义与具有第一取向的无功方向矢量

的方向共线的方向

-第三虚拟声源(VS3)的位置与所述参考收听点(O)一起定义与具有与所述第一取向相反的第二取向的无功方向矢量

的方向共线的方向

11.根据权利要求1所述的方法，其中，对于每个时间-频率片存在两个虚拟声源，每个虚拟声源具有相对于所述参考收听点的位置，并且其中：

-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义从所述有功方向矢量

和由正因子加权的无功方向矢量

之和得到的方向

以及

-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义从所述有功方向矢量

和由负因子加权的无功方向矢量

之和得到的方向

12.一种非暂时性有形计算机可读介质，其上包含计算机可执行指令，所述计算机可执行指令在由计算机执行时，执行根据权利要求1所述的方法。

13.一种用于再现多声道音频信号的空间分布声音的系统，所述系统包括：

-输出端，用于将依赖于时间的输出声道信号递送到多个在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1，AET2，AET3)；

-输入端，用于接收多个输入声道的依赖于时间的输入音频信号，其中，所述多声道音频信号包括依赖于时间的输入音频信号，每个依赖于时间的输入音频信号与输入声道相关联，每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置，由规定配置中的所述依赖于时间的输入音频信号来定义声场；

-处理器和存储器，用于：

·对所述依赖于时间的输入音频信号执行时间-频率变换，以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示A_i，每个时间-频率表示A_i对应于由时间帧和频率子带限定的时间-频率片，对于不同的输入声道来说时间-频率片是相同的，

·对于每个时间-频率片，根据针对所述时间-频率片的不同输入声道的时间-频率表示A_i来确定有功方向矢量

和无功方向矢量

·对于每个时间-频率片，根据所述有功方向矢量

和所述无功方向矢量

确定虚拟声源在虚拟空间配置中相对于参考收听点的位置，并确定针对每个虚拟声源的时间-频率信号值，使得在所述位置的所述虚拟声源生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性，其中虚拟声源的位置由酉源方向矢量来定义，所述酉源方向矢量源自参考收听点(O)并由所述有功方向矢量

和所述无功方向矢量

的组合来定义，

·基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较，将所述虚拟声源的时间-频率信号值分配给所述电声换能器。