CN101884065A

CN101884065A - 用于双耳再现和格式转换的空间音频分析和合成

Info

Publication number: CN101884065A
Application number: CN200880119120.6A
Authority: CN
Inventors: 迈克尔·M·古德温; 吉恩-马克·乔特; 马克·多勒森
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2007-10-03
Filing date: 2008-10-02
Publication date: 2010-11-10
Anticipated expiration: 2028-10-02
Also published as: GB2467668A; WO2009046223A2; GB201006665D0; CN101884065B; GB2467668B; WO2009046223A3

Abstract

描述了用于对诸如记录之类的两声道或多声道音频信号进行格式转换或再现的频域方法。该再现基于对输入音频信号中的方向提示的空间分析以及将这些提示转换为用于频域中的两个或更多个声道的音频输出信号提示。

Description

用于双耳再现和格式转换的空间音频分析和合成

相关申请的交叉引用

本申请要求2007年10月3日提交的题为“Spatial Audio Analysis AndSynthesis For Binaural Reproduction”的美国临时专利申请No.60/977,345(代理机构案卷号CLIP227PRV)的公开的优先权，该申请的全部公开通过引用结合于此。本申请要求2008年10月1日提交的题为“Spatial AudioAnalysis And Synthesis For Binaural Reproduction And Format Conversion”的美国专利申请No.12/243,963(代理机构案卷号CLIP227US)的公开的优先权，该申请的全部公开通过引用结合于此。此外，本申请要求2008年10月1日提交的题为“Phase-Amplitude 3-D Stereo Encoder andDecoder”的美国专利申请No.61/102,002(代理机构案卷号CLIP228PRV2)以及2007年10月4日提交的题为“Phase-AmplitudeStereo Decoder and Encoder”的美国专利申请No.60/977,432(代理机构案卷号CLIP228PRV)的公开的优先权，这些申请的全部公开通过引用结合于此。

本申请与2007年5月17日提交的题为“Spatial Audio Coding Basedon Universal Spatial Cues”的美国专利申请No.11/750,300的公开以及2006年5月17日提交的美国临时申请No.60/747,532的公开有关，这些申请的全部公开通过引用进一步结合于此。

技术领域

本发明涉及音频处理技术。更具体地，本发明涉及用于在音频信号中提供空间提示(spatial cue)的方法。

背景技术

两声道或多声道记录的虚拟3D音频再现通常致力于通过耳机再现出通过扬声器收听记录那样的听觉。传统方法包括：通过利用HRTT(头部相关转移函数)滤波器或BRIR(双耳房间脉冲响应)滤波器使每个源声道“虚拟化”。这种技术的缺点在于：在记录中部分地跨越声道摆动(pan)的声源通过耳机未被动听地再现，这是因为其是通过两个或更多个不同方向的HRTF的组合而非通过所需方向的正确HRTF被呈现(render)的。

所需要的是用于通过耳机再现两声道或多声道音频信号的方向提示(directional cue)的经改进的方法。

发明内容

本发明提供了用于基于频域空间分析-合成来双耳呈现信号的装置和方法。该信号的性质例如是音乐或电影声轨记录、交互式游戏系统的音频输出或者从通信网络或因特网接收的音频流。其还可以是在房间或任何声学环境中记录的脉冲响应，并且希望用于通过与任意源信号卷积来再现这种环境的声学。

在一个实施例中，提供了用于对具有至少两个声道的音频信号进行双耳呈现的方法，这两个声道中的每个被指派了各自的空间方向。原始信号可以在任何多声道中或者以空间音频记录格式来提供，该格式包括Ambisonic B格式或较高阶Ambisonic格式；Dolby环绕、Dolby定向逻辑或任何其它相位-幅度矩阵立体声格式；Dolby数字、DTS或任何离散多声道格式；以及利用两个或更多个麦克风的阵列获得的传统两声道或多声道记录(包括双耳记录)。

该方法包括：将信号转换为频域或子频带表示，在空间分析中导出每个时间频率分量的方向，并且生成左右频域信号以使得对于每个时间和频率，这两个信号之间的声道间幅度和相位差与出现在HRTF中的与从空间分析导出的方向角相对应的声道间幅度和相位差相匹配。

根据另一实施例，生成音频输出信号，其具有至少第一和第二音频输出声道。输出声道是从具有至少一个音频输入声道和至少一个空间信息输入声道的音频输入信号的时间频率信号表示生成的。选择音频输出格式。接收与时间频率信号的多个帧中的每个帧相对应的方向信息。从时间频率信号表示生成第一和第二频域信号，第一和第二频率信号在每个时间和频率处具有至少第一和第二输出声道之间的声道间幅度和相位差，幅度和相位差表征所选空间音频输出格式中的方向。

根据又一实施例，提供了一种生成音频输出信号的方法。提供了优选地具有至少两个声道的输入音频信号。输入音频信号被转换为频域表示。与多个时间频率分量中的每个的定位向量所对应的方向向量从频域表示中被导出。从时间频率信号表示生成第一和第二频域信号，第一和第二频域信号在每个时间和频率处具有表征与方向向量相对应的方向的声道间幅度和相位差。执行逆变换以将频域信号转换为时域。

虽然本发明具有用于通过耳机的经改善双耳再现的特别有利的应用，然而其更一般地应用于利用任何两声道或多声道音频记录或传输格式来通过耳机或扬声器进行的空间音频再现，其中，可以通过依赖于频率或独立于频率的声道间幅度和/或相位差来将方向角编码在输出信号中，包括ambisonic格式；相位-幅度矩阵立体声格式；离散多声道格式；利用两个或更多个麦克风的阵列的传统两声道或多声道记录；利用基于HRTF(或“transaural”)的虚拟化技术的两声道或多声道扬声器3D音频；以及利用扬声器阵列的声场再现(包括波场合成)。

如从上面的概述将清楚的，本发明可用来将信号从任何两声道或多声道空间音频记录或传输格式转换为任何其它两声道或多声道空间音频格式。此外，所述方法允许将声音场景的角度变换包括在格式转换中，声音场景的角度变换例如是应用于声音场景中的声音分量的方向角的旋转或缠绕(warp)。下面将参考附图描述本发明的这些以及其它特征和优点。

附图说明

图1是图示出根据本发明一个实施例的立体声虚拟化方法的流程图。

图2是图示出根据本发明另一实施例的用于多声道音频信号的双耳合成方法的流程图。

图3是基于HRTF或BRTF的标准时域虚拟化的框图。

图4A是用于图3所示的输入声道之一的时域虚拟化处理的框图。

图4B是图4A所示的时域虚拟化处理的框图。

图5是一般的频域虚拟化系统的框图。

图6A示出了根据本发明一个实施例的标准5声道音频格式的格式向量以及相对应的Gerzon向量的编码轨迹(encoding locus)。

图6B示出了根据本发明一个实施例的任意6声道扬声器布局的格式向量以及相对应的Gerzon向量的编码轨迹。

图7是根据本发明一个实施例的高分辨率频域虚拟化算法的框图。

图8是根据本发明一个实施例的利用主要-周围(primary-ambient)信号分解的高分辨率频域虚拟化系统的框图。

具体实施方式

现在将详细参考本发明的优选实施例。优选实施例的示例在附图中示出。虽然将结合这些优选实施例来描述本发明，但是将会理解，不希望将本发明局限于这些优选实施例。相反，希望覆盖可以包括在由所附权利要求所限定的本发明的精神和范围内的替代方式、修改和等同物。在以下描述中，提出多个具体细节来提供对本发明的全面理解。本发明可以在无需这些具体细节中的某些或全部的情况下实施。在其他实例中，没有详细描述公知的机构，以免不必要地模糊本发明。

这里应该注意，遍及各个附图的类似标号指示类似部件。这里示出和描述的各个附图被用于图示说明本发明的各个特征。就在一张附图中示出而在其他附图中没有示出的一个特定特征而言，除非特别指示或者该结构本质上禁止并入该特征，否则将理解为这些特征可以被适应性修改以包括到在其他附图中表示的实施例中，就好像这些特征在这些附图中被完全示出一样。除非特别指示，否则附图不一定是按比例绘制的。在附图中提供的任何维度都不认为是对本发明的范围的限制而仅仅是示例性的。

本发明提供了用于基于在频域中对记录中的方向提示的空间分析以及将这些提示转换为双耳提示或声道间幅度提示和/或相位差提示来对两声道或多声道记录进行耳机再现的频域方法。本发明通过引用并入在2007年5月17日提交的题为“Spatial Audio Coding Based on Universal SpatialCues”、序列号为11/750,300(专利机构案卷号为CLIP159)的美国专利申请中描述的发明的公开中所提供的细节，该申请11/750,300要求申请60/747,532的优先权，上述申请的全部公开通过引用整体结合于此。

本发明使用在美国专利申请No.11/750,300(通过引用被结合于此)中描述的方法来在时间-频率域中分析方向提示。该空间分析针对每个时间频率域分量导出表示相对于收听者耳朵的位置的方向角。双耳呈现包括：生成左右频域信号，以使得对于每个时间和频率，这两个信号之间的双耳幅度和相位差与从空间分析导出的方向角所对应的HRTF中出现的双耳幅度和相位差相匹配。很容易将该方法扩展为任何两声道或多声道空间呈现方法，其中，声音的预期方向是用规定的声道间幅度和/或相位差来表征的。

随着便携式媒体设备的激增，耳机收听已变得越来越普遍；因此，在移动和非移动收听情形中，通过耳机提供高保真收听体验对于现代消费电子产品来说是关键的增值方式(或者可证实地，甚至是必须特征)。这种增强型耳机再现与立体声内容相关，立体声内容例如是旧的音乐记录以及多声道音乐和电影声轨。虽然改善耳机收听的算法可以结合动态处理和/或换能器(transducer)补偿，然而，所描述的本发明的实施例关注空间增强，其目标是最终向耳机收听者提供沉浸式体验。

近来，一些包括多个换能器的“空间增强”耳机在市场上已经可获得。虽然这里描述的方法可以容易地被扩展为这些多换能器耳机，然而，本发明的优选实施例致力于耳机呈递的更常见的情况，其中，单个换能器用来向给定耳朵呈现信号：耳机再现简单地构成了向收听者的左耳朵呈递左声道信号并且同样地，向右耳朵呈递右声道信号。在这种耳机系统中，立体声音乐记录(仍为占主导地位的格式)显然可以通过将各个声道信号路由到耳机换能器来直接地被呈现。然而，作为消费者设备中的默认实现的这种呈现产生了作为空间沉浸的反效果的头中(in-the-head)收听体验：在左右声道之间摆动的源被感知为是从收听者耳朵之间的点源发的。对于希望用于多声道环绕回放的音频内容(可能最显著的是电影声轨)，通常，除前面的左右声道之外还利用前面的中间声道以及多个环绕声道，直接耳机呈现要求对这些附加声道的下混(downmix)；对于立体声内容，头中定位再次出现，并且此外，环绕空间图像通过前/后辨别提示的消除而被损害。

尽管头中定位经常被耳机收听者体验到，然而其的确是物理上不自然的感受，并且如所提到的，违背了收听者沉浸的目标，对于收听者沉浸来说，声源的外部化(externalization)感觉是至关重要的。一种称为虚拟化的技术常用来试图减轻头中定位并增强外部化感觉。虚拟化的目标通常是通过耳机重建这样的感觉：在由音频格式规定的一些预先建立的位置处，例如典型立体声格式的+/-30°方位角处通过扬声器收听原始音频内容的感觉。这是通过向每个输入声道应用依赖于位置和依赖于耳朵的处理以便针对每个声道创建左耳和右耳信号(即，双耳信号)来实现的，左耳和右耳信号模仿如果该特定声道信号由在音频格式所指示的相应声道位置处的离散扬声器来广播的话将在收听者各个耳朵处接收到的信号。各个输入声道的双耳信号被混合成为两声道信号以用于通过耳机呈递，如图3所示。

标准虚拟化方法已被应用于音乐和电影收听以及诸如游戏之类的交互式情形。在后者的情况中，当各个声源明确地可用于预处理时，一组位置精确的头部相关转移函数(用于头部相关脉冲响应的HRIR或HRTF)可被应用于每个源，以产生对空间上远离的多个源的有效双耳呈现。然而在音乐(或电影)回放情形中，离散的声源不可用于这种特定于源的空间处理；声道信号包括各种声源的混合。在本发明的一个实施例中，我们将这种收听不知道其构成源的确切位置信息的内容的后者情况称为先验，因此，对各个声源的离散虚拟化不能被执行。然而，应当注意，所提出的方法还适用于以多声道格式混合的交互式音轨，如在一些游戏机中。

在标准的音频记录的虚拟化中，重要的缺点在于记录中部分地跨越声道摆动的声源不能通过耳机动听地再现，这是因为源是通过多个(在立体声情况中为两个)不同方向的HRTF的组合而非经由所需源方向的正确HRTF来呈现的。在本发明各个实施例中提出的新方法中，下面称为空间音频场景编码(SASC)的空间分析算法用来从时间频率域中的输入音频信号中提取方向信息。对于每个时间和频率，SASC空间分析导出表示相对于收听圆(listening-circle)(或球体)的中心的位置的方向角和半径；角度和半径对应于感知到的该时间频率分量的位置(对于位于中心的收听者来说)。然后，左右频域信号基于这些方向提示被生成，以使得在每个时间和频率处合成信号之间的双耳大小和相位差与通过SASC分析导出的方向角所对应的HRTF的双耳大小和相位差相匹配，从而使得在声道之间摆动的源真正经过正确的HRTF处理。

下面的描述开始于对标准虚拟化方法及其限制的更详细回顾，引入了在对优选实施例的后续描述中使用的记号，优选实施例包括：通过利用SASC空间分析-合成、SASC空间分析、SASC驱动双耳合成以及在空间分析-合成之前将输入分离为主要分量(primary component)和周围分量(ambient component)的扩展，来克服标准方法的缺陷的新的虚拟化算法。

标准虚拟方法：

在下面的部分中，我们回顾了耳机虚拟化的标准方法，包括时域和频域处理体系结构以及性能限制。

时域虚拟化：

两声道或多声道记录的虚拟3D音频再现通常致力于通过耳机再现出通过扬声器收听记录那样的听觉。图3所示的传统方法包括：经由HRTF滤波器(306、308)或BRIR/BRTF(双耳房间脉冲响应/转移函数)滤波器使输入声道(301-303)中的每个声道“虚拟化”，并且随后将结果相加(310、312)。

Y_{L} [t] = \underset{m}{Σ} h_{mL} [t] * χ_{m} [t] - - - (1)

Y_{R} [t] = \underset{m}{Σ} h_{mR} [t] * χ_{m} [t] - - - (2)

其中，m是声道索引，并且χ_m[t]是第m个声道信号。声道m的滤波器h_mL[t]和h_mR[t]是由已定义的该声道的空间位置(例如，典型立体声格式的±30°方位角)来指定的；滤波器h_mL[t]表示从第m个输入位置到左耳的脉冲响应(转移函数)，并且h_mR[t]表示到右耳的响应。在HRTF情况中，这些响应仅取决于收听者的形态，而在BRTF情况中，它们还包括特定(真实的或建模的)混响收听空间的效果；出于简化，我们在本说明书中的剩余部分中将这些变体互换地称为HRTF(尽管一些讨论更严格地适用于无回音HRTF情况)。

用于单声道的基于HRTF的虚拟化在图4A中示出。图4A是用于输入声道之一的时域虚拟化处理的框图。图4A所示的HRTF滤波器可被分解为耳间水平差(ILD)和耳间时间差(ITD)。如上所述的滤波器h_1L[t](403)和h_1R[t](404)描述了在信号χ₁[t](402)传输到各个耳朵的过程中经受的不同声学滤波。在一些方法中，滤波被分解为耳间时间差(ITD)和耳间水平差(ILD)，其中，ITD实质上捕获到耳朵的两个声学路径的不同传播延时，并且ILD表示因收听者的存在引起的频谱滤波。

基于ILD/ITD分解的虚拟化在图4B中示出；这种双耳合成通过向要呈现的信号施加耳间时间和水平差而获得了虚拟化效果，其中，ITD和ILD是从所需要的虚拟位置确定的。一般性地给出该图示以反映出，实际上处理通常是基于虚拟理论不同地被执行的：例如，对于给定虚拟源，到同侧耳朵(与该虚拟源最接近)的信号可以无任何延时地被呈递，而全部的ITD被施加给对侧耳朵信号。应当注意，存在基于ILD/ITD分解的虚拟化的许多变更，并且大多数情况中，ILD和ITD都可被认为是依赖于频率的。

频域虚拟化：

等式(1)-(2)中的虚拟化公式在频域中可等同地表达为

Y_{L} [ω] = \underset{m}{Σ} h_{mL} [ω] * χ_{m} [ω] - - - (3)

Y_{R} [ω] = \underset{m}{Σ} h_{mR} [ω] * χ_{m} [ω] - - - (4)

其中，h[ω]表示h[t]的离散时间傅里叶变换(DTFT)，并且χ_m[ω]表示χ_m[t]的DTFT；这些可利用HRTF滤波器的大小-相位形式被等同地写为：

Y_{L} [ω] = \underset{m}{Σ} | H_{mL} (ω) | X_{m} (ω) e^{{jφ}_{mL}} - - - (5)

Y_{R} [ω] = \underset{m}{Σ} | H_{mR} (ω) | X_{m} (ω) e^{{jφ}_{mR}} - - - (6)

其中，φ_mL和φ_mR是滤波器各自的相位。耳间相位差(展开的)可被认为表示(依赖于频率)ITD信息：

Δ (ω) = \frac{1}{(ω)} (φ_{mL} - φ_{mR}) - - - (7)

其中，Δ表示ITD。替代地，ITD可被看作是由耳间过量相位(excess-phase)差表示的，并且将任何残余相位(例如，来自HRTF测量)归因于声学滤波。在此情况中，每个HRTF被分解为其最小相位分量和全通分量：

H_{mL} (ω) = F_{mL} (ω) e^{j ψ_{mL} (ω)} - - - (8)

H_{mR} (ω) = F_{mR} (ω) e^{j ψ_{mR} (ω)} - - - (9)

其中，F(ω)是最小相位分量，ψ(ω)是过量相位函数。随后可通过下式获得ITD：

Δ (ω) = \frac{1}{(ω)} (φ_{mL} - φ_{mR}) - - - (10)

图5是一般的频域虚拟化系统的框图。STFT包括滑动窗和FFT，而逆STFT包括逆FFT和交叠相加。

在前面的讨论中，频域公式被理想化；实际上，频域实现方式通常基于短时傅里叶变换(STFT)框架，例如图5所示的，其中，输入信号被窗口化，并且向每个窗口段应用离散傅里叶变换(DFT)：

X_{m} [k, l] = Σ_{n = 0}^{N - 1} ω [n] x_{m} [n + lT] e^{- j ω_{k} n} - - - (11)

其中，k是频率区间(frequency bin)索引，l是时帧(time frame)索引，ω[n]是N点窗口，T是连续窗口之间的跳跃大小，并且

K是DFT大小。如在等式(3)-(4)中那样，HRTF滤波是通过频域乘法实现的，双耳信号是通过相加来自各个虚拟化输入声道的贡献而计算出的：

Y_{L} [k, l] = \underset{m}{Σ} H_{mL} [k] X_{m} [k, l] - - - (12)

Y_{R} [k, l] = \underset{m}{Σ} H_{mR} [k] X_{m} [k, l] - - - (13)

其中，H[k]表示h[t]的DTF。在STFT体系结构中，实现等同于时域方法的滤波需要DFT大小足够大以避免时域混叠：K≥N+N_h-1，其中，N_h是HRIR的长度。对于长的滤波器，仍可以通过向子频带信号应用经适当导出的滤波器(而不是简单的乘法)或者通过利用混合时域/频域方法来利用计算上的实际FFT大小实现频域处理。

由于数个原因而对频域处理体系结构感兴趣。首先，由于用于计算DFT的快速傅里叶变换(FFT)算法的低成本(以及频域乘法与时域卷积的对应关系)，它们为长FIR滤波器提供了对时域卷积的高效备选方案。即，与精确时域滤波所需的更复杂的处理需求相比，可以通过较便宜的硬件或硬件软件组合来对输入音频执行更精确的滤波。此外，在频域表示中比在时域中可以更灵活更有意义地使HRTF数据参数化并对其建模。

标准方法的限制：

在前面部分所描述的标准HRTF方法中，离散地向单个声道摆动的源可以通过耳机被动听地虚拟化，即，可以实现给予了外部化感觉以及源的精确空间位置的呈现。然而，记录中跨越多个声道摆动的声源不能被动听地再现。考虑这样一组输入信号，其中每个输入信号包含幅度被缩放版本的源s[t]：

x_m[t]＝α_ms[t] (14)

利用这些输入，等式(1)变为

y_{L} [t] = \underset{m}{Σ} h_{mL} [t] * (α_{m} s [t]) - - - (15)

从该等式可清楚，在此情形中

y_{L} [t] = s [t] * (\underset{m}{Σ} α_{m} h_{mL} [t]) - - - (16)

y_{R} [t] = s [t] * (\underset{m}{Σ} α_{m} h_{mR} [t]) - - - (17)

因此，源s[t]是通过多个不同方向的HRTF的组合来呈现的，而不是经由实际所需要的源方向的正确HRTF，即，与输入格式兼容的扬声器再现中的所需源位置来呈现的。除非经组合的HRTF对应于密排声道，否则，这种HRTF的组合将显著地恶化空间图像。本发明的各个实施例的方法克服了这种缺陷，如在下面部分中进一步描述的。

基于空间分析-合成的虚拟化：

本发明的实施例将新颖的频域方法用于双耳呈现，其中，对输入音频场景进行分析以得到空间信息，该空间信息随后被用在合成算法中以呈现对输入场景的真实的引人注目的再现。频域表示提供了将复杂声学场景提取为分离的声音事件的有效手段，以使得可向每个这样的事件应用适当的空间处理。

图1是图示出根据本发明一个实施例的一般化立体声虚拟化方法的流程图。首先，在操作102中，对输入信号执行短时傅里叶变换(STFT)。例如，STFT可以包括滑动窗和FFT。接下来，在操作104中，摆动分析被执行以提取出方向信息。对于每个时间和频率，空间分析导出了表示源音频相对于收听者头部的位置的方向角，并且可以执行将输入信号分离为若干个空间分量(例如方向分量和非方向分量)。接下来，在操作106中，利用被设计用于在所确定方向角处进行虚拟化的左右HRTF滤波器来执行依赖于摆动的滤波。当为给定时帧中的所有频率生成了双耳信号并且在操作108中将各个分量组合(可选地，并入输入信号的一部分)之后，用于呈递给收听者的时域信号通过操作110中的逆变换和交叠相加过程被生成。

图2是图示出根据本发明一个实施例的用于多声道音频的双耳合成的方法的流程图。首先，在操作202中，对输入信号，例如多声道音频输入信号执行短时傅里叶变换(STFT)。例如，STFT可以包括滑动窗和FFT。接下来，在操作204中，空间分析被执行以提取出方向信息。对于每个时间和频率，空间分析导出表示源音频相对于收听者头部的位置的方向向量。接下来，在操作206中，优选地，基于将出现在从相应时间频率方向向量(由块204提供的)导出的左右头部相关转移函数(HRTF)中的相位和幅度差来对每个时间频率分量滤波。更具体地，生成在每个时间和频率分量处具有相对声道间相位和幅度值(其表征所选输出格式中的方向)的至少第一和第二频域输出信号。在为给定时帧中的所有频率生成了至少两个输出声道信号之后，用于呈递给收听者的时域信号通过操作208中的逆变换和交叠相加过程来生成。

下面将更详细地描述空间分析方法、双耳合成算法以及主要-周围分解的并入。

空间音频场景编码：

空间分析方法包括在时间频率域中从输入信号提取方向信息。对于每个时间和频率，空间分析导出表示相对于收听者头部的位置的方向角；对于多声道情况，其还导出描述了相对于收听圆中心的径向位置的距离提示，以便能够使越过(fly-over)和穿过(fly-through)声音事件参数化。分析是基于导出Gerzon向量的以确定每个时间和频率处的定位：

\overset{&RightArrow;}{g} [k, l] = \underset{m}{Σ} α_{m} [k, l] {\overset{&RightArrow;}{e}}_{m} - - - (18)

其中，

是第m个输入声道的方向中的单位向量。针对标准5声道设置的这些格式向量的示例在图6A中示出。等式(18)中的权重α_m[k，l]对于Gerzon速度向量由下式给出

α_{m} [k, l] = \frac{| X_{m} [k, l] |}{Σ_{i = 1}^{M} | X_{i} [k, l] |} - - - (19)

并且对于Gerzon能量向量由下式给出

α_{m} [k, l] = \frac{{| X_{m} [k, l] |}^{2}}{Σ_{i = 1}^{M} {| X_{i} [k, l] |}^{2}} - - - (20)

其中，M是输入声道数目。速度向量被认为更适合用于确定低频事件的定位(并且能量向量更适合用于高频)。

图6A示出了标准5声道音频格式的格式向量(601-605)(实线)以及相对应的Gerzon向量的编码轨迹(606)(虚线)。图6B示出了针对任意扬声器输出的格式向量以及编码轨迹。Gerzon向量608和定位向量609在图6A中示出。

虽然由等式(18)和(19)或(20)定义的Gerzon向量的角度可以取任何值，但是其半径被限制以使得向量总是位于内接多边形之内(或之上)，内接多边形的顶点在格式向量端点处(如图6A和图6B的每个中的虚线所示的)；多边形上的值是仅针对成对摆动的源获得的。这种受限的编码轨迹导致了不精确的空间再现。为了克服这个问题并且使得能够精确地且独立于格式地进行空间分析并表示收听圆中的任意声音位置，如下这样来计算定位向量

(其中，针对每个时间l处的每个区间k执行这些步骤)：

1.经由等式(18)导出Gerzon向量。

2.找到

任一侧上的相邻格式向量；下面将这些相邻格式向量用

和来表示(其中，出于标记简化的目的，省略了这些被标识格式向量的频率和时间索引k和l)。

3.利用矩阵

计算定位向量的半径如下

r [k, l] = {| | E_{ij}^{- 1} \overset{&RightArrow;}{g} [k, l] | |}_{1} - - - (21)

其中，脚标1表示向量的1-norm(即，向量元素的绝对值之和)。

4.导出定位向量如下

\overset{&RightArrow;}{d} [k, l] = r [k, l] \frac{\overset{&RightArrow;}{g} [k, l]}{{| | \overset{&RightArrow;}{g} [k, l] | |}_{2}} - - - (22)

其中，脚标2表示向量的欧几里德距离。

这以极坐标形式被编码为半径r[k，l]和方位角θ[k，l]。

注意，等式(22)中给出的定位向量在与Gerzon向量相同的方向上。这里，尽管向量长度通过等式(21)中的投影操作而被修改，以使得定位向量的编码轨迹被扩展为包括整个收听圆；然而对于未经修改的Gerzon向量，成对摆动分量在圆周上而非内接多边形上被编码。

上述空间分析首先被开发来提供用在独立于格式的空间音频编码方案中的“通用空间提示”。通过这种对音频场景的健壮且灵活的参数化(下面将其称为空间音频场景编码(SASC))已经使能了多种新的空间音频算法；例如，这种空间参数化已用于任意多声道音频格式之间的高保真转换。这里，在图5所示的频域虚拟化算法中提供了对SASC的应用。在该体系结构中，SASC空间分析被用来确定所感知到的输入音频场景中的每个时间频率分量的方向。然后，通过用于在该方向进行虚拟化的适当双耳处理来呈现每个这样的分量；将在下面的部分中讨论这种双耳空间分析。

尽管上面是基于输入信号的STFT表示来对分析进行描述的，然而SASC方法同样可以应用于其它频域变换和子频带信号表示。此外，除了方位角和径向位置信息以外，很容易将该分析(以及合成)扩展为包括仰角(elevation)。

空间合成：

在包括虚拟化算法的方法实施例中，信号X_m[k，l]和空间定位向量

都被提供给双耳合成引擎，如图7所示。在合成中，频域信号Y_L[k，l]和Y_R[k，l]基于提示

被生成，以使得在每个时间和频率处，正确的HRTF大小和相位被应用于在由所指示的方向上的虚拟化。合成算法中的处理步骤如下并且针对每个时间l处的每个频率区间k被执行：

1.对于角度提示θ[k，l](对应于定位向量)，确定该角度处的虚拟化所需的左右HRTF滤波器：

H_{L} [k, l] = F_{L} [k, l] e^{- j w_{k} τ_{L} [k, l]} - - - (23)

H_{R} [k, l] = F_{R} [k, l] e^{- j w_{k} τ_{R} [k, l]} - - - (24)

其中HRTF相位在这里用时间延迟τ_L[k，l]和τ_R[k，l]来表达。径向提示r[k，l]还可以作为仰角或邻近效应而被包括在对这些HRTF的推导中，如下所述。

2.对于每个输入信号分量X_m[k，l]，计算双耳信号：

Y_mL[k，l]＝H_L[k，l]X_m[k，l] (25)

Y_mR[k，l]＝H_R[k，l]X_m[k，l] (26)

3.累加最后的双耳输出信号：

Y_{L} [k, l] = Σ_{m = 1}^{M} Y_{mL} [k, l] - - - (27)

Y_{R} [k, l] = Σ_{m = 1}^{M} Y_{mR} [k, l] - - - (28)

在针对给定帧l的所有k生成了双耳信号之后，呈递给收听者的时域信号通过如图7所示的逆变换和交叠相加来生成。图7是高分辨率频域虚拟化算法的框图，其中，空间音频场景编码被用来确定输入音频场景中每个时间频率分量的虚拟化方向。输入信号702被转换为频域表示706，然而优选地不必使用短时傅里叶变换704。优选地，在空间分析块708中分析频域信号，以至少生成每个时间频率分量的方向向量709。应当理解，本发明的实施例不局限于执行空间分析的方法，或者即使在执行空间分析的方法实施例中，也不局限于特定的空间分析技术。在2007年5月17日提交的题为“Spatial Audio Coding Based on Universal Spatial Cues”的共同待决申请No.11/750,300(通过引用被并入)中更详细地描述了一种用于空间分析的优选方法。

接下来，时间频率信号表示(频域表示)706在高分辨率虚拟化块710中被进一步处理。该块通过从时间频率信号表示706中至少生成第一和第二频域信号712来获得针对所选输出格式声道718的虚拟化效果，时间频率信号表示706针对每个时间和频率分量具有表征与方向向量709相对应的方向的声道间幅度和相位差。随后优选地通过利用逆短时傅里叶变换714以及传统的交叠和相加技术来将第一和第二频域声道转换为时域，从而产生输出格式声道718。

在等式(25、26)的公式表达中，每个时间频率分量X_m[k，l]通过HRTF被独立地虚拟化。很容易操纵在等式(27、28)中给出的最后的合成表达式以产生

Y_{L} [k, l] = [Σ_{m = 1}^{M} X_{m} [k, l]] F_{L} [k, l] e^{- j w_{k} τ_{L} [k, l]} - - - (29)

Y_{R} [k, l] = [Σ_{m = 1}^{M} X_{m} [k, l]] F_{R} [k, l] e^{- j w_{k} τ_{R} [k, l]} - - - (30)

这些公式表明其等效于首先对输入声道进行下混，然后执行虚拟化。由于在下混中可能出现不希望的信号删除，因此，在本发明的优选实施例中引入了归一化，以确保下混的功率与每个时间和频率处的多声道输入信号的功率相匹配。

F_L[k，l]和F_R[k，l]的频域乘法与滤波操作相对应，然而在这里，与前面讨论的情况相反，滤波器脉冲响应长度为K；由于在频域中非线性地构建滤波器(基于不同频率区间的不同空间分析结果)，因此，相应的滤波器脉冲响应的长度不受约束。因此，以这种方式构建的滤波器的频域乘法总是会引入一些时域混叠，这是因为滤波器长度和DFT大小相等，即，不存在用于卷积的零填充。收听测试指示出这种混叠是听不见的，因此不会造成问题，然而，如果需要，可以通过在每个时间l处对滤波器H_L[k，l]和H_R[k，l]进行时间限制来减少它，例如通过与充分短的时域窗的频谱的频域卷积。可以近似地实现这种卷积(作为简单的频谱平滑操作)以节省计算。在任一情况中，时限频谱校正在每个区间k处改变滤波器H_L[k，l]和H_R[k，l]，因此降低了得到的空间合成的精确度。

在空间合成算法的步骤1中寻找适当的滤波器H_L[k，l]和H_R[k，l]对应于确定任意方向θ[k，l]的HRTF。这种问题在交互式3D位置音频系统中也会遇到。在一个实施例中，H_L[k，l]和H_R[k，l]的大小(或最小相位)分量是通过根据在一组离散方向处获得的HRTF测量的数据库来在每个频率处进行空间内推而导出的。简单的线性内推通常是足够的。ITD是通过根据所测得ITD值的类似内推或者通过近似公式来单独重建的。例如，具有直径上相对的耳朵以及半径b的球形头部模型产生了

Δ [k, l] = \frac{b}{c} (θ [k, l] + \sin θ [k, l]) - - - (31)

其中，c表示声速，方位角θ[k，l]是以前方为基准的弧度。这种对ITD的单独内推或计算对于任意方向处的高保真虚拟化是至关重要的。

在如上所述那样确定了适当ITDΔ[k，l]之后，通过将ITD分配在左右信号之间来导出等式(23、24)中所需的延迟τ_L[k，l]和τ_R[k，l]。在优选实施例中：

τ_{L} [k, l] = τ_{o} + \frac{Δ [k, l]}{2} - - - (32)

τ_{R} [k, l] = τ_{o} - \frac{Δ [k, l]}{2} - - - (33)

其中，偏移τ_o被引入以允许任一声道上的正负延迟。与针对每个时间频率分量作出同侧/对侧判定并且仅使用正延迟的备选方法相比，使用这种偏移产生了更健壮的频域修正。

对于宽频带瞬态事件，将相位修正引入DFT频谱可能导致不希望的失真(例如瞬时拖尾)。两个措施对于消除这种问题是有效的。首先，低频切除(low cutoff)可被引入用于ITD处理，以使得高频信号结构不经过ITD相位修正；这对空间效果的影响较小，因为ITD提示对于中间范围频率处的定位或虚拟化是最重要的。其次，可以包括进瞬态检测器；如果帧包含宽频带瞬态，则可将相位修正从每区间相移改变为宽频带延迟，以使得针对瞬态结构实现适当的ITD。这假设在DFT中使用了足够的过采样以允许这种信号延迟。此外，可将宽频带延迟局限于表现出最短暂行为的区间，从而使得针对在瞬态期间持续存在的固定源维持高分辨率虚拟化。

仰角和邻近效应：

当应用于多声道内容时，前面描述的SASC分析产生了径向提示的值，以使得对于成对摆动(在圆周上)的声源或声音事件r[k，l]＝1，并且对于“在圆内部”摆动的声音事件r[k，l]＜1。当r[k，l]＝0时，声音事件的定位与基准收听位置一致。在对仅水平方向(或“pantophonic”)格式，例如图6A所示的5.1格式的多声道记录的扬声器再现中，位于基准位置(或“最佳听音点(sweet spot)”)处的收听者将感知到位于头部之上的声音(假设所有声道包含经缩放版本的共同源信号)。这种状况的双耳再现可以通过在利用与天顶位置(仰角＝90°)相对应的滤波器对源信号滤波之后将同一源信号均等地馈送给两个耳朵来容易地实现。这表明，对于pantophonic多声道记录，基于SASC的双耳呈现方案可被扩展为通过将径向提示r[k，l]映射到仰角γ来处理任何值的该提示：

γ[k，l]＝S(r[k，l]) (34)

其中，仰角映射函数S将间隔[0，1]映射到[π/2，0]。在一个实施例中，这种映射函数(以弧度为单位)由下式给出

S(r[k，l])＝arccos(r[k，l]). (35)

这种解决方案假设SASC定位向量

是到虚拟源位置(通过方位角θ[k，l]和仰角γ[k，l]定义的)的水平平面上的投影，其跨越与以收听者为中心的球体的上半部分相符的3D编码表面。更一般的解决方案被定义为任何3D编码表面，其围绕垂直轴保持对称并且包括单位圆的圆周作为其边缘。例如，假设3D编码表面为扁平的或“瘪的”球体将防止估计r[k，l]时的小误差转化为双耳呈现空间场景时的可觉察到的假性仰角效应。

在一个实施例中，针对r[k，l]＜1的附加增强包括：合成双耳近场效应，以针对位于收听者头部附近(大约1米或更近)的声音事件产生更引人注目的幻觉。这包括将r[k，l](或由方位角θ[k，l]和仰角γ[k，l]定义的3D源位置)映射为物理距离量度，并且将在前述双耳合成中使用的HRTF数据库扩展为包括近场HRTF数据。近似的近场HRTF校正可以通过近似地调节位于横向上的声源的耳间水平差来实现。要应用于两个耳朵处的增益因子β_L和β_R可以通过分割给定ITD值的耳间路径长度差来导出：

β_{L} [k, l] = \frac{2 p}{2 p + cΔ [k, l]} - - - (36)

β_{R} [k, l] = \frac{2 p}{2 p - cΔ [k, l]} - - - (37)

其中，p表示从源到头部(的中心)的物理距离，等式(31)的ITD近似可被扩展为考虑到仰角γ[k，l]，如下：

Δ [k, l] = \frac{b}{c} [\arcsin (\cos γ [k, l] \sin θ [k, l]) + \cos γ [k, l] \sin θ [k, l]] . - - - (38)

在这些公式中，正的角度在顺时钟方向上，正的ITD对应于与源较近的右耳(以使得左耳信号相对于右耳被延迟并被衰减)。

对于三维(或“全向声系统”)的多声道扬声器配置，同空间分析导出的SASC定位向量

容易包括仰角信息，并且r[k，l]仅可以解释为临近提示，如上面所述的。

主要-周围分解：

在合成复杂音频场景时，对于离散源和扩散声音需要不同的呈现方法；离散或主要声音应当以尽可能多的空间化精确度来呈现，而扩散或周围声音应当以维持(或增强)与周围源相关联的空间感的感觉的方式来呈现。因此，用于双耳呈现的SASC方案在此被扩展为包括作为前端操作的主要-周围信号分解，如图8所示。这种主要-周围信号分解将每个输入信号X_m[k，l]分离为主要信号P_m[k，l]和周围信号A_m[k，l]；针对这种分解的若干方法已在文献中提出。

图8是具有主要-周围信号分解的高分辨率频域虚拟化系统的框图，其中，未示出输入和输出时间频率变换。首先，频域输入信号806在主要-周围分解块808中被处理以产生主要分量810和周围分量811。在此实施例中，对主要分量执行空间分析812以产生方向向量814。优选地，根据在共同待决美国申请No.11/750,300中描述的方法来执行空间分析。替代地，通过从输入信号生成方向向量的任何合适的技术来执行空间分析。接下来，在高分辨率虚拟化块816中结合方向向量信息814来处理主要分量信号810以生成频域信号817，频域信号817针对每个时间和频率分量具有表征与方向向量814相对应的方向的声道间幅度和相位差。对周围分量811的周围虚拟化在周围虚拟化块818中进行以生成经虚拟化的周围分量819(其也是频域信号)。由于在下混中可能出现不希望的信号删除，因此，在本发明的优选实施例中引入的相对归一化，以确保下混的功率与每个时间和频率处的多声道输入信号的功率相匹配。信号817和819随后被组合。

在主要-周围分量分离之后，对主要和周围分量独立地执行虚拟化。将先前描述的空间分析和合成应用于主要分量P_m[k，l]。另一方面，周围信号A_m[k，l]可以通过前述表征多声道虚拟化方法来合适地呈现，尤其是如果输入信号是例如5.1格式的多声道环绕记录的话。

在两声道记录的情况中，希望将周围信号分量虚拟化为环境声场而不是通过一对虚拟前方扬声器进行直接再现。在一个实施例中，周围信号分量A_L[k，l]和A_R[k，l]在未经修改的情况下直接被添加到双耳输出信号，或者经过某种去相关滤波以用于增强效果。备选方法包括将这对周围信号分量“上混”(upmix)为多声道环绕周围信号并且随后利用前述的标准技术来虚拟化该多声道信号。该周围上混处理优选地包括向合成环绕周围信号应用去相关滤波器。

应用：

所提出的基于SASC的呈现方法在多种消费电子设备中具有各种应用，对于这些消费电子设备，希望在家中或在移动情形中对音乐或电影声轨进行改进的耳机再现。在美国专利申请No.11/750,300(代理机构案卷号CLIP159，“Spatial Audio Coding Based on Universal Spatial Cues”，通过引用结合于此)中描述的空间分析方法与在频域中执行的双耳合成的组合提供了对通过耳机再现音乐和电影声轨的空间质量的提高。得到的收听体验是对收听所记录声音场景的真实双耳记录体验的(或者已建立收听房间中的给定扬声器再现系统的)更接近的近似。此外，与传统的双耳记录不同，这种再现技术容易支持头部跟踪补偿，这是因为其允许模拟声音场景相对于收听者的旋转，如下所述。虽然不希望限制本发明的范围，然而下面将描述本发明的数个另外的应用。

空间音频编码格式：

如果输入信号已是在频域中提供的，则这里描述的基于SASC的双耳呈现实施例尤其高效，并且如果输入信号由多于两个声道构成，则甚至更高效，这是因为随后虚拟化具有减少需要逆变换以转换为时域的声道的数目的效果。作为这种在计算上有利的情形的常见示例，标准音频编码制式中的输入信号被提供给频域表现中的解码器；类似地，这种情形出现在对以空间音频编码格式表示的多声道信号的双耳呈现中。在共同待决美国专利申请No.11/750,300所描述的SASC格式的情况中，编码器已经提供了空间分析(前面所述的)、下混信号以及主要-周围分解。因此，上述空间合成方法形成了用于SASC格式的在计算上高效在感知上精确的耳机解码器的核心。

非离散多声道格式：

基于SASC的双耳呈现方法可以应用于标准离散多声道记录以外的其它音频内容。例如，其可以用于经ambisonic编码的或经矩阵编码的素材。与共同待决美国专利申请No.61/102,002(代理机构案卷号CLIP228PRV2)中所述的基于SASC的矩阵解码算法以及称为相位-幅度3D立体声编码器和解码器相组合地，这里提出的双耳呈现方法提供了用于耳机再现两声道矩阵编码内容的兼容且有效的方法。类似地，其可容易地与SIRR或DirAC技术组合以用于通过耳机高分辨率地再现ambisonic记录或者用于将房间脉冲响应从ambisonic格式转换为双耳格式。

空间变换：

基于SASC的双耳呈现方法具有除提高耳机收听的初始动机以外的许多应用。例如，使用SASC分析架构来参数化原始内容的空间方面使得能够对所呈现场景进行灵活地健壮地修正。一个示例是通过扭曲角度提示以在高分辨率虚拟化之前在空间上拓宽音频场景来产生“缠绕式”增强效果。考虑到空间分离是言语可懂度的重要因素已是众所周之的，则可以证明这种空间拓宽对于改善由助听器提供的听力辅助是有用的。

场景旋转和头部跟踪：

除了空间拓宽以外，通过使用这里所述的基于SASC的双耳呈现方法还可容易地实现其它模式的内容重分布或基于方向的增强。一种特别有用的重分布是场景旋转；因为其使得能够精确地合成相对于收听者的声音场景旋转，与传统的虚拟化器或双耳记录不同，这里描述的再现方法容易支持头部跟踪补偿。实质上，与标准的以声道为中心的虚拟化方法相比，基于SASC的双耳呈现使得能够改善跟踪头部的双耳虚拟化，这是因为所有主要声音分量是以精确的HRTF提示来再现的，避免了对在两个或更多个声道之间摆动的声音的“幻象声像”幻觉进行虚拟化的任何尝试。

扬声器再现：

可以通过引入应用于双耳输出信号的适当串扰消除滤波器来将基于SASC的双耳呈现方法包括在扬声器再现情形中。对于更高效的实现方式，还可以利用基于HRTF的或“transaural”虚拟化滤波器设计技术来将双耳合成与串扰消除组合在频域合成滤波器H_L[k，l]和H_R[k，l]中。

一般化为任意空间音频格式转换：

虽然上面对优选实施例的基于SASC的双耳呈现方法的描述假设利用左输出声道和右输出声道进行再现，然而，很容易将本发明的原理更一般地应用于利用任何两声道或多声道音频记录或传输格式通过耳机或扬声器进行的空间音频再现，其中，可以通过规定的依赖于频率或独立于频率的声道间幅度和/或相位差来将方向角编码在输出信号中。因此，本发明允许精确地再现以下格式的空间音频场景：例如，ambisonic格式、相位-幅度矩阵立体声格式、离散多声道格式、与两个或更多个麦克风阵列相关联的传统的两声道或多声道记录格式、利用基于HRTF(或“transaural”)的虚拟化技术或使用扬声器阵列的声场再现方法(例如波场合成)的两声道或多声道扬声器3D音频格式。

如从上面的描述将清楚的，本发明可用来将信号从任何两声道或多声道空间音频记录或传输格式转换为任何其它两声道或多声道空间音频记录或传输格式。此外，方法允许将声音场景的角度变换包括在格式转换中，声音场景的角度变换例如是应用于声音场景中的声音分量的方向角的旋转或缠绕。

虽然已经出于清楚理解的目的而较详细地描述了本发明，但是将会意识到，在所附权利要求的范围内可以进行某些改变和修改。因此，所述实施例将被认为是示例性的而非限制性的，并且本发明并不局限于这里给出的细节，而是可以在所附权利要求的范围和等同物之内进行修改。

Claims

1.一种从具有至少一个音频输入声道和至少一个空间信息输入声道的音频输入信号的时间频率信号表示生成具有至少第一和第二音频输出声道的音频输出信号的方法，该方法包括：

选择空间音频输出格式，以使得音频输出信号中的方向由所述至少第一和第二音频输出声道之间的每个频率处的声道间幅度差和声道间相位差中的至少一者来表征；

接收与所述时间频率信号表示的多个帧中的每个帧相对应的方向信息；以及

从所述时间频率信号表示生成第一和第二频域输出信号，所述第一和第二频域输出信号在每个时间和频率处具有表征所述空间音频输出格式中的方向的、所述至少第一和第二输出声道之间的声道间幅度差和声道间相位差。

2.如权利要求1所述的方法，还包括：接收与所述时间频率信号表示的多个帧中的每个帧相对应的半径值，所述半径值中的每个对应于从被分析音频源到收听者的距离或者对应于被分析音频源相对于水平平面的仰角。

3.如权利要求1所述的方法，其中，所述多声道音频输入信号是ambisonic编码信号或相位-幅度矩阵编码信号之一。

4.如权利要求1所述的方法，其中，所述时间频率信号表示包括输入音频信号的主要分量。

5.如权利要求4所述的方法，还包括：接收与所述输入音频信号的至少一个周围分量相对应的周围方向向量，接收与所述输入音频信号相对应的周围分量的时间频率表示，并且利用所述周围方向向量和所述周围分量来生成所述第一和第二频域信号。

6.如权利要求1所述的方法，其中，所述音频输入信号是立体声信号。

7.如权利要求1所述的方法，还包括：将所述音频输入信号转换为频域表示，并且从所述频域表示导出方向角信息。

8.如权利要求7所述的方法，还包括：将所述音频输入信号分解为主要分量和周围分量，并且至少对所述主要分量的时间频率表示执行空间分析以导出所述方向角信息。

9.如权利要求1所述的方法，还包括：执行归一化以确保音频输出格式声道的功率与每个时间和频率处的音频输入信号的功率相匹配。

10.一种生成双耳音频信号的方法，包括：

将输入音频信号转换为频域表示；

从所述频域表示导出与多个时间频率分量中的每个的定位方向相对应的方向向量；

从所述时间频率信号表示生成第一和第二频域信号，所述第一和第二频域信号在每个时间和频率处具有表征与所述方向向量相对应的方向的声道间幅度和相位差；

执行逆变换以转换所述频域信号。

11.如权利要求1所述的方法，其中，所述音频输出信号用于利用耳机或扬声器进行再现。

12.如权利要求1所述的方法，其中，所述声道间幅度和相位差是针对来自测得的或计算出的HRTF或BRFT数据的多个方向并且在每个频率处导出的。

13.如权利要求1所述的方法，其中，所述方向信息根据收听者头部的朝向或位置而被校正。

14.如权利要求1所述的方法，其中，所述空间音频输出格式是transaural格式、ambisonic格式或相位-幅度矩阵编码格式之一。

15.如权利要求1所述的方法，其中，所述音频输出信号用于利用扬声器进行再现，并且所述声道间幅度和相位差是针对根据ambisonic再现或波场合成方法的多个方向并在每个频率处导出的。