CN101263741A

CN101263741A - 产生和处理表示hrtf的参数的方法和设备

Info

Publication number: CN101263741A
Application number: CNA2006800337199A
Authority: CN
Inventors: J·布里巴特; M·范卢恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-13
Filing date: 2006-09-06
Publication date: 2008-09-10
Anticipated expiration: 2026-09-06
Also published as: US8243969B2; EP1927264A1; EP1927264B1; US20120275606A1; US8520871B2; WO2007031905A1; JP2009508158A; KR101333031B1; JP4921470B2; KR20080045281A; CN101263741B; US20080253578A1

Abstract

一种产生表示头部相关传递函数的参数的方法，该方法包括步骤：a)使用一个采样率(f_s)以一定采样长度(n)采样第一时域HRTF冲激响应信号产生第一时间离散信号；b)将该第一时间离散信号变换到频域产生第一频域信号；c)将该第一频域信号分解成子带；以及d)根据这些子带的值的统计度量产生这些子带的第一参数。

Description

产生和处理表示HRTF的参数的方法和设备

技术领域

本发明涉及一种产生表示头部相关传递函数的参数的方法。

本发明还涉及一种用于产生表示头部相关传递函数的参数的设备。

本发明进一步还涉及一种处理表示头部相关传递函数的参数的方法。

而且，本发明涉及一种程序元件。

此外，本发明还涉及一种计算机可读介质。

背景技术

随着虚拟空间中声音的操作开始吸引人们的注意，音频声音，尤其是3D音频声音在例如结合了图像的各种游戏软件和多媒体应用中提供人造真实感方面变得越来越重要。在音乐中大量使用的许多效应中，声场效应被认为是重建特定空间中听到的声音的一种尝试。

在这种情况下，将通常称为空间声音的3D声音理解为这样的声音，其经过处理向听众提供(虚拟)声源在三维环境中的一定位置处的印象。

从一定方向到达听众的听觉信号在该信号到达听众双耳中的耳膜之前与听众身体的一些部分发生交互作用。这种交互作用的结果是，到达耳膜的声音通过从听众肩膀的反射、通过与头部的交互作用、通过耳廓响应以及通过耳道内的共鸣而发生改变。可以说，身体对于进入的声音具有滤波效应。具体的滤波性质取决于声源(相对于头部)的位置。此外，由于声音在空气中的速度有限，因而可能觉察到两耳间存在明显的时延，这取决于声源的位置。这里，头部相关传递函数(HRTF)发挥了作用。这些头部相关传递函数近来被称为解剖学传递函数(ATF：Anatomical transfer function)，它们是声源位置的方位角和仰角的函数，描述了从一定声源方向到听众耳膜的滤波效应。

HRTF数据库是通过相对于声源测量从一大组位置到两耳的传递函数而构建的。这种数据库可以针对各种声学条件来获得。例如，在无回声的环境中，由于不存在反射，因此HRTF只是获取了从某个位置到耳膜的直接传递。HRTF也可以在有回声条件下进行测量。如果也获取了反射，那么这种HRTF数据库就是与特定房间有关的。

HRTF数据库通常用来定位“虚拟”声源。通过将声音信号与一对HRTF卷积并且在耳机上呈现得到的声音，听众可以感知声音来自与该HRTF对相应的方向，这与感知声音“在头部”是对立的，感知声音“在头部”发生在将未经处理的声音呈现在耳机上的时候。在这点上，HRTF数据库是一种用于定位虚拟声源的通行方式。

发明内容

本发明的一个目的是改善头部相关传递函数的表示和处理。

为了实现上面定义的目的，提供了产生如独立权利要求中所限定的表示头部相关传递函数的参数的方法、用于产生表示头部相关传递函数的参数的设备、处理表示头部相关传递函数的参数的方法、程序元件和计算机可读介质。

依照本发明的一个实施例，提供了一种产生表示头部相关传递函数的参数的方法，该方法包括步骤：将表示第一头部相关冲激响应信号的第一频域信号分解成至少两个子带；根据这些子带的值的统计度量产生这些子带中的至少一个子带的至少一个第一参数。

此外，依照本发明的另一个实施例，提供了一种用于产生表示头部相关传递函数的参数的设备，该设备包括：分解单元，其适用于将表示第一头部相关冲激响应信号的第一频域信号分解成至少两个子带；参数生成单元，其适用于根据这些子带的值的统计度量产生这些子带中的至少一个子带的至少一个第一参数。

依照本发明的另一个实施例，提供了一种计算机可读介质，其中存储了用于产生表示头部相关传递函数的参数的计算机程序，所述计算机程序在由处理器执行时，适用于控制或实现上述方法步骤。

而且，依照本发明的又一个实施例，提供了一种用于处理音频数据的程序元件，所述程序元件在由处理器执行时，适用于控制或实现上述方法步骤。

依照本发明的再一个实施例，提供了一种用于处理表示头部相关传递函数的参数的设备，该设备包括：输入级，其适用于接收声源的音频信号；确定装置，其适用于接收表示头部相关传递函数的基准参数并且适用于根据所述音频信号确定表示声源的位置和/或方向的位置信息；处理装置，其用于处理所述音频信号；影响装置，其适用于根据所述位置信息来影响对所述音频信号的处理，得到受过影响的输出音频信号。

依照本发明，处理音频信号以产生表示头部相关传递函数的参数可以通过计算机程序即通过软件来实现，或者通过使用一个或多个专用电子优化电路即用硬件来实现，或者以混合形式即通过软件部件和硬件部件来实现。这些软件或软件部件可以事先存储在数据载体上或者通过信号传输系统来传送。

依照本发明特征部分的特性的优点尤其在于，当应用到音频信号时，头部相关传递函数(HRTF)通过简单的参数来表示，使得计算复杂度降低。

以信息量而论，常规的HRTF数据库通常相对较大。每个时域冲激响应可能包括大约64个样本(对于低复杂度、无回声条件而言)乃至数千个样本长(在交混回响的房间中)。如果在竖直和水平方向上以10度的分辨率测量HRTF对，那么要存储的系数的数量高达至少360/10*180/10*64＝41472个系数(假定冲激响应为64个样本)，但是很容易为更大的数量级。对称的头部将需要(180/10)*(180/10)*64个系数(这是41472个系数的一半)。

依照本发明的一个有利的方面，可以用与单声源的处理复杂度近似相等的处理复杂度来合成多个同时发生的声源。由于处理复杂度降低，因而有利的是，即使对于大量的声源，也有可能实现实时处理。

在另一个方面，已知上述参数是针对一组固定的频率范围来确定的，这一事实导致与采样率无关的参数化。不同的采样率只需要有关如何将参数频带与信号表示关联起来的不同的表。

此外，显著降低了表示HRTF的数据量，导致存储要求降低，这事实上是移动应用中的一个重要问题。

本发明的其他实施例将在下文中参照从属权利要求来描述。

现在描述所述产生表示头部相关传递函数的参数的方法的实施例。这些实施例对于所述用于产生表示头部相关传递函数的参数的设备、对于所述计算机可读介质以及对于所述程序元件也是适用的。

依照本发明的另一个方面，实现了：将表示第二头部相关冲激响应信号的第二频域信号分解成该第二头部相关冲激响应信号的至少两个子带；根据这些子带的值的统计度量产生该第二头部相关冲激响应信号的这些子带中的至少一个子带的至少一个第二参数；以及产生表示每子带所述第一频域信号和所述第二频域信号之间的相位角的第三参数。

换言之，依照本发明，一对头部相关冲激响应信号即第一头部相关冲激响应信号和第二头部相关冲激响应信号，是通过该冲激响应对的相应头部相关冲激响应信号之间的延迟参数或相差参数以及通过一组频率子带中的每个冲激响应的平均均方根(rms)来描述的。该延迟参数或相差参数可以是单一(频率无关)值或者可以是依赖于频率的。

在这个方面，如果所述头部相关冲激响应信号对即所述第一头部相关冲激响应信号和所述第二头部相关冲激响应信号，属于同一空间位置，那么从感性认识上讲是有利的。

在例如出于优化目的的定制之类的特殊情况下，如果所述第一频域信号是通过使用某个采样率以一定采样长度采样第一时域头部相关冲激响应信号产生第一时间离散信号并且将该第一时间离散信号变换到频域产生所述第一频域信号而得到的，那么这可能是有利的。

所述第一时间离散信号到频域的变换适宜基于快速傅立叶变换(FFT)，并且将所述第一频域信号分解成子带依据的是对FFT分块(bin)进行分组。换言之，用于确定比例因子和/或时差/相差的频带优选地被组织成(但不限于)所谓的等价矩形带宽(ERB)带。

HRTF数据库通常包括一组有限的虚拟声源位置(一般情况下，距离是固定的并且空间分辨率为5-10度)。在许多情况下，必须针对测量位置之间的位置产生声源(尤其在虚拟声源随时间移动的情况下)。这种在测量位置之间的位置的产生需要对可用的冲激响应进行插值。如果HRTF数据库包括对于竖直和水平方向的响应，那么必须对每个输出信号执行双线性插值。因此，对于每个声源来说，需要针对每个耳机输出信号的四个冲激响应的组合。如果必须同时“虚拟化”更多的声源，那么所需冲激响应的数量变得甚至更加重要。

在本发明的一个方面，通常使用10个和40个之间的频带。依照本发明的技术措施，可以有利地直接在参数域中执行插值，从而需要10-40个参数的插值而不是时域中的全长HRTF冲激响应。而且，由于通道间相位(或时间)和幅度分开进行插值这一事实，因而有利的是，相位抵消伪像显著减少了或者可能并不发生。

在本发明的另一个方面，在主频率范围内处理所述第一参数和第二参数，并且在该主频率范围的子频率范围内处理表示相位角的所述第三参数。经验结果和科学证据两者都表明，对于一定频率界限之上的频率而言，相位信息从感性认识上讲实际上是冗余的。

在这个方面，所述子频率范围的频率上限适宜位于2kHz-3kHz的范围内。因此，通过忽略这个频率界限之上的任何时间或相位信息可以达到进一步的信息减少和复杂度降低。

依照本发明的技术措施的一个主要的应用领域在于处理音频数据的领域中。然而，这些技术措施可以嵌入到这样的技术方案中，其中除了音频数据之外，也处理例如与视觉内容有关的附加数据。因此，可以在视频数据处理系统的框架中实现本发明。

依照本发明的应用可以实现为包括便携式音频播放器、便携式视频播放器、头盔显示器、移动电话、DVD播放器、CD播放器、基于硬盘的媒体播放器、因特网无线电设备、车载音频系统、公共娱乐设备和MP 3播放器的组中的一个设备。这些设备的应用优选地被设计用于游戏、虚拟现实系统或者合成器。虽然提到的这些设备涉及本发明的主要应用领域，但是其他应用也是可能的，例如：应用于电话会议和远程出席(telepresence)；针对弱视者的音频显示器；远程教学系统和针对电视电影的专业声像编辑以及喷气式战斗机(3D音频可能有助于飞行员)和基于pc的音频播放器。

在本发明的又一个方面，上面提到的参数可以跨设备传送。其优点在于，每个音频再现设备(PC、膝上型电脑、移动播放器等等)可以个人化。换言之，所获得的某人自己的参数数据与他或她自身的耳朵匹配，而不需要像常规的HRTF一样传送大量的数据。人们甚至可以想象通过移动电话网络来下载参数组。在这个域中，传送大量的数据仍然是相对昂贵的，参数化方法将是一种非常合适的(有损)压缩类型。

在又一个实施例中，如果用户和听众喜欢，他们也可以经由交换接口交换他们的HRTF参数组。按照这种方式可以轻易使得通过其他人的耳朵去听成为可能。

根据下文中描述的实施例，本发明的上面定义的方面和其他方面是显而易见的，并且将参照这些实施例进行解释。

附图说明

下面将参照实施例的示例更详细地描述本发明，本发明并不限于这些实施例。

图1表示依照本发明的一个优选实施例用于处理音频数据的设备。

图2表示依照本发明的另一个实施例用于处理音频数据的设备。

图3表示依照本发明的一个实施例用于处理音频数据的设备，其包括存储单元。

图4详细表示图1或图2中所示用于处理音频数据的设备中实现的滤波器单元。

图5表示依照本发明的一个实施例的另一个滤波器单元。

图6表示依照本发明的一个优选实施例用于产生表示头部相关传递函数(HRTF)的参数的设备。

图7表示依照本发明的一个优选实施例用于处理表示头部相关传递函数(HRTF)的参数的设备。

具体实施方式

附图中的图解是示意性的。在不同的附图中，相似或相同的元件用相同的附图标记来表示。

现在将参照图6来描述用于产生表示头部相关传递函数(HRTF)的参数的设备600。

设备600包括HRTF表601、采样单元602、变换单元603、分解单元604和参数生成单元605。

HRTF表601存储了至少第一时域HRTF冲激响应信号l(α，ε，t)和第二时域HRTF冲激响应信号r(α，ε，t)，两者都属于同一空间位置。换言之，HRTF表对于虚拟声源位置存储了至少一个时域HRTF冲激响应对(l(α，ε，t)，r(α，ε，t))。每个冲激响应信号由方位角α和仰角ε表示。可替换地，可以在远程服务器上存储HRTF表601，并且可以经由合适的网络连接提供HRTF冲激响应对。

在采样单元602中，使用采样率f_s以采样长度n对这些时域信号采样以得到其数字(离散)表示，即在当前情况下得到第一时间离散信号l(α，ε)[n]和第二时间离散信号r(α，ε)[n]：

在当前情况下，使用的采样率为f_s＝44.1kHz。可替换地，可以使用另外的采样率，例如16kHz或者22.05kHz或者32kHz或者48kHz。

随后在变换单元603中，使用傅立叶变换将这些离散时间表示变换到频域，得到其复值频域表示，即第一频域信号L(α，ε)[k]和第二频域信号R(α，ε)[k](k＝0...K-1)：

L (α, ϵ) [k] = \underset{n}{Σ} l (α, ϵ) [n] e^{- 2 πjnk / K} - - - (3)

R (α, ϵ) [k] = \underset{n}{Σ} r (α, ϵ) [n] e^{- 2 πjnk / K} - - - (4)

接下来，在分解单元604中，通过对相应的频域信号的FFT分块k进行分组来将这些频域信号分解成子带b。这样一来，子带b包括FFT分块k∈k_b。这种分组过程优选以如下方式执行：使得到的频带具有符合心理听觉原理的非线性频率分辨率，换言之，该频率分辨率优选地与人类听觉系统的非均匀频率分辨率匹配。在当前情况下，使用了20个频带。可以指出的是，可以使用更多的频带，例如40个频带，或者更少的频带，例如10个频带。

此外，在参数生成单元605中，分别产生和计算基于这些子带的值的统计度量的子带参数。在当前情况下，将均方根运算用作统计度量。可替换地，依照本发明，也可以利用子带中的功率谱值的模(mode)或中值作为统计度量或者随子带中的(平均)信号水平单调递增的任何其他度量(或范式)。

在当前情况下，信号L(α，ε)[k]的子带b中的均方根信号参数P_l，b(α，ε)由下式给出：

P_{l, b} (α, ϵ) = \sqrt{\frac{1}{| k_{b} |} \underset{k &Element; k_{b}}{Σ} L (α, ϵ) [k] L^{*} (α, ϵ) [k]} - - - (5)

类似地，信号R(α，ε)[k]的子带b中的均方根信号参数P_r，b(α，ε)由下式给出：

P_{r, b} (α, ϵ) = \sqrt{\frac{1}{| k_{b} |} \underset{k &Element; k_{b}}{Σ} R (α, ϵ) [k] R^{*} (α, ϵ) [k]} - - - (6)

这里，(*)表示复共轭算子，|k_b|表示与子带b相应的FFT分块k的数量。

最后，在参数生成单元605中，产生子带b的信号L(α，ε)[k]和R(α，ε)[k]之间的平均相位角参数φ_b(α，ε)，其在当前情况下由下式给出：

φ_{b} (α, ϵ) = &angle; (\underset{k &Element; k_{b}}{Σ} L (α, ϵ) [k] R^{*} (α, ϵ) [k]) - - - (7)

依照本发明的另一个实施例，根据图6，提供了HRTF表601’。与图6的HRTF表601形成对照的是，这个HRTF表601’提供了已经在频域中的HRTF冲激响应；例如，在表中存储了HRTF的FFT。所述频域表示被直接提供给分解单元604’，并且通过对相应频域信号的FFT分块k进行分组来将这些频域信号分解成子带b。接下来，提供了参数生成单元605’，并且以与上述参数生成单元605相似的方式对其进行调节。

现在参照图1来描述依照本发明的一个实施例用于处理输入音频数据X_i和表示头部相关传递函数的参数的设备100。

该设备100包括求和单元102，所述求和单元102适用于接收许多音频输入信号X₁...X_i以便通过对所有这些音频输入信号X₁...X_i进行求和来产生求和信号SUM。将求和信号SUM提供给滤波器单元103，所述滤波器单元103适用于根据滤波器系数对所述求和信号SUM进行滤波，得到第一音频输出信号OS1和第二音频输出信号OS2，所述滤波器系数在当前情况下即第一滤波器系数SF1和第二滤波器系数SF2。下面给出了有关滤波器单元103的详细描述。

此外，如图1所示，设备100包括参数转换单元104，所述参数转换单元104适用于一方面接收代表所述音频输入信号X_i的声源空间位置的位置信息V_i，另一方面接收代表所述音频输入信号X_i的谱功率的谱功率信息S_i，其中该参数转换单元104适用于根据与输入信号i相应的位置信息V_i和谱功率信息S_i产生所述滤波器系数SF1、SF2，并且其中该参数转换单元104还适用于接收传递函数参数以及还根据所述传递函数参数产生所述滤波器系数。

图2表示了本发明的另一个实施例中的一种装置200。装置200包括依照图1中所示实施例的设备100，并且还包括适用于根据增益因子g_i来缩放音频输入信号X_i的缩放单元201。在这个实施例中，参数转换单元104还适用于接收代表音频输入信号的声源距离的距离信息，根据所述距离信息产生增益因子g_i，并且将这些增益因子g_i提供给缩放单元201。因此，借助于简单的技术措施就可靠地实现了距离的效果。

现在将参照图3来更详细地描述依照本发明的系统或设备的一个实施例。

在图3的实施例中，显示了系统300，其包括依照图2中所示实施例的装置200，并且还包括存储单元301、音频数据接口302、位置数据接口303、谱功率数据接口304和HRTF参数接口305。

存储单元301适用于存储音频波形数据，音频数据接口302适用于根据所存储的音频波形数据提供所述许多音频输入信号X_i。

在当前情况下，针对每个声源以脉冲编码调制(PCM)波表的形式来存储音频波形数据。然而，波形数据还可以附加地或者单独地以另一种形式来存储，所述形式例如符合MPEG-1层3(MP3)、高级音频编码(AAC)、AAC-Plus等标准的压缩格式。

在存储单元301中，对于每个声源还存储了位置信息V_i，并且位置数据接口303适用于提供所存储的位置信息V_i。

在当前情况下，这个优选的实施例针对的是计算机游戏应用。在这种计算机游戏应用中，位置信息V_i随着时间而变化，并且取决于经过编程的绝对空间位置(即计算机游戏场景中的虚拟空间位置)，但它也取决于用户的动作，例如，当游戏场景中的虚拟个人或用户旋转或改变他的虚拟位置时，相对于该用户的声源位置也发生改变或者也应该发生改变。

在这样的计算机游戏中，从单声源(例如来自后面的枪炮声)到其中每个乐器位于计算机游戏场景中的不同空间位置的复调音乐，每种事情都是可能发生的。同时发生的声源数可以是例如高达64个，因此音频输入信号X_i的范围将从X₁到X₆₄。

接口单元302根据大小为n的帧中所存储的音频波形数据来提供所述许多音频输入信号X_i。在当前情况下，每个音频输入信号X_i是以11kHz采样率来提供的。对于每个音频输入信号X_i，也可以使用其他采样率，例如44kHz。

在缩放单元201中，依照方程(1)使用每通道的增益因子或权重g_i将大小为n的输入信号X_i即X_i[n]组合成求和信号SUM，即单声道(mono)信号m[n]：

m [n] = \underset{i}{Σ} g_{i} [n] x_{i} [n] - - - (8)

增益因子g_i由参数转换单元104根据如前所述伴随位置信息V_i而产生的被存储的距离信息来提供。一般情况下，位置信息V_i和谱功率信息S_i参数具有低得多的更新率，例如每11毫秒更新一次。在当前情况下，每声源的位置信息V_i由方位角、仰角和距离信息的三元组组成。可替换地，可以使用笛卡尔坐标(x，y，z)或者其他坐标。可选地，位置信息可以包括组合或子集即形如仰角信息和/或方位角信息和/或距离信息中的信息。

原则上，增益因子g_i[n]是依赖于时间的。然而，由于这些增益因子的所需更新率远远小于输入音频信号X_i的音频采样率，因而假定这些增益因子g_i[n]对于短的时间段(如前所述，大约11毫秒到23毫秒)而言是恒定不变的。这个性质允许进行基于帧的处理，其中增益因子g_i是恒定不变的，并且求和信号m[n]由方程(2)表示：

m [n] = \underset{i}{Σ} g_{i} x_{i} [n] - - - (9)

现在将参照图4和5来解释滤波器单元103。

图4中所示的滤波器单元103包括分割单元401、快速傅立叶变换(FFT)单元402、第一子带分组单元403、第一混频器404、第一组合单元405、第一反FFT单元406、第一叠加单元407、第二子带分组单元408、第二混频器409、第二组合单元410、第二反FFT单元411以及第二叠加单元412。第一子带分组单元403、第一混频器404和第一组合单元405构成第一混频单元413。类似地，第二子带分组单元408、第二混频器409和第二组合单元410构成第二混频单元414。

分割单元401适用于将输入信号分割成重叠的帧并且给每帧加窗，所述输入信号在当前情况下分别为求和信号SUM和信号m[n]。在当前情况下，Hanning窗用于加窗操作。也可以使用其他方法，例如Welch或三角形窗。

随后，FFT单元402适用于使用FFT将每个加窗的信号变换到频域。

在所给出的示例中，使用FFT将长度为N(n＝0...N-1)的每个帧m[n]变换到频域：

M [k] = \underset{i}{Σ} m [n] \exp (- 2 πjkn / N) - - - (10)

将这个频域表示M[k]拷贝到进一步也称为左通道L的第一通道以及进一步也称为右通道R的第二通道。然后，通过对每个通道的FFT分块进行分组来将该频域信号分解成子带b(b＝0..B-1)，即借助于用于左通道L的第一子带分组单元403以及借助于用于右通道R的第二子带分组单元408来进行分组。其后逐带产生(FFT域中的)左输出帧L[k]和右输出帧R[k]。

实际的处理包括依照针对与当前FFT分块相应的频率范围而存储的各比例因子来修改(缩放)每个FFT分块，以及依照所存储的时差或相差来修改相位。关于相差，可以以任意的方式应用该差值(例如应用到两个通道(除以2)或者仅应用到一个通道)。每个FFT分块的各个比例因子是借助于滤波器系数矢量来提供的，所述滤波器系数矢量在当前情况下即提供给第一混频器404的第一滤波器系数SF1和提供给第二混频器409的第二滤波器系数SF2。

在当前情况下，所述滤波器系数矢量对于每个输出信号的频率子带都提供复值比例因子。

接着在缩放之后，由反FFT单元406将被修改的左输出帧L[k]变换到时域，得到左时域信号；由反FFT单元411对右输出帧R[k]进行变换，得到右时域信号。最后，在获得的时域信号上进行的叠加运算得到每个输出通道的最终时域，即通过第一叠加单元407得到第一输出通道信号OS1以及通过第二叠加单元412得到第二输出通道信号OS2。

图5中示出的滤波器单元103’与图4中示出的滤波器单元103的不同之处在于，提供了适用于向每个输出通道提供去相关信号的去相关单元501，所述去相关信号是根据从FFT单元402获得的频域信号而导出的。在图5中示出的滤波器单元103’中，提供了类似于图4中示出的第一混频单元413的第一混频单元413’，但是该第一混频单元413’还适用于处理去相关信号。同样地，提供了类似于图4中示出的第二混频单元414的第二混频单元414’，所述图5的第二混频单元414’也附加地适用于处理去相关信号。

在这种情况下，其后如下逐带产生(FFT域中的)两个输出信号L[k]和R[k]：

\{\begin{matrix} L_{b} [k] = h_{11, b} M_{b} [k] + h_{12, b} D_{b} [k] \\ R_{b} [k] = h_{21, b} M_{b} [k] + h_{22, b} D_{b} [k] \end{matrix} - - - (11)

这里，D[k]表示依照下列性质从频域表示M[k]获得的去相关信号：

&ForAll; (b) \{\begin{matrix} &lang; D_{b}, {M_{b}}^{*} &rang; = 0 \\ &lang; D_{b}, {D_{b}}^{*} &rang; = &lang; M_{b}, {M_{b}}^{*} &rang; \end{matrix} - - - (12)

式中，<..>表示期望值算子：

&lang; X_{b}, {Y_{b}}^{*} &rang; = Σ_{k = k_{b}}^{k = k_{b + 1} - 1} X [k] Y^{*} [k] - - - (13)

这里，(*)表示复共轭。

去相关单元501包括延迟时间的量级为10-20ms(一般情况下为一帧)的简单延迟，其使用FIFO缓冲器来实现。在另一些实施例中，去相关单元可以基于随机化幅度或相位响应，或者可以包括FFT子带或时域中的IIR或全通状结构。

Heiko Purnhagen，Jonas

Lars Liljeryd 2004年发表于proc.116th AES convention，Berlin的文章“参数立体编码中的合成氛围(Synthetic ambiance inparametric stereo coding)”给出了这样的去相关方法的例子，这篇文章的公开内容在此引入以供参考。

去相关滤波器的目的在于在某些频带下建立起一种“弥漫性”感受。如果到达人类听众的双耳的输出信号除了时差或级差之外是相同的，那么人类听众将感觉声音来自某个方向(其取决于时差和级差)。在这种情况下，所述方向非常清楚，即该信号是空间“紧凑的”。

然而，如果来自不同方向的多个声源同时到达，那么每只耳朵将接收到声源的不同混合体。因此，不能将双耳的差异建模成简单的(依赖于频率的)时差和/或级差。在这种情况下，由于不同的声源已经混合成单个声源，因而不可能重建不同的混合体。不过，这种重建基本上是不需要的，因为已知人类听觉系统难于根据空间性质来分离各个声源。这种情况下占优的知觉方面在于，如果对时差和级差的波形进行了补偿，那么双耳处的波形如何不同。已经证明，通道间相干性(或归一化互相关函数的最大值)这样的数学概念是与空间“紧凑性”知觉紧密匹配的度量。

主要的方面在于，必须重建正确的通道间相干性，以便即使在双耳处的混合体有误的情况下也引起虚拟声源的类似知觉。这种知觉可以描述为“空间弥漫性”或缺乏“紧凑性”。此即去相关滤波器与混频单元一道所重建的。

参数转换单元104决定，在规则HRTF系统的情况下，如果波形已经基于单声源处理，那么这些波形将会如何不同。于是，通过在两个输出信号中有差别地混合直接和去相关信号，就可能重建不能归因于简单缩放和时延的信号中的这种差异。有利的是，通过重建这种弥散性参数，获得了一种实际声级(sound stage)。

如已经所提到的，参数转换单元104适用于针对每个音频输入信号X_i根据位置矢量V_i和谱功率信息S_i来产生滤波器系数SF1、SF2。在当前情况下，这些滤波器系数由复值混频因子h_xx，b来表示。这些复值混频因子是有利的，特别是在低频区中。可以指出的是，可以使用实值混频因子，特别是在处理高频时。

在当前情况下，复值混频因子h_xx，b的值首先取决于表示头部相关传递函数(HRTF)模型参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)的传递函数参数：这里，HRTF模型参数P_l，b(α，ε)表示针对左耳的每个子带b中的均方根(rms)功率，HRTF模型参数P_r，b(α，ε)表示针对右耳的每个子带b中的rms功率，HRTF模型参数φ_b(α，ε)表示左耳和右耳HRTF之间的平均复值相位角。给出的所有HRTF模型参数都是方位角(α)和仰角(ε)的函数。因此，在这个应用中只需要HRTF参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)，而不需要实际的HRTF(其存储为有限冲激响应表，由大量不同的方位角和仰角值进行索引)。

存储的这些HRTF模型参数用于一组有限的虚拟声源位置，在当前情况下用于水平和竖直两个方向上20度的空间分辨率。其他分辨率也是可能的或合适的，例如10或30度的空间分辨率。

在一个实施例中，可以提供插值单元，其适用于对空间分辨率之间的被存储的HRTF模型参数进行插值。优选地，应用双线性插值，但是其他的(非线性)插值方案可能是合适的。

相对于常规的HRTF表，通过提供依照本发明的HRTF模型参数，可以实现有益的更快的处理。特别是在计算机游戏应用中，如果考虑了头部的运动，那么音频声源的回放需要所存储HRTF数据之间的快速插值。

在又一个实施例中，提供给参数转换单元的这些传递函数参数可以基于并且表示球形头部模型。

在当前情况下，谱功率信息S_i表示与输入信号X_i的当前帧相应的每频率子带线性域中的功率值。这样，可以将S_i解释为每子带功率或能量值σ²的矢量：

当前情况下的频率子带(b)数为10。这里应当指出的是，谱功率信息S_i可以由幂或对数域中的功率值表示，频率子带数的值可以达到30或40个频率子带。

功率信息S_i基本上描述了某个声源在一定频带和子带中分别具有多少能量。如果某个声源在一定频带中相对于所有其他声源是(能量上)占优的，那么这个占优声源的空间参数就在由滤波器操作所应用的“复合”空间参数上得到更大的权重。换言之，通过使用频带中每个声源的能量来对每个声源的空间参数进行加权，以便计算一组平均空间参数。对这些空间参数的重要扩展是，不仅产生了每通道的相差和水平，而且也产生了相干值。该值描述了由两个滤波器操作产生的波形应该如何相似。

为了解释用于滤波器因子或复值混频因子h_xx，b的准则，引入了一对可替换的输出信号，即L’和R’，所述输出信号L’、R’将通过依照HRTF参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)对每个输入信号X_i进行独立修改，接着对输出进行求和来得到：

\{\begin{matrix} L^{'} [k] = \underset{i}{Σ} X_{i} [k] p_{l, b, i} (α_{i}, ϵ_{i}) \frac{\exp (+ {jφ}_{b, i} (α_{i}, ϵ_{i}) / 2)}{δ_{i}} \\ R^{'} [k] = \underset{i}{Σ} X_{i} [k] p_{r, b, i} (α_{i}, ϵ_{i}) \frac{\exp (- {jφ}_{b, i} (α_{i}, ϵ_{i}) / 2)}{δ_{i}} \end{matrix} - - - (14)

然后依照下列准则获得混频因子h_xx，b：

1.假定输入信号X_i在每个频带b中是互相独立的：

&ForAll; (b) \{\begin{matrix} &lang; X_{b, i}, {X_{b, j}}^{*} &rang; = 0, i &NotEqual; j \\ &lang; X_{b, i}, {X_{b, i}}^{*} &rang; = σ_{b, i}^{2} \end{matrix} - - - (15)

2.每个子带b中输出信号L[k]的功率应该等于信号L’[k]的同一子带中的功率：

&ForAll; (b) (&lang; L_{b}, {L_{b}}^{*} &rang; = &lang; {L_{b}}^{'}, {L_{b}}^{' *} &rang;) - - - (16)

3.每个子带b中输出信号R[k]的功率应该等于信号R’[k]的同一子带中的功率：

&ForAll; (b) (&lang; R_{b}, {R_{b}}^{*} &rang; = &lang; {R_{b}}^{'}, {R_{b}}^{' *} &rang;) - - - (17)

4.对于每个频带b，信号L[k]和M[k]之间的平均复角度应该等于信号L’[k]和M[k]之间的平均复相位角：

&ForAll; (b) (&angle; &lang; L_{b}, {M_{b}}^{*} &rang; = &angle; &lang; {L_{b}}^{'}, {M_{b}}^{*} &rang;) - - - (18)

5.对于每个频带b，信号R[k]和M[k]之间的平均复角度应该等于信号R’[k]和M[k]之间的平均复相位角：

&ForAll; (b) (&angle; &lang; R_{b}, {M_{b}}^{*} &rang; = &angle; &lang; {R_{b}}^{'}, {M_{b}}^{*} &rang;) - - - (19)

6.对于每个频带b，信号L[k]和R[k]之间的相干性应该等于信号L’[k]和R’[k]之间的相干性：

&ForAll; (b) (| &lang; L_{b}, {R_{b}}^{*} &rang; | = | &lang; {L_{b}}^{'}, {R_{b}}^{' *} &rang; |) - - - (20)

可以证明，下面的(非唯一的)答案满足上述准则：

\{\begin{matrix} h_{11, b} = H_{1, b} \cos (+ β_{b} + γ_{b}) \\ h_{11, b} = H_{1, b} \sin (+ β_{b} + γ_{b}) \\ h_{11, b} = H_{2, b} \cos (- β_{b} + γ_{b}) \\ h_{11, b} = H_{2, b} \cos (- β_{b} + γ_{b}) \end{matrix} - - - (21)

其中

β_{b} = \frac{1}{2} \arccos (\frac{| &lang; {L_{b}}^{'}, {R^{' *}}_{b} &rang; |}{\sqrt{&lang; {L_{b}}^{'}, {L^{'}}_{b}^{*} &rang; &lang; {R_{b}}^{'}, {R^{'}}_{b}^{*} &rang;}}) = \frac{1}{2} \arccos (\frac{\underset{i}{Σ} p_{l, b, i} (α_{i}, ϵ_{i}) p_{r, b, i} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2}}{\sqrt{\underset{i}{Σ} p_{l, b, i}^{2} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2} \underset{i}{Σ} p_{r, b, i}^{2} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2}}}) - - - (22)

γ_{b} = \arctan (\tan (β_{b}) \frac{| H_{2, b} | - | H_{1, b} |}{| H_{2, b} | + | H_{1, b} |}) - - - (23)

这里，σ_b，i表示信号X_i的子带b中的能量或功率，δ_i表示声源i的距离。

在又一个实施例中，滤波器单元103可替换地基于实值或复值滤波器组，即模仿h_xy，b的频率依赖性的IIR滤波器或FIR滤波器，结果不再需要FFT方法了。

在听觉显示器中，音频输出或者经过扬声器或者经过听众所戴的耳机传送给听众。耳机和扬声器两者既有优点又有缺点，一个或另一个可能产生更加令人喜欢的结果，这取决于应用。在另一个实施例中，例如对于耳机通过每只耳朵使用不止一个扬声器或者使用扬声器回放配置可以提供更多的输出通道。

现在将参照图7描述依照本发明的一个优选实施例用于处理表示头部相关传递函数(HRTF)的参数的设备700a。设备700a包括：输入级700b，其适用于接收声源的音频信号；确定装置700c，其适用于接收表示头部相关传递函数的基准参数，并且还适用于根据所述音频信号确定表示声源的位置和/或方向的位置信息；处理装置，其用于处理所述音频信号；影响装置700d，其适用于基于所述位置信息影响所述音频信号的处理，得到受过影响的输出音频信号。

在当前情况下，用于处理表示HRTF的参数的设备700a用作助听器700。

助听器700还包括适用于向输入级700b提供声源的声音信号或音频数据的至少一个声音传感器。在当前情况下，提供了两个声音传感器，其用作第一麦克风701和第二麦克风702。第一麦克风701适用于检测来自环境的声音信号，所述声音信号在当前情况下位于靠近人702的左耳的位置。此外，第二麦克风703适用于检测来自靠近人702的右耳的位置处的环境的声音信号。第一麦克风701耦合到第一放大单元704以及位置估计单元705。按照相似的方式，第二麦克风703耦合到第二放大单元706以及位置估计单元705。第一放大单元704适用于向第一再现装置提供经过放大的音频信号，所述第一再现装置在当前情况下即第一扬声器707。按照相似的方式，第二放大单元706适用于向第二再现装置提供经过放大的音频信号，所述第二再现装置在当前情况下即第二扬声器708。这里应当指出的是，在放大单元704和706之前可以设置用于各种已知的音频处理方法的其他音频信号处理装置，例如DSP处理单元、存储单元等等。

在当前情况下，位置估计单元705表示确定装置700c，其适用于接收表示头部相关传递函数的基准参数并且还适用于根据所述音频信号确定表示声源的位置和/或方向的位置信息。

沿这个位置信息单元705向下，助听器700还包括增益计算单元710，其适用于向第一放大单元704和第二放大单元706提供增益信息。在当前情况下，增益计算单元710与放大单元704、706一起构成影响装置700d，其适用于基于所述位置信息影响音频信号的处理，得到受过影响的输出音频信号。

位置信息单元705适用于确定由第一麦克风710提供的第一音频信号和由第二麦克风703提供的第二音频信号的位置信息。在当前情况下，如上面在图6和用于产生表示HRTF的参数的设备600的情况下所描述的，表示HRTF的参数被确定为位置信息。换言之，如同通常根据HRTF冲激响应进行的测量那样，可以根据进入的信号帧测量相同的参数。结果，代替将HRTF冲激响应作为到设备600的参数估计级的输入的是，分析左、右输入麦克风信号的一定长度(例如44.1kHz的1024个音频样本)的音频帧。

位置信息单元705还适用于接收表示HRTF的基准参数。在当前情况下，基准参数存储在优选地被设置在助听器700内的参数表709中。可替换地，参数表709可以是以有线或无线方式经由接口装置连接的远程数据库。

换言之，测量进入助听器700的麦克风701、703中的声音信号的参数可以对声源的方向或位置进行分析。其后，将这些参数与存储在参数表709中的参数进行比较。如果针对一定基准位置的、来自参数表709中存储的基准参数组的参数与来自进入的声源信号的参数之间匹配度高，那么很可能声源来自同一位置。在接下来的步骤中，将根据当前帧中确定的参数与存储在参数表709中(并且基于实际的HRTF)的参数进行比较。例如：假定某个输入帧导致参数P_frame。在参数表709中，参数P_HRTF(α，ε)是方位角(α)和仰角(ε)的函数。然后，匹配过程通过最小化误差函数E(α，ε)来估计声源位置，所述误差函数为E(α，ε)＝|P_frame-P_HRTF(α，ε)|^2，它是方位角(α)和仰角(ε)的函数。对于E给出最小值的方位角(α)和仰角(ε)的那些值相应于声源位置的估计。

在下一个步骤中，将匹配过程的结果提供给用于计算增益信息的增益计算单元710，所述增益信息随后提供给第一放大单元704和第二放大单元706。

换言之，根据表示HRTF的参数，分别估计进入的声源声音信号的方向和位置，随后根据估计出的位置信息衰减或放大该声音。例如，可以放大来自人702的前方的所有声音；可以分别衰减其他方向的所有声音和音频信号。

应当指出的是，可以使用增强的匹配算法，例如每参数使用一个权重的加权方法。于是在误差函数E(α，ε)中，有些参数的“重量”可以不同于其他参数。

应当指出的是，动词“包括”及其变体的使用并没有排除其他的元件或步骤，冠词“一”的使用并没有排除多个元件或步骤。结合不同实施例描述的元件也可以加以组合。

还应当指出的是，权利要求中的附图标记不应当被视为限制了这些权利要求的范围。

Claims

1.一种产生表示头部相关传递函数的参数的方法，该方法包括步骤：

将表示第一头部相关冲激响应信号的第一频域信号分解成至少两个子带；以及

根据这些子带的值的统计度量产生这些子带中的至少一个子带的至少一个第一参数。

2.如权利要求1所述的方法，其中

第一频域信号是通过使用一个采样率(f_s)以一定采样长度(N)采样第一时域头部相关冲激响应信号产生第一时间离散信号并且将该第一时间离散信号变换到频域产生所述第一频域信号而得到的。

3.如权利要求1或2所述的方法，还包括步骤：

将表示第二头部相关冲激响应信号的第二频域信号分解成该第二头部相关冲激响应信号的至少两个子带；

根据这些子带的值的统计度量产生该第二头部相关冲激响应信号的这些子带中的至少一个子带的至少一个第二参数；以及

产生表示每子带所述第一频域信号和所述第二频域信号之间的相位角的第三参数。

4.如权利要求3所述的方法，其中

第二频域信号是通过使用一个采样率(f_s)以一定采样长度(N)采样第二时域头部相关冲激响应信号产生第二时间离散信号并且将该第二时间离散信号变换到频域产生所述第二频域信号而得到的。

5.如权利要求1-4中任何一项所述的方法，其中

统计度量是频域信号的子带(b)信号水平的均方根表示。

6.如权利要求2或4所述的方法，其中

基于FFT而将时间离散信号变换到频域，基于对FFT分块(k)进行分组而将频域信号分解成至少两个子带。

7.如权利要求3所述的方法，其中

在主频率范围内处理所述第一参数和第二参数，并且在该主频率范围的子频率范围内处理表示相位角的所述第三参数。

8.如权利要求7所述的方法，其中

所述子频率范围的频率上限位于2kHz和3kHz之间的范围内。

9.如权利要求3或4所述的方法，其中

第一头部相关冲激响应信号和第二头部相关冲激响应信号属于同一空间位置。

10.如权利要求1或3所述的方法，其中

产生至少两个子带的操作以如下方式被执行：使得这些子带具有符合心理听觉原理的非线性频率分辨率。

11.一种用于产生表示头部相关传递函数的参数的设备(600)，该设备包括：

分解单元(604)，其适用于将表示第一头部相关冲激响应信号的第一频域信号分解成至少两个子带；

参数生成单元(605)，其适用于根据这些子带的值的统计度量产生这些子带中的至少一个子带的至少一个第一参数。

12.如权利要求11所述的设备(600)，包括

采样单元(602)，其适用于使用一个采样率(f_s)以一定采样长度(N)采样第一时域头部相关冲激响应信号产生第一时间离散信号；以及

变换单元(603)，其适用于将该第一时间离散信号变换到频域产生所述第一频域信号。

13.如权利要求11或12所述的设备(600)，其中

分解单元(604)，其还适用于将表示第二头部相关冲激响应信号的第二频域信号分解成该第二头部相关冲激响应信号的至少两个子带；

参数生成单元(605)，其还适用于根据这些子带的值的统计度量产生该第二头部相关冲激响应信号的这些子带中的至少一个子带的至少一个第二参数，并且产生表示每子带所述第一频域信号和所述第二频域信号之间的相位角的第三参数。

14.如权利要求13所述的设备(600)，其中

采样单元(602)还适用于通过使用一个采样率(f_s)以一定采样长度(N)采样第二时域头部相关冲激响应信号得到第二时间离散信号来产生第二频域信号，并且变换单元(603)还适用于将该第二时间离散信号变换到频域产生所述第二频域信号。

15.一种计算机可读介质，其中存储了用于处理音频数据的计算机程序，所述计算机程序在由处理器执行时，适用于控制或实现权利要求1-4中任何一项的方法步骤。

16.一种用于处理音频数据的程序元件，该程序元件在由处理器执行时，适用于控制或实现权利要求1-4中任何一项的方法步骤。

17.一种用于处理表示头部相关传递函数的参数的设备(700a)，该设备(700a)包括：

输入级(700b)，其适用于接收声源的音频信号；

确定装置(700c、705)，其适用于接收表示头部相关传递函数的基准参数并且适用于根据所述音频信号确定表示声源的位置和/或方向的位置信息；

处理装置(704、706)，其用于处理所述音频信号；以及

影响装置(700d)，其适用于根据所述位置信息来影响对所述音频信号的处理，得到受过影响的输出音频信号。

18.如权利要求17所述的设备(700a)，还包括

至少一个声音传感器(701、703)，其用于提供所述音频信号；以及

至少一个再现装置(707、708)，其用于再现受过影响的输出音频信号。

19.如权利要求18所述的设备(700a)，被实现为助听器(700)。