CN109997376A

CN109997376A - 使用头部跟踪数据构建音频滤波器数据库

Info

Publication number: CN109997376A
Application number: CN201780067764.4A
Authority: CN
Inventors: N.卡西米洛艾瑞克森; S.斯迈拉吉克
Original assignee: Dirac Research AB
Current assignee: Dirac Research AB
Priority date: 2016-11-04
Filing date: 2017-10-24
Publication date: 2019-07-09
Also published as: US20190278802A1; EP3535988A1; US10715945B2; CN110192396A; EP3535988A4; EP3535987A1; US20200059749A1; WO2018084770A1; EP3535987A4; WO2018084769A1

Abstract

提供了一种使用头部跟踪数据创建滤波器数据库的方法。所述方法包括针对给定声源测量（S1）并且构造头部相关传递函数HRTF，除了声源的位置和/或方向之外，每个HRTF与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置。所述方法进一步包括针对每次测量跟踪（S2）相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据；以及在数据库中存储（S3）HRTF的表示以及相关联的头部跟踪数据和声源的位置和/或方向的信息。

Description

使用头部跟踪数据构建音频滤波器数据库

技术领域

所提出的技术一般地涉及音频技术以及使用音频滤波器在头戴受话器（headphone）或类似音频设备上的声音的渲染。更具体地，所提出的技术涉及用于使用头部跟踪数据构建滤波器数据库的方法和系统、音频滤波器数据库以及相应的计算机程序和计算机程序产品。

背景技术

在某些应用中，通过头戴受话器将声音渲染给收听者，使得声音被感知为来自收听的人的头部之外的空间中的具体位置，这是期望的。典型的应用是虚拟现实，其中收听者将佩戴虚拟现实头戴送受话器（head-set）以及头戴受话器，所述头戴送受话器呈现视觉图像，所述头戴受话器补充音频体验。有时虚拟现实也被称为增强现实、AR或X现实、XR，其中X代表“未知”。

通常使用头部跟踪解决方案，其感测相对于声源人正在面向哪个大致方向。因此，人所看到和所听到的被实时更新，使得该人可以在虚拟世界中在不同的方向上看并得到那里的体验。

当收听者转身时，虚拟世界中的声源的相对方向改变。因此需要头部跟踪信息，使得声源可以在虚拟世界中在它们的合适位置中渲染，而不管收听者正面向哪个方向。

举例来说，用于渲染虚拟音频源的常用方法基于将音频源信号与HRTF响应进行卷积。HRTF（头部相关传递函数）由针对每个耳朵的一个传递函数组成，传递函数已经将大脑感测声音的方向需要的必要信息编码在其中。简单地描述，可以通过将麦克风放置在人的耳朵中，然后将声源放置在与人的特定角度和距离处，并且然后测量从声源到收听者的耳朵中的每个的传递函数（或等效地，冲激响应）来测量HRTF响应。源的角度由相对于头部的3D极角（polar angle）指定，其中原点在头部的中心中。

通过针对与人的大量的方向测量HRTF，可以构建HRTF的数据库，并且这使得能够在许多不同位置处渲染虚拟声源以及移动声源。通常测量HRTF数据库的方式是通过在测量期间使对其进行测量的人静坐并且面向非常精确的方向同时针对每次测量改变声源的位置来进行。由于人静坐而声源的位置被改变，因此人的头部和躯干在测量期间保持相同的恒定关系。关于双耳技术中的当前现有技术的更多信息可以在参考文献[1]中找到。

发明内容

总的目的是改进基于HRTF测量构建的音频滤波器数据库的内容和/或有用性。

具体目的是提供一种用于使用头部跟踪数据创建滤波器数据库的方法。

提供一种用于使用头部跟踪数据构建滤波器数据库的系统也是目的。

另一个目的是提供一种音频滤波器数据库。

又一个目的是提供一种计算机程序和计算机程序产品。

通过如本文中所要求保护的所提出的技术来满足这些和其他目的。

根据第一方面，提供了一种用于使用头部跟踪数据创建滤波器数据库的方法。该方法包括：

- 针对给定声源测量并且构造头部相关传递函数HRTF，除了声源的位置和/或方向之外，每个HRTF与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者（subject）的头部的位置；以及

- 针对每次测量跟踪相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据；以及

- 在数据库中存储HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

根据第二方面，提供了一种用于使用头部跟踪数据构建滤波器数据库的系统。该系统被配置成基于对来自声源的声音的测量来确定头部相关传递函数HRTF的表示，除了声源的位置和/或方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置。该系统被进一步配置成针对每次测量跟踪相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据。该系统还被配置成在数据库中存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

根据第三方面，提供了一种在存储器结构中实现的音频滤波器数据库，所述存储器结构具有用于存储表示音频滤波器的信息的存储位置。音频滤波器数据库包括存储在数据库的存储位置中的头部相关传递函数HRTF的多个表示，其中，每个HRTF表示与相关联的头部跟踪数据和表示声源的位置和/或方向的信息一起被存储，所述相关联的头部跟踪数据表示相对于预期受验者的躯干姿势的头部姿势，所述头部姿势也称为头部位置。

根据第四方面，提供了一种计算机程序，所述计算机程序包括指令，当由至少一个处理器执行时，所述指令使得所述至少一个处理器：

- 基于对来自声源的声音的测量来确定头部相关传递函数HRTF的表示，除了声源的位置和/或方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置；

- 针对每次测量获得表示相对于躯干姿势的头部姿势的头部跟踪数据；以及

- 在HRTF数据库中存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

根据第五方面，还提供了一种计算机程序产品，所述计算机程序产品包括其上存储有这样的计算机程序的计算机可读介质。

以这种方式，使用头部跟踪数据来创建滤波器数据库，用于存储HRTF表示以及定义相对于预期受验者的躯干姿势的头部姿势的相关联的头部跟踪数据，以及声源的位置和/或方向的相关联的信息，这是可能的。

所提出的技术提供关于基于HRTF测量构建的音频滤波器数据库的内容和/或有用性的（一个或多个）实质改进。

附图说明

图1A-C是图示HRTF的声波图的示例的示意图，并且示出了HRTF强烈地依赖于相对于躯干姿势的头部姿势。

图2是图示根据俯仰、侧倾和/或偏航的头部的姿势或位置的示例的示意图。

图3是图示声音渲染系统的概述的示例的示意框图。

图4是图示基于头部跟踪的HRTF数据库构建系统的示例的示意框图。

图5是图示滤波器选择系统的示例的示意框图。

图6是图示HRTF滤波器系统的示例的示意框图。

图7是示出HRTF滤波器系统的示例的示意框图，其中可以沿着空间中的3D轨迹渲染空间中的不同位置处的若干音频源。

图8是图示根据实施例的基于处理器-存储器实现的布置/系统的示例的示意框图。

图9是图示根据实施例的计算机实现的示例的示意图。

图10是图示用于使用头部跟踪数据来创建滤波器数据库的新颖方法的示例的示意流程图。

具体实施方式

如提到的那样，用于渲染虚拟音频源的常用方法基于将音频源信号与HRTF响应进行卷积。HRTF包括针对每个耳朵的传递函数，传递函数已经将大脑感测声音的方向所需要的必要信息编码在其中。简单地描述，可以通过将麦克风放置在人的耳朵中，然后将声源放置在与人的特定角度和距离处，并且然后测量从声源到收听者的耳朵中的每个的传递函数（或等效地，冲激响应）来测量HRTF响应。源的角度由相对于头部的3D极角指定，其中原点在头部的中心中。

我们主张，用于测量HRTF的上述过程是有问题的。这是因为在自然情况下，人经常倾向于移动头部以在不同方向上看，同时保持躯干静止。上述过程所模拟的是其中人移动整个身体同时保持头部相对于身体静止的情况。HRTF包含关于耳廓和头部衍射的复杂响应而且还关于来自躯干的反射两者的信息。来自躯干的反射模式根据头部相对于躯干的俯仰、侧倾和偏航而改变。偏航维度的影响的研究的示例可以在参考文献[2]中找到。

在定向或定位声音时，人主动移动他们的头部和身体。因此，为了捕获与这些动态头部和身体移动相关的HRTF，提出了基于动态头部跟踪器的HRTF系统。该解决方案开辟了全新的维度，基于头部相对于躯干围绕X轴和/或Z轴的旋转来创建HRTF的集合，参见图2。然而，围绕Y轴的旋转也是新的维度，因为没有创建包括这些旋转维度中的任一个的数据库或3D声音渲染系统的公共记录。

我们的研究示出，如本文中所述，由于孤立的头部移动而造成的对HRTF的影响对于在模拟虚拟音频源时正确建模是重要的，正确地对其建模提高了感知的位置准确性，并且最终其减轻了对HRTF的个性化的需要。在俯仰、侧倾和偏航维度上以高的准确性和分辨率的程度来测量和确定这些动态HRTF是高度复杂的任务。因此，下面描述的用于HRTF测量的我们的新颖系统实现对于验证我们的假设确实是正确的已经是关键的。从我们的测量系统获得的HRTF的声波图，参见图1A-C，示出了HRTF强烈依赖于相对于躯干姿势的头部姿势，该头部姿势也称为头部位置。我们的假设也已经通过主观听力评估被验证。

根据所提出的技术的不同方面，至少提供：

• 一种用于使用头部跟踪数据构建滤波器数据库的方法和系统

• 滤波器数据库，诸如双耳HRTF的数据库

• 基于头部跟踪的滤波器选择系统和相应的方法

• 基于头部跟踪的滤波器系统和相应的方法

• 用于声音再现的相应方法和系统，诸如用于渲染双耳3D声音的方法和双耳3D声音渲染系统

• 相应的计算机程序和计算机程序产品。

根据第一方面，提供了一种用于使用头部跟踪数据创建滤波器数据库的方法。

图10是图示用于使用头部跟踪数据创建滤波器数据库的新颖方法的示例的示意流程图。

在图10的示例中，该方法包括：

S1：针对给定声源测量并且构建头部相关传递函数HRTF，除了声源的位置和/或方向之外，每个HRTF还与相对于躯干姿势的头部姿势相关联，该头部姿势也称为预期受验者的头部的位置；

S2：针对每次测量跟踪相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据；以及

S3：在数据库中存储HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

所提出的技术提供了关于基于HRTF测量构建的音频滤波器数据库的内容和/或有用性的（一个或多个）实质改进。

举例来说，对于每个HRTF，HRTF的表示包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

技术人员认识到，可以确定任何合适的HRTF表示并将其存储在数据库中，例如用于之后的检索和用于计算音频滤波器。

作为示例，测量HRTF的步骤S1包括针对头部姿势相对于躯干姿势的维度中的至少一个维度来测量HRTF。

例如，头部的姿势或位置可以根据俯仰、侧倾和/或偏航来定义。

根据实际过程的说明性示例，可以针对多个不同的头部姿势和/或声源的多个不同的位置来测量HRTF。

换句话说，除了声源相对于躯干的方向之外，每个HRTF表示还可以优选地与相对于躯干姿势的头部姿势相关联。

例如，头部跟踪数据可以通过头部跟踪设备跟踪头部相对于躯干的俯仰、侧倾和/或偏航来获得。

在特定的非限制性示例中，HRTF由双耳HRTF捕获系统来测量，所述双耳HRTF捕获系统包括位于预期受验者的耳朵处的麦克风。

根据第二方面，提供了一种用于使用头部跟踪数据构建滤波器数据库的系统。所述系统被配置成基于对来自声源的声音的测量来确定头部相关传递函数HRTF的表示，除了声源的位置和/或方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置。所述系统被进一步配置成针对每次测量跟踪相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据。所述系统还被配置成在数据库中存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

举例来说，可以参考图4和图8的示例实现。

例如，对于每个HRTF，HRTF的表示包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

作为示例，所述系统包括：测量系统，其用于执行对来自声源的声音的测量；HRTF确定块，其被配置成确定HRTF的表示；以及HRTF数据库，其用于存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的相关联的信息。例如，可以参考图4。

在特定示例中，所述系统包括：头部跟踪器，其被配置成针对每次测量跟踪相对于躯干姿势的头部姿势以获得头部跟踪数据；和/或输入接口，其被配置成接收头部跟踪数据。

所述系统可以被配置成针对头部姿势相对于躯干姿势的维度中的至少一个维度来确定HRTF的表示。例如，头部的姿势或位置可以根据俯仰、侧倾和/或偏航来定义。

在实际示例实现中，所述系统可以被配置成针对多个不同的头部姿势和/或声源的多个不同位置来确定HRTF的表示。

换句话说，除了声源相对于躯干的方向之外，每个HRTF表示还可以与相对于躯干姿势的头部姿势相关联。

举例来说，所述系统包括双耳HRTF捕获系统，所述双耳HRTF捕获系统包括位于预期受验者的耳朵处的麦克风。

例如，所述系统可以被配置成基于发送到声源的音频数据和由位于预期受验者的耳朵处的麦克风记录的音频数据来提取双耳HRTF。

在特定示例中，所述系统包括处理器和存储器，存储器包括可由处理器执行的指令，由此，处理器可操作以确定HRTF的表示并将它们存储在HRTF数据库中。例如，可以参考图8的示例实现，这将在稍后更详细地描述。

例如，对于每个HRTF，HRTF的表示可以包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

在特定示例中，基于对来自声源的声音的测量来确定存储在数据库中的HRTF的表示，并且每个HRTF表示与关于声源的位置和/或方向以及头部跟踪数据两者的信息一起被存储，所述头部跟踪数据表示在HRTF表示所基于的测量时相对于躯干姿势的头部姿势。

举例来说，基于位于预期受验者的耳朵处的麦克风的测量来确定存储在数据库中的HRTF的表示。

例如，头部姿势可以由俯仰、侧倾和偏航或其子集来表示。

在特定示例中，HRTF可以由FIR滤波器或由IIR滤波器或其组合来表示。

可选地，HRTF的表示包括描述个人的HRTF的HRTF表示和/或表示多个人的HRTF。

作为示例，音频滤波器数据库可以由时域滤波器响应的集合来表示，或者音频滤波器数据库中的数据可以被表示为涉及时间、频率和/或空间维度的变换。

根据非限制性示例，存储在数据库中的HRTF的表示是双耳HRTF的表示。

对于感兴趣的读者来说，区分虚拟声源和虚拟声音对象的相应范围可能是有用的。例如，这可以以以下方式来完成：

• 虚拟声源在概念上与音频渲染系统相关，而

• 虚拟声音对象在概念上与虚拟空间中的音频内容相关。

虚拟声音对象可以被定义为在虚拟空间中具有位置（和速度）的音频流或剪辑。

直到人们还已经定义了该虚拟空间中收听者的位置（和速度），它才可以被渲染为该收听者所预期的。该渲染可以包括创建反射（可能作为新的虚拟声音对象）、房间混响、距离增益减小、闭塞（occlusion）增益减少和着色（coloration）、多普勒效应以及用于双耳回放的类似HRTF的处理。

举例来说，虚拟声源可以被定义为从虚拟空间到音频渲染系统的通道，可能包括心理声学处理，诸如HRTF。

以下两个示例说明虚拟声源和虚拟声音对象之间可能存在混淆：

• 用于渲染虚拟声音对象的朴素（naïve）方法是针对每个虚拟声音对象创建一个虚拟声源。两者之间有1：1的对应关系。当虚拟声音对象的数量以及因此同时处理的HRTF滤波器的数量增加时，这对于音频渲染系统来说可能是计算上要求高的，但是当它是小的时可能是有意义的。

• 至少当虚拟声音对象的数量增加时，要求较低的方法将是把虚拟声音对象投影到较小的固定虚拟声源的集合上。虚拟声源可以被视为围绕收听者的虚拟扬声器的集合，每个虚拟扬声器具有取决于收听者的头部的姿势的给定HRTF表示。投影将通过跨最接近于虚拟声音对象的到达角度的虚拟扬声器平移（panning）虚拟声音对象的音频剪辑来实现。

例如，源方向可以被定义为相对于收听者的大致位置（例如，由收听者的躯干定义）到虚拟声源的方向。头部姿势由头部跟踪器单独配准。头部姿势和源方向一起确定HRTF（动态HRTF）的唯一表示。

当获取用于创建HRTF数据库的数据时，使用物理参考扬声器来表示虚拟声源是可能的。它们可以被放置在相对于预期受验者的某些位置处，以与源方向一致。通过让受验者佩戴头部跟踪器移动他/她的头部，同时在参考扬声器中播放激励声音，获取针对具体头部姿势和源方向的HRTF是可能的。

为了更好理解，现在将参考非限制性示例来描述所提出的技术。

举例来说，提供了HRTF的数据库，例如双耳HRTF，以及用于测量和构建HRTF的方法和系统，除了声源相对于躯干的方向之外，该方法和系统还与相对于躯干姿势的头部姿势相关联。

数据库存储通过对一个或多个受验者的音频测量创建的HRTF和相关联的头部跟踪数据。

头部的姿势或位置可以根据俯仰、侧倾和/或偏航来描述（参见图2）。

术语“头部跟踪设备”或“头部跟踪器”应被理解为表示通常除了相对于给定声源的方向之外还跟踪相对于躯干的头部姿势的设备。

可以通过针对头部姿势相对于躯干姿势的所有三个维度（俯仰、侧倾和偏航）或其子集（例如，仅俯仰和侧倾）测量特定位置处的声源的HRTF来创建HRTF数据库。

为了创建存储在数据库中的HRTF，举例来说，我们可以使用双耳HRTF捕获系统，其包括跟踪头部相对于躯干的俯仰、侧倾和偏航的头部跟踪设备、耳朵处的麦克风、已知位置处的声源，以及在连接到上述设备的计算机上运行的软件，或者如稍后描述的更一般的系统。

该系统可以提取个体HRTF或将若干个体的HRTF组合成表示典型人的HRTF（“通用HRTF”）。还可以提取每个人的HRTF的个体方面，诸如ITD（耳间时差）。

我们将与相对于躯干姿势的头部姿势和相对于躯干的声源的方向两者相关联的HRTF表示为动态HRTF。

所提出的技术的另一方面涉及一种用于声音再现的系统，诸如双耳3D声音渲染系统，其用于使用如上所述的HRTF数据库，除了声源相对于躯干的方向之外，还考虑头部姿势相对于躯干姿势的影响来产生虚拟声源。虚拟声源可以例如是虚拟扬声器。

简而言之，渲染系统可以使用HRTF数据库、头部跟踪设备、在期望位置处的声源的音频输入，并从数据库选择和应用适当的HRTF以输出用于声音系统的音频数据。可以通过并行渲染块来处理不同位置处的若干声源。例如，可以通过组合例如位于典型家庭影院配置中的五个虚拟声源来创建虚拟家庭影院扬声器设置。

考虑的维度（俯仰、侧倾和偏航）可以是三维、二维或甚至单个维度。优选地，对于HRTF数据库考虑至少两个维度，即使在用于基于头部跟踪的声音渲染系统的HRTF数据库中使用单个维度也被包括在所提出的技术的范围内。基本思想是还捕获由于相对于躯干的孤立头部移动而造成的对HRTF的影响。

图3是图示声音渲染系统的概述的示例的示意框图。举例来说，声音渲染系统10可以是使用实时头部跟踪的双耳3D声音渲染系统。

整个系统包括音频源、基于头部跟踪的HRTF滤波器系统20、头部跟踪器和相关联的声音系统以及用于考虑其他效果的可选块。举例来说，HRTF滤波器系统包括HRTF数据库、滤波器选择块和卷积器。

在该示例中，音频源块产生应该在空间中的特定点处被渲染的音频以及虚拟源的方向。音频数据进入卷积器块，并且方向数据进入HRTF选择块。

HRTF数据库块包括针对测量方向的集合的HRTF。

头部跟踪器块产生关于人的头部姿势的实时数据。

举例来说，HRTF选择块组合来自头部跟踪器块的头部姿势输入和来自音频源块的方向信息以从HRTF数据库选择一个或多个HRTF，并在给定头部姿势和源方向信息的情况下计算适当的HRTF。每个HRTF可以是例如FIR滤波器或IIR滤波器，或其级联或并联的组合。

作为示例，卷积器块将选择的HRTF与来自音频源块的音频数据进行卷积，并将其发送到声音系统块。

声音系统块表示音频系统，该音频系统被配置成向收听者传递诸如双耳音频信号之类的音频信号。

其他效果块是可选块，该可选块可以添加例如房间效果，比如对声音的反射。

所提到的块可以是在例如移动电话、PC、头戴受话器或虚拟现实和/或增强现实头戴送受话器上运行的软件实现的形式。每个块可以在具有足够存储器和CPU周期的任何其他处理设备上运行。如上所述，头部跟踪器、音频源、其他效果块和声音系统各自为我们的系统提供输入和/或输出。

通过从HRTF移除耳间时差ITD并将其作为单独的延迟线而不是在卷积器块内应用，可以使本文中描述的系统更高效。

图4是图示基于头部跟踪的HRTF数据库构建系统的示例的示意框图。HRTF数据库构建系统30包括测量系统、HRTF确定块和用于存储计算的HRTF以及相关联的头部跟踪数据的HRTF数据库5。

图4的系统可以被视为用于构建动态HRTF的数据库的系统。

举例来说，测量系统使用麦克风输入，该麦克风输入可以正在提供来自已知声源的每个耳朵处的声音的记录作为输入。例如，每个耳朵中的麦克风可以捕获音频数据，并且这可以被用作对HRTF数据库构建系统的输入。声源的位置以及发送到声源的音频数据是已知的。基于来自两个麦克风的记录的音频数据，HRTF确定块提取相关联的双耳HRTF，并且可以例如将其作为数字滤波器（FIR、IIR或其任何组合）输出到HRTF数据库，每个耳朵一个。相关联的头部跟踪数据（诸如头部的俯仰、侧倾和/或偏航）和声源位置与每个双耳HRTF一起被存储。

HRTF确定块可以例如使用系统标识以各种方式实现。实质上，它用发送到声源的已知音频数据对测量进行解卷积。参见例如[3]或[4]。实际上，平滑和插值对于创建比基本解卷积更好的模型可能是有用的。为了减少HRTF数据库的存储器要求，可以使用例如HRTF的冲激响应的主峰的左侧的互相关或过零检测从HRTF冲激响应提取ITD。

因此，使用例如本文中描述的系统构造的滤波器数据库可以存储多个动态HRTF，每个动态HRTF由FIR滤波器或由IIR滤波器或其组合表示，在任一情况下，要么作为描述个人的双耳HRTF的（双耳）HRTF，要么作为表示大量的人的通用（双耳）HRTF，以及声源相对于人的相关联的位置，以及相对于躯干姿势的头部姿势（由俯仰、侧倾和偏航或其子集描述）。

图5是图示滤波器选择系统的示例的示意框图。滤波器选择系统40包括HRFT数据库（或至少访问这样的数据库）和滤波器选择块。滤波器选择块使用头部跟踪数据和表示声源的位置和/或方向的信息，可能连同其他可选输入，以从数据库选择合适的HRTF，以便或多或少地直接用作滤波器，或以用作输入，以通过附加计算来确定合适的滤波器。该系统被配置成输出由滤波器选择块选择的滤波器，例如供卷积器使用以将滤波器应用于音频数据。

图6是图示HRTF滤波器系统的示例的示意框图。HRTF滤波器系统20包括HRFT数据库（或至少访问这样的数据库），以及滤波器选择块和卷积器或等效块。滤波器选择块使用头部跟踪数据和表示声源的位置和/或方向的信息，可能连同其他可选输入，以与HRTF数据库合作地选择或确定滤波器。系统被配置成由卷积器使用所选择的滤波器以将滤波器应用于音频数据。

图7是示出HRTF滤波器系统的示例的示意框图，其中可以沿着空间中的3D轨迹渲染在空间中的不同位置处的若干音频源。HRTF处理块包括诸如图6中所示的系统，并且还从空间中的音频源的期望轨迹（由轨迹块提供）获取输入以在任何给定时间应用适当的HRTF。混合块叠加了若干HRTF处理的音频源并将其输出到声音系统。

应该理解，本发明不限于HRTF滤波器数据库中的某种格式的数据。举例来说，HRTF滤波器数据库可以由时域滤波器响应的集合表示，或者例如，数据可以被表示为涉及例如时间、频率和/或空间维度的一些变换。所描述的系统的其他部分也不限于某种形式的数据。

将理解，本文中描述的方法和布置可以以多种方式实现、组合和重新布置。

例如，实施例可以以硬件、或者以供合适的处理电路执行的软件、或其组合实现。

本文中描述的步骤、功能、过程、模块和/或块可以使用任何常规技术以硬件实现，所述技术诸如分立电路或集成电路技术，包括通用电子电路和专用电路两者。

替代地或作为补充，本文中描述的步骤、功能、过程、模块和/或块中的至少一些可以以供合适的处理电路（诸如一个或多个处理器或处理单元）执行的软件（诸如计算机程序）实现。

处理电路的示例包括但不限于一个或多个微处理器、一个或多个数字信号处理器（DSP）、一个或多个中央处理单元（CPU）、视频加速硬件和/或任何合适的可编程逻辑电路，所述可编程逻辑电路诸如一个或多个现场可编程门阵列（FPGA）或一个或多个可编程逻辑控制器（PLC）。

还应该理解，重新使用在其中实现所提出的技术的任何常规设备或单元的一般处理能力，这可以是可能的。重新使用现有软件，例如通过对现有软件重新编程或通过添加新软件组件来重新使用现有软件，这也可以是可能的。

图8是图示了根据实施例的基于处理器-存储器实现的布置/系统100的示例的示意框图。在该特定示例中，布置/系统100包括处理器110和存储器120，存储器120包括由处理器110可执行的指令，由此，处理器可操作以实现本文中描述的所提出的技术的各方面。

可选地，布置/系统100还可以包括通信电路130。通信电路130可以包括用于与其他设备有线和/或无线通信的功能，但是可以简单地是合适的输入/输出（I/O）设备、（一个或多个）输入端口和/或（一个或多个）输出端口。

基于硬件和软件的组合提供解决方案也是可能的。可以基于包括处理速度、实现的成本和其他要求的多个因素由系统设计者来决定实际的硬件-软件划分。

图9是图示根据实施例的计算机实现200的示例的示意图。在该特定示例中，本文中描述的步骤、功能、过程、模块和/或块中的至少一些以计算机程序225、235实现，所述计算机程序225、235被加载到存储器220中，以供包括一个或多个处理器210的处理电路执行。（一个或多个）处理器210和存储器220彼此互连以使得能够实现正常的软件执行。可选的输入/输出设备240还可以被互连到（一个或多个）处理器210和/或存储器220，以使得能够实现相关数据的输入和/或输出，诸如（一个或多个）输入参数和/或（一个或多个）得到的输出参数。

术语‘处理器’应该在一般意义上被解释为能够执行程序代码或计算机程序指令以执行特定处理、确定或计算任务的任何系统或设备。

因此，包括一个或多个处理器210的处理电路被配置成在执行计算机程序225时执行明确定义的处理任务，所述任务诸如本文中描述的那些。

处理电路不必专用于仅执行上述步骤、功能、过程和/或块，而是还可以执行其他任务。

在特定实施例中，计算机程序225、235包括指令，当由至少一个处理器210执行时，所述指令使得（一个或多个）处理器210执行本文中描述的任务，包括与文件管理器（filer）选择系统、滤波器系统和/或数据库构建系统相关的任务。

在特定示例中，提供了一种计算机程序，包括指令，当由至少一个处理器执行时，所述指令使得所述至少一个处理器：

还提供了一种计算机程序产品，包括其上存储有这样的计算机程序的计算机可读介质。

所提出的技术提供了包括计算机程序的载体，其中所述载体是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质中的一种。

举例来说，软件或计算机程序225、235可以被实现为计算机程序产品，其通常被携带或存储在计算机可读介质220、230上，特别是被携带或存储在非易失性介质上。计算机可读介质可以包括一个或多个可移动或不可移动存储设备，包括但不限于只读存储器（ROM）、随机存取存储器（RAM）、压缩盘（CD）、数字通用盘（DVD）、蓝光盘、通用串行总线（USB）存储器、硬盘驱动器（HDD）存储设备、闪存、磁带或任何其他常规存储设备。因此，计算机程序可以被加载到计算机或等效处理设备的操作存储器中，以供其处理电路执行。

当由一个或多个处理器执行时，本文中提供的过程流程可以被视为计算机流程。相应的装置可以被定义为功能模块的组，其中由处理器执行的每个步骤对应于功能模块。在这种情况下，功能模块被实现为在处理器上运行的计算机程序。

因此，驻留在存储器中的计算机程序可以被组织为适当的功能模块，所述功能模块被配置成当由处理器执行时执行本文中描述的步骤和/或任务的至少部分。

上面描述的实施例仅作为示例给出，并且应当理解，所提出的技术不限于此。本领域技术人员将理解，在不脱离如由所附权利要求限定的本范围的情况下，可以对实施例进行各种修改、组合和改变。特别地，不同实施例中的不同部分的解决方案可以在其中技术上可能的其他配置中组合。

参考文献

[1] Bosun Xie，Head-Related Transfer Function and Virtual AuditoryDisplay，J Ross出版社

[2] Brinkmann等，Audibility and Interpolation of Head-Above-TorsoOrientation in Binaural Technology，IEEE Journal of Selected Topics in SignalProcessing，第9卷，第5期，2015年8月

[3] Ljung Lennart，System Identification: Theory for the User (2ndedition)，Prentice Hall PTR，1999年

[4] Farina A.，Simultaneous measurement of impulse response and distortionwith a swept-sine technique。在2000年2月19-22日法国巴黎的第108届大会时提出。

Claims

1.一种用于使用头部跟踪数据创建滤波器数据库的方法，其中，所述方法包括：

- 针对给定声源测量（S1）并且构造头部相关传递函数HRTF，除了声源的位置和/或方向之外，每个HRTF与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置；

- 针对每次测量跟踪（S2）相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据；以及

- 在数据库中存储（S3）HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

2.如权利要求1所述的方法，其中，对于每个HRTF，HRTF的表示包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

3.如权利要求1或2所述的方法，其中，测量HRTF的步骤（S1）包括针对头部姿势相对于躯干姿势的维度中的至少一个维度来测量HRTF。

4.如权利要求1至3中的任一项所述的方法，其中，头部的姿势或位置根据俯仰、侧倾和/或偏航来定义。

5.如权利要求1至4中的任一项所述的方法，其中，针对多个不同的头部姿势和/或声源的多个不同的位置来测量HRTF。

6.如权利要求1至5中的任一项所述的方法，其中，除了声源相对于躯干的方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联。

7.如权利要求1至6中的任一项所述的方法，其中，头部跟踪数据通过头部跟踪设备跟踪头部相对于躯干的俯仰、侧倾和/或偏航来获得。

8.如权利要求1至7中的任一项所述的方法，其中，HRTF由双耳HRTF捕获系统来测量，所述双耳HRTF捕获系统包括位于预期受验者的耳朵处的麦克风。

9.一种用于使用头部跟踪数据构建滤波器数据库的系统（30；100；200），

其中，所述系统被配置成基于对来自声源的声音的测量来确定头部相关传递函数HRTF的表示，除了声源的位置和/或方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联，所述头部姿势也称为预期受验者的头部的位置；

其中，所述系统被配置成针对每次测量跟踪相对于躯干姿势的头部姿势，以获得相关联的头部跟踪数据；以及

其中，所述系统被配置成在数据库中存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的信息。

10.如权利要求9所述的系统，其中，对于每个HRTF，HRTF的表示包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

11.如权利要求9或10所述的系统，其中，所述系统包括：测量系统，其用于执行对来自声源的声音的测量；HRTF确定块，其被配置成确定HRTF的表示；以及HRTF数据库，其用于存储所确定的HRTF的表示以及相关联的头部跟踪数据和表示声源的位置和/或方向的相关联的信息。

12.如权利要求9至11中的任一项所述的系统，其中，所述系统包括：头部跟踪器，其被配置成针对每次测量跟踪相对于躯干姿势的头部姿势以获得头部跟踪数据；和/或输入接口，其被配置成接收头部跟踪数据。

13.如权利要求9至12中的任一项所述的系统，其中，所述系统被配置成针对头部姿势相对于躯干姿势的维度中的至少一个维度来确定HRTF的表示。

14.如权利要求9至13中的任一项所述的系统，其中，头部的姿势或位置根据俯仰、侧倾和/或偏航来定义。

15.如权利要求9至14中的任一项所述的系统，其中，所述系统被配置成针对多个不同的头部姿势和/或声源的多个不同位置来确定HRTF的表示。

16.如权利要求9至15中的任一项所述的系统，其中，除了声源相对于躯干的方向之外，每个HRTF表示还与相对于躯干姿势的头部姿势相关联。

17.如权利要求9至16中的任一项所述的系统，其中，所述系统包括双耳HRTF捕获系统，所述双耳HRTF捕获系统包括位于预期受验者的耳朵处的麦克风。

18.如权利要求17所述的系统，其中，所述系统被配置成基于发送到声源的音频数据和由位于预期受验者的耳朵处的麦克风记录的音频数据来提取双耳HRTF。

19.如权利要求9至18中的任一项所述的系统，其中，所述系统包括处理器和存储器，所述存储器包括可由处理器执行的指令，由此，处理器可操作以确定HRTF的表示并将它们存储在HRTF数据库中。

20.一种在存储器结构中实现的音频滤波器数据库（5），所述存储器结构具有用于存储表示音频滤波器的信息的存储位置，其中，音频滤波器数据库包括存储在数据库的存储位置中的头部相关传递函数HRTF的多个表示，其中，每个HRTF表示与相关联的头部跟踪数据和表示声源的位置和/或方向的信息一起被存储，所述相关联的头部跟踪数据表示相对于预期受验者的躯干姿势的头部姿势，所述头部姿势也称为头部位置。

21.如权利要求20所述的音频滤波器数据库，其中，对于每个HRTF，HRTF的表示包括HRTF的至少子集和/或HRTF的至少子集的处理版本。

22.如权利要求20或21所述的音频滤波器数据库，其中，基于对来自声源的声音的测量来确定存储在数据库中的HRTF的表示，并且每个HRTF表示与关于声源的位置和/或方向以及头部跟踪数据两者的信息一起被存储，所述头部跟踪数据表示在HRTF表示所基于的测量时相对于躯干姿势的头部姿势。

23.如权利要求20至22中的任一项所述的音频滤波器数据库，其中，基于位于预期受验者的耳朵处的麦克风的测量来确定存储在数据库中的HRTF的表示。

24.如权利要求20至23中的任一项所述的音频滤波器数据库，其中，头部姿势由俯仰、侧倾和偏航或其子集来表示。

25.如权利要求20至24中的任一项所述的音频滤波器数据库，其中，HRTF由FIR滤波器或由IIR滤波器或其组合来表示。

26.如权利要求20至25中的任一项所述的音频滤波器数据库，其中，HRTF的表示包括描述个人的HRTF的HRTF表示和/或表示多个人的HRTF。

27.如权利要求20至26中的任一项所述的音频滤波器数据库，其中，音频滤波器数据库由时域滤波器响应的集合来表示，或者音频滤波器数据库中的数据被表示为涉及时间、频率和/或空间维度的变换。

28.如权利要求20至27中的任一项所述的音频滤波器数据库，其中，存储在数据库中的HRTF的表示是双耳HRTF的表示。

29.一种计算机程序（225；235），包括指令，当由至少一个处理器执行时，所述指令使得所述至少一个处理器：

30.一种计算机程序产品（220；230），包括其上存储有权利要求29所述的计算机程序（225；235）的计算机可读介质。