CN110021306A

CN110021306A - 用于利用头部跟踪生成自定义空间音频的方法

Info

Publication number: CN110021306A
Application number: CN201910007403.1A
Authority: CN
Inventors: 李泰齐; 格斯·马克·本杰明·莱斯利; 马克·安东尼·戴维斯; 埃德温·坦博萨; 道·恩·德斯蒙德·许
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2018-01-07
Filing date: 2019-01-04
Publication date: 2019-07-16
Anticipated expiration: 2039-01-04
Also published as: US20190379995A1; US11006235B2; US20230007433A1; KR102574082B1; EP3509327A1; DK3509327T3; US11785412B2; US20190215637A1; JP7071297B2; JP2019146160A; PL3509327T3; KR20190084883A; TW201939973A; US11445321B2; CN110021306B; EP3509327B1; TWI797230B; US10390171B2; US20210266696A1; US20230379650A1

Abstract

本公开涉及用于利用头部跟踪生成自定义空间音频的方法。一种用于空间音频渲染的耳机包括第一数据库，该第一数据库具有对应于参考扬声器位置的脉冲响应对。头部传感器向具有旋转滤波器的第二数据库提供头部方向信息，滤波器对应于相对于参考扬声器位置的不同方位角和仰角位置。数字信号处理器将旋转滤波器与脉冲响应对进行组合以生成到耳机的换能器的输出双耳音频信号。通过比传统方法较不频繁地对脉冲响应进行采样，实现了创建脉冲响应或HRTF数据库的效率。这种较粗糙间隔的采样减少了生成球形网格所需的数据测量的数量，并减少了捕获脉冲响应所涉及的时间。通过在频域中进行插值来生成落在采样数据点之间的数据点的脉冲响应。

Description

用于利用头部跟踪生成自定义空间音频的方法

技术领域

本发明涉及用于利用实现头部跟踪通过耳机渲染音频的方法和系统。更具体地，本发明涉及开发创建数据库和滤波器的效率来用于过滤3D音频源以进行更真实的音频渲染，并且还允许更大的头部移动以增强空间音频感知。

背景技术

双耳房间脉冲响应(BRIR)处理的实施是众所周知的。根据已知方法，真实或虚拟头部和双耳麦克风被用于记录真实房间中的多个扬声器位置中的每一个的立体声脉冲响应(IR)。也就是说，生成一对脉冲响应，每个耳朵一个脉冲响应。然后可以使用这些IR对音乐曲目进行卷积(过滤)，并将结果混合在一起并通过耳机播放。如果应用了正确的均衡，则音乐的声道将听起来好像它们是在记录IR的房间中的扬声器位置中播放的。这是其中从为房间中的多个扬声器设计的多声道源材料所期望的音频感知可以通过耳机复制的一种方式。为了澄清的目的，提供了传递函数和脉冲响应项的简要讨论。通常，HRTF代表头部相关传递函数，其是对消声室中从扬声器到耳朵的传递函数的测量，以便描述声音的直接路径。相反，BRIR或双耳房间脉冲响应提供房间的脉冲响应，以将相应的混响添加到音频源。其相关联的传递函数在本文中有时被称为双耳房间传递函数(BRTF)。

HRTF表征每个耳朵如何从空间中的点接收声音，并且取决于头部的特性，包括头部的形状、大小和密度，以及耳朵的形状和大小，并且从对头部相关脉冲响应(HRIR)的测量导出。HRIR通常在消声室中测量，使得它仅包含与头部相关的信息，并且不包括任何房间混响。HRIR很短；通常，十几毫秒左右。

通过耳机渲染的BRIR处理提供了在房间中聆听音乐的真实印象，只要聆听者不移动他的头部。然而，对于位于真实房间中聆听多个真实扬声器的聆听者来说，通常将相对于扬声器位置移动他们的头部。即使头部的最小移动也导致扬声器相对于头部的相对位置的较小变化，特别是角度取向，并且应生成聆听者的空间音频感知中的至少较小可感知变化。对于聆听者来说，声音被感知为来自略微不同的方向。聆听者感知声源方向的能力依赖于在每个耳朵处感测音频源的时间差(即耳间时间差(“ITD”))、每个耳朵处的声音水平的差异(通常被称为“耳间水平差异”(ILD)或“耳间强度差异”(IID))、以及由耳朵的耳廓的解剖结构引起的光谱整形。虽然头部的这些较小移动可能仅引起聆听者所感知的空间场景的适度变化，但它们对于向聆听者提供其在真实场景中作为独立演员的角色的真实感和感知是重要的。所需要的是一种用于检测较小头部移动并改变脉冲响应和音频源信号的处理结果，以在通过耳机渲染的音频中生成更大真实感的高效方式。

发明内容

为了实现前述内容，本发明在各种实施例中提供了一种处理器，其被配置为向耳机提供如由来自头部跟踪硬件的结果实现和修改的双耳信号，以通过耳机提供音频的双耳复制的额外维度。此外，在本发明的各种实施例中，由双耳房间脉冲响应滤波器处理的音频的高效头部跟踪修改仅使用存储器存储要求的适度增加来进行。BRIR包括房间混响，根据房间的大小，其可以有几百毫秒的长度。由于HRIR比BRIR短得多，因此HRIR可以使用短得多的滤波器来建模。如稍后将关于本发明的实施例更详细地解释的，可以使用时域、频域或分区频域卷积来执行滤波操作。如本说明书中所使用的，双耳声学脉冲响应(BAIR)是指空间音频中的测量，其反映由声学环境引起的频谱整形和其他变化的效果，包括头部、躯干和耳朵的特性；声学环境中扬声器的特性；以及环境中发生的混响。前面讨论的双耳房间脉冲响应(BRIR)和头部相关脉冲响应(HRIR)都是双耳声学脉冲响应的子集。术语双耳声学传递函数(BATF)在本文中指的是基于对双耳声学脉冲响应的测量来表征声音接收的传递函数。也就是说，BATF在此被定义为用单个术语涵盖HRTF和BRTF二者。类似地，BAIR被定义为涵盖HRIR和BRIR二者。

在另一实施例中，通过比传统方法较不频繁地对脉冲响应进行采样来实现存储脉冲响应或HRTF数据库所需的空间节省。这种较粗糙间隔的采样减少了生成球形网格所需的数据测量的数量，并减少了捕获脉冲响应所涉及的时间。在若干实施例中，通过在频域中插值来生成落在采样数据点之间的数据点的脉冲响应。

简而言之，下面描述的样本提供了用于头部跟踪修改的一个实施例的操作的概述。当用户在参考位置(即0度方位角)直视时，处理器严格依赖于相关信道的BRIR。因此处理将传送基于从左前扬声器记录的BRIR音频用于左声道(约-30度方位角)，并且传送从右前扬声器(约+30度)记录的BRIR用于右声道。因此，在这种情况下，由于头部没有从参考位置移动，因此结果与没有头部跟踪的结果完全相同。

当头部移动时，理想情况下BRIR应改变。例如，当头部向右转5度时，应使用以25度方位角(而不是30度)记录的BRIR过滤右声道，并且应使用以-35度(而不是-30度)记录的BRIR过滤左声道。

然而，该配置的存储器需求相当大。针对每个扬声器位置记录两个脉冲响应(IR)，并且每个IR可能至少200毫秒长以捕获即使较小房间的混响。BRIR将包括以下二者：a)直接提供给耳朵的消声传递函数，以及b)房间混响传递函数。具有五个扬声器位置并以48kHz记录的常见多声道空间布置需要针对每个头部角度存储9万6千个滤波器系数。如果我们想要针对-45到+45度之间的每两个方位角和每两个仰角具有一组新的滤波器，则需要存储超过7亿个系数。

此外，处理成本将增加。频域(“快速”)卷积通常用于这种大型卷积，因为其处理成本低得多。然而，当使用快速卷积并从一组滤波器变为另一组滤波器时，需要在“旧”和“新”滤波器之间进行同时淡入淡出(cross-fade)，这意味着在短时间内，必须执行两次卷积。每当头部移动时，这将使处理成本加倍。由于必须指定信号处理硬件以满足最高处理带宽，这将使硬件成本加倍，或者如果处理硬件无法改变，则滤波器的长度必须减半。这将影响音频质量。

可以使用时域、频域或分区频域卷积来执行必要的滤波操作。分区卷积不一定需要在频域中进行(但经常需要进行)。分区卷积实施例涉及将脉冲响应分成一系列较短的段。然后将输入信号与每个段进行卷积。这些单独卷积的结果被存储在一系列存储器缓冲器中。通过将适当的缓冲器相加在一起来创建输出信号。该方法的一个优点是它减少了从IR的长度到每个段的长度的延迟。后者在一些实施例中是优选的，但在其他实施例中，这里描述的方法也将与其他两个一方法起工作。

根据本发明的各种实施例，利用更有效和更简单的系统获得真实感。优选地，使用单组BRIR，或者可选地，使用一组减少的BRIR并将其与一组旋转滤波器组合以将第一位置的BRIR转换为第二并且不同位置的BRIR。如本文所使用的，旋转滤波器指的是将第一位置的BRIR转换为第二位置并且不同位置的BRIR的传递函数，例如，在检测到聆听者的头部旋转之后可能需要传递函数。

根据一个实施例，用于利用头部跟踪通过耳机生成空间音频的系统包括实现FIR滤波器的至少一个处理器，该FIR滤波器将时域FIR旋转滤波器与耳间时间延迟电路进行组合。

因此，本发明实施例为耳机应用上的各种空间音频提供了高效的解决方案。

下面参考附图描述本发明的这些和其他特征和优点。

附图说明

图1A是示出根据本发明的实施例的用于生成稀疏HRTF或BRIR数据库的聆听者的头部周围的方位角上的各种扬声器位置的图示。

图1B是示出根据本发明的实施例的用于生成稀疏BRIR数据库的在仰角上的各种扬声器位置的图形表示。

图2是示出根据本发明的一个实施例的具有头部跟踪特征的耳机电路的图示。

图3是示出根据本发明的一个实施例的用于指定位置的单个虚拟扬声器的处理的图示。

图4是示出用于在没有头部跟踪的情况下处理立体声输入信号的传统系统的图示。

图5是示出根据本发明的一个实施例的具有头部跟踪的立体声输入的图示。

图6A是反映根据本发明的实施例的经由捕获系统生成稀疏HRTF网格的流程图。

图6B是反映根据本发明的实施例的具有应用于所选HRTF对的头部跟踪修改的回放系统的流程图。

图7是根据本发明的实施例的用于生成用于自定义的HRTF、获取用于自定义的聆听者属性、为聆听者选择自定义HRTF、提供适于与相对用户头部移动一起工作的旋转滤波器以及用于渲染由HRTF修改的音频的系统的图示。

图8是示出根据本发明的实施例的通过获取和测量来生成HRTF数据集的方法的流程图。

图9A是示出根据本发明的一个实施例的在聆听者周围生成稀疏球形网格的图示。

图9B是示出根据本发明的一个实施例的应用于聆听者周围的图9A的球形网格的插值的结果的图示。

图9C是示出根据本发明的实施例的由头部移动和相关联旋转滤波器的选择生成的合成向量的图示。

图10是示出根据本发明的实施例的不同距离处的球形数据库的图示。

图11是示出根据本发明的实施例的在生成自定义HRTF时房间中的直接声音和反射的图示。

具体实施方式

现在将详细参考本发明的优选实施例。在附图中示出了优选实施例的示例。虽然将结合这些优选实施例描述本发明，但应该理解，并不意图将本发明限制于这些优选实施例。相反，旨在涵盖可以包括在由所附权利要求限定的本发明的精神和范围内的替代、修改和等同物。在以下描述中，阐述了许多具体细节以便提供对本发明的透彻理解。可以在没有这些具体细节中的一些或全部的情况下实施本发明。在其他情况下，没有详细描述公知的机制以便避免不必要地模糊本发明。

本文应该注意，在各个附图中，相同的标号指代相同的部件。本文示出和描述的各种附图用于示出本发明的各种特征。在特定特征在一个附图中示出而在另一附图中未示出的情况下，除非另有说明或结构固有地禁止结合特征，应理解这些特征可以适于被包括在其他附图中表示的实施例中，如同它们在这些附图中被充分说明。除非另有说明，否则附图不一定按比例绘制。附图中提供的任何尺寸不意图限制本发明的范围，而仅是说明性的。

人的HRTF是独特的，这主要是由于其独特的耳朵、头部、肩部和躯干。通常通过采用“平均”头部而创建的通用HRTF可能与用户的HRTF不匹配并导致高程误差、前后混淆和不良外部化。提供空间音频的最佳结果通过提供对于聆听者自定义的密集HRTF数据库来实现。这对于提供精确滤波的目的是重要的，即所选择的滤波器系数为所选择的聆听者提供声音来自所选方向的精确感知。当然，生成具有许多数据点的HRTF的自定义数据库需要更多存储器。通常，HRTF数据库将为方位角间隔不超过15度并且仰角间隔不超过15度的数据点提供HRTF对。理想地采取这些测量以在生成聆听者周围的完整球形网格。优选地，并且为了提供更高的HRTF滤波器精度，数据点彼此距离3度。这当然会产生巨大的球形HRTF网格，其需要大量的存储器存储。此外，测量人的HRTF是繁琐且费力的过程，需要安静的房间并且用户长时间静坐。用户可能由于较长HRTF测量过程而感到疲劳并且不能保持静止，导致不太理想的测量。即使用户在测量期间将其头部移动仅厘米，HRTF也不再准确。关于实际的HRTF捕获过程，通常扬声器围绕用户的头部旋转以对应于规则且通常密集的球形网格，并且整个过程可能花费数小时。测量过程的输出是HRTF图，其是由方向(方位角、仰角)索引的HRTF对的列表，并且还可以包括倾斜测量。该图有时还称为HRTF网格、球形网格或HRTF数据集。球形网格概念表示HRTF可以在围绕聆听者头部的平面上以360度方向使用，并且还可以在该水平面上方和下方在仰角上以360度使用，以帮助聆听者准确地感知定向声音。为了理解所涉及的测量时间并作为示例，来自麻省理工学院的KEMAR HRTF数据库使用具有5度的方位角增量的测量网格。此外，来自加州大学戴维斯分校的CIPIC HRTF数据库使用具有5.625度的方位角增量的测量网格。相对于这些甚至常用的IRCAM数据集(用15度的间距)，虽然有点粗糙，但仍需要相当长的时间来捕获数据点的完整球形网格，即HRTF图。

鉴于这些缺点，期望缩短测量过程，同时仍提供可接受的准确度。

在使用中，给定头部位置(方位角、仰角)，传统方法通常使用方位角和高程参数作为索引来在HRTF图或网格中“查找”适当的HRTF并使用“最近的”HRTF，或周围HRTF的插值。时域中的直接插值是最简单的方法，但它不能很好地工作。这是因为如果用于插值的相邻脉冲响应(IR)异相，则时域响应的插值可能导致相消干涉。已经提出了几种方法来避免该问题。一个示例是应用时间扭曲以便在插值之前IR变为时间对齐的。然而，这是复杂的过程，因为必须修改插值IR以考虑时间扭曲。

由于上述问题，在优选实施例中，我们使用频域插值，即使在HRTF之间的角度很大时也能提供良好的结果。本发明提供了用于在频域中进行插值的实施例。更详细地，一种方法涉及对HRTF的幅度和相位进行插值。在频域中执行插值需要诸如快速傅立叶变换(FFT)之类的操作以转换到频域，并且需要逆FFT以转换回时域。这些是本领域技术人员已知的，因此在此认为对转换框中的细节的进一步解释是不必要的。

用于插值的数据点(网格点)的数量取决于许多因素。这些因素包括网格间距(均匀的(其中间距在整个网格上是恒定的)或不均匀的)，以及插值点相对于网格点的位置。取决于场景，通常在使用2或3个点的实施例中实现最佳结果，但在本发明的一些实施例中使用4个点。

在本发明的各种实施例中，主要基于插值点相对于测量点的坐标来选择不同的插值方法。在第一实施例中，执行相邻线性插值。这是对HRIR进行插值的最简单方法。在这种情况下，目标角度从两个相邻点被插值。当在同一平面上的点之间进行插值时(例如，具有固定仰角的方位角或具有固定方位角的仰角)，即当插值点位于网格线之一上时，可以使用该方法。

在另一实施例中，选择双线性插值。这是线性插值的扩展，并且可以在插值点位于网格线之间时使用。对于给定的目标位置，插值HRIR被近似为与四个最近的点相关联的HRIR的加权和。这些点在目标位置周围形成正方形或矩形。

在又一实施例中，选择球形面三角插值。这实际上是双线性插值的修改版本，其能够与非均匀测量网格(即当最近的四个点不形成正方形或矩形时)一起工作。在这种情况下，选择在目标位置周围形成三角形的三个最近的点。与双线性插值方法一样，插值IR被近似为与最近的点相关联的HRTF的加权和。然而，在这种情况下，插值公式更复杂。

总之，相邻线性插值实施例使用2个HRIR进行插值、双线性插值使用4个点进行插值、并且球形三角插值使用3个点进行插值。无论使用哪种方法，这取决于被插值的点的坐标以及网格间距是否均匀。

频域插值允许我们使用较粗糙的测量间隔(例如，30-60度而不是所谓的5度)，这显著减少了覆盖球形图或网格所需的测量数量。换句话说，通过频域插值，我们对聆听者的头部周围的球体进行较稀疏的采样。通过减少扬声器位置的数量，捕获时间显著减少。这减少了对用户保持静止(这提高HRTF质量)的要求，并且仅需要房间在更短的时间内可用。

在其他实施例中，通过在非规则网格中捕获HRTF来提供HRTF测量的减少。并非所有头部姿势都同样重要。例如，在某些使用情况下，正面60度锥体可能被认为更重要。网格在该锥体中可以更密集，而后部和底部象限可以具有更稀疏的网格。

在又一实施例中，我们通过使用多个扬声器来实现效率。诸如IRCAM之类的当前方法通常使用安装在可移动臂上和旋转椅的一个扬声器来跨越球形网格。在该实施例中，我们设置多个扬声器，并同时测量多个HRTF并将它们映射到球形网格，进一步减少测量所花费的时间。换句话说，对于在聆听者(配备有2个入耳式麦克风)周围有5个扬声器的扬声器设置，我们依次激活5个扬声器中的每一个，产生聆听者相对于扬声器的每个位置的5个读数。此外，通过识别对称性，可以利用所有上述技术实现HRTF捕获测量的减少。也就是说，如果我们假设房间和用户的耳廓、头部和躯干是对称的，则我们只需要在一半球体上测量HRTF，并将HRTF镜像到另一半。

图1A是示出用于在一个本发明实施例的一个步骤中生成HRTF或BRIR稀疏网格的聆听者的头部周围的360度方位角中的各种扬声器位置的图示。理想地，扬声器位置(例如，在聆听者102周围的方位角中包括104到115)相隔3度以获得最大精度。类似地，在图1B中，扬声器位置122、123、124、125、126、127和128将理想地反映在仰角中从最近的相应扬声器位置的3度的角度倾斜和倾角。使用本发明的技术，可以利用“稀疏”HRTF网格来实现相当的精度，其中，相邻扬声器位置可以在30至60度范围内，然后是本发明实施例的频域插值步骤。图1B是示出用于生成HRTF数据库的在仰角中的各种扬声器位置的图形表示。

在上面的示例实施例中，至少部分地通过记录由扬声器相对于静止头部位置的移动而引起的响应来生成BRIR对和HRIR对。

在替代实施例中，至少部分地通过记录由相对于固定扬声器的头部移动而引起的响应来产生BRIR对和HRIR对。实现对相对于扬声器的头部位置的操纵，并且基于这种操纵对适用的传递函数进行修改。例如，当头部旋转时，例如在零度参考位置左侧45度处，与其中相对于头部发生扬声器移动的情况相比，发生不同的效果。这种差异在很大程度上是由于头部和身体其他部分之间的关系发生了变化。对于其中相对于聆听者发生扬声器移动的大多数测量情况，头部相对于肩部被对称地放置。当扬声器保持静止并且头部旋转时，当然不是这种情况。生成识别和补偿这种移动的BAIR及其相关BATF可以提高音频的空间感知的准确性。

再例如，与相对于保持静止的扬声器物理地向上或向下移动头部相比，改变扬声器仰角具有完全不同的BAIR。如上所述，BAIR不仅改变头部的旋转，而且改变头部的倾斜/倾角和头部的倾摆。在一个优选实施例中，除了通常使用多个扬声器位置来捕获HRTF和BAIR之外，HRTF数据集或旋转滤波器数据集的生成还包括头部旋转的附加数据。

图2是示出根据本发明的一个实施例的具有头部跟踪特征的耳机电路的图示。在系统200中，头部跟踪传感器202被耦合到聆听者的头部以测量用户的头部方向的变化。该传感器的输出用于在方位角框204中生成方位角和仰角信息。然后，所导出的方位角和仰角信息被发送到旋转滤波器数据库208。DSP处理器216使用优选地存储聆听者的自定义HRTF/BRIR的BAIR数据库210(BAIR数据库的示例)中的信息以及对应于仰角和方位角参数的旋转滤波器选择来处理(滤波)输入音频215，以生成到耳机换能器220的双耳音频信号。

图3示出了针对指定位置的单个虚拟扬声器的处理。输入音频信号由一对传递函数302和304处理以在期望位置创建虚拟扬声器的感知。通过使用单组BRIR(或者可选地，一组减少的BRIR)而不是针对头部的每个不同方向使用一组，各种实施例中的本发明基本上避免了前面描述的问题，同时保持真实性。该单组BRIR或一组减少的BRIR与一组“旋转滤波器”相结合，该旋转滤波器将一个参考位置的BRIR转换为不同位置的BRIR。这些旋转滤波器可以非常短，从而节省了存储器和处理成本。该图示出了相对于头部的特定位置中的单个虚拟扬声器的处理。在下面的描述中，我们导出传递函数，我们可选地调用旋转滤波器以将初始位置的HRTF转换为第二位置的HRTF。这些旋转滤波器使我们能够用更短和更简单的滤波器来替换具有复杂滤波器的数据库(针对头部每个可能位置的BRIR)。

然后，我们将传递函数H_L和H_R表示为两个传递函数的乘积：

H_L＝H_AL·H_TL

H_R＝H_AR·H_TR (1)

H_AL和H_AR是消声传递函数。它们是在消声室中测量从扬声器位置到耳朵的传递函数的结果，并且通常被称为HRTF。H_TL和H_TR基本上是房间反射-如果移除HRTF，则剩下的内容。

现在假设我们有两个头部相对扬声器位置。位置0是当头部直视时其中一个扬声器的位置。在这种情况下，扬声器的头部相对位置与绝对位置相同。位置1是当头部以某种方式移动时同一扬声器的头部相对位置，因此该头部相对位置不再与绝对位置相同。这两个位置的传递函数为：

以及

我们需要一对滤波器H_DL和H_DR(旋转滤波器)来补偿位置的差异。从而：

以及

将(2)代入(3)我们得到：

以及

现在我们假设反射是相同的，而与头部相对位置无关。虽然这个假设并不完全正确，但它足以让结果具有说服力。从而：

以及

将(5)代入(4)我们得到：

以及

这使得我们能够从这些方程的两边取消H_TL和H_TR并重新排列以产生：

以及

因此，我们需要的滤波器的传递函数是位置1的HRTF(当前头部相对扬声器位置)除以位置零的HRTF(绝对扬声器位置)

因为HRTF是消声的，所以它们不包含混响，并且可以使用短滤波器来准确地传送。因此，旋转滤波器也可以很短。实验表明，可以使用具有抽头数量减少的FIR滤波器以适应较短脉冲响应。这大大节省了FIR滤波器的复杂性。例如，在前面的示例讨论中，对于48kHz的采样，将需要数千个系数(500毫秒HRTF将需要500/1000*48000＝24,000个采样，其中，采样率＝48kHz)。

当头部的方向改变时，改变滤波器并且必须更新滤波器系数。为了避免诸如输出信号不连续之类的音频伪影，在处理发生时通过在多个样本上交叉淡入淡出滤波器系数来直接处理滤波器之间的过渡，因此在该实施例中，当头部方向改变时，处理成本仅略微增加。

耳间时间延迟

图3所示的滤波器H_L和H_R可以表示为时间延迟I和零延迟滤波器F的乘积：

H_L＝F_L·I_L

以及

H_R＝F_R·I_R

I_L和I_R是耳间时间延迟(ITD)，并且出现是因为来自除了矢状平面上的之外的头部周围的任何地方的源的声音将在到达另一耳朵之前到达一个耳朵。因此，将总是存在它们中的至少一个将为零的情况，并且通常情况是一个为零而另一个为正。在头部跟踪情况下，ITD需要随着头部移动而改变。在给定的房间中，ITD主要是方位角和头部宽度的函数。正常头部宽度通常被称为耳间距离(耳朵之间的距离)并且通常假设为0.175m。当I为正时，这对应于正I_R和零I_L，当I为负时，反之亦然。

图4示出了根据传统方法的用于在没有头部跟踪的情况下处理立体声输入的系统400。这里，ITD被包括在BRIR滤波器402、404、406和408中。

图5示出了根据本发明的一个实施例的包括头部跟踪的处理。

在该图中：

-标记为ITD的框是ITD(即502、504、506和508)

-标记为ROT的框(即510、512、514和516)是时域FIR旋转滤波器，以及

-标记为BRIR的框(即520、522、524和526)是脉冲响应的零延迟版本。这些可以使用任何卷积方法进行。

对于更多声道，可以用如上所述的更多框来扩展该处理，并且将结果混合在一起以产生单个输出对。

实现方式选项

如上所述，旋转滤波器比使用多个BRIR滤波器的情况需要更少的存储。如果我们使用抽头数量减少的FIR滤波器，则需要存储的系数的数量显著减少，而不是例如使用完整长度BRIR的超过7亿个。如果DSP存储器充足，则可以将该系数表存储在其上。然而，可能需要使用外部存储器，在这种情况下，系数可以响应于头部方向从外部存储器传输到DSP。在一个非限制性实施例中，这通过诸如I2C之类的相对低带宽的接口来实现。

为了进一步节省存储器，可以将旋转滤波器存储在较粗糙网格上，并且可以实时进行插值。HRTF通常被记录在粗糙网格上。例如，IRCAM HRTF(参见hrtf.ircam.fr)使用仅187个点的网格，其具有15度的方位角分辨率，以及类似地仰角分辨率。这意味着旋转滤波器表需要存储不到120,000个系数。在一个实现方式中，旋转滤波器以该分辨率进行存储，并且我们实时地对它们进行插值。

使用旋转滤波器的效率节省可以降低处理和存储器需求二者。下面列出了两种减小数据库大小的方法。在第一方法中，给定两个BRIR，并且在分割过程之后生成旋转滤波器，我们可以在时域中显著地截断所得到的BRIR并同时保持“真实性”。在我们上面的推导中，我们假设反射是相同的而与头部相对位置无关。因此，所得到的BRIR的“尾部”主要包含反射并且可以被截断，产生具有较少数量的抽头的滤波器。

第二方法的效率节省包括使用较短HRTF滤波器和较大BRIR，因此牺牲了很少的精度。BRIR通常是数千个样本，而HRTF(没有房间响应)可能远少于一千(例如，可能在每个512个样本的一般情况)。在一个优选实施例中，我们使用单独的HRTF数据库来生成旋转滤波器(通过如等式7中所公开的划分两个HRTF)。然后，这些旋转滤波器可以应用于单个捕获较大(例如，24,000个样本)BRIR，例如，用于位于-30度的源，作为传统立体声扬声器设置的一部分。

在这一点上，本说明书主要描述了用于从稀疏测量的HRTF数据集生成完整HRTF数据集的实时方法。以下是被配置用于为新的聆听者生成自定义HRTF数据集而不将麦克风插入新的聆听者的耳朵中的系统的概述。不是实时计算HRTF数据集的插值条目，若干实施例依赖于计算插值HRTF数据集值；旋转滤波器值；和远程服务器上的BRIR。

如前所述，为了向聆听者提供方向感，必须通过适当的传递函数(例如，诸如HRTF对或BRTF对之类的BATF对)对音频信号进行滤波，以给予聆听者关于方向的提示。术语HRTF被不同用户赋予不同的含义。例如，在一些情况下，研究人员将HRTF称为当声音到达用户的耳膜时发生的频谱整形，特别地包括聆听者耳朵的耳廓所提供的效果，还包括来自聆听者的躯干、头部和肩膀的折射和反射效果。在其他情况下，由于声音到达聆听者的耳朵而产生的延迟也被包括在针对聆听者周围的空间中的特定位置的HRTF对中。在以下段落中描述的系统中，通常假设HRTF包括反映两个耳朵的不同声音路径长度(ITD)的时间延迟，并且限于声源和耳朵之间的消声传递函数。然而，在一些情况下，当包括声学环境或房间效果时，更宽泛的术语双耳声学传递函数是优选的。应当注意，本说明书中描述的适用于HRTF的操作通常也适用于在BRIR上执行的类似操作，其中，诸如房间混响之类的附加声学环境效果由BRIR的相关联传递函数来建模。这从上下文中通常应该是明显的。

最终并且为了帮助用户适当地在空间上定位虚拟声源，针对特定方位角、仰角、以及一些情况下距离所选择的HRTF必须在渲染之前应用于音频信号。对于围绕聆听者的头部的球形上的大量位置，特定HRTF优选地取自包含HRTF对(即每个耳朵一对)的HRTF数据集。例如，优选实施例提供HRTF测量和/或插值值的粒度，使得针对每3度的方位角变化和每3度的仰角提供HRTF对。在本发明的其他实施例中，利用对称性来减少完成测量所需的测量次数和时间。

当对个体进行测量时，典型设置包括将入耳式麦克风放置在聆听者的每个耳朵中，并记录针对通常位于围绕聆听者的球形上的声源的许多位置生成的脉冲响应。如果对球形上的7000个左右的点中的每个点进行测量(基于水平面上方的读数)，则这是非常缓慢的过程，但可以为聆听者提供准确的结果。也就是说，针对该聆听者提供个性化的HRTF或BRIR数据集，并使其在整形输入音频信号时可用于渲染模块，以便与一组耳机通信。在频谱的另一端，可以通过使用广义HRTF数据集来避免将麦克风插入聆听者的耳朵中。例如，可以使用由研究人员根据利用插入人体模型的头部的麦克风获取的数据编译的HRTF数据集。替代地，可以将针对一个个体测量的整个HRTF数据集用于第二个体。此外，可以从取自大量个体的测量值集合中导出平均HRTF数据集。在许多情况下，这些“通用”HRTF数据集将由于未能使得新聆听者准确地在空间上定位虚拟声源而对新聆听者器不佳地执行。在本发明的各种实施例中，标识新聆听者的音频相关物理属性，并且这些属性用于从HRTF数据集的候选池(即集合)中选择一个或多个HRTF数据集。优选地通过将物理属性映射到与集合中的每个HRTF数据集相关联的类似元数据来执行选择。在一个实施例中，如果多于一个HRTF数据集被标识为“接近”或类似，则在HRTF数据集之间发生插值过程。一旦标识出HRTF数据集，则将数据集发送给用户，优选地发送给用户的渲染设备以存储HRTF数据集。

图6A是示出根据本发明的实施例在系统中捕获围绕聆听者并且在各种位置处的HRTF对的球形网格的HRTF或旋转滤波器的通用球形网格所采取的步骤的流程图。该流程图反映了根据本发明的实施例的生成稀疏HRTF网格以及应用于所选HRTF对的头部跟踪修改。初始地，在步骤602中，聆听者可以坐在多扬声器房间中以生成自定义HRTF数据库，其中扬声器被顺序激活。在一种情况下，从放置在聆听者上的入耳式麦克风记录所产生的脉冲响应。通常，如果需要进一步的数据点，则通过移动聆听者的头部或椅子建立新的相对位置来重复该过程。

该方法从步骤600处开始。在步骤608处，完成包括房间效果的HRTF/BRIR测量以生成针对特定仰角值的一组稀疏测量。也就是说，针对该仰角处的所有期望方位角值进行测量。如果需要在各种头部倾斜位置(即滚动)处测量，则可以结合方位角测量结果对每个倾斜位置完成测量。例如，如果需要4个倾斜位置测量值，则可以在移动到下一方位角位置之前针对每个方位角值采用倾斜位置T1到T4。替代地，在以第一倾斜值获取特定仰角的所有方位角仰角之后，可以以第二头部倾斜度值执行整个系列的方位角测量。头部倾斜很重要，因为它干扰聆听者对空间音频位置的感知，这需要调整聆听者的HRTF对以反映头部不再处于倾斜中立位置。头部倾斜指的是关于从鼻子到聆听者的头部后部的轴线的旋转，有点类似于飞机关于从飞机的机头到尾部的轴线的旋转中的滚动运动的概念。

之后，在步骤610处，在一个实施例中可选地进行插值以完成所选仰角处的网格。为清楚起见，根据各种实施例，可以在不同阶段执行插值。例如，可以在针对整个距离球形捕获所有方位角和仰角值之后执行插值。此外，可以在需要时执行插值，如通过关于聆听者的使用所提供的方向而确定的。接下来，在步骤612处，优选地通过首先将所测量的BRIR截断为大致接近用于记录直接声音(消声)的HRTF的大小来生成旋转滤波器。不意图限制本发明，已经发现将HRTF截断为小于100毫秒适当地工作以充分地捕获直接声音用。在一个实施例中，插值在截断之前发生。在其他实施例中，在插值之前利用所包括的房间效果初始地在HRTF上执行截断。一旦插值完成，则在一个实施例中，通过将数据集中的截断HRTF除以参考位置HRTF的截断版本(其包括房间反射响应)来生成旋转滤波器。如果在步骤614中确定剩下更多仰角值，则在步骤615中选择新的仰角值，并且继续步骤608、610和612。应当理解，尽管针对每个仰角顺序示出了旋转滤波器的测量、插值和生成，但另一实施例涉及采用测量阶段来完成所有仰角，然后对该整个球形网格进行插值，并然后生成旋转滤波器。一旦在框614中确定已经处理了所有仰角值，则完成所选距离球形的HRTF数据库(步骤616)并且优选地进行存储。如果需要捕获或生成更多距离球形，则在步骤619中选择新距离，并且该过程再次开始针对新的距离球形的一组新的方位角、仰角和倾斜值。如果在步骤618中确定没有更多的距离球形需要捕获或生成，则该过程在步骤620处结束。

对自定义HRTF数据库(即所生成的HRTF网格616)的使用优选地开始于处理空间方向的输入(步骤634)和到DSP处理器的音频。接下来，在步骤636中，开始用于选择用于所输入的期望空间方向的HRTF对的处理。在步骤638中，决策树确定空间方向是否与稀疏网格对齐。如果未被精确地排列，则优选地在频域中通过步骤640中的插值来生成更准确的HRTF对。在步骤642中，DSP将所得到的HRTF对(来自稀疏数据库或来自插值)应用于输入音频信号。如果在步骤644中没有检测到头部旋转，则该过程返回到步骤646以获得进一步的输入数据。如果检测到头部旋转，则在步骤648中，DSP访问如先前生成和描述的旋转滤波器数据库。在步骤650中，DSP应用所选择的旋转滤波器，即与从头部跟踪设备检测到的方位角和仰角参数相对应的旋转滤波器。这些与初始选择或开发的HRTF和输入音频信号进行卷积。一旦HRTF被如此修改，则该过程返回到步骤646以处理进一步的输入数据。

图7是示出根据本发明的实施例的用于为新的聆听者创建自定义HRTF数据集的系统的图示。更详细地，图7示出了根据本发明的实施例的用于生成用于自定义使用的HRTF、获取用于自定义的聆听者属性、为聆听者选择自定义HRTF、提供适于与相对用户头部移动一起工作的旋转滤波器以及用于渲染由HRTF修改的音频的系统。提取设备702是被配置为标识和提取聆听者的音频相关物理属性的设备。虽然框702可以被配置为在优选实施例中直接测量这些属性(例如，耳朵的高度)，但从拍摄的用户图像中提取相关测量以至少包括用户的一个或多个耳朵。提取这些属性所需的处理优选地在提取装置702中发生，但也可以位于其他地方。对于非限制性示例，可以由远程服务器710中的处理器在从图像传感器704接收到图像之后提取属性。

在优选实施例中，图像传感器704获取用户耳朵的图像，并且处理器706被配置为提取用户的相关属性并将它们发送到远程服务器710。例如，在一个实施例中，可以使用活动形状模型来标识耳廓图像中的界标，并使用这些界标及其几何关系和线性距离来标识关于用户的与从HRTF数据集的集合(即从HRTF数据集的候选池)中选择HRTF相关的属性。在其他实施例中，使用回归树模型(RGT模型)提取属性。在又其他实施例中，使用诸如神经网络之类的机器学习来提取属性。神经网络的一个示例是卷积神经网络。在2016年12月28日递交的题为“用于生成自定义个性化头部相关传递函数的方法”的申请PCT/SG2016/050621中描述了用于标识新聆听者的独特物理特性的若干方法的完整讨论，该申请的整体内容通过引入结合于此。

远程服务器710优选地可以通过诸如互联网之类的网络来访问。远程服务器优选地包括选择处理器710来访问存储器714，以使用在提取设备702中提取的物理属性或其他图像相关属性来确定最佳匹配的HRTF数据集。选择处理器712优选地访问具有多个HRTF数据集的存储器714。也就是说，每个数据集将优选地具有优选地针对方位角和仰角中的适当角度的每个点的HRTF对。例如，在每3度和半球形中类似的3度点处的仰角处进行测量，将需要120×60个点，或7200点，每个点表示2个HRTF(每个耳朵一个)，并且各自表示直接(消声)情况下的短脉冲响应长度。如前所述，这些优选地通过在适度大小的群体(即大于100个个体)上使用入耳式麦克风的测量来导出，但可以与较小个体组一起工作并且与和每个HRTF数据集相关联的类似图像相关属性一起存储。不是采用全部7200个点，这些可以部分地通过直接测量并且部分地通过插值来生成，以形成HRTF对的球形网格。即使使用部分测量/部分插值网格，一旦使用适当的方位角和仰角值来标识来自HRTF数据集的针对点的适当HRTF对，则未落在网格线上的其他点也可以被插值。例如，可以使用任何适当的插值方法，包括但不限于先前描述的插值方法，例如，相邻线性插值、双线性插值和球形三角插值，优选地，在频域中。

在一个实施例中，存储在存储器714中的每个HRTF数据集至少包括针对聆听者的完整球形网格。在这种情况下，可以选择方位角(在聆听者周围的水平面上，即在耳朵水平面上)或仰角的任何角度来放置声源。在其他实施例中，HRTF数据集更受限制，在一种情况下，被限制于生成符合传统立体声设置的扬声器放置所需的HRTF对，即相对于直线前置零位置在+30度和-30度，或者，在完整球形网格的另一子集中，用于多声道设置的扬声器放置，而没有诸如5.1系统或7.1系统之类的限制。

图7还描绘了存储在存储器中的数据的示例逻辑关系。存储器被示出为在列716中包括用于若干个体的HRTF数据集(例如，HRTF DS1A、HRTF DS2A等)。这些HRTF数据集由与每个HRTF数据集相关联的属性索引并访问，优选地，图像相关属性。在第715列中示出的相关联属性使得将新聆听者属性和与所测量并储存在列716、717和718中的HRTF相关联的属性相匹配。也就是说，它们用作对这些列中示出的HRTF数据集的候选池的索引。列717指在参考位置零处存储的BRIR。列717中的该HRTF对(每个耳朵一个)和所包括的房间混响与HRTF数据集的其余部分相关联，并且优选地与旋转滤波器进行组合，如下所述。

在本发明的一些实施例中，存储2个或更多个距离球形。这是指针对与聆听者的2个不同距离所生成的球形网格。在一个实施例中，针对2个更多个不同的球形网格距离球形存储并关联一个参考位置BRIR。在其他实施例中，每个球形网格将具有其自己的参考BRIR以与适当的旋转滤波器一起使用。使用选择处理器712将存储器714中的属性与从提取设备702接收的针对新聆听者的提取属性进行匹配。使用各种方法来匹配相关属性，以便可以选择正确的HRTF数据集。这些包括通过如在2018年5月2日递交的题为“用于自定义音频体验的系统和处理方法”的美国专利申请号15/969,767中描述的基于多重匹配的处理策略；多识别器处理策略；基于集群的处理策略以及其他策略来比较生物特征数据，该申请的整体内容通过引入结合于此。列718指第二距离处的测量个体的多组HRTF数据集。也就是说，该列列出了针对测量个体记录的第二距离处的HRTF数据集。作为另一示例，列716中的第一HRTF数据集可以在1.0m至1.5m处获取，而列718中的HRTF数据集可以指在距离聆听者5m处测量的那些数据集。理想地，HRTF数据集形成完整球形网格，但本发明实施例适用于完整球形网格的任何和所有子集，包括但不限于包含常规立体声设置；5.1多声道设置；7.1多声道设置的HRTF对的子集，以及球形网格的所有其他变体和子集，包括方位角和仰角中每3度或更少处的HRTF对以及密度不规则的那些球形网格。例如，这可能包括其中网格点的密度在前向位置中比在聆听者的后方大得多的球形网格。此外，列716和718中的内容的布置不仅适用于如从测量和插值导出而存储的HRTF对，并且还适用于通过创建反映前者到包含旋转滤波器的HRTF的转换的HRTF数据集而进一步细化的那些HRTF对。此外，HRTF数据集中存在旋转滤波器可能涉及稀疏测量的HRTF数据集的第一插值，然后是到旋转滤波器的转换。替代地，它可以涉及将稀疏数据集转换为旋转滤波器，然后是插值，而不脱离本发明的范围。

在选择一个或多个匹配HRTF数据集之后，将数据集发送到音频渲染设备730，以存储被认为与新聆听者相匹配的整个HRTF数据集，或者在一些实施例中，存储对应于所选空间化音频位置的子集。在一个实施例中，音频渲染设备然后针对所期望的方位角或仰角位置选择HRTF对，并将这些HRTF对应用于输入音频信号以向耳机735提供空间化音频。在其他实施例中，所选择的HRTF数据集被存储在耦合到音频渲染设备730和/或耳机735的单独模块中。在其他实施例中，在渲染设备中仅有限存储可用的情况下，渲染设备仅存储对最佳匹配聆听者的相关联属性数据和标识或对最佳匹配HRTF数据集的标识，并根据需要从远程服务器710实时下载期望的HRTF对(针对所选择的方位角和仰角)。如前所述，这些HRTF对优选地通过在适度大小的群体(即大于100个个体)上使用入耳式麦克风的测量来导出，并且与和每个HRTF数据集相关联的类似图像相关属性一起存储。不是采用全部7200个点，这些可以部分地通过直接测量并且部分地通过插值来生成，以形成HRTF对的球形网格。即使使用部分测量/部分插值网格，一旦使用适当的方位角和仰角值来标识来自HRTF数据集的针对点的适当HRTF对，则未落在网格线上的其他点也可以被插值。

图8是示出根据本发明的实施例的通过获取和测量来生成HRTF数据集的方法的流程图。框720指如图7所示的HRTF生成框。一种用于获取HRTF数据集的方法通常参考由各种研究人员积累的数据，例如，前面提到的人体模型上的Kemar研究或其他通用HRTF数据集。该步骤由流程图中的框804包含。这些具有不会侵入用于测量的人类聆听者的时间限制的优点。一个缺点是它们最多代表平均读数，这些读数并不特别适合大多数个体的准确声音位置感知。在步骤804中，可选地，可以通过测量表示“平均”个体的另一头部来获取HRTF测量值。虽然针对所测量的个体生成感知音频时效果良好，但在应用于广泛的个体时，结果往往低于预期。

步骤811示出了根据本发明的一个实施例的针对个体生成自定义HRTF数据集的方法。在这些步骤中，单个用户经受全范围的测量或者至少涉及所期望的所需方位角和仰角点的稀疏集。所选择的房间将对HRTF对如何为声音着色产生巨大影响。接下来，在步骤812中，如果测量稀疏集，则执行插值以完成HRTF数据集。接下来，在步骤813中，通过获取数据集中的每个位置处的房间HRTF并将其除以参考位置(通常在方位角和仰角的位置0处)处的HRTF来生成旋转滤波器。在一个实施例中，这是参考位置的BRIR的截断版本。如果期望二个或更多个距离球形网格，则在第二距离球形处执行上述步骤。这就完成了针对该距离球球形(或多个球形)生成该个体的HRTF数据集。该HRTF数据集将通过使用较短旋转滤波器来允许存储较小滤波器，但仍能够实现最初测量的房间HRTF的声音质量。

步骤821到825示出了替代实施例，其为新的聆听者生成HRTF数据集，而不需要将麦克风插入新的聆听者的耳中。根据这些步骤，多个HRTF数据集将可供新聆听者选择或可用于新聆听者。在步骤821中，对所选房间中的许多不同个体进行多次测量。虽然这可以是消声室，即通过使用隔音材料抑制反射的房间，但在本发明的实施例中，这些测量可以在任何类型的房间中进行。它们可以在经过处理或未经处理的房间内进行，具体取决于用户偏好。

一种优化测试/测量布置涉及在每30或45度进行测量并通过插值导出其他脉冲响应值以完成HRTF对值的球形网格。参见步骤822。任何插值方法都适用，但申请人认为本说明书中其他地方描述的特定插值技术提供了独特的优点。例如，已经在这些配置中测试了频域插值以提供更高的精度，从而允许稀疏网格令人满意地依赖于在甚至15到30度的粗糙度范围的测量值。

在步骤823中，根据测量值和插值值的组合，针对所需球形网格的每个点生成旋转滤波器。注意，转换到旋转滤波器可以全部或部分地在插值步骤822之前进行。对于插值步骤或旋转滤波器生成步骤，先前确定的HRTF值被截断以简化操作。这不应导致损失任何分辨率或其他精度度量，因为初始HRTF将包括使其比这些代数运算所需的时间更长的房间响应。应注意，在生成旋转滤波器之后，除了针对期望参考点的HRTF/旋转滤波器对之外，还可以可选地丢弃较长的测量HRTF/BRIR值。根据本发明，标识所测量的其他HRTF/BRIR值的相关特性。为了便于匹配，在优选实施例中，这些是如关于图7在本说明书中较早描述的图像相关属性。

最后，在针对初始距离(通常为1.0m至1.5m)的球形网格完成上述步骤之后，针对第二距离或甚至更进一步的第三距离优选地完成那些相同的步骤，如框825所示。步骤808表示这些步骤的结论是生成HRTF数据集以进一步用于渲染音频。

图9A是示出根据本发明的一个实施例的在聆听者周围产生稀疏球形网格的图示。距离球形901以透视的方式示出为不可见球形。在为个体生成完整HRTF数据集的过程中，可以进行多次优化以减少测量时间。其一是创建稀疏网格，如前所述。虽然理想情况下需要每3度或5度进行测量，但粗糙测量技术(例如，每30度、45度甚至90度进行初始测量)可以为后续插值提供可行的基础。例如，位于聆听者的头部位置周围的水平面908(耳朵水平面)中的位置903处的聆听者902将在各个仰角平面中每隔90度进行测量，包括0度仰角(水平面908)；30度仰角(平面909)和45度仰角(平面910)。在反映45度仰角的测量的平面中，将采用测量点912、913、914和915。向量907示出了45度仰角处的平面的0度方位角的参考方向。向量905和906分别示出了0度和30度仰角的水平面中的零度方位角位置。

图9B是示出根据本发明的一个实施例的应用于聆听者周围的图9A的球形网格的插值的结果的图示。将插值点918添加到每个平面以增加分辨率，在图9B中被示出为增加到每45度。这些点可以通过任何插值技术来确定，尤其包括本说明书中前面描述的特定插值技术。理想地，并且根据本发明的实施例，分辨率增加到接近约3度。如前所述，并且根据本发明的实施例，从完整球形网格生成旋转滤波器。

图9C是示出根据本发明的实施例的由头部移动和相关联旋转滤波器的选择生成的合成向量的图示。与图9A和图9B一样，球形901是不可见的并且透视地示出球形网格及其点。例如，旋转滤波器的参考位置是在相对于聆听者的头部904的水平面908中的点922处获得的。为了进一步的清楚性，点923示出了相对于位于0度的点922在-90度处的位置，并且点924表示180度处的位置。向量930表示关于聆听者检测到的从初始参考位置922到球形网格上的点928的合成移动，该移动被概括为头部向右(顺时针)10度的水平旋转和向上(仰角)45度的组合。各种传感器技术中的任何一种都适用于本实施例，包括但不限于陀螺仪、加速度计和磁传感器。一旦检测到合成头部旋转(即在水平平面和仰角两者中)，则相应的HRTF值(旋转滤波器)可以从针对个体导出的HRTF数据集确定并在渲染设备730中应用于输入音频流，优选地，在首先将它们与(此处针对0度仰角和0度方位角位置处的点(点922)所确定的)BRIR的参考位置集合进行组合之后。一个优选实施例基于头部移动选择新的HRTF(旋转滤波器)。相同的技术可适用于标识音频流的新位置，而不涉及头部传感器或头部移动的其他监测器。

图10是示出根据本发明的实施例的不同距离处的球形数据库的图示。更详细地，1002描绘了距离球形网格的集合的顶视图，在这种情况下分别在1.5m和5m处，尽管附图未按比例绘制。这两个球形网格中的每一个的参考位置分别位于点956和966处，即零度参考位置。尽管仅示出了2个球形网格，但应注意，本发明的范围涵盖多个球形网格，例如，2个、3个或4个或更多个。对于1.5m处的较近球形网格901，描绘了4个测量位置，即位置950、952、954和956。在完成测量之后，通过插值确定该球形网格的附加点，例如，插值点951。5.0m处的第二球形网格1001从围绕聆听者902的水平轴的一个象限中的初始确定测量点960、962、964和966示出。在5.0m球形网格上进行插值以确定插值点961。此外，如果需要中间距离，例如，点955，则可以从球形网格901和1001上的相应确定点插值这些中间距离。

图11是示出由本发明的实施例复制的直接和反射声音的示例的图示。在创建HRTF数据集的过程中，在相对于个体(例如，图10中的聆听者1004)的头部和躯干的各个扬声器位置处进行测量。该图示出了位于房间1002中的聆听者1004，其中，源扬声器1006位于中心(0度)左侧约45度处。对于测量，无论聆听者1004是个人还是模拟个体(例如，人体模型)，都可以将麦克风插入耳朵(真实的或合成的)并且对接收到的声音信号进行测量。典型的HRTF数据集是通过将相对声源位置定位在各种方位角值和(在一些情况下)仰角值以在聆听者的头部周围创建一些三维网格来制作的。在本发明的各种实施例中，直接和间接声波(反射)二者都被捕获并在HRTF中进行复制，以帮助提供逼真的音频渲染。在整个说明书中，已经参考了BRIR，其是实包括房间效果的头部相关传递函数，而不是限于直接接收声音的消声传递函数。图11示出了在聆听者1004处接收的直接声波1008以及示例反射音频波1009和1011。传统实践提供了消声的HRTF。也就是说，它们仅反映在聆听者的耳朵处接收直接声波(例如，波1008)，并且不记录由房间墙壁和房间中的其他物体反弹的声音引起的反射声音或混响。使用这样的HRTF进行渲染将不会复制坐在所定义环境(例如，房间)中的聆听者的真实感。传统的HRTF通常反映持续时间为几十毫秒的脉冲响应。

虽然这可能足以记录聆听者的头部周围的声音折射以及聆听者的肩部和躯干的反射，但它不足以捕获房间效果，例如，包括墙壁(如墙壁1014)的反射。这可以通过查看图11所示的声音路径的相对长度来理解。出于说明目的，如果在5m×5m大小的房间1002中诸如扬声器1006之类的声音源距离聆听者1004为2m，则甚至反射波1009的路径将是直接波1008长度的至少4倍。优选地，所使用的BRIR是数百毫秒长以捕获较大房间或环境的后来的反射。

应当理解，对于较大房间或对于距离聆听者的头部较远的声源，甚至会产生更长的BRIR。

应当理解，在整个说明书中并且包括附图中的图示，部分讨论包括生成HRTF图、数据集或网格。本文中总体适用于HRTF和生成HRTF数据集的任何描述还应被解释为在BATF(包括BRIR)的更一般情况下使用这些技术的讨论，并且本说明书也应理解为描述这些技术被应用于BATF以及作为BATF子集的BRIR。

在其他实施例中，表征耳朵如何接收声音的响应包括距离分量。距离方面对于通过双耳系统(例如，通过耳机)准确地复制用户感知的声音是重要的。这些对于音乐源尤其重要，例如，在试图复制聆听者在音乐厅(例如，好莱坞剧场(Hollywood Bowl)中的管弦乐事件)；聆听者的专用媒体室，甚至他的装有高保真扬声器的客厅中的体验时。与前面讨论的针对方位角和仰角位置的HRTF一样，考虑距离分量并且在应用于音频轨道的HRTF中提供适应性在针对用户自定义距离分量时提供甚至更好的体验。

在优选实施例中，通过照相机图像从用户的耳朵导出物理特性。这可以是独立照相机或任何集成照相机，但更优选地是智能电话照相机。处理所获取的图像以提取用户的耳朵的特征。这些被转发到选择处理器，例如，转发到位于远程主计算机中的处理器。

为了实现更好的感知音频，针对个体测量表示声学环境的BRIR。这可以并且优选地用例如在0度处获取的单个BRIR来完成。由于响应的长度，仅存储单个值。也就是说，用于测量反射的房间响应的长度将通常必须为几百毫秒左右，以准确地复制房间效果。在一个实施例中，BRIR是500毫秒长。

优选地，BRIR单点测量也在5.0m和10m处进行。如果我们希望添加在3.0m处的距离分量，则1.0m表格的0度BRIR以及5.0m表格处的类似0度BRIR被访问并被插值，以在该方位角和仰角处生成3.0m HRTF。需要明确的是，一旦确定3.0m处的单个位置的房间响应(无论是通过测量还是插值)，房间脉冲响应(BRIR)可以用于通过使用(位置0处的)BRIR并将其与适当地旋转滤波器进行卷积来在任何方位角和仰角处精确地描绘虚拟音频。也就是说，参考位置BRIR与和第一位置的BRIR到第二且不同位置的BRIR的转换相对应的传递函数进行卷积，以快速且准确地适应所感测的头部旋转。

通常，该过程具有以下要素，这些要素可以全部在同一处理器上执行，或者一些可以在微控制器上执行并且一些在数字信号处理器上执行：

a)与头部跟踪传感器相接口并导出头部方向信息，

b)将头部方向转换为每个虚拟扬声器的头部相对方位角和仰角，

c)将每个头部相对方位角和仰角转换为一对旋转滤波器，

d)将旋转滤波器发送到DSP，

e)使用BRIR和旋转滤波器处理音频。

理想情况下，旋转滤波器将与对于用户个性化的BRIR相匹配。因此，应用于BRIR的相同个性化过程可以应用于旋转滤波器。然而，如上所述，可以通过使用不相关数据库导出滤波器来仍然获得良好结果，从而节省了捕获BRIR的相当多的时间。

所提出的具有头部跟踪的空间音频系统预期提供若干优点。它可以用于虚拟现实应用或渲染3D空间音频的通常任何应用。与现有技术相比，该提出的方案的新颖性和优点可以归纳如下：

通过降低滤波器的复杂性实现了本发明的实施例的最大经济性。也就是说，滤波器尺寸显著减小。例如，每个旋转滤波器的大小为数百个样本(通常<<1000个样本)。相比之下，HRTF(其包括房间响应)可以为数千，500毫秒HRTF将需要500/1000×48000＝24,000个样本，其中，采样率＝48kHz。

所需处理的相应减少使得高质量头部跟踪在便携式设备而不仅是台式计算机上是可以实现的。根据本发明的实施例，提供了一种用于提供头部相关传递函数(HRTF)的方法，该HRTF应用于输入音频信号以将音频定位到一组耳机。该方法涉及访问针对参考位置处的聆听者个性化的多个双耳房间脉冲响应(BRIR)；访问与相对于聆听者的附加位置相对应的聆听者的多个头部相关传递函数(HRTF)对；通过将附加位置的多个HRTF中的每个HRTF除以参考位置的HRTF或BRIR之一导出多个传递函数，用于将相对于聆听者的参考位置的HRTF或BRIR转换到附加位置中的每一个；接收指示头部方向变化的信号，并且响应于该信号并对应于该信号选择多个传递函数中的一对传递函数；以及将参考位置BRIR和多个传递函数中的所选择的一对传递函数应用于输入音频信号，以定位该组耳机中的音频。

根据另一个实施例，提供了一种用于空间音频渲染的耳机，其包括：第一数据库，具有对应于参考音频源位置的第一双耳声学脉冲响应(BAIR)对；头部传感器，标识头部方向信息；旋转滤波器的第二数据库，被存储在存储器中，被配置用于修改第一BAIR对以对应于第二组扬声器位置，该第二组扬声器位置具有与第一位置不同并且从头部方向信息导出的所定义的方位角、仰角和倾斜值中的至少一个；以及处理器，被配置为将旋转滤波器与第一BAIR对进行组合以生成对于耳机的换能器的输出双耳音频信号，其中，旋转滤波器包括用于将第一位置的BAIR转换到第二并且不同位置的传递函数，并且其中，第二位置的BAIR对应于针对聆听者生成的BAIR对，并且所述传递函数是通过将第二位置的相应BAIR对除以参考位置的BAIR对而导出的。

尽管为了清楚理解的目的已经在一些细节上描述了前述发明，但明显的是，可以在所附权利要求的范围内实施某些改变和修改。因此，本实施例被认为是说明性的而非限制性的，并且本发明不限于本文给出的细节，而是可以在所附权利要求的范围和等同物内进行修改。

Claims

1.一种用于提供头部相关传递函数(HRTF)的方法，所述HRTF应用于输入音频信号以将音频定位到一组耳机，所述方法包括：

访问针对参考位置处的聆听者而个性化的多个双耳声学脉冲响应(BAIR)对；

访问与相对于所述聆听者的附加位置相对应的聆听者的多个双耳声学脉冲响应(BAIR)对；

通过将所述附加位置的所述多个双耳声学脉冲响应(BAIR)对中的每个BAIR对除以所述参考位置的所述双耳声学脉冲响应(BAIR)对来导出多个传递函数，所述多个传递函数用于将相对于所述聆听者的所述参考位置的双耳声学脉冲响应(BAIR)转换到所述附加位置中的每个附加位置；

接收指示头部方向变化的信号，并且响应于所述信号并对应于所述信号来选择多个所述传递函数中的一对传递函数；以及

将所述参考位置双耳声学脉冲响应(BAIR)对和所述多个传递函数中的所选择的一对传递函数应用于所述输入音频信号，以定位该组耳机中的音频。

2.根据权利要求1所述的方法，其中，所述头部方向变化是所述头部相对于所述参考位置的旋转、倾斜和倾角、以及侧倾中的至少一个。

3.根据权利要求1所述的方法，其中，针对所述参考位置处的所述倾听者而个性化的所述多个双耳声学脉冲响应(BAIR)对与多个头部相关传递函数对的响应长度的至少4倍长的脉冲响应长度相对应。

4.根据权利要求1所述的方法，其中，附加位置的所述多个双耳声学脉冲响应(BAIR)对至少包括从这些位置中的一些位置的测量响应导出的HRTF。

5.根据权利要求4所述的方法，其中，附加位置的所述多个双耳声学脉冲响应(BAIR)对包括通过如应用于一个或多个所测量的HRTF的频域中的插值而导出的HRTF。

6.根据权利要求1所述的方法，其中，所述聆听者的所述多个双耳声学脉冲响应(BAIR)对形成第一球形网格的至少一部分，所述第一球形网格包含在距离所述聆听者第一距离处的所述第一球形网格上的音频源位置的多个头部相关传递函数对。

7.根据权利要求6所述的方法，其中，所述多个双耳声学脉冲响应(BAIR)对包括所述聆听者的头部相关传递函数(HRTF)对，并且包括第二球形网格，所述第二球形网格包含在距离所述聆听者第二距离处的球形网格上的音频源位置的多个头部相关传递函数对，所述方法还涉及通过对位于相对于所述第一球形网格和所述第二球形网格的所述第一距离和所述第二距离之间的距离处的音频源位置进行插值来生成用于应用于输入音频信号的结果HRTF。

8.根据权利要求7所述的方法，其中，附加位置的所述多个头部相关传递函数对是通过将针对所述附加位置测量或插值的HRTF除以包括所述参考位置的房间音频响应对的参考头部相关传递函数而导出的。

9.根据权利要求1所述的方法，其中，针对所述参考位置处的聆听者而个性化的所述多个双耳声学脉冲响应(BAIR)对和针对附加位置处的聆听者而个性化的所述多个双耳声学脉冲响应(BAIR)对是至少部分地通过以下方式生成的：在记录由相对于静止头部位置的扬声器运动引起的响应之外，还记录由所述头部相对于静止扬声器位置的运动引起的响应。

10.一种用于空间音频渲染的耳机，包括：

第一数据库，所述第一数据库具有对应于参考音频源位置的第一双耳房间脉冲响应(BRIR)对；

头部传感器，所述头部传感器标识头部方向信息；

旋转滤波器的第二数据库，所述第二数据库被存储在存储器中，并且被配置用于修改所述第一BRIR对以对应于第二组扬声器位置，所述第二组扬声器位置具有与所述第一位置不同的并且从所述头部方向信息导出的所限定的方位角、仰角和倾斜值中的至少一个；以及

处理器，所述处理器被配置为将所述旋转滤波器与所述第一BAIR对进行组合以生成去往所述耳机的换能器的输出双耳音频信号，其中，所述旋转滤波器包括用于将第一位置的HRTF转换到第二并且不同位置的传递函数，并且其中，第二位置的HRTF对应于针对聆听者生成的HRTF对，并且所述传递函数是通过将所述第二位置的相应HRTF对除以所述参考位置的BAIR对而导出的。

11.根据权利要求10所述的耳机，其中，所述BRIR对的长度是所述HRTF对的长度的至少4倍。

12.根据权利要求10所述的耳机，其中，在除法之前首先将所述BRIR对的长度截断为大约所述HRTF对的长度。

13.根据权利要求10所述的耳机，其中，所述BRIR对是通过所述聆听者的自定义测量而确定的。

14.根据权利要求10所述的耳机，其中，所述BRIR对和所述HRTF对是至少部分地通过以下方式生成的：在记录由相对于静止头部位置的扬声器运动引起的响应之外，还记录由所述头部相对于静止扬声器位置的运动引起的响应。

15.根据权利要求10所述的耳机，其中，所述BRIR对和所述HRTF对是通过将所述聆听者拍摄的其头部的至少一张照片与和聆听者头部的图像相匹配的相应BRIR对和HRTF对的数据库进行匹配而导出的。

16.根据权利要求10所述的耳机，其中，所述相应BRIR对的长度是所述HRTF对的长度的至少4倍。

17.根据权利要求15所述的耳机，其中，所述HRTF对形成第二数据集的一部分，并且是至少部分地通过从稀疏填充HRTF数据集进行频域插值而生成的。

18.一种被配置用于双耳渲染的双耳空间音频渲染系统，包括：

头部相关传递函数(HRTF)的第一数据库，被存储在存储器中，并且被用于修改音频信号以在所述双耳渲染系统中生成以下感知：音频是从具有方位角和仰角中的至少一个的位置生成的；

旋转滤波器的第二数据库，包括用于将第一参考位置的双耳房间脉冲响应(BRIR)转换为第二且不同位置的BRIR的传递函数并且被存储在存储器中，并且还被配置用于修改所述BRIR以对应于第二组虚拟扬声器位置，所述第二组虚拟扬声器位置至少具有不同于所述第一参考位置的所限定的方位角和仰角，其中，所述旋转滤波器是通过将所述第一数据库中的所述多个HRTF中的每一个HRTF除以所述第一参考位置的所述BRIR而导出的；

数字信号处理器(DSP)，所述数字信号处理器被配置为将来自所述第二数据库的旋转滤波器中的所选择的一个旋转滤波器与来自所述第一数据库的脉冲响应中的所选择的一个脉冲响应进行组合，以生成用于所述第二组扬声器位置的双耳房间脉冲响应(BRIR)；以及

音频渲染电路，所述音频渲染电路被配置用于利用所述第二组扬声器位置的所确定的BRIR来修改音频信号。

19.根据权利要求18所述的系统，其中，所述第一位置对应于房间中多声道扬声器的位置，其中，声道的数量包括至少两个，并且其中，所述参考位置的所述BRIR对和所述第一数据库中的所述HRTF对是至少部分地通过以下方式生成的：在记录由相对于静止头部位置的扬声器运动引起的响应之外，还记录由所述头部相对于静止扬声器位置的运动引起的响应。

20.根据权利要求18所述的系统，其中，来自所述音频渲染电路的输出被提供给耳机，并且其中，所述第一数据库和所述第二数据库被包含在所述耳机或耦合到所述耳机的模块中的一项中。