CN111107482A

CN111107482A - 修改房间特性以通过耳机进行空间音频呈现的系统和方法

Info

Publication number: CN111107482A
Application number: CN201911024774.7A
Authority: CN
Inventors: 李迪篪; 克里斯托弗·哈梅尔斯尼; 马克·安东尼·戴维斯; 许道恩
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2018-10-25
Filing date: 2019-10-25
Publication date: 2020-05-05
Anticipated expiration: 2039-10-25
Also published as: SG10201909876YA; JP7038688B2; TW202029785A; JP2020092409A; US20200137508A1; US20230072391A1; US11503423B2; EP3644628A1; KR102507476B1; CN111107482B; KR20200047414A

Abstract

本公开提供了修改房间特性以通过耳机进行空间音频呈现的系统和方法。音频呈现系统包括将音频输入信号与包括房间响应的个性化空间音频传递函数相结合的处理器。个性化空间音频传递函数选自具有多个候选传递函数的数据库，根据多个个人的入耳式麦克风测量得到多个候选传递函数。可替代地，个性化传递函数是从听者的实际入耳式测量得到的。房间修改模块允许用户修改个性化空间音频传输函数以替换不同的房间或修改所选房间的特性，而无需额外的入耳式测量。所述模块将所选择的传递函数分割为多个区域，包括直接区域、受头部和躯干影响的区域、前期反射区域和后期混响区域中的一个或多个。在一个或多个区域上执行提取和修改操作以改变感知到的声音。

Description

修改房间特性以通过耳机进行空间音频呈现的系统和方法

相关申请的交叉引用

本申请要求于2018年10月25日提交且题为“SYSTEMS AND METHODS FORMODIFYING ROOM CHARACTERISTICS FOR SPATIAL AUDIO RENDERING OVER HEADPHONES(用于修改房间特性以通过耳机进行空间音频呈现的系统和方法)”的美国临时专利申请62/750,719的优先权权益，该美国临时专利申请通过引用合并于2018年1月7日提交并且题为“METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING(利用头部跟踪生成定制空间音频的方法)”的美国临时专利申请，这些临时专利申请中的每一个为了所有目的通过引用的方式全部并入。该申请还通过引用合并于2018年9月19日提交、2019年8月20日颁发并且题为“METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEADTRACKING(利用头部跟踪生成定制空间音频的方法)”的美国专利No.10,390,171，该美国专利的全部内容为了所有目的通过引用的方式并入。

技术领域

本发明涉及用于通过耳机呈现音频的方法和系统。更具体地，本发明涉及使用具有房间脉冲响应信息的个性化空间音频传递函数的数据库来生成更逼真的音频呈现。

背景技术

双耳房间脉冲响应(BRIR)处理的实践是众所周知的。根据已知的方法，真实或仿真头部和双耳麦克风用于记录真实房间中多个扬声器位置中的每个位置的立体声脉冲响应(IR)。即，生成一对脉冲响应，每个耳朵各一个。然后，可以使用这些IR对音乐曲目进行卷积(滤波)，并且结果被混合在一起并通过耳机播放。如果应用正确的均衡，则音乐的声道将听起来就像在记录IR的房间中的扬声器位置处播放一样。

BRIR及其相关的双耳房间传递函数(BRTF)模拟扬声器发出的声波与听者的耳朵、头部和躯干以及房间中的墙壁和其他物体之间的相互作用。房间的大小会影响声音，房间中墙壁的声音反射和吸收质量也会影响声音。扬声器通常被封装在外壳中，外壳的设计和构成会影响声音的质量。当BRTF被应用于输入音频信号并馈入耳机的各个声道时，利用方向和空间印象暗示来再现自然声音，这些方向和空间印象暗示模拟将从如下真实来源听到的声音，该真实来源位于与真实房间中的扬声器相同的位置处并且具有扬声器的声音质量属性。

实际的BRIR测量通常是通过以下方式来进行的，该方式是让一个人坐在房间里并利用入耳式麦克风来测量来自扬声器的脉冲响应。测量过程极其耗时，需要听者的耐心配合，因为会针对相对于听者头部位置的不同扬声器位置进行大量测量。这些测量通常是在围绕听者的水平面内至少每3或6度方位角进行一次，但是测量的数量可以更少或更多，并且还可以包含相对于听者的仰角位置以及与不同的头部倾斜有关的测量。一旦完成所有这些测量，就生成了针对这个人的BRIR数据集，并使该数据集可用于通常以对应的频域形式(BRTF)应用于音频信号以提供上述方向和空间印象暗示(cue)。

在许多应用中，典型的BRIR数据集不足以满足听者的需求。通常，BRIR测量是利用扬声器在距听者头部约1.5m处进行的。但是通常，听者可能更喜欢感觉扬声器位于更远或更近的距离处。例如，在音乐播放中，听者可能更喜欢立体声信号听起来像是位于距离听者3米或更远的地方。在视频游戏的情况下，可以使用BRTF以适当的方向性定位音频对象，但对象的距离由与可用的单个BRTF数据集相关联的距离不准确地表示。最好的情况下，即使对信号施加的衰减将传达从所测量的听者头部到扬声器距离的距离增加的感觉，距离的感觉也是不确定的。为不同的听者头部到扬声器的距离定制可用的BRIR将是有用的。更进一步，由于测量约束，在BRIR测量过程中使用的扬声器可能已经受到尺寸和/或质量的限制，而听者会更偏爱使用更高质量的扬声器来记录BRIR数据集。尽管在某些情况下可以通过在变化的环境中对个人进行重新测量来处理这些情况，但这将是一种昂贵且耗时的方法。期望的是，可以修改个人的BRIR的所选择部分来表示改变的扬声器-房间-听者距离或其他属性，而无需诉诸于重新测量BRIR。

发明内容

为了实现前述目的，本发明在各种实施例中提供了一种处理器，该处理器被配置为向耳机提供双耳信号以包括室内脉冲响应，以向音轨提供真实感。通过对BRIR的一个或多个分割区域应用一种或多种技术，可以提供对BRIR的修改。因此，一个或多个扬声器-房间-听者特性被修改而无需对个人进行重新测量。

附图说明

图1是以图形方式示出根据本发明的一个实施例的经受处理的BRIR的不同区域的图。

图2是示出了根据本发明的实施例的在不需要附加的入耳式测量的情况下修改BRIR的模块的框图。

图3是根据本发明的一些实施例的示出了扬声器和房间特性的房间的图，可以针对所述扬声器和房间特性通过处理BRIR的一个或多个区域对BRIR进行修改。

图4是根据本发明的实施例的用于生成用于定制的BRIR、获取用于定制的听者属性、选择针对听者的定制的BRIR并且用于呈现由BRIR修改的音频的系统的图。

图5是示出了根据本发明的实施例的修改BRIR以替代不同房间或修改所选房间的特性而无需另外的入耳式测量的步骤的图。

优选实施例的详细描述

现在将详细参考本发明的优选实施例。在附图中示出了优选实施例的示例。尽管将结合这些优选实施例描述本发明，但是应当理解，并不旨在将本发明限制于这样的优选实施例。相反，其旨在涵盖可被包括在由所附权利要求书限定的本发明的实质和范围内的另选形式、修改形式和等同形式。在以下描述中，阐述了许多具体细节以便提供对本发明的更透彻的理解。可以在没有一些或所有这些具体细节的情况下实践本发明。在其他情况下，没有详细描述众所周知的机制，以免不必要地模糊本发明。

在此应当指出的是，在各个附图中，相同的附图标记指代相同的部分。本文中图示和描述的各种附图用于图示本发明的各种特征。就在一个附图而非在另一个附图中示出特定特征的程度而言，除非另有说明或结构固有地禁止合并该特征，应当理解，那些特征可以适于被包括在其他附图所表示的实施例中，就像它们在那些附图中被充分示出一样。除非另有说明，否则附图不一定按比例绘制。附图中提供的任何尺寸都不旨在限制本发明的范围，而仅是示例性的。

房间具有许多特性，这些特性对音频再现(即听者所听到的)有实质性的影响。除别的以外，这些特性包括墙的质地、墙的构成、声音吸收和物体的存在。此外，房间和扬声器之间的关系以及房间的尺寸和配置以及其他环境特性也影响听者在房间或其他环境中听到的声音。因此，如果房间改变或房间/扬声器特性改变，则必须在听者通过耳机感知的空间音频中复制这些改变的特性。一种方法将包括在改变的条件下(即在新房间中)对听者重新测量新的BRIR数据集。但是如果希望向听者提供在具有特定更改特性的新房间中的感觉，并且这种“新”房间不可用，则即使耗时的BRIR数据集入耳式测量技术也将不可用。鉴于通过进行入耳式BRIR测量来提供个性化的BRIR数据集存在限制，因此提供了替代的高效方法以通过以下方式缩短此过程：模拟在重新调整尺寸的房间、一个或多个房间特性已被修改的房间或完全不同的房间(房间交换)中进行测量时可能发生的修改。修改确定的BRIR的若干个不同部分(区域)中的任何一个都为听者呈现不同的空间音频体验。

为了实现前述目的，本发明在各种实施例中提供了一种处理器，该处理器被配置为向耳机提供双耳信号以包括房间脉冲响应，以向音轨提供真实感。修改BRIR以允许听者以不同的方式感知音频来模仿变化的房间/扬声器特性变化通常需要：(1)将BRIR分为多个区域；(2)在选择的一个或多个区域上执行数字信号处理(DSP)操作(技术)；并且(3)在修改之后重新组合区域，在一些实施例中，包括从其他房间/扬声器中选出的BRIR或BRIR区域。在重新组合时必须小心以确保修改后BRIR区域之间的平滑过渡以避免产生不想要的声音伪像。

通过对BRIR的一个或多个分割区域应用一种或多种处理技术来生成空间音频定位变化。所选技术的组合取决于要修改的期望房间特性。因此，与扬声器-房间-听者特性之间的相互作用有关的一个或多个BRIR区域被修改，而无需对个人进行重新测量。

图1是以图形方式示出根据本发明的一些实施例的经受处理的BRIR的不同区域(时间段)的图。在图1中以图形方式示出了BRIR100，其中示出了4个不同的区域。直接区域(direct region)102、受头部和躯干影响的区域104以及前期反射区域(earlyreflections region)106在后期混响区域(late reverberations region)108之前。听者在时间T₀之后首先接收直接路径信号。在这个时间点上，没有反射到达听者的耳朵。接下来，听者感知到受听者头部和躯干影响的信号，该信号通常被描绘在受头部和躯干影响的区域104的位置处。接下来，在前期反射区域106中在混响响应的初始时段期间接收一系列前期反射。最后，在听者的耳朵处接收后期混响，如后期混响区域108所示。相对于初始直接路径信号以及早期混响和后期混响到达的延迟的大小通常取决于房间的大小以及房间中声源和听者的位置。混响可以通过可测量的标准来表征，其中之一就是RT60。这是混响时间-60dB的缩写。RT60提供了客观的混响时间测量。它被定义为声压级降低60dB所花费的时间，这是衡量混响变得不可察觉所花费的时间的度量。通常，后期混响区域108将在脉冲响应开始后约50ms处开始，但是该数字可以根据房间的特性而随不同的房间而变化。在优选实施例中，结合分割操作来执行识别该区域(和其他隔离区域)的开始和结束的时间，该分割操作被设计为仅识别和修改对于修改所选择的一个或多个参数所必需的BRIR的那些部分。

图2是示出了根据本发明的实施例的用于根据房间特性变化并且不需要附加的入耳式测量的情况下来修改BRIR的模块的框图。对于所选择的每个期望的BRIR区域修改，系统200进一步涉及以下操作的组合，这些操作包括：选择BRIR分区；选择适当的DSP技术以及根据需要组合来自其他来源的BRIR数据。下面总结了根据本发明的一些实施例的可以在处理器201的方框208中执行的BRIR区域修改的实施例。房间和扬声器尺寸到房间物体以及可通过直接修改BRIR区域更改的其他影响声音的特性的非限制性抽样包括改变扬声器、改变扬声器相对于房间墙壁的位置、以及改变扬声器相对于听者的距离。另外，在不限制本发明的范围的情况下，改变RT60混响时间、房间大小/尺寸；房间构造特征和房间陈设(通过增加或减少)和位置可以通过根据本发明的一些实施例的BRIR区域修改来模仿。

本发明的某些实施例涵盖了任何合适的DSP技术与从针对个人的定制BRIR派生的任何分区以及BRIR的修改参数的组合，这些参数可以在来自另一个BRIR数据库的已修改BRIR参数的库或集合中获得。例如，可能已经为高质量扬声器生成了BRIR并将其存储，在这种情况下，可能至少在直接区域102中具有较高的频率范围内容。可以隔离该BRIR的区域用于与针对旁边的个人定制(个性化)的BRIR的区域进行组合。

在某些情况下，可以仅对脉冲响应的4个已识别区域之一(参见图1)必须执行这些修改技术，而在其他情况下，必须对2个或更多个区域执行这些修改技术。在将DSP技术应用于脉冲响应的4个不同区域中的至少一个区域的情况下，在方框203中对接收到的输入BRIR202进行分割。可以通过任何合适的方法将脉冲响应分割成不同的区域。例如，可以在50ms处对后期混响区域的开始时间进行时间估计，并在50ms和以上的时间使脉冲响应与该区域隔离。50ms的值仅是混响开始的大约/典型时间。实际值将取决于房间的尺寸和其他物理因素。识别和隔离脉冲响应区域的其他技术包括回声密度估计或耳间相干性的度量。

通常，需要额外的输入数据来选择要修改的BRIR参数以及实际的修改。例如，如果期望将扬声器改变为不同于原始BRIR确定中所使用的扬声器，则在方框210中来自其他声源的BRIR数据涉及针对“新”扬声器的扬声器脉冲响应测量。在一个示例的实施例中，处理器201涉及分析BRIR或HRIR两者以估计BRIR中直接声音的开始和偏移，以用优选先前获得的不同扬声器的脉冲响应来代替直接部分。在一些实施例中，处理器201涉及通过在方框203中从BRIR/HRIR的直接部分中提取(反卷积)所测量的扬声器响应来合成所得到的BRIR，并且通过使反卷积的结果与目标扬声器的脉冲响应卷积来进行组合。

可替代地，附加的或其他输入数据经由方框206被提供给处理器201。根据一个或多个实施例，可能期望改变听者(对象)与扬声器之间的距离。这种改变所需的输入数据206包括原始BRIR的距离和合成BRIR的距离。另外，经由方框210提供BRIR数据；这里，在1个或多个不同的距离处测量脉冲响应的BRIR数据库(在期望内插时需要多个数据库)。在该实施方式中，涉及至少直接区域、前期反射区域和后期混响区域。在该实施方式中，处理器201通过首先识别所涉及的3个区域来执行分割操作。处理器优选地例如通过回声密度估计或其他合适的技术来估计后期混响时间。还估计前期反射时间。最后，执行直接声音的开始和偏移(参见直接区域102)。此外，处理器201中的处理器模块208通过基于原始BRIR与合成BRIR之间的相对距离对直接声音施加衰减来合成新的BRIR。此外，通过几种技术之一修改前期反射。例如，原始BRIR可以在两个不同的BRIR之间被时间拉伸或内插。可以替代地使用滤波或使用射线追踪(在一个非限制性实施例中包括简化的射线追踪)来确定反射的定时。射线追踪通常涉及确定从声源发出的每条新射线的可能路径；考虑到射线是在每次反射时都会改变其方向的矢量，其能量由于传播路径中所涉及的空气和墙壁对声音的吸收而减少。

在其他优选实施方式中，扬声器和房间特性之间的相互作用被修改。这些将在下面描述音乐、电影和游戏应用的部分中更详细地讨论。但通常，这些包括：(1)扬声器位置；(2)房间的大小、尺寸和形状，(3)房间的陈设；以及(4)房间构造。更改后的扬声器位置的输入数据包括原始扬声器位置、新的扬声器位置和房间尺寸。处理器201经由处理块203和208执行房间几何结构估计。这是试图根据脉冲响应识别房间边界的位置和吸收的信号处理领域。在一些实施例中可以使用它来识别声学上重要的物体。在一些其他实施例中，房间几何结构是已知的，并且其音频特性可以通过射线追踪或其他手段来计算。仍然可以执行房间几何结构估计以指导计算，或者，如果有足够的数据，则可以跳过。

处理器201还涉及通过以下方式来合成新的BRIR：根据与墙壁的接近度来修改前期反射区域；并且通过使用平方反比定律来验证旧位置和新位置处的能量。扬声器旋转可以通过改变方位角和仰角来改变，其中内插可用于对结果进行精细调节。可以通过参考BRIR数据集以找到与新距离对应的距离来修改扬声器与听者的距离。距离主要影响声音的直接部分的衰减。但是，前期反射也会改变。改变距离不可避免地意味着改变扬声器的位置，这也将改变到墙壁和其他物体的距离。这些变化将影响脉冲响应的前期反射部分。

以类似的方式，对于房间陈设和房间构造估计，处理器201通过执行如上所述的房间几何结构估计来分析脉冲响应。在这些情况下，其他输入数据需要包括目标陈设(用于房间陈设实施方式)和目标房间构造(用于房间构造修改)。

应当注意，图2所示的系统可以在没有限制的情况下与任何BRIR一起使用。即，诸如图2的系统所示的本发明的BRIR参数修改技术都可以应用于所有类型的BRIR(无论是如何获得的)。例如，它们适用于以下任何一项：(1)为个人定制的入耳式测量的BRIR；(2)通过提取基于图像的属性和/或针对个人的其他测量值并从具有相关属性的BRIR候选数据库中确定合适的BRIR而得到的半定制BRIR(对于另外的非限制性示例)，如通过使用人工智能方法(AI)或其他基于图像的属性匹配方法所确定的；以及(3)可商购获得的BRIR数据集，诸如包括基于置于人体模型或“普通”个人的耳朵中的入耳式麦克风的数据集或基于其他研究结果的数据集。

图3是示出了根据本发明的一些实施例的扬声器和房间特性的房间的图，可以以扬声器和房间特性为目标来通过处理BRIR的一个或多个区域实现BRIR的修改。房间300被示出为扬声器302位于与听者304相距距离308的地方。房间尺寸(诸如房间宽度310)和扬声器的放置位置(诸如扬声器与房间墙壁的距离306所示)一样对房间音频具有重大影响。房间墙壁构造312(诸如墙壁构造中使用的材料)对室内声学有主要影响。例如，硬质墙壁、地板和天花板的反射对室内声学的影响与由吸收性更强的材料(诸如石膏干式墙)制成的表面的影响不同。房间陈设314的增加或减少及其位置同样影响室内声学。如上所述，RT60(由附图标记316表示)提供客观的混响时间测量。此度量值是衡量房间对不同音乐流派的适合度、用于优化房间以回放电影和用于游戏的重要度量。

为了合成或修改BRIR的一个或多个区域以识别改进的或优化的改变，需要理解针对本发明的方法和系统的应用。三个主要应用包括：(1)音乐，(2)电影院和(3)游戏/虚拟现实。

对于音乐应用，对聆听体验影响最大的房间/扬声器特性包括扬声器的选择；扬声器相对于房间墙壁的位置；房间RT60；以及房间的大小、尺寸和形状。其中，更换扬声器的影响最大。音乐迷可能会偏爱与某些音乐流派的回放相匹配的不同的扬声器。现实世界的房间将需要一个充满可供选择的扬声器和交换网络的房间。相反并且根据本发明的一些实施例，这可以通过修改个人的BRIR的扬声器相关区域而容易地实现。这是通过首先估计HRIR中直接声音的开始和偏移以便将脉冲响应替换为替代扬声器将产生的脉冲响应来完成的。一旦获得了所捕获扬声器的直接区域，就从HRIR的直接区域反卷积所测得的扬声器脉冲响应。根据一个实施例，原始扬声器从BRIR的直接区域被反卷积。在另一个实施例中，原始扬声器从整个BRIR被反卷积。在第一示例性实施例中，通过使新的扬声器与响应的直接区域卷积来反转操作。在第二实施例中，通过使新的扬声器与整个响应卷积来执行反向操作。尽管全反卷积是更准确的方法，但由于扬声器对房间反射的影响可能很小，因此只有直接区域的反卷积被提交就可以提供令人满意的结果。在其他实施例中，我们用来自其他BRIR的相应的直接区域替换直接区域。

从高层次来看，对于个性化的脉冲响应去除所测量的扬声器的最主要效果，并且来自目标扬声器的这些主要区域被代入到个人的所测量的脉冲响应中。

通常，当扬声器移到新的房间时，扬声器的声音会有所不同。这是由于房间的前期反射和后期混响效果而产生的。为了代入新的扬声器的特性，目标扬声器的脉冲响应不是房间响应。即，优选地在消声条件下测量目标扬声器，从而通过输入数据模块210向处理器201提供脉冲响应数据。可替代地，可以从存储的或以其他方式可用的BRIR和输入中提取目标扬声器直接区域。在后一种情况下，完整的BRIR(诸如通过输入211所提供的)需要被分割以从完整的BRIR生成直接区域。

如前所述，RT60房间参数是用于评估房间混响衰减特性的度量并且在音乐环境中有用。当与具有匹配的RT60值的房间相匹配时，某些音乐流派被认为最受赞赏。例如，在具有大约400ms的RT60值的房间中，爵士音乐被认为最受赞赏。为了感知到新的RT60值(即新的目标混响时间)的变化，在一些实施例中，使用反向积分来估计脉冲的能量衰减曲线。然后应用线性回归技术来估计衰减曲线的斜率，并且因此估计混响时间。为了匹配目标值，在时域或扭曲的频域中应用幅度包络。

更进一步，可以改变扬声器的位置。这些改变需要关于原始扬声器位置、新的扬声器位置和房间尺寸的输入信息(诸如通过方框206提供的)。在一些实施例中，在处理器201中执行的分析阶段包括房间几何结构估计。房间几何结构估计是旨在从脉冲响应中识别房间边界的位置和吸收的信号处理领域。它也可以用来识别声学上重要的物体。在音乐环境中，通常不想要将扬声器放置在离墙壁太近的位置以免出现低音占主导地位。在一些实施例中，处理器201通过改变方位角和/或仰角来实现扬声器旋转。更详细地讲，应用滤波以使方位角和仰角旋转，并且应用内插以对结果进行精细调节。可以通过应用在修改听者至扬声器的距离时适用的相同技术来修改扬声器距离。更具体地，在一些实施例中，我们基于原始BRIR和合成BRIR的距离设置之间的相对距离对直接声音应用衰减。然后，我们根据与墙的接近度来修改前期反射。在这里可以应用几种不同的技术。例如，在一些实施例中，在以下各项之间进行选择：在两个不同的BRIR之间内插、对原始BRIR进行时间拉伸、滤波、或使用射线追踪来确定反射定时。在一实施例中，使用简化的射线追踪。输入数据可以包括在不同距离为了内插目的而测量的脉冲响应的BRIR数据库。

音乐领域中可以针对其进行BRIR修改的其他房间特性包括房间大小、尺寸和形状。通过专注于前期反射区域和后期混响区域，可以最轻松地修改这些区域。在分析BRIR时，在一个实施例中，我们估计第一反射以便去除混响。所需的输入可以包括目标房间尺寸，或者可替代地房间脉冲响应(假设通过输入211提供以进行分割或通过输入210进行预分割)。在为选择的新房间合成新混响时，我们可以通过几种方法为BRIR后期混响区域产生混响，所述方法包括但不限于：(1)反馈延迟网络；(2)全通滤波器、延迟线和噪声生成器的组合；(3)射线追踪，或(4)实际BRIR测量。然后，根据头部相关脉冲响应(HRIR)，我们可以根据一些实施例对房间混响进行滤波。由于对象的HRTF/HRIR将修改房间反射，因此需要执行对混响的类似处理以将混响适配用于新对象。这可以利用时变滤波器或通过STFT来应用。

在本发明的实施例中所识别的方法和系统可以适当地应用于电影应用。电影剧院/电影院的声音系统通常被配置为在给定由音频格式和广泛分布的座位安排所施加的约束的情况下使空间质量最大化。传递均衡声音的一种方法是使用分布在电影院中多个位置的多个扬声器。对于此应用，修改重点的最有用的房间/扬声器特性包括：(1)扬声器到听者的距离；(2)扬声器位置；(3)房间RT60；(4)房间的大小、尺寸和形状；以及(5)房间陈设。上面已在音乐应用中描述了用于修改前四个特性的分析和合成中所涉及的特定数字信号处理步骤，并且此处仅以摘要形式进行描述。修改房间陈设将对电影院(诸如包括家庭影院)产生重大影响。输入数据206包括目标陈设。执行房间几何结构估计以从脉冲响应中识别房间边界的位置和相关吸收，并且还识别声学上重要的对象。由于房间中具有变化的吸收/反射率的房间反射(由于陈设的变化)将使得有必要通过听者的HRTF进行修改，因此对混响区域进行类似的处理以使新的基于陈设的混响适应听者。这优选利用时变滤波器或通过STFT来应用。

尽管对于剧院应用而言并不是特别重要，但是也可以更改房间构造。这些将包括但不限于用于墙壁/覆层的任何材料、任何其他声音吸收、天花板材料和结构。分析房间构造的特定方法类似于适用于更改房间陈设的方法。即，首先执行房间几何结构估计以从脉冲响应中识别房间边界的位置和吸收。一旦输入目标房间构造，就基于房间几何结构估计生成房间混响。然后，在STFT(频率)域中对合成的房间混响进行滤波以使混响适合于听者的HRTF。这可以利用时变滤波器或通过STFT来应用。房间构造修改对于修改游戏和虚拟现实(VR)应用的声学环境是有用的。

上面讨论的大多数分析和合成技术都适用于游戏/VR实施方式。该一般声明的例外情况包括交换扬声器。动态更改支配修改，因为参与者可能会快速更改房间或环境。例如，听者可能正在从山洞向森林移动。对环境进行建模非常重要，这种环境通常在3D设计空间中进行合成。射线追踪是识别房间或环境属性的一项特别重要的技术。概括地说，对游戏/VR领域中的房间/扬声器的最重要的修改包括：(1)扬声器到听者的距离；(2)房间RT60；(3)房间的大小、尺寸和形状；(4)房间陈设；(5)非内部(non interior)房间环境；(6)流体属性变化(fluid property variation)；(7)听者的身体大小；以及(8)声学变形(acousticmorphing)。上面已经关于音乐和电影应用描述了前4种分析合成技术。

为了生成非房间环境，在一些实施例中，对现有的BRIR进行分割以识别并去除后期混响和前期反射区域。这可以通过估计第一反射来完成。输入有关目标环境的信息，并通过射线追踪产生相应的混响。然后将合成的混响加入到原始BRIR中。这些技术对于室外或一般来说任何非内部房间环境都非常重要。上述技术也适用于改变流体属性。这些属性可以包括温度、湿度和密度。可以通过时间和/或音频移位/拉伸来更改属性。当然，所采取的步骤将取决于所获取的有关目标环境的信息。

游戏/VR应用可能需要更改身体大小并且还产生声学变化。为了通过头戴式耳机准确地合成新环境，对当前的身体大小进行估计，并执行滤波以产生针对目标身体大小的声音。

声学变形在游戏领域中产生了对BRIR修改的另一种需求。声音变形源于移动的声源、动态的房间属性(诸如移动的墙)或不同声学空间之间的过渡。在本发明的实施例中，通过接受关于发生的声源或环境变化的输入信息来处理声学变形。这些适用于在音乐、电影或游戏应用中上述的任何属性或其他特性。适应这些动态变化涉及根据上下文将一个或多个脉冲响应混合在一起。在如上所述的许多BRIR修改中，更改集中在保留听者的房间响应的一个或多个区域上。在许多情况下，需要从房间移出单个听者以另作他用，或为新的个人引入已测量(捕获)的HRTF以使其处于当前房间中。最初，这是通过估计直接声音区域(诸如图1中的区域102)的开始和偏移来执行的。提取个人的直接区域以及(在另一个实施例中)头部和躯干区域通过频率扭曲(frequency warping)而发生。在另一个实施例中，使用简单的截断。当将另一个对象将被替换到当前房间中时，新对象的直接区域脉冲响应和在另一个实施例中的直接区域以及受头部和躯干影响的区域被用来代替当前对象的BRIR的相应区域的一个或多个相应区域。由于新对象的HRTF将修改混响的房间反射处理，因此有必要使其适应新物体的混响。在优选实施例中，这通过时变滤波器或通过STFT来完成。

为了更加清楚，下面提供了分割BRIR区域并执行DSP操作的其他实施例。图5是示出了根据本发明的实施例的修改个性化空间音频传递函数以替代不同房间或修改所选房间的特性而无需另外的入耳式测量的步骤的图。最初，该过程开始于步骤502，其中接收具有直接HRTF功能和房间响应功能两者的BRIR或个性化空间音频传递函数。参照BRIR并且根据本发明的实施例，来自BRIR数据集的BRIR可以与3维空间中的单个点相关联。更优选地，为个人选择或确定的整个传递函数集被修改。这些可以是多个BRIR(诸如用于5.1多声道设置)，或者可以包括脉冲响应的整个球形网格以完全表示听者头部周围的定向空间。接下来在步骤504中，BRIR被分割成单独的区域。如关于图1所示，这些区域优选地包括：(1)直接区域；(2)受头部和躯干影响的区域；(3)前期反射；以及(4)后期混响。期望的房间修改或交换的类型将确定所选区域和所执行操作的类型两者。作为非限制性实施例，修改房间大小的起点是修改前期反射的定时(它们在较大房间中将较晚到达)。后期混响的定时和持续时间是房间大小及其边界的吸收率的乘积。

接下来在步骤506中，第一操作聚焦在第一区域上。可用的修改操作包括但不限于截断、改变衰减率的斜率、加窗、平滑、斜升(ramping)和整个房间交换。例如，如果我们想修改房间的混响，我们可以专注于脉冲响应的后期混响并改变衰减率。这可以通过针对混响区域使用相同的初始位置但缩短结束位置来实现。优选地，在原始端点处测量能量或幅度，然后使混响信号衰减至新选择的端点(时间较短)，从而产生新的斜率，该斜率更快地衰减至被称为房间噪声的较小值。这为较小房间的听者提供了感觉。在又一个实施例中，更简单的操作可以包括截断。这为较小房间的听者提供不同的感觉，但也往往给人留下仍然存在原始房间的迹象的印象。为了保持中间点的平滑性，优选执行内插。在一个实施例中，为了在房间大小调整操作中更准确地模仿房间响应，处理第二区域。这优选地包括前期反射区域。

这些步骤也可以用于隔离脉冲响应的另一分区。在上面提到的实施例中，这可以包括关注前期反射区域。前期反射在理想情况下与后期混响分开。前期混响存在于前期反射区域中，但通常被前期反射掩盖。通常，前期反射的衰减与混响的衰减不同。也就是说，与前期反射斜率相比，混响衰减将具有更平缓(较低)的斜率。有多种方法(包括“回声密度估计”)来分离出前期反射。前期反射发生在回声密度低的区域中。一旦此第二区域被隔离，就在该脉冲响应的隔离分区上执行DSP操作。优选地，这将包括提供与估计的最佳匹配的那些操作，在该示例中，该估计关于调整大小的房间在脉冲响应的该区域中将如何响应。

尽管已经将该实施例描述为在第二(和不同的)区域上执行第二操作，但是本发明不限于此。本发明的范围旨在覆盖在相同区域上执行的多个操作以及在不同区域上顺序执行(相同或不同的)操作。

在又一个示例性实施例中，频率扭曲被应用于从组合的HRTF/房间脉冲响应(BRIR)中提取HRTF。由于FFT分辨率是时间的函数，为了避免在低频区域(例如，低于500Hz)中损失分辨率，优选地首先进行频率扭曲。结果，我们产生了捕获所有相关频区间(frequency bin)的频率响应，并保留了语音的音调。在本质上讲，我们应用频率扭曲以从BRIR中提取HRTF。

一旦产生了提取的HRTF(通过几个不同的可能步骤中的任何一个)，就在组合步骤508中通过将提取的HRTF与用于新房间的房间脉冲响应的模板进行组合来将新提取的HRTF放置在不同的房间中。可替代地，可以将提取的HRTF放置在同一房间中，并且应用本说明书中此前描述的房间操作。该过程在步骤510处结束。

提取HRTF可以大大改善视频游戏的清晰度。在此类游戏中，房间混响提供冲突或模糊的方向信息，并且会使人的方向性感觉淹没在音频中提供的暗示中。一种解决方案是去除房间(将房间减小到零)，然后提取HRTF。然后我们使用得到的HRTF来处理游戏，从而在不会由于过多的混响而导致方向信息模糊的情况下提供更好的方向性。

当通过直接入耳式麦克风测量或者可替代地个性化BRIR数据集(不使用入耳式麦克风测量)针对听者对BRIR进行个性化处理时，上述讨论的修改BRIR区域的系统和方法具有最好的效果。如图4所示，根据本发明的优选实施例，使用了一种用于生成BRIR的“半定制”方法，该方法涉及从用户提取基于图像的属性并且从BRIR的候选库中确定合适的BRIR。更详细地说，图4示出了根据本发明的实施例的系统，该系统用于生成定制使用的HRTF、获取用于定制的听者属性、为听者选择定制的HRTF、提供适于与相对用户头部运动一起工作的旋转滤波器并且呈现由BRIR修改的音频。提取设备702是被配置为识别并提取听者的音频相关物理属性的设备。尽管方框702可以被配置为直接测量那些属性(例如，耳朵的高度)，但是在优选实施例中从拍摄的用户图像中提取相关的测量值以至少包括用户的一只或多只耳朵。提取那些属性所必需的处理优选地在提取设备702中进行，但是也可以位于其他地方。对于非限制性示例，可以在从图像传感器704接收到图像之后由远程服务器710中的处理器提取属性。应当注意，在一些实施例中，我们利用头部和上部躯干的图像以便提取关于头部大小和躯干大小以及与头部或躯干相关的其他特征的附加特征。

在优选实施例中，图像传感器704获取用户耳朵的图像，并且处理器706被配置为提取用户的相关属性并将其发送到远程服务器710。例如，在一个实施例中，主动形状模型(Active Shape Model)可用于识别耳廓图像中的界标(landmark)，并使用这些界标及其几何关系和线性距离来识别与从一系列BRIR数据集(即，从BRIR数据集的候选库)中选择BRIR有关的关于用户的属性。在其他实施例中，RGT模型(回归树模型)用于提取属性。在其他实施例中，诸如神经网络和其他形式的人工智能(AI)的机器学习被用于提取属性。神经网络的一个实施例是卷积神经网络。对用于识别新听者的独特物理属性的几种方法的全面讨论详述于2016年12月28日提交并且题为“A METHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION(用于生成定制/个性化头部相关传递函数的方法)”的WIPO申请PCT/SG2016/050621中，其公开内容通过引用完全并入本文中。

远程服务器710优选地可通过网络(诸如因特网)访问。远程服务器优选地包括选择处理器710来访问存储器714，以使用在提取设备702中提取的物理属性或其他图像相关属性来确定最佳匹配的BRIR数据集。选择处理器712优选地访问具有多个BRIR数据集的存储器714。即，每个数据集优选地具有在方位角和仰角以及(或许还有)头部倾斜的适当角度处针对每个点的BRIR对。例如，可以在方位角和仰角的每3度进行一次测量以生成用于采样的个人的BRIR数据集，从而构成BRIR的候选库。

如先前所讨论的，这些优选地是利用入耳式麦克风对中等规模的人群(即，大于100个人)进行测量而得出的，但是可以与较小的个人群体一起工作，并且与和每个BRIR数据集相关联的相似图像相关属性一起存储。这些可以部分通过直接测量并且部分通过内插产生，以形成BRIR对的球形网格。即使利用部分测量/部分内插的网格，一旦使用适当的方位角和仰角值从BRIR数据集中识别针对某个点的合适的BRIR对，也可以内插未落在网格线上的其他点。例如，可以优选地在频域中使用任何合适的内插方法，包括但不限于相邻线性内插、双线性内插和球形三角形内插。

在一个实施例中，存储在存储器714中的每个BRIR数据集至少包括用于听者的整个球形网格。在这种情况下，可以选择方位角(在围绕听者的水平面上，即在耳朵的高度)或仰角的任何角度来放置声源。在其他实施例中，BRIR数据集受到更多限制，在一种情况下，被限制为在符合常规立体声设置(即，相对于正前方零位置为+30度和–30度)或者(在完整球形网格的另一个子集中)用于不受限制的多声道设置(诸如5.1系统或7.1系统)的扬声器放置的房间中产生扬声器放置所需的BRIR对。

HRIR是头部相关的脉冲响应。它完整地描述了在无声条件下在时域中从声源到接收器的声音传播。它包含的大多数信息涉及被测量的人的生理学和人体测量学。HRTF是头部相关的传递函数。它与HRIR相同，不同之处在于它是频域中的描述。BRIR是双耳房间脉冲响应。它与HRIR相同，不同之处在于它是在房间中测量的，并且因此另外地结合针对采集房间响应所处的特定配置的房间响应。BRTF是BRIR的频域版本。应当理解的是，在本说明书中，由于BRIR可易于与BRTF调换，并且同样地，HRIR可易于与HRTF调换，因此本发明实施例旨在覆盖那些可易于调换的步骤，即使这里未对其进行专门描述。因此，例如，当本说明书提及访问另一个BRIR数据集时，应当理解，覆盖了访问另一个BRTF。

图4还描绘了存储在存储器中的数据的样本逻辑关系。存储器被示出为在列716中包括针对若干个人的BRIR数据集(例如，HRTF DS1A、HRTF DS2A等)。这些通过与每个BRIR数据集相关的属性(优选图像相关属性)索引并且访问。列715中所示的相关属性使得新的听者属性能够匹配与测量且存储在列716、717和718中的BRIR相关的属性。即，它们充当这些列中所示的BRIR数据集的候选库的索引。列717指的是在参考位置零处存储的BRIR，并且与BRIR数据集的其余部分相关联，并且可以与旋转滤波器结合使用以在监测并适应听者头部旋转时进行高效的存储和处理。此选项的更多描述详述于2018年1月7日提交并且题为“METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING(通过头部追踪生成定制空间音频的方法)”的美国临时申请62/614,482中。

在本发明的一些实施例中，存储了2个或更多个距离球。这指的是针对与听者的2个不同距离而产生的球形网格。在一个实施例中，一个参考位置BRIR被存储并且针对2个或更多个不同的球形网格距离球相关联。在其他实施例中，每个球形网格将具有其自己的参考BRIR以与适用的旋转滤波器一起使用。选择处理器712用于使存储器714中的属性与从提取设备702接收的针对新的听者的提取属性进行匹配。使用各种方法来匹配相关联的属性，使得可以选择正确的BRIR数据集。这些包括通过以下策略比较生物特征数据：基于多重匹配的处理策略；多重识别器处理策略；基于集群的处理策略；以及如2018年5月2日提交的题为“SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE(用于定制音频体验的系统和处理方法)”的美国专利申请15/969,767中所描述的其它策略，该美国专利申请的公开内容通过引用完全并入本文中。列718指的是在第二距离处的被测个人的BRIR数据集的集合。即，此列放置针对被测个人记录的在第二距离处的BRIR数据集。作为另一实施例，列716中的第一BRIR数据集可以在1.0m至1.5m处采集，而列718中的BRIR数据集可以指的是在距听者5m处测量的那些数据集。理想地，BRIR数据集形成完整的球形网格，但是本发明实施例适用于完整的球形网格的任何和所有子集，包括但不限于：包含常规立体声组的BRIR对的子集；5.1多声道设置；7.1多声道设置和球形网格的所有其他变形和子集(包括每3度或更小的方位角和仰角的BRIR对)以及密度不规则的那些球形网格。例如，这可以包括在前方位置的网格点的密度比在听者后方的网格点的密度大得多的球形网格。此外，列716和718中的内容的布置不仅适用于按照从测量和内插得到的原样存储的BRIR对，而且适用于通过创建BRIR数据集来进一步完善的BRIR对，这些BRIR数据集反映前者到包含旋转滤波器的BRIR的转换。

在选择一个或多个匹配的BRIR数据集之后，将数据集传输到音频呈现设备730以存储通过匹配或针对新的听者的上述其他技术确定的整个BRIR数据集，或者一些实施例中存储与选择的空间音频位置对应的子集。音频呈现设备然后在一个实施例中选择针对期望的方位角或仰角位置的BRIR对，并且将它们应用于输入音频信号以向耳机735提供空间化的音频。在其他实施例中，所选择的BRIR数据集被存储在与音频呈现设备730和/或耳机735耦接的单独模块中。在其他实施例中，在呈现设备中仅有限的存储可用的情况下，呈现设备仅存储与听者最匹配的关联属性数据的标识或最匹配的BRIR数据集的标识，并且根据需要从远程服务器710实时下载所需的BRIR对(针对选择的方位角和仰角)。如先前所讨论的，这些BRIR对优选地是利用入耳式麦克风对中等规模的人群(即，大于100个人)进行测量而得出的，并且与和每个BRIR数据集相关联的相似图像相关属性一起存储。如果在水平面上每3度方位角进行一次测量并进一步扩展到包括针对上半球的3度对应的仰角点，则需要大约7200个测量点。除了采集全部7200个点外，这些可以部分通过直接测量并且部分通过内插产生，以形成BRIR对的球形网格。即使利用部分测量/部分内插的网格，一旦使用适当的方位角和仰角值从BRIR数据集中识别针对某个点的合适的BRIR对，也可以内插未落在网格线上的其他点。

上面已经描述了本发明的各种实施例，通常针对至少一些BRIR参数进行修改，BRIR参数包括房间方面，诸如房间尺寸、墙壁材料等。应当注意，本发明不限于涉及室内房间参数的修改参数。本发明的范围旨在进一步覆盖将“房间”视为室外环境的环境，诸如城市建筑物之间的公共空间、室外露天剧场或者甚至是开阔场地。

Claims

1.一种用于生成经修改的双耳房间脉冲响应BRIR的方法，所述方法包括：

将第一BRIR分割为至少2个区域；

在所述至少2个区域中的至少一个区域上执行数字信号处理操作以生成至少一个经修改的区域；并且

将所述至少一个经修改的区域与未执行处理操作的任何未经修改的区域组合以形成经修改的BRIR，其中所述至少一个经修改的区域对应于针对扬声器-房间-听者相互关系的改变的声音属性。

2.根据权利要求1所述的方法，其中所述第一BRIR被分割为4个区域中的至少两个区域，所述4个区域包括直接区域、前期反射区域、受头部和躯干影响的区域、以及后期混响区域。

3.根据权利要求2所述的方法，其中在所述4个区域中的2个或更多个区域上执行数字信号处理操作。

4.根据权利要求2所述的方法，其中所述经修改的BRIR旨在模拟由目标扬声器所执行的音频处理，并且至少一个经修改的区域根据从目标扬声器的脉冲响应中选出的对应区域而被生成，所述目标扬声器不同于针对所述第一BRIR所用的第一扬声器。

5.根据权利要求4所述的方法，其中分割包括确定所述第一BRIR中的直接区域，并且进一步包括对所述第一BRIR的直接区域应用反卷积以从所述直接区域中去除所述第一扬声器；并且使目标扬声器响应与所述第一BRIR的经反卷积的直接区域进行卷积。

6.根据权利要求4所述的方法，其中所述第一扬声器从整个BRIR被反卷积，并且所述方法进一步包括使目标扬声器响应与针对所述第一扬声器的整个经反卷积的BRIR响应进行卷积。

7.根据权利要求4所述的方法，其中针对所述第一扬声器的BRIR的直接区域被替换为针对所述目标扬声器的BRIR的对应的直接区域。

8.根据权利要求1所述的方法，其中所述经修改的BRIR旨在模拟在目标房间中执行的音频处理，并且至少一个经修改的区域根据从所述目标房间的脉冲响应中选出的对应区域而被生成，所述目标房间不同于针对所述第一BRIR所用的房间。

9.根据权利要求1所述的方法，其中修改步骤针对电影院应用而进行优化，并且旨在模拟由以下各项中的至少一项的变化而导致的针对扬声器-房间-听者相互关系的声音属性的变化：扬声器到听者的距离；扬声器位置；房间RT60；房间大小、尺寸和形状；以及房间陈设。

10.根据权利要求1所述的方法，其中修改步骤针对游戏应用而进行优化，并且旨在模拟由以下各项中的至少一项的变化而导致的针对扬声器-房间-听者相互关系的声音属性的变化：扬声器到听者的距离；房间RT60；房间大小、尺寸和形状；房间陈设；非内部房间环境；流体属性变化；听者的身体大小；以及声学变形。

11.根据权利要求1所述的方法，其中修改步骤针对音乐应用而进行优化，并且旨在模拟由以下各项中的至少一项的变化而导致的针对扬声器-房间-听者相互关系的声音属性的变化：扬声器的选择；房间RT60；房间大小、尺寸和形状；以及相对于房间墙壁的扬声器位置。

12.根据权利要求11所述的方法，其中通过选择RT60房间参数值使室内声学特性与音乐的流派匹配。

13.根据权利要求1所述的方法，其中区域的分割基于以下各项中的一项或多项：所选区域的开始和停止时间的时间估计；回声密度估计；以及耳间相关性的测量。

14.根据权利要求1所述的方法，其中所述经修改BRIR旨在模拟由以下各项中的至少一项的变化而导致的针对扬声器-房间-听者相互关系的声音属性的变化：扬声器到房间墙壁的距离；扬声器到听者的距离；房间大小或尺寸；房间构造；以及房间陈设。

15.一种用于生成经修改的双耳房间脉冲响应BRIR的方法，所述方法包括：

将第一BRIR分割为至少2个区域；

在所述至少2个区域中的至少一个区域上执行修改操作以生成至少一个经修改的区域；以及

16.根据权利要求15所述的方法，其中所述修改操作包括以下各项的至少一项：截断、射线追踪、改变衰减率的斜率、加窗、平滑、斜升和整个房间交换。

17.一种用于修改房间或扬声器特性以通过耳机进行空间音频呈现的系统，所述系统包括被配置用于执行以下步骤的处理器：

接收与第一房间中的第一扬声器对应的第一双耳房间脉冲响应BRIR；

将所述第一BRIR分割为至少2个区域；

在所述至少2个区域中的至少一个区域上执行数字信号处理操作以生成至少一个经修改的区域；以及

将所述至少一个经修改的区域和未经修改的区域组合以形成经修改的BRIR，其中所述至少一个经修改的区域对应于针对扬声器-房间-听者相互关系的改变的声音属性。

18.根据权利要求17所述的系统，其中所述经修改的BRIR旨在模拟由以下各项中的至少一项的变化而导致的针对扬声器-房间-听者相互关系的声音属性的变化：扬声器选择；扬声器到房间墙壁的距离；扬声器到听者的距离；房间大小或尺寸；房间构造；以及房间陈设。

19.根据权利要求17所述的系统，其中所述经修改的BRIR被合成以模拟非房间环境，并且所述处理器还被配置为执行以下步骤：

将所述第一BRIR分割成多个区域，该多个区域包括直接区域、前期反射区域、受头部和躯干影响的区域以及后期混响区域；

识别并且去除所述后期混响区域和所述前期反射区域；以及

使用射线追踪来合成与所述非房间环境相对应的新的混响。