CN105992119A

CN105992119A - 用于耳机虚拟化的混响生成

Info

Publication number: CN105992119A
Application number: CN201510077020.3A
Authority: CN
Inventors: L·菲尔德; 双志伟; G·达维德森; 郑羲光; M·文顿
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2016-10-05

Abstract

本公开涉及用于耳机虚拟化的混响生成。描述了一种用于耳机虚拟化的混响生成的方法。该方法包括生成输入信号的反射，所述反射沿着时间轴具有预定的方向模式，以及混合至少生成的所述反射，以获得用于耳机虚拟化的混响。也描述了相应的系统和计算机程序产品。

Description

用于耳机虚拟化的混响生成

技术领域

本公开的实施例总体涉及音频信号处理，更具体地，涉及用于耳机虚拟化的混响生成。

背景技术

为了创造更加具有沉浸感的音频体验，音频信号处理中可以使用双耳音频渲染，以便当在耳机上呈现时对立体声和多声道音频节目赋予自然的空间感。通常，空间感可以通过对节目中的每一个音频通道或者对象与合理设计的双耳房间脉冲响应(BRIR)进行卷积来产生，其中BRIR表征音频信号从空间中的特定点到特定声学环境中的收听者的耳朵的转换。该处理可以由内容创作者或者由客户播放设备来应用。

虚拟器设计的一种方法是从物理房间/头部测量值或房间/头部模型模拟导出BRIR中的全部或者其一部分。通常，以耳机虚拟器可以重现实际房间的引人注目的收听体验为目的，选择具有非常期望的声学属性的房间或者房间模型。基于房间模型精确地体现了所选择的收听室的声学特征的假设，该方法产生本质上应用了对空间的音频感知所需的听觉线索的虚拟化的BRIR。听觉线索可以包括，例如，双耳时间差(ITD)、双耳声级差(ILD)、双耳互相关(IACC)、混响时间(例如，T60，为频率的函数)、直达混响(DR)声能比、特定频谱峰值和低谷、回声密度等。在期望的BRIR测量值和耳机收听条件下，基于物理房间BRIR的多声道音频文件的双耳音频渲染可以听上去与相同房间中的扩音器呈现几乎没有区别。

然而，该方法的缺点在于，由于上述音频渲染依赖于具有恰好是预定的声学属性的物理房间BRIR；当在与测量室不一致的环境中试听时，从实际房间BRIR产生的双耳渲染可能听上去有音染、浑浊并且不良外化。事实上，来自物理房间的BRIR可以将信号修改为以期望的和不期望的两种方式进行，这意味着即使最高品质的试听室将对渲染的输出信号带来频谱音染和时间拖尾。

发明内容

鉴于以上情况，本公开提供一种用于耳机虚拟化的混响生成的解决方案。

在一个方面，本公开的示例实施例提供一种用于耳机虚拟化的混响生成的方法。该方法包括：生成输入信号的反射，所述反射沿着时间轴具有预定的方向模式；以及混合至少所生成的反射，以获得用于耳机虚拟化的混响。

在另一方面，本公开的另一示例实施例提供一种用于耳机虚拟化的混响生成的系统。该系统包括反射生成单元，被配置为生成输入信号的反射，所述反射沿着时间轴具有预定的方向模式；以及混合单元，被配置为混合至少所生成的反射，以获得用于耳机虚拟化的混响。

通过以下描述，应当理解的是，根据本公开的示例实施例，生成了具有预定的方向模式的反射，然后通过组合所生成的反射生来成混响。利用这种对反射的方向控制，所生成的混响能够避免伴随着使用来自物理房间/头部测量值或者房间/头部模型模拟的特定BRIR而出现的问题，诸如频谱音染和时间拖尾。同时，有可能提供改进的双耳音频渲染。此外，在某些实施例中，可以选择预定的方向模式以使得空间中给定位置处的虚拟声源的幻象可以增强。例如，预定的方向模式可以是摆动形状的。这样，可以向反射方向上的模拟晚期响赋予双耳互相关(IACC)，该双耳互相关可以提供进一步的声源外化和空间感。此外，通过在预定的方位角范围内引入额外的扩散分量，在反射中包含了进一步的扩散，该进一步的扩散提供进一步令人愉悦的扩散性。

附图说明

通过参考附图的以下详细的描述，本公开的以上和其他目标、特征和优点将变得更加可以理解。附图中，将以示例和非限制性的方式图示本公开的若干示例实施例，其中：

图1是根据本公开的示例实施例的用于耳机虚拟化的混响生成的系统；

图2图示了根据本公开的示例实施例的预定的方向模式的图示；

图3A和3B分别图示了对于左、右声道扬声器的良好外化和不良外化的BRIR对在时间上短的期视在方向改变的图示；

图4图示了根据本公开的另一示例实施例的预定的方向模式的图示；

图5图示了根据本公开的示例实施例用于在给定的出现时间点生成反射的方法；

图6是通用反馈延迟网络(FDN)的框图；

图7是根据本公开的另一示例实施例的在FDN环境中的用于耳机虚拟化的混响生成的系统的框图；

图8是根据本公开的又一示例实施例的在FDN环境中的用于耳机虚拟化的混响生成的系统的框图；

图9是根据本公开的示例实施例的用于耳机虚拟化的混响生成的方法的流程图；以及

图10是适于用来实现本公开的示例实施例的示例计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

现在将参考附图中图示的各种示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

附图中，本公开的各种实施例在框图、流程图和其他图示中示出。流程图或者框中的每个框可以代表模块、程序或者代码的一部分，它包含了一条或者多条用于执行特定逻辑功能的可执行指令。并且以虚线图示了并非必不可少的框。此外，尽管这些框以特定的顺序图示用于执行方法的步骤，事实上，它们并非必然严格按照所示的顺序执行。例如，依赖于各操作的性质，可以以相反的顺序或者同时执行这些方法的步骤。应当注意，框图和/或流程图中的每个框及其组合可以通过用于执行特定功能/操作的专用的基于硬件的系统或者通过专用的硬件和计算机指令的结合来实现。

在此使用的术语“包括”及其变形应当被理解为是开放性的术语，即“包括，但不限于”。除非上下文另外明确指示，术语“或”应当被理解为“和/或”。术语“基于”应当被理解为“至少部分地基于”。术语“一个示例实施例”和“示例实施例”应当被理解为“至少一个示例实施例”；术语“另一实施例”应当被理解为“至少一个其他实施例”。

在此使用的术语“音频对象”或者“对象”指在声场中存在特定的持续时间的单独音频元素。音频对象可以是动态的也可以是静态的。例如，音频对象可以是人、动物或者能够充当声场中的声源的任何其他对象。音频对象可以具有描述音频对象的位置、速度、轨迹、高度、大小和/或任何其他方面的相关联的元数据。在此使用的术语“静态环境声”(audio bed)指将在预定义的、固定的位置进行重现的音频通道。在此使用的术语“BRIR”指每个音频通道或者对象的双耳房间脉冲响应(BRIR)，它表征音频信号从空间中的特定点到特定声学环境中的收听者耳朵的转换。一般而言，BRIR可以被分为三个区域。第一区域被称为直接响应，该直接响应代表从无回声空间中的点到耳道入口的脉冲响应。该直接响应通常持续大约5ms或者更短，并且被更普遍地称为头部相关传输函数(HRTF)。第二区域被称为早期反射，该早期反射包含来自与声源和收听者最接近的对象(例如地板、房间墙壁、家具)的声音反射。第三区域被称为晚期响应，该晚期响应包括具有不同强度和来自各种方向的高阶反射的混合。该第三区域由于其复杂的结构通常由诸如峰值密度、模型密度、能量衰减时间等的随机参数来描述。人耳听觉系统已经进化为对所有三个区域中传播的感知线索做出响应。早期反射对声源的感知方向具有轻度影响但是对声源的感知音色和距离具有更强的影响，而晚期响应影响声源所位于的感知环境。下文中可能包括有其他明确的和隐含的定义。

如上文所述，在其中使用房间或者房间模型导出BRIR的虚拟器设计中，该房间或房间模型具有恰好是预定的声学属性，因此当在实际环境中试听时由此而产生的双耳渲染可能听上去有音染、浑浊并且不良外化。鉴于此，在本公开的实施例中，提供了用于耳机虚拟化的混响生成的新颖的解决方案，而不使用物理房间或者房间模型。提出的该解决方案可以模拟BRIR响应，特别是早期反射和晚期响应，以便在保留自然性的同时消除频谱音染和时间拖尾。

以下，将参考图1至图9来描述本公开的一些示例实施例。然而，应当理解，这些描述仅是处于说明的目的而给出的，并且本公开并不被局限于此。

首先参考图1，其示出了根据本公开的一个示例实施例的用于耳机虚拟化的混响生成的系统100的框图。如图所示，系统100包括反射生成单元110和混合单元120。

反射生成单元110被配置为生成沿着时间轴具有预定的方向模式的输入信号的反射。混合单元120接收来自反射生成器110的生成的反射，并且被配置为混合所生成的反射以形成用于耳机虚拟化的混响。

如上所述，本公开的实施例将模拟BRIR响应，特别是早期反射和晚期响应，以便在保留自然性的同时消除频谱音染和时间拖尾。在本公开的实施例中，这可以通过以受控的方式将方向线索赋予BRIR响应中，特别赋予早期反射和晚期响应中，来实现。换言之，可以对这些反射应用方向控制。特别地，可以生成这些反射以使得它们沿着时间轴具有预定的方向模式。

应当理解，在不使用物理房间或者房间模型的情况下，获得期望的BRIR响应是相当难的，因为无论如何看起来需要表征房间的特征以获得BRIR响应。然而，在此公开的示例实施例提议使用预定的方向模式来控制反射方向，这可以得到期望的BRIR响应。特别地，尽管也有可能以任何其他标准选择预定的方向模式，但是可以将预定的方向模式选择为使得空间中给定位置处的虚拟声源的幻象的得以增强。当然也可以以任何其他标准来选择该预定方向模块。例如，预定的方向模式可以是摆动形状的。该摆动形状指示了反射的方向改变，或者换言之。换句话讲，反射方向离开虚拟声源改变并在围绕该虚拟声源来回振荡。反射方向上的改变可以向所模拟的响应赋予双耳互相关(IACC)，其作为时间和频率的函数而变化。除了ITD、ILD、DR能量比和混响时间，IACC也是主要的感知线索之一，它可以影响收听者对声源外化和空间感的印象。然而，由于不存在外化和局域化的准确的感知模型(其与IACC相关)，所以在尽可能多地保留混音器的美感意图的同时，获知IACC跨过时间和频率的哪些特定进化模式对于传播3维空间的感觉可以是有效确非易事。在此所述的示例实施例提供了特定的方向反射模式，诸如摆动形状的反射相对于传统方法，可以在保留音频保真度的同时传播外化的自然感觉。

图2图示了根据本公开的示例实施例的预定的方向模式的图示。图2中图示了合成反射的摆动轨迹，其中每一个点是具有相关联的方向的反射分量，并且第一到达信号的声音方向由在时间原点的黑色方块指示。此外，为清楚起见，夸大了方向振幅。从图2清楚地看出，反射方向离开第一到达信号的方向而改变并围绕其进行震荡，并且点的数量总体随着时间流逝而增加。

事实上，通过耳机从BRIR收听短时间段(例如4ms)并且评估感知的方向，可以试听到方向摆动。应当注意，当将BRIR对作为整体收听BRIR对时，这些短期的方向移动由于它们时间量程短而并未将其自身展现为方向改变。然而，当分别地收听定位得与直接到达的部分相比越来越靠后的小时间段时，方向摆动确实变成是可以听见的。当检查来自具有良好外化的房间的BRIR时，短期方向改变被试听到，并且发现强烈的和设计良好的方向摆动与良好外化相关联。这可以从图3A和3B看出，图3A和3B图示了当试听来自具有良好的和不良的外化的BRIR的4ms时间段时视在方向改变的示例。

从两幅图可以清楚地看到，良好的外化与强烈的方向摆动相关联。短期方向摆动部件存在于方位角平面而且也存在与中间面。这是正确的，因为传统的6个面的房间中的反射是3维现象，而不仅仅是2维现象。因此，由于反射，在10-50ms的时间间隔中反射的动作也可以导致垂直方向上的短期方向摆动。因此，BRIR对中包括这些摆动可以被用于增加外化。

在声学环境中对于所有可能的声源方向的短期方向摆动的实际应用可以经由有限数量的方向摆动完成，以用于生成具有良好外化的BRIR对。这可以例如通过将对于第一到达声音方向的所有垂直和水平方向的球体分割成有限数量的区域来完成。来自特定区域的声源与用于该区域的两个或者多个短期方向摆动相关联，以生成具有良好外化的BRIR对。也就是说，可以基于虚拟声源的方向来选择摆动。

此外，声音反射将首先在方向上摆动，但是迅速变为各向同性的，然后同时来自所有方向，因而创造了扩散声场。因此，在创造具有自然声音的良好外化的BRIR对中包括扩散或者随机分量是有用的。扩散的增加是在自然声音、外化和集中声源大小之间的折衷。太多的扩散可能产生非常广泛的和较差方向定义的声源，但是太少可能导致来除声源以外的其他方向的不自然回声。作为结果，声源方向上随机性的适度增长是期望的，这意味着随机性将被控制在特定的程度。在本公开的实施例中，方向范围被限制在预定的方位角范围内，以覆盖原始声源方向周围的区域，这可以带来自然性、声源宽度和声源方向之间的良好折衷。

图4另外示出了根据本公开的另一示例实施例的预定的方向模式。特别地，图4中示出了针对示例方位角的短期方向摆动和针对中间声道的添加扩散分量的、作为时间的函数的反射方向。从图4清楚地看出，反射的随机扩散分量被添加到如图2所示的方向模式。与六面体矩形房间中的+/-180度相比，如图4所示的扩散分量在80ms处线性地增长至+/-45度，并方位角的整个范围相对于声源仅为+/-60度。

由于扩散分量的添加引入进一步的扩散性这一事实，如图4所示的针对BRIR对得到的反射和相关联的方向可以实现更好的外化。事实上，类似于摆动，也可以基于虚拟声源的方向来选择扩散分量。这样，就可以生成具有进一步改进的外化的响应。

这些短期方向摆动通常导致每只耳朵中的声音具有频率依赖的IACC的实部，以在方向上反射变得各向同性并且均匀以前在例如10-50ms的时间间隔中具有强烈的系统性变化。50ms以后，因为声场的扩散造成相关性的缺乏，IACC实值下降。因此，IACC的实部作为频率和时间的函数在双耳之间变化。频率依赖的实部的使用具有如下优点，它揭示了相关性和反相关性特征并且它是针对虚拟化的有用度量标准。

在此公开的示例实施例，假设相关性特征在IACC的实部的时间间隔上的持续指示了良好的外化。更好外化的虚拟器产生具有更高值的IACC的实部，该更高值意味着800Hz以上并且延伸到90ms的相关性的更高的持续。

在本公开的实施例中，反射生成单元110可以通过随机回声生成器实现，以获得具有上述转变特征的早期反射和晚期响应。如图1所示，反射生成单元可以包括延迟器111-1、……111-i、……111-k(此后统称为111)，和滤波器112-0、112-1、……112-i、……112-k(此后统称为112)。延迟器111可以由Z^-ni表示，其中i＝1至k。滤波器112可以是例如HRTF滤波器，其中的每一个HRTF滤波器可以对于左耳和右耳两者在预定方向提供HRTF反射。如图1所示，在每一条信号线中，存在一个延迟器和滤波器对，该延迟器和滤波器对可以在预定的回声出现时间点生成来自从已知方向的合成反射。混合单元120包括，例如，左求和器121-L和右求和器121-R。所有的左耳输出在混合单元120中由左求和器121-L组合，以产生左双耳反射信号。类似地，所有的右耳输出在混合单元120中由右求和器121-R中组合，以产生右双耳反射信号。这样，可以从所生成的具有预定的方向模式的反射来生成混响，连同由滤波器112-0生成的直接响应一起产生左右双耳反射信号。

在本公开的实施例中，随机回声生成器可以按如下进行操作。首先，在随机回声生成器沿着时间轴前进的每一个时间点，首先进行独立的随机二元判定，以决定反射是否应当在给定时间点生成。肯定的决定的概率随着时间增加，优选地随着时间平方地增加，用于增加回声密度。也就是说，反射的出现时间点可以随机地确定，但是同时，该确定是在预定的回声密度分布约束下进行的，以便满足预定的回声密度分布。决定的输出是反射的出现时间点的序列(也被称为回声位置)，n₁，n₂，...，n_k，它们对应于如图1所示的延迟器111的延迟时间。然后，对于一个时间点，如果反射被确定为待生成，将根据期望方向生成一对脉冲响应。该方向可以基于诸如摆动函数的预定的模式函数代表来确定，该预定的方向模式函数表示了沿着时间轴的预定的方向模式。反射的振幅可以是不受任何进一步控制的随机值。该对脉冲响应将被认为是在该时间点生成的BRIR。

出于说明的目的，下面将参考图5描述用于在给定出现时间点生成反射的示例过程，以使得本领域技术人员完全地理解进而实现本公开中提出的解决方案。

图5示出了根据本公开的示例实施例的用于在给定的出现时间点生成反射的方法500。如图5所示，在步骤S510进入方法500，在步骤S510中基于预定的方向模式(例如方向模式函数)和给定的出现时间点，确定反射的方向d_DIR。然后，在步骤S520，确定反射的振幅d_AMP，该反射的振幅可以是随机值。接下来，在步骤S530获得具有期望方向的滤波器，诸如HRTF。例如，可以获得分别用于左耳和右耳的HRTF_L和HRTF_R。特别地，HRTF可以从对于特定方向测量得到的HRTF数据集中取出。该测量得到的HRTF数据集可以通过对于特定的测量方向离线测量HRTF响应来形成。这样就可以在生成反射期间从HRTF数据集选择具有期望方向的HRTF。所选择的HRTF对应于如图1所示在相应信号线上的滤波器112。

在步骤S540，可以确定对于左耳和右耳的HRTF的最大平均振幅。具体地，可以首先分别计算所左耳和右耳的HRTF的平均振幅，然后进一步确定左耳和右耳的HRTF的平均振幅中的最大的一个平均振幅，这可以表示为但又不局限于：

Amp_Max＝max(|HRTF_L|，|HRTF_R|) (公式1)

接下来，在步骤S550，修改了对于左耳和右耳的HRTF。特别地，根据确定的振幅d_AMP修改了对于左耳和右耳两者的HRTF的最大平均振幅。在本公开的示例实施例中，其可以被修改为但不局限于：

{HRTF}_{LM} = \frac{d_{AMP}}{{Amp}_{Max}} {HRTF}_{L}

(公式2A)

{HRTF}_{RM} = \frac{d_{AMP}}{{Amp}_{Max}} {HRTF}_{R}

(公式2B)

作为结果，分别得到了在给定的时间点处的对于左耳和右耳的具有期望的方向分量的两个反射，该两个反射是自如图1所示的各滤波器的输出。结果产生的HRTF_LM可以被加到左耳的BRIR作为左耳的反射，而HRTF_RM可以被加到左耳的BRIR作为左耳的反射。

在上文公开的本公开的实施例中，可以对于特定测量方向离线测量HRTF响应以形成HRTF数据集。因此在反射的生成期间，HRTF响应可以根据期望方向从测量的HRTF数据集中选择。因为HRTF数据集中的HRTF响应代表对于单位脉冲信号的HRTF响应，将通过所确定的振幅d_AMP修改所选择的HRTF，以获得适用于所确定的振幅的响应。因此，在本公开的实施例中，具有期望方向的反射和所确定的振幅的反射通过基于期望方向从HRTF数据集中选择合适的HRTF以及进而根据反射的振幅修改HRTF来生成。

然而，在本公开的另一实施例中，可以基于球形头部模型来确定对于左耳和右耳的HRTF HRTF_L和HRTF_R，而不是从测量得到的HRTF数据集中选择。也就是说，可以基于所确定的振幅和预定的头部模型确定HRTF。这样，可以显著地节省测量工作。

在本公开的进一步的实施例中，可以利用具有类似的听觉线索(例如，双耳时间差(ITD)和双耳声级差(ILD)的听觉线索)的脉冲对，替代对于左耳和右耳的HRTF HRTF_L和HRTF_R。也就是说，可以基于在给定的出现时间点的期望方向和确定的幅度以及基于预定的球形头部模型的宽带ITD和ILD生成对于双耳的脉冲响应。脉冲对之间的ITD和ILD可以例如直接基于HRTF_L和HRTF_R被计算。或者可替代地，可以基于预定的球形头部模型计算脉冲对之间的ITD和ILD。此外，在使用具有类似的ITD和ILD的脉冲对的情况下，一对全通滤波器，特别是多级全通滤波器(APF)可以作为回声生成器的最后操作被进一步分别用于生成的双耳响应的左声道和右声道，以便对对于双耳的所创造的脉冲响应进行滤波。这样，就可以向反射引入扩散和去相关效应并且因此改善自然性。

尽管，描述了用于在给定时间点生成反射的具体方法，应当理解，本公开不被局限于此；相反，任何其他合适的方法也有可能产生类似的转变特性。作为另一示例，也可以通过例如图像模型的方式来生成具有期望方向的反射。

通过沿着时间轴前进，反射生成器可以生成沿着时间轴具有预定的方向模式的特定输入信号的反射。

在本公开的另一实施例中，反射生成单元110可以针对输入信号被反复地操作以生成多组候选反射，然后可以例如使用适当设计的目标函数，对于预定的反射特性(诸如整体的优点，例如像频谱平坦度的频谱属性、预定的房间特征等)做出评估。具有最优反射特性的一组反射被选择为用于输入音频信号的反射。例如，可以选择具有的早期反射和晚期响应特征代表不同BRIR性能属性之间的最优折衷的反射作为最终反射。而在本公开的另一实施例中，反射生成单元110可以对于输入信号被反复地操作直到获得期望的预定的反射特性。也就是说，提前设置了期望的预定的反射特性，一旦该期望的预定的发射特性被满足，则随机回声生成器将停止其操作并输出结果得到的反射。

因此，在本公开的实施例中，提供了用于耳机虚拟化的混响的新颖的解决方案，特别是一种用于设计耳机虚拟器中的双耳房间脉冲响应(BRIR)的早期反射以及尤其是混响部分的新颖的解决方案。对于每一个声源，将使用独特的、方向依赖的晚期响应，并且通过组合沿着时间轴具有预定的方向模式的多个合成的房间反射而生成早期反射和晚期响应。通过在反射上应用方向控制，而不是使用基于物理房间或者球形头部模型所测量得到的反射，可以模拟BRIR响应以获得在保留自然性的同时消除频谱音染和时间拖尾的混响。在本公开的某些实施例中，选择预定的方向模式以使得增强空间中给定位置处的虚拟声源的幻象。特别地，预定的方向模式可以是例如具有预定的方位角范围内的额外的扩散分量的摆动形状。反射方向上的改变给予双耳互相关(IACC)，该双耳互相关提供进一步的主要的感知线索并因此在保留音频保真度的同时传播外化的自然感觉。这样，该解决方案能够在没有物理房间的限制的情况下捕获物理房间的本质。

此外，在此提出的解决方案支持使用直接卷积或者更高效计算的方法的基于声道和基于对象两者的音频节目材料的双耳虚拟化两者。可以仅通过将相关联的直接响应与方向依赖的晚期响应组合来离线地设计对于固定声源的BRIR。可以在耳机渲染期间通过将时变的直接响应与早期反射和通过对来自空间中的邻近并非时变点的多个晚期响应进行差值所导出的晚期响应组合，来临时构造对于音频对象的BRIR。此外，本公开的实施例可以作为双耳渲染和控制单元(RMU)中的静态环境声声道虚拟器来使用。

此外，为了以高效计算的方式实现所提出的解决方案，所提出的解决方案也有可能在反馈延迟网络(FDN)中实现，以下将参考图6至8描述该反馈延迟网络。

如所已描述的那样，在传统的耳机虚拟器中，BRIR的混响通常被分为两个部分：早期反射部分和晚期响应部分。这样的BRIR的划分允许专用模型来模拟对于反射的每一部分的特征。已知的是，早期反射是稀疏的并且具有向的，而晚期响应是密集的并且扩散的。这种情况下，可以使用有向源与代表反射的方向的相应的HRTF进行卷积来对早期反射建模，这也可以由图像模型导出；而晚期响应可以由反馈延迟网络(FDN)来建模。FDN可以使用通过反馈回路而与反馈矩阵互连的多个延迟线来实现。可以使用该结构来模拟晚期响应的随机特征，特别是回声密度随着时间的增加。与诸如图像模型的确定性方法相比较，该结构在计算上更加高效，因此它被广泛用于导出晚期响应。处于说明的目的，图6图示了现有技术中的通用反馈延迟网络的框图。

如图6所示，虚拟器600包括具有总体上由611指示的与反馈矩阵612互连的三条延迟线的FDN。延迟线611中的每一条延迟线可以输出输入信号的时间延迟版本。延迟线611的输出将被发送至混合矩阵621以形成输出信号并且同时还馈送至反馈矩阵612，并且在求和器613-1至613-3处从反馈矩阵输出的反馈信号依次与输入信号的下一帧混合。

然而，早期-晚期响应的缺点中的一个缺点在于从早期响应到晚期响应的突然转变。即，BRIR在早期响应中将是有向的，但是突然被改变为密集的和扩散的晚期响应。这与真实的BRIR是肯定不同的，并且将影响双耳虚拟化的感知质量。因此，如果本公开中提出的想法可以被在作为耳机虚拟器中用于模拟晚期响应的常用结构的FDN中具体实现，将是所期望的。因此，下文中提供了另一解决方案，该解决方案通过在反馈延迟网络(FDN)之前增加并行HRTF滤波器簇来实现。每个HRTF滤波器生成对应于房间反射的左耳和右耳响应。将参考图7做出详细的描述。

图7示出了根据本公开的示例实施例基于FDN的耳机虚拟器。与图6不同，虚拟器700中，输入信号在进入FDN之前(特别地在添加通过至少一个反馈矩阵反馈的信号之前)由诸如HRTF滤波器714-0，714-1,714-i至714-k的滤波器进行预处理。然而，延迟线与如图7所示的延迟线以类似的方式作用，并且延迟线中的每一条延迟线的延迟时间和相应的HRTF滤波器可以基于关于图6的如上所述的方法来确定。唯一的区别在于可以使用更小数量的滤波器(例如，4、5、6、7或者8)并且通过FDN结构生成晚期响应中的一部分。这样，可以以计算上更高效的方式生成反射。同时，可以确保：

●晚期响应的早期部分是有向的。

●到FDN结构的所有输入是有向的，这允许FDN的输出为有向地扩散的。因为现在FDN的输出由有向反射的求和来产生，其更类似于真实世界的BRIR生成，这意味着从有向反射的更平滑的转变并且因此确保了具有扩散性的反射。

●晚期响应的早期部分的方向可以被控制为具有预定的方向模式。与由图像模型生成的早期反射不同，延迟反射的早期部分的方向可以通过各种的预定的方向函数来确定，这些函数代表晚期响应的早期部分的特征。作为示例，可以在此使用前述的摆动函数来引导HRTF对(h_i(n),0≤i≤k)的选择过程。

因此，如图7所示的所提出的解决方案能够实现从完全有向反射(如前所述将由图像模型处理的早期反射)到半有向反射(晚期响应中将具有在有向性和发散性之间的双重属性的早期部分)的软转变，并且最终进化为完全发散的反射(晚期响应的剩余部分)，而不是通用FDN中反射的从有向性到扩散性的硬转变。

此外，图8另外示出根据本公开的另一示例实施例的基于FDN的耳机虚拟器。与图7所示的耳机虚拟器的区别在于，使用了分别对于左耳和右耳的两个反馈矩阵812L、812R，并非是一个反馈矩阵712。这样，能够在计算上更高效。至于延迟线簇811，以及求和器813-1L至813-kL、813-1R至813-kR、814-0至814-k，这些组件在功能上类似于延迟线簇711以及求和器713-1L至713-kL、713-1R至713-kR、714-0至714-k。也就是讲，这些组件以使得他们混合如图7和8分别所示的输入信号的下一帧的方式进行工作，因此，为了简化的目的将省略它们的详细描述。

应当注意，图7和8中所示的结构与各种音频输入格式完全兼容，这些音频输入格式包括但不限于，基于声道的音频以及基于对象的音频。事实上，输入信号可以是多声道音频信号的单声道、多声道信号的混合、基于对象的音频信号的信号音频对象、基于对象的音频信号的混合及其任何可能的组合中的任意一种。

此外，应当注意，在此提出的解决方案在无需对任何结构上进行修改的情况下也可以促进现有双耳虚拟器的性能改善。可以通过基于由在此所提出的解决方案生成的BRIR获取对于耳机虚拟器的最优参数集合来实现这一点。可以通过优化过程获取该参数。例如，由在此所提出的解决方案(例如关于图1至5所述的方案)产生的BRIR可以被设置为目标BRIR，然后使用感兴趣的耳机虚拟器生成BRIR。计算了目标BRIR和所生成的BRIR之间的区别；然后重复BRIR的生成和区别的计算直到覆盖参数的所有可能的组合；最后，将选择对于感兴趣的耳机虚拟器的最优参数集合，该最优参数集合可以使得目标BRIR和所生成的BRIR之间的区别最小化。可以通过从BRIR中提取感知线索来实现两个BRIR之间的相似性或者区别的测量。例如，可以使用左声道和右声道之间的振幅比作为摆动效果的测量。这样，使用最优参数集合，即便是在没有任何结构上的修改的情况下，现有的双耳虚拟器也可以实现更好的虚拟化性能。

此外，图9进一步示出了根据本公开的示例实施例的用于耳机虚拟化的混响生成的方法。

如图9所示，首先，在步骤S910进入该方法900，在该步骤生成沿着时间轴具有预定的方向模式的输入信号的反射。在本公开的实施例中，为了摆脱特定的物理房间或者房间模型的限制，可以对反射应用方向控制。可以选择预定的方向模式以便增强空间中给定位置的虚拟声源的幻象。特别地，预定的方向模式可以是摆动形状的，其中反射方向离开虚拟声源改变并在围绕该虚拟声源来回振荡。反射方向上的改变可以向所模拟的响应赋予根据时间和频率而变化的双耳互相关(IACC)，该双耳互相关在保留音频保真度的同时提供了外化的自然感觉。尤其，预定的方向模式可以进一步包括预定的方位角范围内的随机扩散分量。作为结果，它进一步引入扩散性，该扩散性提供更好的外化。此外，可以基于虚拟声源的方向选择摆动形状和/或随机扩散分量，以使得可以进一步改善外化。

在本公开的实施例中，在生成反射期间在预定的回声密度分布约束下，随机地确定反射的相应出现时间点。然后基于相应出现时间点和预定的方向模式确定反射的期望方向，并且随机地确定反射在相应出现时间点处的振幅。然后基于所确定的值，生成在各出现时间点处的、具有期望方向和所确定的振幅的反射。应当理解，本公开不被限制于上述的操作的顺序。例如，可以以相反的顺序或者同时执行确定期望方向和确定反射的振幅的操作。

在本公开的另一实施例中，可以通过基于在相应出现时间点处的期望方向从对于特定方向所测量得到的头部相关传输函数(HRTF)数据集中选择HRTF，然后基于所述反射在相应出现时间点处的振幅修改HRTF，来产生在相应出现时间点的反射。

在本公开的可替代的实施例中，也可以通过基于在相应出现时间点的期望方向和预定的球形头部模型确定HRTF，和随后基于反射在相应出现时间点处的振幅修改HRTF，来实现产生反射，从而得到在相应出现时间点处的反射。

在本公开的另一可替代的实施例中，产生反射可以包括基于在相应出现时间点处的期望方向和确定的振幅以及基于预定的球形头部模型的宽带双耳时间差和双耳声级差，来生成对于双耳的脉冲响应。此外，所产生的对于双耳的脉冲响应可以进一步通过全通滤波器进行滤波以获得进一步的扩散和去相关。

在本公开的进一步的实施例中，其中在反馈延迟网络中操作方法。这种情况下，在添加通过至少一个反馈矩阵反馈的信号之前通过HRTF对输入信号进行滤波，以便控制至少晚期响应的早期部分的方向以符合预定的方向模式。这样，可以以计算上更高效的方式实现该解决方案。

此外，执行了优化过程。例如，可以重复生成反射以获得多组反射，然后可以选择多组反射中具有最优反射特性的一组反射作为用于输入信号的反射。或者可替代地，可以重复生成反射直到获得预定的反射特性。这样，可以进一步确保获得具有期望的反射特性的反射。

应当理解，为了简化的目的，简要地描述了如图9所示的方法；关于相应操作的详细描述，可以在参考图1至8在相应的描述中找到。

应当理解，尽管在此描述了本公开的具体实施例，但是这些描述是仅出于说明的目的而给出的，本公开不局限于此。例如，预定的方向模式可以是任何合适的图形，而非摆动形状，或者可以是多种方向模式的组合。滤波器也可以是任何其他类型的滤波器，而非HRTF；在生成反射期间，可以以任何方式而不是公式2A和2B中所示的方式根据所确定的振幅修改所获得的HRTF。如图1所示的求和器121-L和121-R可以以单个通用求和器实现，而不是两个求和器。此外，可以将延迟器和滤波器对的布置改为相反布置，这意味着可能需要分别对于左耳和右耳的延迟器。此外，也可以利用分别对于左耳和右耳的两个单独的混合矩阵来实现如图7和8所示的混合矩阵。

此外，也应当理解，系统100、700和800中的任何一个系统的组件可以是硬件模块或者软件模块。例如，在某些示例实施例中，该系统可以部分或者全部地利用软件和/或固件来实现，例如，被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，该系统可以部分或者全部地基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。

图10示出了适于用来实现本公开的示例实施例的示例计算机系统1000的框图。如图10所示，计算机系统1000包括中央处理单元(CPU)1001，其能够根据存储在只读存储器(ROM)1002中的程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的程序而执行各种处理。在RAM 1003中，根据需要还存储有当CPU 1001执行各种处理时需的各种数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入单元1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元1007；包括硬盘等的存储单元1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元1009。通信单元1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储单元1008。

特别地，根据本公开的示例实施例，以上描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本公开的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在本公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言的任意组合来编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器或者分布在一个或者多个远程计算机和/或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

本公开可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE1.一种用于耳机虚拟化的混响生成的方法，包括：生成输入信号的反射，所述反射具有沿着时间轴的预定的方向模式；以及混合至少所生成的反射，以获得用于耳机虚拟化的混响。

EEE2.根据EEE1所述的方法，其中所述预定的方向模式被选择为使得空间中给定位置处的虚拟声源的幻象被增强。

EEE3.根据EEE2所述的方法，其中所述预定的方向模式是摆动形状的，其中反射方向离开虚拟声源改变并在围绕该虚拟声源来回振荡。

EEE4.根据EEE3所述的方法，其中所述预定的方向模式进一步包括在预定的方位角范围内的随机扩散分量，并且其中基于所述虚拟声源的方向选择所述摆动形状或者所述随机扩散分量中的至少一个。

EEE5.根据EEE1所述的方法，其中生成反射包括：在预定的回声密度分布约束下，随机地确定所述反射的相应出现时间点；基于所述相应出现时间点和所述预定的方向模式确定所述反射的期望方向；随机地确定所述反射在所述相应出现时间点的振幅；以及产生在所述相应出现时间点处的、具有所述期望方向和所述确定的振幅的反射。

EEE6.根据EEE5所述的方法，其中产生反射包括：基于在所述相应出现时间点处的所述期望方向，从针对特定方向测量得到的头部相关传输函数(HRTF)数据集中选择HRTF；以及基于所述反射在所述相应出现时间点处的所述振幅，修改所述HRTF以便获得在所述相应出现时间点的所述反射。

EEE7.根据EEE5所述的方法，其中产生反射包括：基于在所述相应出现时间点的所述期望方向和预定的球形头部模型确定HRTF；以及基于所述反射在所述相应出现时间点的所述振幅修改所述HRTF，以便获得在所述相应出现时间点处的所述反射。

EEE8.根据EEE5所述的方法，其中产生反射包括：基于在所述相应出现时间点处的所述期望方向和所述确定的振幅并且基于预定的球形头部模型的宽带双耳时间差和双耳声级差，生成对于双耳的脉冲响应。

EEE9.根据EEE8所述的方法，其中产生反射进一步包括：通过全通滤波器对所产生的脉冲响应进行滤波，以获得扩散和去相关。

EEE10.根据EEE1所述的方法，其中在反馈延迟网络中操作所述方法，并且其中生成反射包括在添加通过至少一个反馈矩阵反馈的信号之前通过HRTF对所述输入信号进行滤波，以便控制至少晚期响应的早期部分的方向，从而符合所述预定的方向模式。

EEE11.根据EEE1所述的方法，进一步包括通过以下操作执行优化过程：重复所述生成反射以获得多组反射，并且选择所述多组反射中具有最优反射特性的一组反射作为用于所述输入信号的所述反射；或者通过重复所述生成反射直到获得预定的反射特性。

将会理解，本法明的实施例不限于以上所讨论的特定实施例并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用而并不用于限制目的。

Claims

1.一种用于耳机虚拟化的混响生成的方法，包括：

生成输入信号的反射，所述反射沿着时间轴具有预定的方向模式；以及

混合至少生成的所述反射，以获得用于耳机虚拟化的混响。

2.根据权利要求1所述的方法，其中所述预定的方向模式被选择为使得在空间中给定位置处的虚拟声源的幻象被增强。

3.根据权利要求2所述的方法，其中所述预定的方向模式是摆动形状的，其中反射方向离开虚拟声源改变并围绕所述虚拟声源来回振荡。

4.根据权利要求3所述的方法，其中所述预定的方向模式进一步包括在预定的方位角范围内的随机扩散分量，并且其中基于所述虚拟声源的方向选择所述摆动形状或者所述随机扩散分量中的至少一个。

5.根据权利要求1所述的方法，其中生成反射包括：

在预定的回声密度分布约束下，随机地确定所述反射的相应出现时间点；

基于所述相应出现时间点和所述预定的方向模式确定所述反射的期望方向；

随机地确定所述反射在所述相应出现时间点处的振幅；以及

产生在所述相应出现时间点处的、具有所述期望方向和确定的所述振幅的反射。

6.根据权利要求5所述的方法，其中产生反射包括：

基于在所述相应出现时间点处的所述期望方向，从针对特定方向测量得到的头部相关传输函数(HRTF)数据集中选择HRTF；以及

基于所述反射在所述相应出现时间点处的所述振幅，修改所述HRTF，以便获得在所述相应出现时间点的所述反射。

7.根据权利要求5所述的方法，其中产生反射包括：

基于在所述相应出现时间点处的所述期望方向和预定的球形头部模型确定HRTF；以及

基于在所述相应出现时间点的所述反射的所述振幅修改所述HRTF，以便获得在所述相应出现时间点处的所述反射。

8.根据权利要求5所述的方法，其中产生反射包括：

基于在所述相应出现时间点处的所述期望方向和确定的所述振幅并且基于预定的球形头部模型的宽带双耳时间差和双耳声级差，生成对于双耳的脉冲响应。

9.根据权利要求8所述的方法，其中产生反射进一步包括：通过全通滤波器对生成的所述脉冲响应进行滤波，以获得扩散和去相关。

10.根据权利要求1所述的方法，其中在反馈延迟网络中操作所述方法，并且其中生成反射包括在添加通过至少一个反馈矩阵反馈的信号之前通过HRTF对所述输入信号进行滤波，以便控制至少晚期响应的早期部分的方向，从而符合所述预定的方向模式。

11.根据权利要求1所述的方法，进一步包括通过以下操作执行优化过程：

重复所述生成反射以获得多组反射，并且选择所述多组反射中的具有最优反射特性的一组反射作为用于所述输入信号的所述反射；或者

重复所述生成反射直到获得预定的反射特性。

12.一种用于耳机虚拟化的混响生成的系统，包括：

反射生成单元，被配置为生成输入信号的反射，所述反射沿着时间轴具有预定的方向模式；以及

混合单元，被配置为混合至少生成的所述反射，以获得用于耳机虚拟化的混响。

13.根据权利要求12所述的系统，其中所述预定的方向模式被选择为使得在空间中给定位置处的虚拟声源的幻象被增强。

14.根据权利要求13所述的系统，其中所述预定的方向模式是摆动形状的，其中反射方向离开虚拟声源而改变并在围绕所述虚拟声源来回振荡。

15.根据权利要求14所述的系统，其中所述预定的方向模式进一步包括在预定的方位角范围内的随机扩散分量，并且其中基于所述虚拟声源的方向选择所述摆动形状和/或所述随机扩散分量。

16.根据权利要求12所述的系统，其中所述反射生成单元被配置为：

随机地确定所述反射在所述相应出现时间点的振幅；以及

17.根据权利要求16所述的系统，其中所述反射生成单元被配置为通过以下操作产生所述反射：

基于在所述相应出现时间点处的所述期望方向，从对于特定方向测量得到的头部相关传输函数(HRTF)数据集中，选择HRTF；以及

基于所述反射在所述相应出现时间点处的所述振幅修改所述HRTF，以便获得在所述相应出现时间点处的所述反射。

18.根据权利要求16所述的系统，其中所述反射生成单元被配置为通过以下操作产生所述反射：

19.根据权利要求16所述的系统，其中所述反射生成单元被配置为通过以下操作产生所述反射：

20.根据权利要求19所述的系统，所述反射生成单元被配置为进一步通过以下操作来产生所述反射：

通过全通滤波器对生成的所述脉冲响应进行滤波，以获得扩散和去相关。

21.根据权利要求12所述的系统，其中所述系统在反馈延迟网络中实现，并且其中所述反射生成单元被配置为在添加通过至少一个反馈矩阵反馈的信号之前通过HRTF对所述输入信号进行滤波，以便控制至少晚期响应的早期部分的方向，从而符合所述预定的方向模式。

22.根据权利要求12所述的系统，其中在优化过程中操作所述反射生成单元，其中重复地操作所述反射生成单元以获得多组反射,并且选择所述多组反射中具有最优反射特性的一组反射作为用于所述输入信号的所述反射，或者其中重复地操作所述反射生成单元直到获得预定的反射特性。

23.一种用于耳机虚拟化的混响生成的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上，并且包括机器可执行指令，所述机器可执行指令在被执行时使所述机器执行根据权利要求1到11任一项所述的方法的步骤。