CN105900457B

CN105900457B - 用于设计和应用数值优化的双耳房间脉冲响应的方法和系统

Info

Publication number: CN105900457B
Application number: CN201480071994.4A
Authority: CN
Inventors: G·A·戴维森; 颜冠杰; D·J·布瑞巴特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-01-03
Filing date: 2014-12-23
Publication date: 2017-08-15
Anticipated expiration: 2034-12-23
Also published as: US11272311B2; US20200162835A1; US10547963B2; WO2015103024A1; US20220264244A1; US20210227344A1; US11576004B2; US20160337779A1; CN105900457A; US12028701B2; US20230262409A1; US10834519B2; EP3090576A1; US20190364379A1; US10382880B2; EP3090576B1

Abstract

用于设计用于在耳机虚拟器中使用的双耳房间脉冲响应(BRIR)的方法和系统、以及用于响应于多声道音频信号的一组声道产生双耳信号(包括通过将BRIR应用于该组的每个声道)，由此产生滤波信号，并且组合滤波信号以产生双耳信号的方法和系统，其中，每个BRIR已根据设计方法的实施例被设计。其它方面是被配置为执行本发明方法的任何实施例的音频处理单元。根据一些实施例，BRIR设计被归结为基于仿真模型(其产生候选BRIR)和至少一个目标函数(其评估每个候选BRIR)的数值优化问题，并且包括识别候选BRIR中由通过每个目标函数对于候选BRIR确定的性能度量所指示的最佳的一个。

Description

用于设计和应用数值优化的双耳房间脉冲响应的方法和系统

相关申请的交叉引用

本申请要求2014年1月3日提交的美国临时专利申请No.61/923,582的优先权，该申请的全部内容特此通过引用并入。

技术领域

本发明涉及用于通过将双耳房间脉冲响应(BRIR)应用于输入信号的一组声道的每一个声道(例如，应用于所有声道)来响应于多声道音频输入信号产生双耳音频信号的方法(有时被称为耳机虚拟化方法)和系统、以及用于设计用于在这样的方法和系统中使用的BRIR的方法和系统。

背景技术

耳机虚拟化(或双耳渲染(render))是旨在使用标准立体声耳机递送(deliver)环绕声体验或沉浸式声场的技术。

用于响应于多声道音频输入信号(或者响应于这样的信号的一组声道)产生双耳信号的方法在本文中有时被称为“耳机虚拟化”方法，并且被配置为执行这样的方法的系统在本文中有时被称为“耳机虚拟器”(或“耳机虚拟化系统”或“双耳虚拟器”)。

最近，使用耳机享用音乐、电影和游戏的人的数量已急剧增长。便携式设备提供对在电影院和家庭影院中体验娱乐的方便且流行的替代方案，并且耳机(包括耳塞)是主要收听手段。不幸的是，传统的耳机收听通常仅提供相对于由其它传统的呈现系统提供的音频体验来说有限的音频体验。该限制可以归因于自然发生的声场与由耳机生成的声场之间的显著声学路径差。原始立体声素材或多声道音频下混的形式的音频内容在以传统的方式通过耳机呈现时本质上被感知为显著椭圆的(发出的声音被感知为从“在头中”的位置发出并且发出到耳朵的直接左侧和右侧)。大多数收听者几乎没有前后深度的感觉，更不用说高度。另一方面，对通过喇叭的传统呈现的收听在几乎所有情况下都被感知为“在头外”(很好地外部化)。

耳机虚拟器的主要目标是对由耳机递送的立体声和多声道音频节目创建自然空间的感觉。理想地，通过耳机生成的声场是足够真实的且令人信服的以致于耳机用户将会完全丧失他们正在佩戴耳机的意识。空间的感觉可以通过将适当设计的双耳房间脉冲响应(BRIR)与节目中的每个音频声道或对象进行卷积而创建。该处理可以被内容创建者应用或者被消费者回放设备应用。BRIR通常表示从给定房间中的喇叭到耳道入口的电声系统的脉冲响应。

早期的耳机虚拟器应用头部相关传递函数(HRTF)来在双耳渲染中传达空间信息。HRTF是表征声音如何在消声环境中从空间中的特定点(声源位置)传输到收听者的两耳的方向和距离相关的滤波器对。必要的空间线索(cue)(诸如由于肩部和耳廓反射而导致的谱峰(peak)和谱谷(notch)、耳间时间差(ITD)、耳间声级(level)差(ILD)、以及头部遮蔽效应)可以在渲染的HRTF滤波的双耳内容中被感知到。由于人头部大小的约束，HRTF没有提供足够的或鲁棒的关于超过大致一米的源距离的线索。作为结果，仅仅基于HRTF的虚拟器通常没有实现良好的外部化或感知距离。

我们日常生活中的大多数声学事件发生在混响环境中，在混响环境中，除了由HRTF建模的直接路径(从源到耳朵)之外，音频信号还通过各种反射路径到达收听者的耳朵。反射对听觉感知(诸如距离、房间大小以及空间的其它属性)引入了深刻的影响。为了在双耳渲染中传达该信息，除了直接路径HRTF中的线索之外，虚拟器还需要应用房间混响。双耳房间脉冲响应(BRIR)表征从空间中的特定点到特定的声学环境中的收听者的耳朵的音频信号的变换。理论上，从房间响应测量导出的BRIR包括关于空间感知的所有声学线索。

图1是系统(20)的框图，该系统(20)包括被配置为将双耳房间脉冲响应(BRIR)应用于多声道音频输入信号的每个全频率范围声道(X₁、……、X_N)的类型的耳机虚拟化系统。耳机虚拟化系统(有时被称为虚拟器)可以被配置为将常规确定的双耳房间脉冲响应BRIR_i应用于每个声道X_i。

声道X₁、……、X_N(其可以是静止扬声器声道或移动对象声道)中的每一个对应于相对于假定收听者的特定的源方向(方位角(azimuth)和仰角(elevation))及距离(即，从对应扬声器的假定位置到假定收听者位置的直接路径的方向以及沿着假定收听者位置与扬声器位置之间的直接路径的距离)，并且每个这样的声道被用针对对应的源方向和距离的BRIR进行卷积。因此，子系统2被配置为将声道X₁与BRIR₁(针对对应的源方向和距离的BRIR)进行卷积，子系统4被配置为将声道X_N与BRIR_N(针对对应的源方向的BRIR)进行卷积，依此类推。每个BRIR子系统(子系统2、……、4中的每一个)的输出是包括左声道和右声道的时域双耳音频信号。

多声道音频输入信号还可以包括低频效果(LFE)或超低音声道，该声道在图1中被标识为“LFE”声道。以常规的方式，LFE声道不与BRIR进行卷积，而是相反在图1的增益级5中被衰减(例如，衰减-3dB或更多)，并且增益级5的输出被(元件6和8)均等地混合到虚拟器的双耳输出信号的声道的每一个中。为了使级5的输出与BRIR子系统(2、……、4)的输出时间对齐，在LFE路径中可能需要附加的延迟级。可替代地，LFE声道可以简单地被忽略(即，不被声称(assert)到虚拟器或者不被虚拟器处理)。许多消费者耳机不能够精确地再现LFE声道。

BRIR子系统的左声道输出在相加(addition)元件6中被(与级5的输出)混合，而BRIR子系统的右声道输出在相加元件8中被(与级5的输出)混合。元件6的输出是从虚拟器输出的双耳音频信号的左声道L，而元件8的输出是从虚拟器输出的双耳音频信号的右声道R。

系统20可以是解码器，该解码器被耦合以接收编码音频节目并且包括子系统(图1中未示出)，该子系统被耦合和配置为包括通过从该节目恢复N个全频率范围声道(X₁、……、X_N)和LFE声道来对节目进行解码并且将它们提供给虚拟器(其包括如所示那样耦合的元件2、……、4、5、6和8)的元件2、……、4和5。解码器可以包括附加的子系统，该附加的子系统中的一些执行与由虚拟化系统执行的虚拟化功能不相关的功能，并且该附加的子系统中的一些可以执行与虚拟化功能相关的功能。例如，后面的功能可以包括从编码节目提取元数据并且将该元数据提供给虚拟化控制子系统，该虚拟化控制子系统利用该元数据来控制虚拟器系统的元件。

在一些常规的虚拟器中，输入信号经历时域到频域变换而变换到QMF(正交镜像滤波器)域中，以产生QMF域频率分量的声道。这些频率分量在QMF域中经历滤波(例如，在图1的子系统2、……、4的QMF域实现中)，并且所得到的频率分量通常然后被变换回到时域中(例如，在图1的子系统2、……、4中的每一个的最后一级中)，使得虚拟器的音频输出是时域信号(例如，时域双耳音频信号)。

一般来说，输入到耳机虚拟器的多声道音频信号的每个全频率范围声道被假定为指示从相对于收听者的耳朵的已知位置处的声源发出的音频内容。耳机虚拟器被配置为将双耳房间脉冲响应(BRIR)应用于输入信号的每个这样的声道。

BRIR可以被分成三个重叠区域。发明人称为直接响应的第一区域表示从消声空间中的点到耳道的入口的脉冲响应。通常为5ms持续时间或更少的这个响应更常见地被称为头部相关传递函数(HRTF)。称为早期反射的第二区域包含来自最靠近声源和收听者的对象(例如，地板、房间墙壁、家具)的声音反射。称之为后期响应的最后区域由具有不同强度且来自各种方向的更高阶反射的混合组成。这个区域通常由随机性参数(诸如由于其复杂结构而导致的能量-衰减时间(T60)、峰值密度、以及模态密度)描述。

早期反射通常是一次或二次反射，并且具有相对稀疏的时间分布。每个一次或二次反射的微观结构(例如，ITD和ILD)是重要的。对于较后期反射(在入射在收听者处之前从多于两个的表面反射的声音)，回声密度随着反射的次数增加而增大，并且单个反射的微观属性变得难以观察。对于越来越晚的反射，宏观结构(例如，总体混响的谱分布、混响衰减率、以及耳间相干性)变得更重要。

人类听觉系统已演变到对在所有三个区域中传达的感知线索进行响应。第一区域(直接响应)主要确定声源的感知方向。这个现象被称为第一波前定律。第二区域(早期反射)对源的感知方向具有适度的效果，但是对源的感知音色和距离具有更强的影响。第三区域(后期响应)影响源所在的感知环境。由于这个原因，需要仔细研究所有三个区域对BRIR性能的影响以实现最优的虚拟器设计。

BRIR设计的一种方法是从物理的房间和头部测量或者房间和头部模型仿真导出将被虚拟器应用的每个BRIR的全部或部分。通常，具有非常期望的声学性质的房间或房间模型是以耳机虚拟器重复实际房间的引人注目的收听体验为目的选择的。在房间模型精确地体现选择的收听房间的声学特性的假设下，该方法生成内在地应用对空间音频感知必要的听觉线索的虚拟器BRIR。本领域中众所周知的这样的线索包括耳间时间差、耳间声级差、耳间相干性、混响时间(作为频率的函数的T60)、直接与混响比、特定的谱峰和谱谷以及回声密度。在理想的BRIR测量和耳机收听条件下，基于物理房间BRIR的多声道音频文件的双耳渲染可听起来与同一个房间中的喇叭呈现几乎不可区分。

然而，BRIR设计的常规方法的缺点是，使用常规设计的BRIR(其已被设计为匹配实际房间BRIR)生成的双耳渲染当在不一致的收听环境(与测量房间不一致的环境)中被试听时可能听起来有音染(colored)、混浊、并且没有很好地外部化。这个现象的根本原因仍是正在进行的研究领域，并且涉及听觉和视觉感官输入两者。然而，明显的是，被设计为匹配物理房间BRIR的BRIR可以将信号修改为被以期望的和不期望的两种方式渲染。甚至是顶级质量的收听房间也对渲染的输出信号给予谱音染和时间拖尾。作为一个示例，来自一些收听房间的声学反射本质上是低通的。这导致渲染的输出信号中的低频谱谷(谱梳理(combing))。尽管已知低频谱谷帮助人类定位声源，但是在耳机收听场景下，由于添加了谱音染，它们一般是不期望的。在使用远离收听者定位的喇叭的实际收听场景下，人类听觉/认知系统能够适应其环境使得这些损伤可以不被察觉。然而，当收听者在不一致的收听环境中接收到通过耳机呈现的相同的声学信号时，这样的损伤变得更明显，并且相对于常规的立体声节目降低了自然度(naturalness)。

BRIR设计中的其它考虑包括对BRIR大小和长度的任何适用的约束。典型的BRIR的有效长度在大多数声学环境中扩展到数百毫秒或更长。BRIR的直接应用可能需要与数千个抽头的滤波器进行卷积，这在计算上是昂贵的。在没有参数化的情况下，可能需要大的存储器空间来存储针对不同源位置的BRIR以便实现足够的空间分辨率。

具有被称为反馈延迟网络(FDN)的众所周知的滤波器结构的滤波器可以被用于实现空间混响器，该空间混响器被配置为将仿真的混响(即，BRIR的后期响应部分)应用于多声道音频输入信号的每个声道，或者将整个BRIR(BRIR的早期和后期部分)应用于每个这样的声道。FDN的结构是简单的。它包括若干分支(有时被称为混响箱(tank))。每个混响箱(例如，在图3的FDN中，包括增益元件g₁和延迟线z^-n1的混响箱)具有延迟和增益。在FDN的典型实现中，来自所有混响箱的输出通过酉(unitary)反馈矩阵混合，并且该矩阵的输出被反馈到混响箱，并且与混响箱的输入进行求和。可以对混响箱输出进行增益调整，并且混响箱输出(或者它们的增益调整后的版本)可以被适当地再混合以用于双耳回放。自然发声的混响可以由FDN以紧凑的计算和存储器占用来产生和应用。FDN因此已在虚拟器中被使用，以应用BRIR或者补充由HRTF应用的直接响应。

将参照图2来描述利用反馈延迟网络(FDN)以将BRIR应用于输入信号声道的BRIR系统(例如，图1的虚拟器的子系统2、……、4中的一个的实现)的示例。图2的BRIR系统包括如所示那样耦合的分析滤波器组202、一组FDN(FDN 203、204、……和205)以及合成滤波器组207。分析滤波器组202被配置为将变换应用于输入声道X_i以将其音频内容分离成“K”个频带，其中，K是整数。每个不同的频带中的滤波器组域值(从滤波器组202输出)被声称到FDN203、204、……、205中的不同的一个(这些FDN存在“K”个)，这些FDN被耦合和配置为将BRIR应用于被声称到其的滤波器组域值。

在图2中所示的系统的变型中，FDN 203、204、……、205中的每一个被耦合和配置为将BRIR的后期混响部分(或早期反射和后期混响部分)应用于被声称到其的滤波器组域值，并且另一个子系统(图2中未示出)将BRIR的直接响应和早期反射部分(或直接响应部分)应用于输入声道X_i。

再次参照图2，FDN 203、204、……、和205中的每一个在滤波器组域中被实现，并且被耦合和配置为对从分析滤波器组202输出的值的不同频带进行处理，以对每个带产生左声道滤波信号和右声道滤波信号。对于每个带，左滤波信号是滤波器组域值的序列，并且右滤波信号是滤波器组域值的另一个序列。合成滤波器组207被耦合和配置为将频域到时域变换应用于从FDN输出的滤波器组域值(例如，QMF域频率分量)的2K个序列，并且将变换的值组装到左声道时域信号(其指示已应用BRIR的左声道音频)和右声道时域信号(其指示已应用BRIR的右声道音频)。

在典型的实现中，FDN 203、204、……、和205中的每一个在QMF域中被实现，并且滤波器组202将输入声道201变换到QMF域(例如，混合复正交镜像滤波器(HCQMF)域)中，使得从滤波器组202声称到FDN 203、204、……、和205中的每一个的输入的信号是QMF域频率分量的序列。在这样的实现中，从滤波器组202声称到FDN 203的信号是第一频带中的QMF域频率分量的序列，从滤波器组202声称到FDN 204的信号是第二频带中的QMF域频率分量的序列，并且从滤波器组202声称到FDN 205的信号是第“K”频带中的QMF域频率分量的序列。当分析滤波器组202被如此实现时，合成滤波器组207被配置为将QMF域到时域变换应用于从FDN输出的QMF域频率分量的2K个序列，以产生输出到元件210的左声道和右声道后期混响的时域信号。

图3的反馈延迟网络是图2的FDN 203(或204或205)的示例性实现。尽管图3系统具有其四个混响箱(每个包括增益级g_i和耦合到增益级的输出的延迟线z^-ni)变型，但是该系统(以及本发明的虚拟器的实施例中利用的其它FDN)实现多于或少于四个混响箱。

图3的FDN包括输入增益元件300、耦合到元件300的输出的全通滤波器(APF)301、耦合到APF 301的输出的相加元件302、303、304和305、以及四个混响箱(每个包括增益元件g_k(元件306中的一个)、耦合到其的延迟线(元件307中的一个)、以及耦合到其的增益元件1/g_k(元件309中的一个)，其中，0≤k-1≤3)，每个混响箱耦合到元件302、303、304和305中的不同的一个的输出。酉矩阵308耦合到延迟线307的输出，并且被配置为将反馈输出声称到元件302、303、304和305中的每一个的第二输出。(第一混响箱和第二混响箱的)增益元件309中的两个的输出被声称到相加元件310的输入，并且元件310的输出被声称到输出混合矩阵312的一个输入。(第三混响箱和第四混响箱的)增益元件309中的其它两个的输出被声称到相加元件311的输入，并且元件311的输出被声称到输出混合矩阵312的另一输入。

元件302被配置为将矩阵308的与延迟线z^-n1对应的输出相加(即，经由矩阵308将来自延迟线z^-n1的输出的反馈应用)到第一混响箱的输入。元件303被配置为将矩阵308的与延迟线z^-n2对应的输出相加(即，经由矩阵308将来自延迟线z^-n2的输出的反馈应用)到第二混响箱的输入。元件304被配置为将矩阵308的与延迟线z^-n3对应的输出相加(即，经由矩阵308将来自延迟线z^-n3的输出的反馈应用)到第三混响箱的输入。元件305被配置为将矩阵308的与延迟线z^-n4对应的输出相加(即，经由矩阵308将来自延迟线z^-n4的输出的反馈应用)到第四混响箱的输入。

图3的FDN的输入增益元件300被耦合以接收从图3的分析滤波器组202输出的变换信号的一个频带(滤波器组域信号)。输入增益元件300将增益(缩放)因子G_in应用于被声称到其的滤波器组域信号。用于所有频带的缩放因子G_in(由图3的所有的FDN 203、204、……、205实现)共同地控制谱成形和水平。

在图3的FDN的典型QMF域实现中，从全通滤波器(APF)301的输出声称到混响箱的输入的信号是QMF域频率分量的序列。为了产生更自然发声的FDN输出，APF 301被应用于增益元件300的输出以引入相位分集(diversity)和增大的回声密度。可替代地或另外地，一个或多个全通延迟滤波器可以被应用于图3中描绘的混响箱前馈或反馈路径中(例如，除了或者代替每个混响箱中的延迟线或者FDN的输出(即，输出矩阵312的输出))。

在实现混响箱延迟z^-ni中，混响延迟n_i应当是互质数以避免混响模式在相同的频率一致。延迟的和应当大到足以提供足够的模态密度以便避免人造发声输出。但是最短的延迟应当短到足以避免BRIR的后期混响和其它分量之间的过大时间间隙。

通常，混响箱输出初始被平移(pan)到左或右双耳声道。通常，被平移到两个双耳声道的多组混响箱输出在数量上是相等的并且是互相排斥的。平衡两个双耳声道的定时也是期望的。所以如果具有最短延迟的混响箱输出进入一个双耳声道，则具有第二最短延迟的混响箱输出将进入另一个声道。

混响箱延迟可以跨频带不同，以便根据频率改变模态密度。一般来说，较低的频带需要较高的模态密度，因此较长的混响箱延迟。

混响箱增益g_i的幅度和混响箱延迟联合地确定图3的FDN的混响衰减时间：

T₆₀＝-3n_i/log₁₀(|g_i|)/F_FRM

其中，F_FRM是(图3的)滤波器组202的帧率。混响箱增益的相位引入分数延迟以克服与被量化到滤波器组的下采样因子网格(grid)的混响箱延迟相关的问题。

酉反馈矩阵308提供反馈路径中的混响箱之间的均匀混合。

为了均衡混响箱输出的水平，增益元件309将规范化增益1/|g_i|应用于每个混响箱的输出，以在保留由它们的相位引入的分数延迟的同时移除混响箱增益的水平影响。

输出混合矩阵312(也被标识为矩阵M_out)是2×2矩阵，其被配置为对来自初始平移的未被混合的双耳声道(分别地，元件310和311的输出)进行混合以实现具有期望的耳间相干性的输出左双耳声道和右双耳声道(在矩阵312的输出处声称的L信号和R信号)。未被混合的双耳声道在初始平移之后接近于不相关，因为它们不由任何共同的混响箱输出组成。如果期望的耳间相干性为Coh，其中|Coh|≤1，则输出混合矩阵312可以被定义为：

其中β＝arcsin(Coh)/2

因为混响箱延迟是不同的，所以未被混合的双耳声道中的一个将恒定地领先于另一个。如果混响箱延迟和平移模式的组合跨频带相同，则将导致声像偏置。如果平移模式跨频带交替使得混合的双耳声道在交替的频带中互相领先(lead)和落后(trail)，则这个偏置可以被减轻。这可以通过以下来实现：即，将输出混合矩阵312实现为在奇数频带中(即，在第一频带(其由图3的FDN 203处理)、第三频带等中)具有如前一段中所阐述的形式，并且在偶数频带中(即，在第二频带(其由图3的FDN 204处理)、第四频带等中)具有以下形式：

其中，β的定义保持相同。应当注意，矩阵312可以被实现为在FDN中对于所有频带是相同的，但是其输入的声道次序可以对于这些频带中的交替频带切换(例如，在奇频带中，元件310的输出可以被声称到矩阵312的第一输入并且元件311的输出可以被声称到矩阵312的第二输入，在偶频带中，元件311的输出可以被声称到矩阵312的第一输入并且元件310的输出可以被声称到矩阵312的第二输入。

在频带(部分)重叠的情况下，矩阵312的形式在其上交替的频率范围的宽度可以增大(例如，它可以对于每两个或三个连续的带交替一次)，或者以上表达式(对于矩阵312的形式)中的β的值可以被调整以确保平均相干性等于期望值以补偿连续频带的谱重叠。

发明人已认识到，设计(向输入信号声道)应用通过耳机实现自然发声且很好地外部化的音频所必需的最少处理的BRIR将是期望的。在本发明的典型实施例中，这通过设计同化不仅对空间感知重要、而且还对保持渲染的信号的自然度重要的双耳线索的BRIR来实现。改进空间感知、但是仅以音频失真为代价的双耳线索被避免。被避免的许多线索是我们的物理环境对由我们的耳朵接收的声音所具有的声学影响的直接结果。因此，本发明的BRIR设计方法的典型实施例融合了导致虚拟器性能得益的房间特征，并且避免引起不可接受的质量损伤的那些房间特征。简而言之，不是根据房间设计虚拟器BRIR，典型的实施例而是设计感知优化的BRIR，该感知优化的BRIR继而定义简约的虚拟房间。虚拟房间选择性地融合物理空间的声学性质，但是不受实际房间的约束的束缚。

发明内容

在一类实施例中，本发明是用于设计用于在耳机虚拟器中使用的双耳房间脉冲响应(BRIR)的方法。根据该方法，BRIR设计被归结为基于仿真模型(其产生候选BRIR，优选地根据感知线索和感知有益的声学约束)和至少一个目标函数(其评估候选BRIR中的每一个，优选地根据感知标准)的数值优化问题，并且包括识别候选BRIR(由通过每个目标函数对候选BRIR确定的性能度量指示)中的最佳(例如，最优)的一个的步骤。通常，根据该方法设计的每个BRIR(即，被确定为若干个候选BRIR中最佳的一个的每个候选BRIR)对于多声道音频信号的扬声器声道和/或对象声道的虚拟化是有用的。通常，该方法包括产生指示每个设计的BRIR的至少一个信号(例如，指示指示每个设计的BRIR的数据的信号)的步骤，并且可选地还包括将至少一个所述信号递送到耳机虚拟器或者将耳机虚拟器配置为应用至少一个设计的BRIR的步骤。

在典型的实施例中，仿真模型是随机性房间/头部模型。在数值优化(以选择一组候选BRIR中的最佳的一个)期间，随机性模型产生候选BRIR中的每一个，使得每个候选BRIR(在被应用于输入音频以产生预期被感知为从具有相对于预期收听者的预定方向和距离的源发出的滤波音频时)在最小化引起音染和时间拖尾伪像的房间效果的同时内在地应用对于预期的空间音频感知必要的听觉线索(“空间音频感知线索”)。通常，根据每个目标函数来数值评估每个候选BRIR与预定的“目标”BRIR之间的相似程度。可替代地，根据每个目标函数来以其它方式评估每个候选BRIR(例如，以确定候选BRIR的至少一个性质和至少一个目标性质之间的相似程度)。在一些情况下，被识别为“最佳”候选BRIR的候选BRIR表示虚拟房间的响应，该虚拟房间不容易物理可实现(例如，不可物理实现或者不容易物理可实现的简约的虚拟房间)，但可以被应用以产生传达通过耳机递送自然发声且很好地外部化的多声道音频所必需的听觉线索的双耳音频信号。

在真实(物理)房间中，早期反射和后期混响遵循几何结构和物理定律。例如，由房间导致的早期反射取决于房间的几何结构、源的位置以及收听者(两个耳朵)的位置。确定早期反射的水平、延迟和方向的常见方法是使用像源方法(参看Allen,J.B.和Berkley,D.A.(1979),“Image method for efficiently simulating small-room acoustics”,J.Acoust.Soc.Am.65(4),pp.943-950)。后期混响(例如，混响能量和衰减时间)主要取决于房间体积以及来自房间中的墙壁、地板、天花板和物体的声学吸收(参看Sabine,W.C.(1922)“Collected Papers on Acoustics”,Harvard University Press,USA)。在“虚拟”房间(就该短语在本文中被使用的意义而言)中，我们可以具有拥有不受物理约束的性质(延迟、方向、水平、衰减时间)的早期反射和后期混响。

对于虚拟房间的感知激发(motivate)的早期反射的示例在本文中被阐述。通过主观收听评价，我们可以确定早期反射延迟、方向、谱形状以及水平(其对于给定方向和距离处的音频源使空间音频质量最大化)。随机性处理进一步优化早期反射与后期响应联合的性质，并且考虑直接响应的影响。从候选BRIR(例如，通过优化确定的最优的候选BRIR)中的早期反射，我们可以逆向操作以导出虚拟房间中对于给定声源递送对应水平的空间音频质量所需的反射表面的位置和声学性质。当我们对各种声源方向和距离重复该处理时，我们发现导出的反射表面对于每个声源方向和距离是唯一的。每个声源在它自己的虚拟房间中被呈现，与其它声源无关。在物理房间里，每个反射表面以至少很小的方式对每一个声源位置的BRIR做出贡献，早期反射的性质不取决于HRTF，也不取决于后期响应，并且早期反射受几何结构和物理定律的约束。

在另一类实施例中，本发明是用于响应于多声道音频输入信号的一组声道(例如，这些声道中的每一个或者全频率范围声道中的每一个)产生双耳信号的方法，该方法包括以下步骤：(a)将双耳房间脉冲响应(BRIR)应用于所述组的每个声道(例如，通过将所述组的每个声道与对应于所述声道的BRIR进行卷积)，从而产生滤波信号，其中，每个所述BRIR已根据本发明的实施例被设计(即，预先确定)；以及(b)组合滤波信号以产生双耳信号。

在另一类实施例中，本发明是被配置为执行本发明方法的任何实施例的音频处理单元(APU)。在另一类实施例中，本发明是包括存储器(例如，缓冲存储器)的APU，该存储器(例如，以非暂时性的方式)存储指示根据本发明方法的任何实施例确定的BRIR的数据。APU的示例包括，但不限于，被配置为产生BRIR的处理系统、虚拟器、解码器、编解码器、预处理系统(预处理器)、后处理系统(后处理器)、以及这样的元件的组合。

附图说明

图1是系统(20)的框图，该系统(20)包括耳机虚拟化系统(其可以被实现为本发明的耳机虚拟化系统的实施例)。耳机虚拟化系统可以(在子系统2、……、4中)应用常规确定的BRIR或者根据本发明的实施例确定的BRIR。

图2是图1的子系统2、……、4中的一个的实施例的框图。

图3是包括在图2的系统的一些实现中的类型的FDN的框图。

图4是如下系统的框图，该系统包括APU 30(其被配置为根据本发明的实施例设计BRIR)、APU 10(其被配置为使用BRIR对多声道音频信号的声道执行虚拟化)以及递送子系统40(其被耦合和配置为将指示BRIR的数据或信号递送给APU 10)。

图5是被配置为执行本发明的BRIR设计和产生方法的实施例的系统的实施例的框图。

图6是图5的子系统101(具有HRTF数据库102)的典型实现的框图，该子系统101被配置为产生候选BRIR的序列。

图7是图6的子系统113的实施例。

图8是图6的子系统114的实施例。

注释和术语

在整个本公开中，包括在权利要求中，表达“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)被广义地用于表示直接对信号或数据执行操作、或者对信号或数据的处理版本(例如，对在对信号执行操作之前已经历初步滤波或预处理的信号的版本)执行操作。

在整个本公开中，包括在权利要求中，表达“系统”被广义地用于表示设备、系统或子系统。例如，实现虚拟器的子系统可以被称为虚拟器系统，并且包括这样的子系统的系统(例如，响应于多个输入产生X个输出信号的系统，在该系统中，子系统产生输入中的M个，而其它X-M个输入从外部源接收)也可以被称为虚拟器系统(或虚拟器)。

在整个本公开中，包括在权利要求中，术语“处理器”被广义地用于表示可编程或者以其它方式可配置(例如，利用软件或固件)为对数据(例如，音频、或视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其它可配置的集成电路或芯片组)、被编程和/或以其它方式配置为对音频或其它声音数据执行管线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

在整个本公开中，包括在权利要求中，表达“分析滤波器组”被广义地用于表示被配置为对时域信号应用变换(例如，时域到频域变换)以在一组频带中的每一个中产生指示时域信号的内容的值(例如，频率分量)的系统(例如，子系统)。在整个本公开中，包括在权利要求中，表达“滤波器组域”被广义地用于表示由分析滤波器组产生的频率分量的域(例如，这样的频率分量在其中被处理的域)。滤波器组域的示例包括(但不限于)频率域、正交镜像滤波器(QMF)域以及混合复正交镜像滤波器(HCQMF)域。可以被分析滤波器组应用的变换的示例包括(但不限于)离散余弦变换(DCT)、修正离散余弦变换(MDCT)、离散傅立叶变换(DFT)以及小波变换。分析滤波器组的示例包括(但不限于)正交镜像滤波器(QMF)、有限脉冲响应滤波器(FIR滤波器)、无限脉冲响应滤波器(IIR滤波器)、分频滤波器以及具有其它合适的多速率结构的滤波器。

在整个本公开中，包括在权利要求中，术语“元数据”是指与对应的音频数据(还包括元数据的比特流的音频内容)分离且不同的数据。元数据与音频数据相关联，并且指示音频数据的至少一个特征或特性(例如，何种类型的处理已经对音频数据执行或者应当对音频数据执行、或者由音频数据指示的对象的轨迹)。元数据与音频数据的关联是时间同步的。因此，当前的(最近接收的或更新的)元数据可以指示对应的音频数据同时具有指示的特征和/或包括指示类型的音频数据处理的结果。

在整个本公开中，包括在权利要求中，术语“耦合”或“被耦合”被用于意指直接或间接连接。因此，如果第一设备耦合到第二设备，则连接可以是通过直接连接，或者通过经由其它设备和连接的间接连接。

在整个本公开中，包括在权利要求中，以下表达具有以下定义：

扬声器和喇叭同义地被用于表示任何发声换能器。该定义包括实现为多个换能器的喇叭(例如，低音扬声器和高音扬声器)；

扬声器馈送：将被直接应用于喇叭的音频信号或者将被应用于串联的放大器和喇叭的音频信号；

声道(或“音频声道”)：单音音频信号。这样的信号通常可以被以如等同于将信号直接应用于期望或标称位置处的喇叭的这样的方式渲染。期望位置可以如典型地物理喇叭的情况那样是静态的，或者是动态的；

音频节目：一组一个或多个音频声道(至少一个扬声器声道和/或至少一个对象声道)，并且可选地还有相关联的元数据(例如，描述期望的空间音频呈现的元数据)；

扬声器声道(或“扬声器馈送声道”)：与(期望或标称位置处的)指定喇叭或者与定义的扬声器配置内的指定扬声器区域相关联的音频声道。扬声器声道被以如等同于将音频信号直接应用于(期望或标称位置处的)指定喇叭或者指定扬声器区域中的扬声器的这样的方式渲染；

对象声道：指示由音频源发出的声音的音频声道(有时被称为音频“对象”)。通常，对象声道确定参数化的音频源描述(例如，指示参数化的音频源描述的元数据被包括在对象声道中或者被提供有对象声道)。源描述可以确定由源发出的声音(作为时间的函数)、作为时间的函数的源的表观位置(例如，3D空间坐标)、以及可选地表征源的至少一个附加参数(例如，表观源大小或宽度)；

基于对象的音频节目：包括一组一个或多个对象声道(并且可选地还包括至少一个扬声器声道)、并且可选地还有相关联的元数据(例如，指示发出由对象声道指示的声音的音频对象的轨迹的元数据、或以其它方式指示由对象声道指示的声音的期望空间音频呈现的元数据、或指示至少一个音频对象的标识的元数据(所述音频对象是由对象声道指示的声音的源))的音频节目；以及

渲染：将音频节目转换成一个或多个扬声器馈送的处理、或将音频节目转换成一个或多个扬声器馈送并且使用一个或多个喇叭将扬声器馈送转换成声音的处理(在后一种情况下，渲染在本文中有时被称为“由”喇叭进行的渲染)。音频声道可以通过将信号直接应用于期望位置处的物理喇叭而被简单地渲染(“在”期望位置处)，或者一个或多个音频声道可以使用被设计为(对于收听者来说)基本上等同于这样的简单渲染的各种虚拟化技术中的一种而被渲染。在这个后一种情况下，每个音频声道可以被转换成将被应用于一般不同于期望位置的已知位置中的喇叭的一个或多个扬声器馈送，使得由喇叭响应于馈送而发出的声音将被感知为从期望位置发出。这样的虚拟化技术的示例包括经由耳机的双耳渲染(例如，使用为耳机佩戴者仿真环绕声的多达7.1个声道的Dolby耳机处理)以及波场合成。

本文中的多声道音频信号是“x.y”或“x.y.z”声道信号的注释表示该信号具有“x”个全频率扬声器声道(对应于标称地定位在假定收听者的耳朵的水平面中的扬声器)、“y”个LFE(或超低音)声道，并且可选地还有“z”个全频率头顶扬声器声道(对应于定位在假定收听者的头部上方(例如，在房间的天花板处或附近)的扬声器)。

具体实施方式

本发明的许多实施例在技术上是可能的。本领域普通技术人员从本公开将清楚如何实现它们。将参照图1、4、5、6、7和8来描述本发明的系统、方法和介质的实施例。

如上面提到的，本发明的一类实施例包括被配置为执行本发明方法的任何实施例的音频处理单元(APU)。在另一类实施例中，本发明是包括存储器(例如，缓冲存储器)的APU，该存储器(例如，以非暂时性的方式)存储指示根据本发明方法的任何实施例确定的BRIR的数据。

上述图1的系统20是包括耳机虚拟器(其包括上述元件2、……、4、5、6和8)的APU的示例。该虚拟器可以通过将BRIR子系统2、……、4中的每一个配置为向每个全频率范围声道X_i应用已根据本发明的实施例确定的双耳房间脉冲响应BRIR_i而被实现为本发明的耳机虚拟化系统的实施例。在如此配置的虚拟器的情况下，系统20(在一些实施例中为解码器)也是作为本发明的实施例的APU的示例。

本发明系统的其它示例性实施例是图4的音频处理单元(APU)30以及图4的APU10。APU 30是被配置为根据本发明的实施例产生BRIR的处理系统。APU 30包括处理子系统(“BRIR产生器”)31以及缓冲存储器(缓冲器)32，处理子系统31被配置为根据本发明的任何实施例设计BRIR，缓冲存储器32耦合到BRIR产生器31。在操作中，缓冲器32(例如，以非暂时性的方式)存储指示一组BRIR的数据(“BRIR数据”)，该组中的每个BRIR已根据本发明方法的实施例被设计(确定)。APU 30被耦合和配置为将指示BRIR数据的信号声称到递送子系统40。

递送子系统40被配置为存储信号(或者存储由信号指示的BRIR数据)和/或将信号传输到APU 10。APU 10被耦合和配置(例如，被编程)为从子系统40接收信号(或由信号指示的BRIR数据)(例如，通过从子系统40中的储存器读取或检索BRIR数据、或者接收由子系统40传输的信号)。APU 10的缓冲器19(例如，以非暂时性的方式)存储BRIR数据。APU 10的BRIR子系统12、……和14以及相加元件16和18是被配置为向多声道音频输入信号的每个全频率范围声道(X₁、……、X_N)应用双耳房间脉冲响应(由通过子系统40递送的BRIR数据确定的BRIR中的一个)的耳机虚拟器。

为了配置耳机虚拟器，BRIR数据被从缓冲器19声称到子系统12的存储器13和子系统14的存储器15(以及与子系统12和14并行耦合的每个其它BRIR子系统的存储器以对音频输入信号声道X₁、……和X_N中的一个进行滤波)。BRIR子系统12、……和14中的每一个被配置为应用由存储在其中的BRIR数据指示的一组BRIR中的任何选择的一个，因此BRIR数据(其已被递送到缓冲器19)在每个BRIR子系统(12、…….或14)中的存储将BRIR子系统配置为向多声道音频输入信号的声道X₁、……和X_N中的一个应用由BRIR数据指示的BRIR中的选择的一个(与声道X₁、……或X_N的音频内容的源方向和距离对应的BRIR)。

声道X₁、……和X_N(其可以是扬声器声道或对象声道)中的每一个对应于相对于假定收听者的特定的源方向和距离(即，从对应扬声器的假定位置到假定收听者位置的直接路径的方向以及对应扬声器的假定位置到假定收听者位置之间的距离)，并且耳机虚拟器被配置为将每个这样的声道与针对对应的源方向和距离的BRIR进行卷积。因此，子系统12被配置为将声道X₁与BRIR₁(由通过子系统40递送的BRIR数据确定并且存储在存储器13中的、与声道X₁的源方向和距离对应的BRIR中的一个)进行卷积，子系统4被配置为将声道X_N与BRIR_N(由通过子系统40递送的BRIR数据确定并且存储在存储器15中的、与声道X_N的源方向和距离对应的BRIR中的一个)进行卷积，对于每个其它的输入声道依此类推。每个BRIR子系统(子系统12、……、14中的每一个)的输出是包括左声道和右声道的时域双耳信号(例如，子系统12的输出是包括左声道L₁和右声道R₁的双耳信号)。

BRIR子系统的左声道输出在相加元件16中被混合，而BRIR子系统的右声道输出在相加元件18中被混合。元件16的输出是从虚拟器输出的双耳音频信号的左声道L，而元件18的输出是从虚拟器输出的双耳音频信号的右声道R。

APU 10可以是解码器，该解码器被耦合以接收编码音频节目并且包括子系统(图4中未示出)，该子系统被耦合和配置为包括通过从该节目恢复N个全频率范围声道(X₁、……、X_N)来对节目进行解码并且将它们提供给虚拟器子系统(其包括如所示那样耦合的元件12、……、14、16和18)的元件12、……和14。解码器可以包括附加的子系统，该附加的子系统中的一些执行与由虚拟化子系统执行的虚拟化功能不相关的功能，并且该附加的子系统中的一些可以执行与虚拟化功能相关的功能。例如，后面的功能可以包括从编码节目提取元数据并且将该元数据提供给虚拟化控制子系统，该虚拟化控制子系统利用元数据来控制虚拟器子系统的元件。

我们接着描述用于BRIR设计和/或产生的本发明方法的实施例。在一类这样的实施例中，BRIR设计被归结为基于仿真模型(其产生候选BRIR，优选地根据感知线索和声学约束)和至少一个目标函数(其评估候选BRIR中的每一个，优选地根据感知标准)的数值优化问题，并且包括识别候选BRIR(由通过每个目标函数对候选BRIR确定的性能度量指示)中的最佳(例如，最优)的一个的步骤。通常，根据该方法设计的每个BRIR(即，被确定为若干个候选BRIR中的最优或“最佳”的一个的每个候选BRIR)对于多声道音频信号的扬声器声道和/或对象声道的虚拟化是有用的。通常，该方法包括产生指示每个设计的BRIR的至少一个信号(例如，指示指示每个设计的BRIR的数据的信号)，并且可选地还包括将至少一个所述信号递送到耳机虚拟器(或者将耳机虚拟器配置为应用至少一个至少一个设计的BRIR)的步骤。在典型的实施例中，该数值优化问题通过应用本领域众所周知的若干种方法中的任何一种(例如，随机搜索(蒙特卡罗(Monte Carlo))、单纯形(Simplex)或模拟退火(SimulatedAnnealing))以根据每个目标函数评估候选BRIR并且将候选BRIR中的最佳(例如，最优)的一个识别为根据本发明设计的BRIR来进行求解。在一个示例性实施例中，一个目标函数(对于每个候选BRIR)确定指示感知域频率响应的性能度量，另一个(对于每个候选BRIR)确定指示时间响应的性能度量，并且另一个(对于每个候选BRIR)确定指示对话清晰度的性能度量，并且所有三个目标函数都被利用以评估每个候选BRIR。

在一类实施例中，本发明是用于设计BRIR(例如，图4的BRIR₁或BRIR_N)的方法，该BRIR在与输入音频声道卷积时产生指示来自具有相对于预期收听者的方向和距离的源的声音的双耳信号，所述方法包括以下步骤：

(a)根据仿真模型(例如，由图4的BRIR产生器31的图5实现的子系统101实现的模型)来产生候选BRIR，该仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，候选BRIR方向至少基本上等于所述方向，并且候选BRIR距离至少基本上等于所述距离；

(b)通过根据至少一个目标函数对候选BRIR进行处理来产生性能度量(例如，在图4的BRIR产生器31的图5实现的子系统107中产生的那些)，所述性能度量包括候选BRIR中的每一个的性能度量(在图5中被称为“品质因数”)；以及

(c)识别(例如，在图4的BRIR产生器31的图5实现的子系统107或108中)性能度量中具有极值的一个，并且将候选BRIR中性能度量具有所述极值的一个识别为BRIR。当利用两个或更多个目标函数时，每个候选BRIR的性能度量可以是“总体”性能度量，该“总体”性能度量是候选BRIR的单个性能度量(根据目标函数中的不同的一个目标函数确定的每一个性能度量)的适当加权的组合。其总体性能度量具有极值的候选BRIR(有时被称为“存活BRIR”)然后将在步骤(c)中被识别。

通常，步骤(a)包括以下步骤：根据预定的感知线索产生候选BRIR，使得候选BRIR中的每一个在与输入音频声道卷积时产生指示提供所述感知线索的声音的双耳信号。这样的线索的示例包括(但不限于)：耳间时间差和耳间声级差(例如，由图5的仿真模型101的图6实施例的子系统102和113实现)、耳间相干性(例如，由图5的仿真模型101的图6实施例的子系统110和114实现)、混响时间(例如，由仿真模型101的图6实施例的子系统110和114实现)、直接与混响比(例如，由仿真模型101的图6实施例的组合器115实现)、早期反射与后期响应比(例如，由仿真模型101的图6实施例的组合器115实现)、以及回声密度(例如，由图5的仿真模型101的图6实施例的子系统110和114实现)。

在典型的实施例中，仿真模型是随机性房间/头部模型(例如，在图4的BRIR产生器31中实现)。在数值优化(以选择一组候选BRIR中的最佳的一个)期间，随机性模型产生候选BRIR中的每一个，使得每个候选BRIR(在被应用于输入音频以产生预期被感知为从具有相对于预期收听者的预定方向和距离的源发出的滤波音频时)在最小化引起音染和时间拖尾伪像的房间效果的同时内在地应用对于预期的空间音频感知必要的听觉线索(“空间音频感知线索”)。

随机性模型通常使用确定性元素和随机(随机性)元素的组合。确定性元素(诸如必要的感知线索)用作对优化处理的约束。随机元素(诸如早期响应和后期响应的房间反射波形形状)产生在BRIR优化问题本身的公式化中出现的随机变量。

每个候选和理想的BRIR响应(“目标”或“目标BRIR”)之间的相似程度通过使用每个所述目标函数(其继而确定候选BRIR中的每一个的性能的度量)而被数值评估(例如，在图4的BRIR产生器31中)。最优解被当作产生具有极值的性能度量(由目标函数确定)的仿真模型输出(候选BRIR)，即，具有最佳的性能的度量(由目标函数确定)的候选BRIR。指示每个声源方向和距离的最优(最佳)的候选BRIR的数据被产生(例如，由图4的BRIR产生器31产生)并且被存储(例如，被存储在图4的缓冲存储器32中)和/或被递送给虚拟器系统(例如，图4的APU 10的虚拟器子系统)。

图5是被配置为执行本发明的BRIR设计和产生方法的实施例的系统(其可以由例如图4的BRIR产生器31实现)的框图。该实施例使用一个或多个感知激发的失真度量来从多个这样的候选BRIR选择最优的BRIR候选。

图5的随机性房间模型子系统101被配置为应用随机性房间模型来产生候选BRIR。指示声源方向(方位角和仰角)及距离(离假定收听者位置的距离)的控制值被提供作为随机性房间模型子系统101的输入，随机性房间模型子系统101可以访问HRTF数据库(102)以查找与源方向和距离对应的直接响应(一对左HRFT和右HRTF)。通常，数据库102被实现为被耦合并且可被子系统101访问的存储器(其存储每个可选择的HRTF)。响应于HRFT对(针对源方向和距离从数据库102选择)，子系统101生成候选BRIR的序列，每个候选BRIR包括候选左脉冲响应和候选右脉冲响应。变换和频率分带级103被耦合和配置为将候选BRIR中的每一个从时域变换到感知域(感知分带的频域)以与目标BRIR的感知域表示进行比较。从级103输出的每个感知域候选BRIR是如下值(例如，频率分量)的序列：这些值指示一组感知确定的频带(例如，近似被称为Bark标度(scale)的众所周知的心理声学标度的非均匀频带的频带)中的每一个中的时域候选BRIR的内容。

目标BRIR子系统105是存储目标BRIR的存储器或者包括存储目标BRIR的存储器，目标BRIR已被系统操作者预先确定并且被提供给子系统105。变换级106被耦合和配置为将目标BRIR从时域变换到感知域。从级106输出的每个感知域目标BRIR是如下值(例如，频率分量)的序列：这些值指示一组感知确定的频带中的每一个中的时域目标BRIR的内容。

子系统107被配置为实现确定候选BRIR中的每一个的BRIR性能(例如，适宜性)的感知域度量的至少一个目标函数。子系统107根据每个所述目标函数来数值评估每个候选BRIR与目标BRIR之间的相似程度。具体地说，子系统107应用每个目标函数(将每个目标函数应用于每个候选BRIR和目标BRIR)来确定每个候选BRIR的性能的度量。

子系统108被配置为选择候选BRIR中具有由子系统107的输出指示的最佳的性能的度量(例如，以上提及的类型的最佳的总体性能度量)的一个BRIR作为最优BRIR。例如，最优BRIR可以被选择为候选BRIR中与目标BRIR具有最大相似程度(由子系统107的输出指示)的一个BRIR。在理想的情况下，目标函数表示虚拟器主观性能的所有方面，包括但不限于：谱自然度(相对于立体声下混的音色)；对话清晰度；以及声源定位、外部化和宽度。可以用作用于评估对话清晰度的目标函数的标准化方法是语音质量的感知评估(PESQ)(参看ITU-T Recommendation P.862.2,“Wideband extension to Recommendation P.862for theassessment of wideband telephone networks and speech codecs”,Nov.2007)。

作为仿真的结果，发明人已发现增益优化的对数谱失真测度D(下面定义)是有用的感知域度量。该度量(对每个候选BRIR和目标BRIR对)提供通过候选BRIR渲染的音频信号的谱自然度的测度。D的较小值对应于生成渲染的音频信号的较低的音色失真和更自然的质量的BRIR。该度量D是从下面的在感知域(对目标BRIR的临界带功率谱和目标BRIR的临界带功率谱进行操作)中表达的目标函数(图5的子系统107可以容易地被配置为实现该目标函数)确定的：

其中，D＝平均对数谱失真，

C_nk＝对于候选BRIR的声道n、频带k的感知能量，

T_nk＝对于目标BRIR的声道n、频带k的感知能量，

g_log＝使D最小化的对数增益偏移，

w_n＝对于声道n的声道加权因子，以及

B＝感知带的数量。

在本发明方法的针对每个候选BRIR产生至少基本上等于以上度量的性能度量的一些实施例中，该方法包括将候选BRIR中的每一个的感知分带的频域表示与和所述候选BRIR中的每一个的源方向对应的目标BRIR的感知分带的频域表示进行比较的步骤。(候选BRIR或对应的目标BRIR)的每个这样的感知分带的频域表示包括具有B个频带的左声道和具有B个频带的右声道。以上对于度量D的表达式中的索引n是指示声道的索引，该索引的值n＝1指示左声道，而该索引的值n＝2指示右声道。

以上定义的度量D的有用属性是，它对虚拟器中不自然的音频质量的公共源、低频的谱梳理失真是敏感的。度量D对于由于以上项g_log而导致的候选BRIR与目标BRIR之间的宽带增益偏移也是不敏感的，g_log在本发明方法(根据图5实现)的典型的实施例中被如下定义：

在这样的实施例中，对于每个候选BRIR以最小化对于该候选BRIR所得到的均方失真D的方式单独地计算项g_log(通过子系统107计算)。

其它性能度量可以被子系统107(代替或补充以上定义的度量D)实现以评估候选BRIR性能的不同方面。另外，以上对于D和g_log的表达式可以通过分别用候选BRIR和目标BRIR的临界带中的特定响度替代以上对于D和g_log的表达式中的log(C_nk)和log(T_nk)项而被修改(以确定在特定响度域中表达的用于代替度量D的另一个失真测度)。

发明人还已发现，在本发明的典型实施例中，被用方向无关的均衡滤波器均衡的消声HRTF响应是合适的目标BRIR(将从图5的子系统105输出)。当子系统107应用的目标函数将增益优化的对数谱失真D确定为性能度量时，谱音染的程度通常显著低于传统的收听房间模型的谱音染的程度。

根据图5实施例，子系统101的典型实现以将参照图6描述的方式作为直接脉冲响应部分与早期和后期脉冲响应部分(BRIR区域)的和产生候选BRIR中的每一个。如以上参照图5提到的，向子系统101指示的声源方向和距离通过使子系统101从HRTF数据库102选择对应的一对左HRTF和右HRTF(直接响应BRIR部分)来确定每个候选BRIR的直接响应。

反射控制子系统111响应于确定直接响应的相同的声源方向和距离来识别(即，选择)一组早期反射路径(其包括一个或多个早期反射路径)，并且将指示每个这样的一组早期反射路径的控制值声称到早期反射产生子系统(产生器)113。早期反射产生器113从数据库102选择一对左HRTF和右HRTF，所述一对左HRTF和右HRTF对应于由子系统111响应于确定直接响应的相同的声源方向和距离而确定的(每组早期反射路径的)每个早期反射的到达方向(到达收听者的方向)。响应于对于由子系统111确定的每组早期反射路径的选择的一对(多对)左HRTF和右HRTF，产生器113确定候选BRIR中的一个的早期响应部分。

后期响应控制子系统110响应于确定直接响应的相同的声源方向和距离来将控制信号声称到后期响应产生器114，以使产生器114输出候选BRIR中与声源方向和距离对应的一个的后期响应部分。

直接响应、早期反射和后期响应在组合器子系统115中被(以适当的时间偏移和重叠)一起相加以产生每个候选BRIR。被声称到子系统115的控制值指示直接与混响比(DR比)和早期反射与后期响应比(EL比)，这些比被子系统115使用以设置它组合的直接、早期和后期BRIR部分的相对增益。

就图6的用虚线框指示的子系统(即，子系统111、113和114)中的每一个响应于被声称到子系统101的每个声源方向和距离而输出(部分由随机变量驱动的)输出序列的意义而言，图6的用虚线框指示的子系统是随机性元件。在操作中，图6实施例产生随机(例如，伪随机)变量的至少一个序列，并且由子系统111、113和114执行的操作(因此候选BRIR的产生)部分由随机变量中的至少一些驱动。因此，响应于被声称到子系统101的每个声源方向和距离，子系统111确定多组早期反射路径的序列，并且子系统113和114将早期反射BRIR部分和后期响应BRIR部分的序列声称到组合器115。作为响应，组合器115将序列中的每组早期反射BRIR部分与序列中的每个对应的后期响应BRIR部分以及与针对声源方向和距离选择的HRTF进行组合，以产生候选BRIR序列中的每个候选BRIR。驱动子系统111、113和114的随机变量应提供足够的自由度以使得随机性房间模型的图6实现能够在优化期间产生多样化的一组候选BRIR。

通常，反射控制子系统111被实现为施加由其输出所指示的多组早期反射中的早期反射的期望延迟、增益、形状、持续时间和/或方向。通常，后期响应控制子系统110被实现为对原始随机序列改变耳间相干性、回声密度、延迟、增益、形状和/或持续时间以便产生由其输出所指示的后期响应。

在随机性房间模型的图6实现的变型中，从子系统114输出的每个后期响应部分可以通过半确定性或全确定性过程来产生(例如，它可以是预定的后期混响脉冲响应，或者可以通过计算混响算法(例如，通过酉反馈延迟网络(UFDN)实现的算法)或Schroeder混响算法来确定)。

在图6的子系统111的典型实现中，由子系统111确定的每组早期反射中的早期反射的数量和每个早期反射的到达方向是基于感知考虑。例如，众所周知的是，将早期地板反射包括在BRIR中对于耳机虚拟器中的良好的源定位是重要的。然而，发明人已进一步发现：

发自于与声源相同的方位角和仰角的早期反射可以改进源定位和聚焦，并且增加感知距离；

随着早期反射发自于远离声源方向的更广的角度，声源大小一般变得更大并且更扩散；

对于前置声源，来自桌面的早期反射可以比地板甚至更有效；并且

具有与声源的到达方向相反的到达方向的早期反射可以增添宽敞的感觉，但是是以定位性能为代价的。例如，对于头顶声源，已发现地板反射降低性能。

设想子系统111被实现为根据这样的感知考虑来(对于每个源方向和距离)确定多组早期反射。

发明人还已发现，某些反射方向扩展模式可以改进源定位。如由上面提到的发自于与声源相同的方位角和仰角的早期反射可以改进源定位和聚焦并且增加感知距离的观察所建议的，用于由子系统111实现的被发现特别有效的一个策略是将对于给定源方向和距离的早期反射设计为源自与声源相同的方向并且在后期响应期间在空间中渐进地成扇形散开(fan-out)以最终包围收听者。

从以上发现，明显的是，声像控制的重要方面是通过早期反射以及它们转变到后期BRIR响应的方式提供的。对于最优的虚拟器性能，反射(例如，由图6的子系统111的输出确定的那些)应当针对每个声源定制。例如，在每个声源后面并且垂直于声音从源行进到耳朵的线(由子系统111的输出指示)增添独立的虚拟墙可以改进候选BRIR的性能。通过将子系统111配置为使得其输出还指示地板或桌面反射来使该配置对于前置源甚至更有效。早期反射的这样的感知激发的布置容易通过本发明的图6实施例实现，但是将至多难以在传统的房间模型(其具有相对方位固定并且没有针对每个声源进行感知优化的反射表面的布置)中实现，尤其是当要求虚拟器支持移动声源(音频对象)时。

接着，参照图7，我们描述图6的早期反射产生器113的实施例。其目的是使用从反射控制子系统111接收的参数来合成早期反射。产生器113的图7实施例将传统的房间模型元件与两个感知激励的元件组合。图7的高斯独立同分布(IID)噪声产生器120被配置为产生用于作为反射原型使用的噪声。唯一的噪声序列是针对每个候选BRIR中的每个反射被选择，从而在反射频率响应中提供多个自由度。如果输入的绝对值小于最大输入值的预定百分比，则噪声序列可选地被中心修剪(clip)子系统121(如果存在的话)修改为用零输出值代替(被声称到子系统121的序列的)每个输入值，并且被镜面处理子系统122(其将镜面反射分量与其相加)修改。可选地，对反射表面的吸收进行建模的滤波器123(如果被实现的话)接着被应用，后面跟着方向无关HRTF均衡滤波器124。在下一个处理级(梳理减少级125)中，滤波器124的输出经历具有延迟相关的截止频率的高通滤波。截止频率针对每个反射单独选择，以便在渲染的音频信号中可接受的谱梳理的约束下最大化低频能量。发明人已从理论考虑和实践发现，将规范化的截止频率设置为1.5除以反射延迟(以采样计)通常在实现设计约束中工作得很好。

攻击(attack)和衰减包络修改级126通过应用窗来修改从级125输出的反射原型的攻击和衰减特性。各种窗形状是可能的，但是指数衰减窗通常是合适的。最后，HRTF级127应用与反射到达方向对应的HRTF(其从图6的HRTF数据库102检索)，从而生成被声称到图6的组合器子系统115的双耳反射原型响应。

就图7的子系统120和127分别响应于被声称到子系统101的每个声源方向和距离而输出(部分由随机变量驱动的)输出的序列的意义而言，子系统120和127是随机性元件。在操作中，图7的子系统122、123、125、126和127从(图6的)反射控制子系统111接收输入。

接着，参照图8，我们描述图6的后期响应产生器114的实施例。

在典型的实现中，后期响应的产生是基于对候选BRIR给予必要的时间、频谱和空间声学属性的随机性模型。如在物理声学空间中那样，在早期反射阶段期间，反射稀疏地到达耳朵，使得每个反射的微观结构是可观察的并且影响听觉感知。在后期响应阶段中，回声密度通常增大到单个反射的微观特征不再是可观察的点。相反，混响的宏观属性变为必要的听觉线索。这些频率相关的属性包括能量衰减时间、耳间相干性以及谱分布。

从早期响应阶段到后期响应阶段的转变是渐进过程。在产生的后期响应中实现这样的转变帮助聚焦声源图像、减小空间泵浦(pumping)以及改进外部化。在典型的实施例中，转变实现涉及控制回声密度的时间模式、耳间时间差或“ITD”、以及耳间声级差或“ILD”(例如，通过使用图8的回声产生器130)。回声密度通常随着时间二次方地增大。这里，与物理声学空间的相似性结束。发明人已发现，如果初始ITD/ILD模式增强源方向的模式，则声源图像是最紧凑、稳定并且外部化的。当回声密度低时，产生的后期响应中的ITD/ILD模式类似于与单个反射对应的定向源的模式。随着回声密度增大，ITD/ILD方向性开始变宽，并且逐渐演变成扩散声场的模式。

产生具有上述转变特性的后期响应可以由随机性回声产生器(例如，图8的回声产生器130)实现。回声产生器130的典型实现的操作包括以下步骤：

1.在后期响应的整个长度期间回声产生器沿着时间轴进行处理的每一时刻，首先实现决定反射是否应当在该给定时刻产生的独立随机二元判决。对于增大的回声密度，肯定判决的概率随着时间增大，理想地二次方地增大。如果反射将被产生，则以期望的ITD/ILD特性产生一对单脉冲(每个在双耳声道中的一个中)。ITD/ILD控制的处理通常包括以下子步骤：

a.产生第一耳间延迟值d_DIR，其等于源方向的ITD。还产生第一随机采样值对(1×2矢量)x_DIR，其携载源方向的ILD。ITD和ILD可以基于与源方向相关联的HRTF或合适的头部模型来确定。两个采样值的符号应当是相同的。两个采样的平均值应当大致遵循具有零均值和单位标准差的正态分布。

b.随机地产生第二耳间延迟值d_DIF，其遵循来自扩散声场的反射的ITD模式。还产生第二随机采样值对(1×2矢量)x_DIF，其遵循来自扩散声场的反射的ILD模式。扩散场ITD可以通过在-d_MAX与d_MAX之间具有均匀分布的随机变量来建模，其中，d_MAX是与耳朵之间的距离对应的延迟。采样值可以源自于具有零均值和单位标准差的独立正态分布，并且然后可以基于扩散场ILD约束而被修改。x_DIF中的两个值的符号应当是相同的。

c.计算两个耳间延迟的加权平均d_REF＝(1-α)d_DIR+αd_DIF，以及两个采样值对的加权平均x_REF＝(1-α)x_DIR+αx_DIF。这里，α是0与1之间的混合权重。

d.基于d_REF和x_REF来创建双耳脉冲对。该脉冲对被以|d_REF|的时间扩展围绕当前时刻放置，并且d_REF的符号确定哪个双耳声道将领先。具有较大绝对值的x_REF中的采样值被用作领先脉冲的采样值，另一个被用作落后脉冲。如果该对的任何一个脉冲将被放置在在前面的时刻中已经使用的时隙处(由于耳间延迟的时间扩展)，则优选的是将新的值加到现有的值，而不是代替它；以及

2.重复步骤1，直到到达BRIR后期响应结束为止。权重α在后期响应的开始被设置为0.0，并且逐渐增大到1.0以创建对ITD/ILD的定向到扩散转变效果。

在后期响应产生器114的其它实现中，执行其它方法来创建类似的转变行为。为了对反射引入扩散和去相关效果以改进自然度，作为由回声产生器130执行的最后一个步骤，可以将一对多级全通滤波器(APF)分别应用于产生的双耳响应的左声道和右声道。发明人已发现，为了常见应用中的性能最佳，在最大双耳去相关可能的情况下，APF的时间扩展效果应当为1ms的量级。APF还需要具有相同的群延迟，以便保持双耳平衡。

如先前提到的，后期响应的宏观属性在空间和音色二者上具有深刻和关键的感知影响。能量衰减时间是表征声学环境的必要属性。过长的衰减时间引起使音频质量降低的过度且不自然的混响。它对于对话清晰度尤其不利。另一方面，不足的衰减时间减少了外部化，并且引起与声学空间的不匹配。耳间相干性对于声源图像的聚焦和深度感知是必要的。太高的相干性值使声源图像变得内部化，而太低的相干性值使声源图像扩展或分裂(split)。跨频率的不平衡的相干性也使声源图像伸展或分裂。后期响应的谱分布对于音色和自然度是必要的。后期响应的理想的谱分布通常在500Hz与1kHz之间具有平坦且最高的水平。它在高频端逐渐减小以遵循自然声学特性，并且在低频端逐渐减小以避免梳理伪像。作为减小梳理的额外机制，使后期响应的斜升在较低频率中较慢。

为了施加这些宏观属性，后期响应产生器114的图8实施例被如下配置。随机性回声产生器130的输出被谱成形滤波器131滤波(在图8中在时域中，但是可替代地在DFT滤波器组132之后在频域中)，并且滤波器131的输出被(DFT滤波器组132)分解到频带中。在每个频带中，2×2混合矩阵(由级133实现)被应用以(在左双耳声道与右双耳声道之间)引入期望的耳间相干性，并且时间成形曲线被应用(被级134应用)以实施期望的能量攻击和衰减时间。级134还可以应用增益以控制期望的谱包络。在这些处理之后，子带信道被组装回到时域(由逆DFT滤波器组135组装)。应当注意，块131、133和134执行的功能的次序是可交换的。滤波器组135的输出的两个声道(左双耳声道和右双耳声道)是候选BRIR的后期响应部分。

候选BRIR的后期响应部分(在图6的子系统115中)被以基于源距离、直接与混响(DR)比以及早期反射与后期响应(EL)比的适当的延迟和增益与直接和早期BRIR分量组合。

在后期响应产生器114的图8实现中，DFT滤波器组132被用于从时域到频域的转换，逆DFT滤波器组135被用于从频域到时域的转换，并且谱成形滤波器131在时域中实现。在其它实施例中，另一种类型的分析滤波器组(代替DFT滤波器组132)被用于从时域到频域的转换，并且另一种类型的合成滤波器组(代替逆DFT滤波器组135)被用于从频域到时域的转换，或者后期响应产生器完全在时域中实现。

本发明的数值优化的BRIR产生方法的典型实施例的一个益处是，它们可以容易地产生满足范围广泛的设计标准中的任何一个的BRIR(例如，其HRTF部分具有某些期望的性质，和/或BRIR具有期望的直接与混响比)。例如，众所周知的是，HRTF从一个人到下一个人相当大地变化。本发明方法的典型实施例产生允许针对与特定收听者相关联的特定的一组HRTF优化虚拟收听环境的BRIR。可替代地或者另外地，收听者所位于的物理环境可以具有特定性质，诸如一个人在虚拟收听环境中想要模仿的某个混响时间(以及对应的BRIR)。这样的设计标准可以被作为约束包括在优化处理中。还一个示例是在收听者的位置处由于桌面或墙壁的存在而预期有强反射的情况。产生的BRIR可以基于考虑这样的约束的感知失真度量而被优化。

应当意识到，在一些实施例中，根据本发明产生的双耳输出信号指示意图被感知为从“头顶”源位置(收听者的耳朵的水平面上方的虚拟源位置)发出的音频内容和/或被感知为从收听者的耳朵的水平面中的虚拟源位置发出的音频内容。在任一种情况下，被利用以产生双耳输出信号的BRIR通常将具有HRFT部分(用于与声源方向和距离对应的直接响应)以及用于实现从物理或虚拟房间的模型导出的反射和后期响应的反射(和/或混响)部分。

为了渲染指示被感知为从“头顶”源位置发出的音频内容的双耳信号，所利用的渲染方法通常将与用于渲染仅指示意图被感知为从收听者的耳朵的水平面中的虚拟源位置发出的音频内容的双耳信号的常规方法相同。

通过仅仅是单独的HRTF(没有早期反射或后期响应部分)的BRIR提供的高度的错觉(illusion)可以通过将BRIR扩大到指示来自特定方向的早期反射来增加。特别地，发明人已发现，(当双耳输出将仅指示收听者的耳朵的水平面中的源时)通常使用的地面反射可以减小当双耳输出将指示头顶源时的高度感觉。为了防止这，BRIR可以根据本发明的一些实施例被设计为用与头顶源相同的方位角、但是在更高仰角的两个头顶反射来代替每个地面反射。发自于与声源相同的方位角和仰角的早期反射在头顶模型中被保持，从而使对于头顶源的早期反射的总数为三次。为了支持对象声道(以及扬声器声道)的虚拟化，可以使用插值的BRIR，其中，插值的BRIR通过在很小的一组预定的BRIR(其根据本发明的实施例而产生)之间进行插值而产生，所述预定的BRIR指示根据源位置的不同的地面和头顶早期反射。

在另一类实施例中，本发明是用于响应于多声道音频输入信号的一组N个声道而产生双耳信号的方法，其中，N是正整数(例如，N＝1，或者N大于1)，所述方法包括以下步骤：

(a)(例如，在图4的APU 10的N个子系统12、……、14中)将N个双耳房间脉冲响应BRIR₁、BRIR₂、……、BRIR_N应用于音频输入信号的所述一组声道，从而产生滤波信号，包括通过对于在从1到N的范围中的索引i的每个值将双耳房间脉冲响应中的第“i”个双耳房间脉冲响应BRIR_i应用于所述组的第“i”个声道；以及

(b)(例如，在图4的APU 10的元件16和18中)组合滤波信号以产生双耳信号，其中，每个所述BRIR_i在与所述组的第“i”个声道卷积时产生指示来自具有相对于预期收听者的方向x_i和距离d_i的源的声音的双耳信号，并且每个所述BRIR_i已通过包括以下步骤的方法设计：

(c)根据仿真模型(例如，由图4的BRIR产生器31的图5实现的子系统101实现的模型)产生候选双耳房间脉冲响应(候选BRIR)，该仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，候选BRIR方向至少基本上等于方向x_i，并且候选BRIR距离至少基本上等于距离d_i；

(d)(例如，在图4的BRIR产生器31的图5实现的子系统107中)通过根据至少一个目标函数对候选BRIR进行处理来产生性能度量，该性能度量包括候选BRIR中的每一个的性能度量；以及

(e)(例如，在图4的BRIR产生器31的图5实现的子系统107中)识别性能度量中具有极值的一个，并且(例如，在BRIR产生器31的图5实现的子系统107中)将候选BRIR中性能度量具有所述极值的一个识别为BRIR_i。

存在应用已根据本发明的实施例产生的BRIR的耳机虚拟器的许多实施例。每个虚拟器被配置为响应于M声道音频输入信号产生2声道双耳输出信号(所以通常包括分别实现下混矩阵的一个或多个下混级)，并且还被配置为将BRIR应用于被下混到2个输出声道的音频输入信号的每个声道。为了对扬声器声道(其指示与固定位置中的喇叭对应的内容)执行虚拟化，一个这样的虚拟器将BRIR应用于每个扬声器声道(使得双耳输出指示与扬声器声道对应的虚拟喇叭的内容)，每个这样的BRIR已被离线地(offline)预先确定。在运行时，多声道输入信号的每个声道与其相关联的BRIR进行卷积，并且卷积运算的结果然后被下混到2声道双耳输出信号。BRIR通常被预先缩放，使得等于1的下混系数可以被使用。可替代地，为了以较低的计算复杂度实现类似的结果，每个输入声道与单声道BRIR的“直接和早期反射”部分进行卷积，输入声道的下混与下混BRIR的后期混响部分(例如，单声道BRIR中的一个的后期混响部分)进行卷积，并且卷积运算的结果然后被下混到2声道双耳输出信号。

为了渲染多声道基于对象的音频输入信号的对象声道(对象声道中的每一个可以指示与固定的或移动的音频对象相关联的内容)，多种方法中的任何一种是可能的。例如，在一些实施例中，多声道输入信号的每个对象声道与相关联的BRIR(其已根据本发明的实施例被离线地预先确定)进行卷积，并且卷积运算的结果然后被下混到2声道双耳输出信号。可替代地，为了以较低的计算复杂度实现类似的结果，每个对象声道与单声道BRIR的“直接和早期反射”部分进行卷积，对象声道的下混与下混BRIR的后期混响部分(例如，单声道BRIR中的一个的后期混响部分)进行卷积，并且卷积运算的结果然后被下混到2声道双耳输出信号。

不管经历虚拟化的输入信号声道是扬声器声道、还是对象声道，最直接的虚拟化方法通常是将虚拟器实现为产生其指示足够数量的虚拟扬声器的输出的双耳输出以允许在虚拟扬声器的位置之间在由双耳信号的内容所指示的每个声源的3D空间中进行平滑的平移(panning)。在我们的经验中，指示来自假定收听者的耳朵的水平面中的七个虚拟扬声器的输出的双耳信号通常对于良好的平移性能是足够的，并且双耳信号还可以指示假定收听者的耳朵的水平面上方的虚拟位置中的少量的头顶虚拟扬声器(例如，四个头顶虚拟扬声器)的输出。利用四个这样的头顶虚拟扬声器和七个其它的虚拟扬声器，双耳信号将指示总共11个虚拟扬声器。

发明人已发现，适当设计的指示针对一个虚拟源方向和距离优化的反射的BRIR通常可以以最小的性能损失被用于相同虚拟环境(例如，虚拟房间)中的其它位置中的虚拟源。在该规则的例外的情况下，指示针对少量的不同虚拟源位置中的每一个优化的反射的BRIR可以被产生，并且它们之间的插值可以根据声源位置而执行(例如，在虚拟器中)，以产生用于每个所需的虚拟源位置的不同的插值BRIR。

在一些实施例中，所述方法产生BRIR以便在中性音色的约束下最大化(将被虚拟化的5.1或7.1声道音频输入信号的)中心声道的声源外部化。中心声道广泛地被认为最难以虚拟化，因为感知线索的数量减少(没有ITD/ILD，其中，ILD是耳间时间差或者两个耳朵之间的到达时间差，并且ILD是耳间声级差)，帮助定位的视觉线索不总是存在，等等。设想本发明的各种实施例产生对于虚拟化具有许多不同格式中的任何一种的输入信号(例如，具有2.0、5.1、7.1、7.1.2或7.1.4扬声器声道格式的输入信号(其中，“7.1.x”格式表示用于收听者的耳朵的水平面中的扬声器的7个声道、用于方形模式(square pattern)头顶中的扬声器的4个声道、以及一个Lfe声道))有用的BRIR。

典型的实施例不假定输入信号声道是扬声器声道或对象声道(即，它们可以是任何一种)。在选择用于虚拟化其声道仅由扬声器声道组成的多声道输入信号的最优BRIR时，用于每个扬声器声道的最优BRIR可以被选择(其中每个继而假定相对于收听者的特定源方向)。如果虚拟器的输入信号预期为指示一个或多个源(每个源通过范围广泛的位置平移)的基于对象的音频节目，则双耳输出信号通常将指示比输入信号仅包括少量的扬声器声道(并且没有对象声道)的情况下双耳输出信号将指示的虚拟扬声器位置多的虚拟扬声器位置，并因此比扬声器声道输入信号多的BRIR将需要被确定(每个针对不同的虚拟扬声器位置)并且被应用以虚拟化基于对象的音频节目。在虚拟化典型的基于对象的音频节目的操作中，设想本发明虚拟器的一些实施例将在预定的BRIR(每个针对少量的虚拟扬声器位置中的一个)之间进行插值以产生插值BRIR(每个针对大量的虚拟扬声器位置中的一个)，并且应用插值BRIR来产生指示范围广泛的源位置上的平移的双耳输出。

尽管本文中已描述本发明的特定实施例和本发明的应用，但是本领域普通技术人员将清楚的是，在不脱离本文中描述和要求保护的本发明的范围的情况下，本文中描述的实施例和应用的许多变型是可能的。应当理解，尽管已示出并描述了本发明的某些形式，但是本发明不限于所描述和示出的特定实施例或所描述的特定方法。

Claims

1.一种用于设计双耳房间脉冲响应(BRIR)的方法，所述双耳房间脉冲响应(BRIR)在与输入音频声道进行卷积时产生双耳信号，所述双耳信号指示来自具有相对于预期收听者的方向和距离的源的声音，所述方法包括以下步骤：

(a)根据仿真模型产生候选双耳房间脉冲响应(候选BRIR)，所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，所述候选BRIR方向至少基本上等于所述方向，并且所述候选BRIR距离至少基本上等于所述距离；

(b)通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量，所述性能度量包括所述候选BRIR中的每一个的性能度量；以及

(c)识别所述性能度量中具有极值的一个，并且将所述候选BRIR中性能度量具有所述极值的一个识别为BRIR；

其中，所述仿真模型是使用确定性元素和随机性元素的组合的随机性模型，

其中，步骤(b)包括针对每个所述候选BRIR方向确定目标BRIR的步骤，并且其中，所述候选BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度，所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。

2.根据权利要求1所述的方法，其中，所述随机性元素部分地由随机变量驱动。

3.根据权利要求2所述的方法，其中，所述随机变量中的一个或多个是伪随机变量。

4.根据权利要求1、2或3所述的方法，其中，步骤(a)包括产生一个或多个噪声序列的步骤。

5.根据权利要求1所述的方法，其中，步骤(a)包括根据预定的感知线索产生候选BRIR使得所述候选BRIR中的每一个在与所述输入音频声道进行卷积时产生指示提供所述感知线索的声音的双耳信号的步骤。

6.根据权利要求1所述的方法，其中，步骤(b)包括将所述候选BRIR中的每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感知分带的频域表示进行比较的步骤。

7.根据权利要求6所述的方法，其中，每个所述感知分带的频域表示包括具有B个频带的左声道和具有B个频带的右声道，并且所述候选BRIR中的所述每一个的性能度量至少基本上等于：

其中，n是指示声道的索引，所述索引的值n＝1指示左声道，并且所述索引的值n＝2指示右声道，

C_nk＝对于所述候选BRIR中的所述每一个的声道n、频带k的感知能量，

T_nk＝对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、频带k的感知能量，

g_log＝使D最小化的对数增益偏移，并且

w_n＝对于声道n的加权因子。

8.根据权利要求1所述的方法，还包括以下步骤：

产生指示在步骤(c)中所识别的BRIR的至少一个信号。

9.根据权利要求1所述的方法，还包括以下步骤：

将指示在步骤(c)中所识别的BRIR的至少一个所述信号递送给耳机虚拟器。

10.根据权利要求1所述的方法，还包括将耳机虚拟器配置为应用在步骤(c)中所识别的BRIR的步骤。

11.根据权利要求1所述的方法，其中，所述候选BRIR中的每一个并因此在步骤(c)中所识别的BRIR表示虚拟房间的响应。

12.一种用于响应于多声道音频输入信号的一组N个声道产生双耳信号的方法，其中，N是正整数，所述方法包括以下步骤：

(a)将N个双耳房间脉冲响应BRIR₁、BRIR₂、......、BRIR_N应用于所述音频输入信号的所述一组声道，从而产生滤波信号，其包括通过对于在从1到N的范围中的索引i的每个值将所述双耳房间脉冲响应中的第“i”个双耳房间脉冲响应BRIR_i应用于所述组的第“i”个声道；和

(b)组合所述滤波信号以产生双耳信号，其中，每个所述BRIR_i在与所述组的第“i”个声道进行卷积时产生指示来自具有相对于预期收听者的方向x_i和距离d_i的源的声音的双耳信号，并且每个所述BRIR_i已通过包括以下步骤的方法被设计：

(c)根据仿真模型产生候选双耳房间脉冲响应(候选BRIR)，所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，所述候选BRIR方向至少基本上等于所述方向x_i，并且所述候选BRIR距离至少基本上等于所述距离d_i；

(d)通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量，所述性能度量包括所述候选BRIR中的每一个的性能度量；以及

(e)识别所述性能度量中具有极值的一个，并且将所述候选BRIR中性能度量具有所述极值的一个识别为BRIR_i，

其中，步骤(d)包括针对每个所述候选BRIR方向确定目标BRIR的步骤，并且其中，所述候选BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度，所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。

13.根据权利要求12所述的方法，其中，所述随机性元素部分地由随机变量驱动。

14.根据权利要求13所述的方法，其中，所述随机变量中的一个或多个是伪随机变量。

15.根据权利要求12、13或14所述的方法，其中，步骤(a)包括产生一个或多个噪声序列的步骤。

16.根据权利要求12所述的方法，其中，步骤(c)包括根据预定的感知线索产生候选BRIR使得所述候选BRIR中的每一个在与所述输入音频声道进行卷积时产生指示提供所述感知线索的声音的双耳信号的步骤。

17.根据权利要求12所述的方法，其中，步骤(d)包括将所述候选BRIR中的每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感知分带的频域表示进行比较的步骤。

18.根据权利要求17所述的方法，其中，每个所述感知分带的频域表示包括具有B个频带的左声道和具有B个频带的右声道，并且所述候选BRIR中的所述每一个的性能度量至少基本上等于：

g_log＝使D最小化的对数增益偏移，并且

w_n＝对于声道n的加权因子。

19.根据权利要求12所述的方法，其中，所述候选BRIR中的每一个并因此在步骤(e)中所识别的BRIR表示虚拟房间的响应。

20.一种音频处理单元，所述音频处理单元被配置为设计双耳房间脉冲响应(BRIR)，所述双耳房间脉冲响应(BRIR)在与输入音频声道进行卷积时产生双耳信号，所述双耳信号指示来自具有相对于预期收听者的方向和距离的源的声音，所述音频处理单元包括：

仿真子系统，所述仿真子系统被配置为根据仿真模型产生候选双耳房间脉冲响应(候选BRIR)，所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，所述候选BRIR方向至少基本上等于所述方向，并且所述候选BRIR距离至少基本上等于所述距离；和

第二子系统，所述第二子系统被耦合和配置为通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量，所述性能度量包括所述候选BRIR中的每一个的性能度量，其中，所述第二子系统还被配置为识别所述性能度量中具有极值的一个，将所述候选BRIR中性能度量具有所述极值的一个识别为BRIR，以及产生指示所述BRIR的至少一个信号；其中，所述仿真模型是使用确定性元素和随机性元素的组合的随机性模型，其中，所述第二子系统被配置为针对每个所述候选BRIR方向确定目标BRIR，并且其中，所述候选BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度，所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。

21.根据权利要求20所述的音频处理单元，其中，所述随机性元素部分地由随机变量驱动。

22.根据权利要求21所述的音频处理单元，其中，所述随机变量中的一个或多个是伪随机变量。

23.根据权利要求20、21或22所述的音频处理单元，其中，所述仿真子系统被配置为产生一个或多个噪声序列。

24.根据权利要求20所述的音频处理单元，其中，所述仿真子系统被配置为根据预定的感知线索产生候选BRIR使得所述候选BRIR中的每一个在与所述输入音频声道进行卷积时产生指示提供所述感知线索的声音的双耳信号。

25.根据权利要求20所述的音频处理单元，其中，所述第二子系统被配置为将指示所述候选BRIR中的每一个的感知分带的频域数据与指示对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感知分带的频域数据进行比较。

26.根据权利要求25所述的音频处理单元，其中，指示所述候选BRIR中的每一个的感知分带的频域数据和指示每个所述目标BRIR的感知分带的频域数据指示具有B个频带的左声道和具有B个频带的右声道，并且所述候选BRIR中的所述每一个的性能度量至少基本上等于：

g_log＝使D最小化的对数增益偏移，并且

w_n＝对于声道n的加权因子。

27.根据权利要求25所述的音频处理单元，其中，所述候选BRIR中的每一个并因此在步骤(c)中所识别的BRIR表示虚拟房间的响应。

28.一种被配置为响应于多声道音频输入信号的一组N个声道产生双耳信号的系统，其中，N是正整数，所述系统包括：

滤波子系统，所述滤波子系统被耦合和配置为将N个双耳房间脉冲响应BRIR₁、BRIR₂、......、BRIR_N应用于所述音频输入信号的所述一组声道，从而产生滤波信号，其包括通过对于在从1到N的范围中的索引i的每个值将所述双耳房间脉冲响应中的第“i”个双耳房间脉冲响应BRIR_i应用于所述组的第“i”个声道；和

信号组合子系统，所述信号组合子系统被耦合到所述滤波子系统，并且被配置为通过组合所述滤波信号来产生双耳信号，其中，每个所述BRIR_i在与所述组的第“i”个声道进行卷积时产生指示来自具有相对于预期收听者的方向x_i和距离d_i的源的声音的双耳信号，并且每个所述BRIR_i已通过包括以下步骤的方法被预先确定：

根据仿真模型产生候选双耳房间脉冲响应(候选BRIR)，所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，所述候选BRIR方向至少基本上等于所述方向x_i，并且所述候选BRIR距离至少基本上等于所述距离d_i；

通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量，所述性能度量包括所述候选BRIR中的每一个的性能度量；以及

识别所述性能度量中具有极值的一个，并且将所述候选BRIR中性能度量具有所述极值的一个识别为BRIR_i，

其中，每个所述BRIR_i已通过包括针对每个所述候选BRIR方向确定目标BRIR的步骤的方法被设计，并且其中，所述候选BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度，所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。

29.根据权利要求28所述的系统，其中，所述随机性元素部分地由随机变量驱动。

30.根据权利要求29所述的系统，其中，所述随机变量中的一个或多个是伪随机变量。

31.根据权利要求28、29或30所述的系统，其中，产生BRIR的步骤包括产生一个或多个噪声序列的步骤。

32.根据权利要求28所述的系统，其中，所述系统是耳机虚拟器。

33.根据权利要求28所述的系统，其中，所述系统是包括虚拟器子系统的解码器，并且所述虚拟器子系统实现所述滤波子系统和信号组合子系统。

34.根据权利要求28所述的系统，其中，每个所述BRIR_i已通过包括将所述候选BRIR中的每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感知分带的频域表示进行比较的步骤的方法被设计。

35.根据权利要求34所述的系统，其中，所述候选BRIR中的所述每一个的性能度量指示所述候选BRIR中的所述每一个和所述目标BRIR的临界频带中的特定响度。

36.根据权利要求34所述的系统，其中，每个所述感知分带的频域表示包括具有B个频带的左声道和具有B个频带的右声道，并且所述候选BRIR中的所述每一个的性能度量至少基本上等于：

g_log＝使D最小化的对数增益偏移，并且

w_n＝对于声道n的加权因子。

37.一种音频处理单元，包括：

存储器，所述存储器存储指示双耳房间脉冲响应(BRIR)的数据，所述双耳房间脉冲响应(BRIR)在与输入音频声道进行卷积时产生双耳信号，所述双耳信号指示来自具有相对于预期收听者的方向和距离的源的声音；和

处理子系统，所述处理子系统被耦合到所述存储器，并且被配置为执行以下操作中的至少一个：产生指示BRIR的所述数据，或者使用指示BRIR的所述数据响应于多声道音频输入信号的一组声道产生双耳信号，其中，所述BRIR已通过包括以下步骤的方法被预先确定：

根据仿真模型产生候选双耳房间脉冲响应(候选BRIR)，所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真，其中，所述候选BRIR方向至少基本上等于所述方向，并且所述候选BRIR距离至少基本上等于所述距离；

识别所述性能度量中具有极值的一个，并且将所述候选BRIR中性能度量具有所述极值的一个识别为BRIR；

其中，所述BRIR已通过包括针对每个所述候选BRIR方向确定目标BRIR的步骤的方法被设计，并且其中，所述候选BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度，所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。

38.根据权利要求37所述的音频处理单元，其中，所述随机性元素部分地由随机变量驱动。

39.根据权利要求38所述的音频处理单元，其中，所述随机变量中的一个或多个是伪随机变量。

40.根据权利要求37、38或39所述的音频处理单元，其中，产生BRIR的步骤包括产生一个或多个噪声序列的步骤。

41.根据权利要求37所述的音频处理单元，其中，所述音频处理单元是耳机虚拟器。

42.根据权利要求37所述的音频处理单元，其中，所述音频处理单元是解码器。

43.根据权利要求37所述的音频处理单元，其中，所述BRIR已通过包括将所述候选BRIR中的每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感知分带的频域表示进行比较的步骤的方法被设计。

44.根据权利要求43所述的音频处理单元，其中，所述候选BRIR中的所述每一个的性能度量指示所述候选BRIR中的所述每一个和所述目标BRIR的临界频带中的特定响度。

45.根据权利要求43所述的音频处理单元，其中，每个所述感知分带的频域表示包括具有B个频带的左声道和具有B个频带的右声道，并且所述候选BRIR中的所述每一个的性能度量至少基本上等于：

g_log＝使D最小化的对数增益偏移，并且

w_n＝对于声道n的加权因子。