CN115769603A

CN115769603A - 用于生成扩散混响信号的装置和方法

Info

Publication number: CN115769603A
Application number: CN202180044786.5A
Authority: CN
Inventors: J·G·H·科庞; P·克基基安
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-06-22
Filing date: 2021-06-21
Publication date: 2023-03-07
Also published as: EP4169267C0; US20230209302A1; EP4169267A1; EP3930349A1; BR112022026158A2; ES2974833T3; PL4169267T3; EP4169267B1; CA3187637A1; JP2023530516A; KR20230027273A; US12185085B2; WO2021259829A1

Abstract

一种用于生成扩散混响信号的音频装置包括接收器(501)，所述接收器接收表示声音源的多个音频信号和元数据，所述元数据包括扩散混响信号与总信号的关系，所述扩散混响信号与总源的关系指示扩散混响声音相对于所述环境中的总发射声音的水平。对于每个音频信号，所述元数据还包括信号水平指示和方向性数据，所述方向性数据指示来自由所述音频信号表示的所述声音源的声音辐射的方向性。电路(505、507)基于所述信号水平指示和所述方向性数据来确定总发射能量指示，并且基于所述总发射能量和所述扩散混响信号与总信号的关系来确定下混系数。下混器(509)通过组合通过将针对每个音频信号的下混系数应用于所述音频信号而生成的每个音频信号的信号分量来生成下混信号。混响器(407)根据所述下混信号分量生成针对所述环境的所述扩散混响信号。

Description

用于生成扩散混响信号的装置和方法

技术领域

本发明涉及处理音频数据的装置和方法，并且特别地但非排他地，涉及用于处理以生成用于增强/混合/虚拟现实应用的扩散混响信号的装置和方法。

背景技术

基于视听内容的体验的种类和范围近年来已经实质上随着利用和消耗连续开发和引入的这样的内容的新服务和方式而增加。特别地，许多空间和交互式服务、应用和体验正在开发以给予用户更多参与和沉浸的体验。

这样的应用的示例是迅速地变为主流的虚拟现实(VR)、增强现实(AR)和混合现实(MR)应用，其中，多个解决方案瞄准消费者市场。多个标准也在多个标准化主体的开发中。这样的标准化活动积极开发用于VR/AR/MR系统的各个方面的标准，包括例如流传输、广播、渲染等。

VR应用倾向于提供对应于不同世界/环境/场景中的用户的用户体验，而AR(包括混合现实MR)应用倾向于提供对应于当前环境中的用户的用户体验，但是其中，添加了额外的信息或虚拟对象或信息。因此，VR应用倾向于提供完全沉浸式的合成生成的世界/场景，而AR应用倾向于提供叠加用户物理存在于的真实场景的部分合成的世界/场景。然而，术语常常可交换地使用并且具有高重叠度。在以下中，术语虚拟现实/VR将被用于指代虚拟现实和增强/混合现实两者。

作为示例，日益流行的服务是以这样的方式提供图像和音频：用户能够主动并且动态地与系统交互以改变渲染的参数，使得这将适于用户的位置和取向的移动和改变。许多应用中的非常吸引人的特征是改变观看者的有效观看位置和观看方向的能力，诸如例如允许观看者在呈现的场景中移动和“环视”。

这样的特征可以特别地允许虚拟现实体验被提供给用户。这可以允许用户在虚拟环境中(相对)自由地到处移动并且动态地改变他的位置以及他正在看何处。通常，这样的虚拟现实应用基于场景的三维模型，其中，模型被动态地评价以提供特定请求视图。该方法从例如用于计算机和控制台的游戏应用(诸如在第一人称射击的类别中)众所周知。

还期望的是，特别是针对虚拟现实应用，呈现的图像是通常使用立体显示器呈现的三维图像。实际上，为了优化观看者的沉浸感，对于用户而言将呈现的场景体验为三维场景通常是优选的。实际上，虚拟现实体验应当优选地允许用户选择他/她自己的位置、视点、以及相对于虚拟世界的时刻。

除视觉渲染之外，大多数VR/AR应用还提供对应的音频体验。在许多应用中，音频优选地提供其中音频源被感知为从对应于视觉场景中的对应对象的位置的位置到达的空间音频体验。因此，音频和视频场景优选地被感知为是一致的并且提供全空间体验。

例如，许多沉浸式体验由通过使用双耳音频渲染技术的耳机重放生成的虚拟音频场景提供。在许多场景中，这种耳机重放可以基于头部跟踪，使得可以响应于用户的头部移动来进行渲染，这极大地增加了沉浸感。

许多应用的重要特征是如何生成和/或分布可以提供音频环境的自然且逼真感知的音频。例如，当为虚拟现实应用生成音频时，重要的是不仅生成期望的音频源，而且还修改这些音频源以提供音频环境的真实感知，包括阻尼、反射、着色等。

对于室内声学，或更一般地，环境声学，声波从环境的墙壁、地板、天花板、对象等的反射引起声音源信号的延迟和衰减(通常是频率相关的)版本经由不同的路径到达收听者(即，VR/AR系统的用户)。组合的效果可以通过脉冲响应来建模，所述脉冲响应在下文中可以被称为房间脉冲响应(RIR)(尽管该术语建议针对房间形式的声学环境的特定用途，但它倾向于相对于声学环境更一般地使用，无论该声学环境是否对应于房间)。

如图1所图示，房间脉冲响应通常包括取决于声音源到收听者的距离的直达声音，随后是表征房间的声学性质的混响部分。房间的尺寸和形状、声音源和收听者在房间中的位置以及房间表面的反射性质都在该混响部分的特性中起作用。

混响部分可以被分解成通常重叠的两个时间区域。第一区域包含所谓的早期反射，其表示在到达收听者之前声音源在房间内部的墙壁或障碍物上的隔离反射。随着时间滞后增加，在固定时间间隔中存在的反射的数量增加，并且路径可以包括二次或更高阶反射(例如，反射可以离开若干墙壁或墙壁和天花板两者等)。

混响部分中的第二区域是这些反射的密度增加到它们不再被人脑隔离的程度的部分。该区域通常被称为扩散混响、后期混响或混响尾部。

混响部分包含给予听觉系统关于源的距离以及房间的大小和声学性质的信息的提示。相对于消声部分的能量的混响部分的能量在很大程度上决定了声音源的感知距离。最早反射的水平和延迟可以提供关于声音源与墙壁的接近程度的提示，并且通过人体测量的滤波可以加强对特定墙壁、地板或天花板的评估。

(早期)反射的密度有助于房间的感知尺寸。反射在能量水平上下降60dB所花费的时间(由混响时间T₆₀指示)是反射在房间中消散得有多快的常用度量。混响时间提供关于房间的声学性质的信息；诸如具体地，墙壁是非常反射性的(例如，浴室)还是存在对声音的大量吸收(例如，具有家具、地毯和窗帘的卧室)。

此外，当RIR是双耳房间脉冲响应(BRIR)的一部分时，RIR可能取决于用户的人体测量性质，这是由于RIR被头部、耳朵和肩部过滤；即头部相关脉冲响应(HRIR)。

由于后期混响中的反射不能被收听者区分和隔离，因此它们通常利用例如使用反馈延迟网络的参数混响器来参数化地模拟和表示，如在众所周知的Jot混响器中那样。

对于早期反射，入射方向和距离相关延迟是人类提取关于房间和声音源的相对位置的信息的重要线索。因此，早期反射的模拟必须比后期混响更明确。因此，在有效的声学渲染算法中，早期反射与后期混响不同地被模拟。用于早期反射的众所周知的方法是对房间边界中的每一个中的声音源进行镜像，以生成表示反射的虚拟声音源。

对于早期反射，用户和/或声音源相对于房间的边界(墙壁、天花板、地板)的位置是相关的，而对于后期混响，房间的声学响应是扩散的，并且因此在整个房间中倾向于更均匀。这允许后期混响的模拟通常比早期反射在计算上更有效。

由房间定义的后期混响的两个主要性质是T60值和混响水平。就扩散混响脉冲响应而言，这些值表示脉冲响应的斜率和幅度。在自然房间中，两者通常都是强频率相关的。

T60参数对于提供房间的反射性和大小的印象是重要的，而混响水平指示房间边界上的多次反射的复合效果。混响水平及其频率行为取决于预延迟，指示早期反射和后期混响之间的区别在何处(参见图2)。

混响水平具有其相对于直达声音的主要心理声学相关性。两者之间的水平差异是声音源与用户(或RIR测量点)之间的距离的指示。更大的距离将引起直达声音的更多衰减，而后期混响的水平保持相同(它在整个房间中是相同的)。类似地，对于具有取决于用户相对于源在何处的方向性的源，当用户在源周围移动时，方向性影响直达响应，但不影响混响的水平。

许多系统(诸如虚拟现实应用)的重要挑战和考虑是如何有效地表示和分布音频环境。常常通过提供表示各个源信号的信号以及可以参数化地描述音频源和声学环境的性质的数据来表示和分布环境的音频。该挑战远非微不足道的问题，并且可以考虑一系列问题。

已经提出了将直达路径和扩散混响的描述分开。然而，如何表示、分布和渲染/合成扩散混响的问题目前受到极大关注。

已经提出了提供混响水平的指示，其不与直达声音有关，而是通过更通用的性质。已经提出了一种具体提议作为MPEG-I音频提议呼叫(CfP)的准备的一部分，其中已经定义了编码器输入格式(EIF)(MPEG输出文档N19211的第3.9节，“MPEG-I 6DoF Audio EncoderInput Format”，MPEG130)。EIF通过预延迟和直达与扩散比(DDR)来定义混响水平。DDR被定义为在预延迟之后扩散混响能量与发射源能量之间的比：

然而，尽管这样的参数可能是有用的，但是存在许多需要解决的实质性问题。例如，目前没有关于应当如何定义或确定特定参数的提议。也没有任何DDR指示可以如何用于渲染音频以及具体地它可以如何用于生成扩散混响信号的考虑。

EP3402222公开了用于响应于多声道音频信号的声道而生成双耳信号的虚拟化方法，其将双耳房间脉冲响应(BRIR)应用于每个声道，包括通过使用至少一个反馈延迟网络(FDN)将共同后期混响应用于声道的下混。

因此，目前关于如何表示和生成音频并且特别是扩散混响的方法和提议往往是次优的或不充分的和/或不完整的。这对于例如虚拟现实应用尤其如此，其中，应当生成音频的位置可以显著改变。

因此，用于生成扩散混响信号的方法将是有利的。特别地，允许改进的操作、增加的灵活性、降低的复杂度、促进的实施、改进的音频体验、改进的音频质量、减少的计算负担、改进的对变化位置的适合性、改进的虚拟/混合/增强现实应用的性能、改进的扩散混响的感知线索和/或改进的性能和/或操作的方法将是有利的。

发明内容

因此，本发明试图优选单独地或以任何组合减轻、缓解或消除上述缺点中的一个或多个。

根据本发明的一个方面，提供了一种用于生成针对环境的扩散混响信号的音频装置；所述装置包括：接收器，其被布置为接收表示所述环境中的声音源的多个音频信号；元数据接收器，其被布置为接收针对所述多个音频信号的元数据，所述元数据包括：扩散混响信号与总信号的关系，其指示扩散混响声音相对于所述环境中的总发射声音的水平，以及针对每个音频信号的：信号水平指示；方向性数据，其指示来自由所述音频信号表示的所述声音源的声音辐射的方向性；电路，其被布置为针对所述多个音频信号中的每个音频信号：基于所述信号水平指示和所述方向性数据来确定总发射能量指示，并且基于所述总发射能量和所述扩散混响信号与总信号的关系来确定下混系数；下混器，其被布置为通过组合通过将针对每个音频信号的所述下混系数应用于所述音频信号而生成的每个音频信号的信号分量来生成下混信号；混响器，其用于根据所述下混信号分量来生成针对所述环境的所述扩散混响信号。

在许多实施例中，本发明可以提供对扩散混响信号的改进的和/或促进的确定。在许多实施例和场景中，本发明可以生成更自然的声音扩散混响信号，从而提供对声学环境的改进的感知。扩散混响信号的生成常常可以以低复杂度和低计算资源要求来生成。该方法允许声学环境中的扩散混响声音由相对少的参数有效地表示，所述参数还提供个体源和来自这些源的个体路径声音传播的有效表示，并且具体地用于直达路径传播。

在许多实施例中，该方法可以允许独立于源和/或收听者位置生成扩散混响信号。这可以允许有效地生成用于位置改变的动态应用(诸如用于许多虚拟现实和增强现实应用)的扩散混响信号。

扩散混响信号与总信号比也可以称为扩散混响信号水平与总信号水平比或扩散混响水平与总水平比或发射源能量与扩散混响能量比(或其变化/排列)。

音频装置可以实施在单个设备或单个功能单元中，或可以分布在不同的设备或功能上。例如，音频装置可以被实施为解码器功能单元的一部分，或可以分布有在解码器侧执行的一些功能元件和在编码器侧执行的其他元件。

根据本发明的可选特征，声音辐射的所述方向性是频率相关的，并且所述电路被布置为确定频率相关的总发射能量和频率相关的下混系数。

该方法可以提供用于生成反映频率相关性的扩散混响信号的特别有效的操作。

根据本发明的可选特征，所所述扩散混响信号与总信号的关系是频率相关的，并且所述电路被布置为生成频率相关的下混系数。

该方法可以提供用于生成反映频率相关性的频率相关的扩散混响信号的特别有效的操作。

根据本发明的可选特征，所述扩散混响信号与总信号的关系包括频率相关的部分和非频率相关的部分，并且其中，所述电路被布置为根据所述非频率相关的部分来生成所述下混系数，并且根据所述频率相关的部分来调整所述混响器。

该方法可以提供用于生成反映频率相关性的扩散混响信号的特别有效的操作，并且可以具体地降低复杂度和/或资源使用。例如，该方法可以允许通过下混信号的单次滤波来反映频率相关性。

根据本发明的可选特征，所述电路被布置为响应于用通过对由所述多个音频信号中的第一音频信号表示的所述声音源的方向性图案进行积分而确定的值将针对所述第一音频信号的所述信号水平指示进行缩放来确定针对所述第一音频信号的所述总发射能量指示。

在许多实施例中，这可以提供特别有利的操作。缩放可以是结合确定下混系数而应用于信号水平指示的任何函数。该函数通常可以根据总发射能量指示而单调增加。缩放可以是线性或非线性缩放。

缩放可以独立于信号的时间变化，并且因此可能不需要用音频信号的瞬时水平更新，并且可能仅需要在信号水平指示或方向性图案改变时重新计算。

根据本发明的可选特征，针对所述多个音频信号中的第一音频信号的所述信号水平指示包括参考距离，所述参考距离指示针对所述第一音频信号的距离参考增益的距由所述第一音频信号表示的所述音频源的距离。

在许多实施例中，这可以提供特别有利的操作。距离参考增益可以是预定值，并且通常可以是至少一些并且通常是所有音频源和信号所共有的。在许多实施例中，距离参考增益可以是0dB。

根据本发明的可选特征，针对作为距由所述第一音频信号表示的所述音频源的所述参考距离的距离执行所述积分。

这可以提供特别有效的方法并且可以促进操作。

根据本发明的可选特征，所述扩散混响信号与总信号的关系指示相对于所述环境中的总发射声音的能量的扩散混响声音的能量。

在许多实施例中，这可以提供特别有利的操作。

根据本发明的可选特征，所述扩散信号与总信号的关系指示扩散声音相对于所述环境中的总发射声音的能量的初始幅度。

在许多实施例中，这可以提供特别有利的操作。

根据本发明的可选特征，针对所述多个音频信号中的第一音频信号确定的所述下混系数与由所述第一音频信号表示的第一音频源的位置无关。

这在许多实施例中可以提供特别有利的操作，并且可以特别地促进用于具有改变位置的声音源的动态应用(诸如用于虚拟现实应用)的操作。

根据本发明的可选特征，针对所述多个音频信号中的第一音频信号确定的所述下混系数与收听者的位置无关。

这在许多实施例中可以提供特别有利的操作，并且可以特别地促进用于具有改变位置的动态应用(诸如用于虚拟现实应用)的操作。

在一些实施例中，音频装置的处理与音频源位置无关。在一些实施例中，音频装置的处理与收听者位置无关。

在一些实施例中，音频装置的处理仅与扩散信号与总信号比适用的区域内的收听者位置无关。

在一些实施例中，下混系数的更新速率低于由第一音频信号表示的第一音频源的位置的更新速率。在一些实施例中，下混系数的更新速率低于收听者的位置的更新速率。可以以比收听者位置/音频源位置的更新速率低得多的时间速率来计算下混系数。

根据本发明的可选特征，针对所述多个音频信号中的第一音频信号的所述信号水平指示还包括针对所述第一音频信号的增益指示，所述增益指示指示当渲染来自由所述第一音频信号表示的第一音频源的声音时要应用于所述第一音频信号的增益，并且其中，所述电路被布置为响应于所述增益指示而确定针对所述第一音频信号的所述下混系数。

根据本发明的可选特征，所述音频装置还包括直达渲染电路，所述直达渲染电路被布置为响应于针对所述多个音频信号中的第一音频信号的所述信号水平指示和所述方向性数据而生成针对所述第一音频信号的直达路径音频信号。

在许多实施例中，这可以提供特别有利的操作。

根据本发明的可选特征，所述元数据还包括延迟指示，并且扩散信号与总信号比(DSR)指示相对于总发射声音的能量的具有比由所述延迟指示指示的延迟更长的延迟的所述环境中的扩散混响声音的能量。

具有比延迟指示更长的延迟的环境中的扩散混响声音的能量可以反映在音频源处发射对应声音之后至少一定延迟发生的房间脉冲响应贡献/由在音频源处发射对应声音之后至少一定延迟发生的房间脉冲响应贡献确定/作为在音频源处发射对应声音之后至少一定延迟发生的房间脉冲响应贡献，其中，一定延迟由延迟指示来指示。

在一些实施例中，扩散信号与总信号比(DSR)指示扩散混响声音的能量相对于环境中的总发射声音的能量，其中，扩散混响声音的能量由在音频源处发射对应声音之后至少一定延迟发生的房间响应贡献确定。

根据本发明的另一方面，提供了一种生成针对环境的扩散混响信号的方法，所述方法包括：接收表示所述环境中的声音源的多个音频信号；接收针对所述多个音频信号的元数据，所述元数据包括：扩散混响信号与总信号的关系，其指示扩散混响声音相对于所述环境中的总发射声音的水平，以及针对每个音频信号的：信号水平指示；方向性数据，其指示来自由所述音频信号表示的所述声音源的声音辐射的方向性；针对所述多个音频信号中的每个音频信号：基于所述信号水平指示和所述方向性数据来确定总发射能量指示，并且基于所述总发射能量和所述扩散混响信号与总信号的关系来确定下混系数；通过组合通过将针对每个音频信号的所述下混系数应用于所述音频信号而生成的每个音频信号的信号分量来生成下混信号；根据所述下混信号分量来生成针对所述环境的所述扩散混响信号。

本发明的这些和其他方面、特征和优点将参考下文描述的(一个或多个)实施例而显而易见并将参考下文描述的(一个或多个)实施例得到阐述。

附图说明

现在将参考附图仅通过示例的方式描述本发明的实施例，其中

图1图示了房间脉冲响应的示例；

图2图示了房间脉冲响应的示例；

图3图示了虚拟现实系统的元件的示例；

图4图示了根据本发明的一些实施例的用于生成音频输出的音频装置的示例；

图5图示了根据本发明的一些实施例的用于生成扩散混响信号的音频混响装置的示例；

图6图示了房间脉冲响应的示例；并且

图7图示了混响器的示例。

具体实施方式

以下描述将集中于用于虚拟现实应用的音频处理和生成，但是应当理解，所描述的原理和概念可以用于许多其他应用和实施例中。

允许用户在虚拟世界中四处走动的虚拟体验正变得越来越流行，并且正在开发服务以满足这样的需求。

在一些系统中，VR应用可以由例如未使用任何远程VR数据或处理或甚至不具有对任何远程VR数据或处理的任何访问的独立设备在本地提供给观看者。例如，设备(诸如游戏控制台)可以包括用于存储场景数据的存储、用于接收/生成观看者姿态的输入、以及用于根据场景数据来生成对应的图像的处理器。

在其他系统中，VR应用可以远离观看者来实施并且执行。例如，在用户本地的设备可以检测/接收被传送到处理数据以生成观看者姿态的远程设备的移动/姿态数据。远程设备然后可以基于描述场景的场景数据来生成针对用户姿态的适合的视图图像和对应的音频信号。视图图像和对应的音频信号然后被传送到它们被呈现的在观看者本地的设备。例如，远程设备可以直接地生成由本地设备直接地呈现的视频流(通常是立体/3D视频流)和对应的音频流。因此，在这样的示例中，除传送移动数据和呈现接收到的视频数据之外，本地设备可以不执行任何VR处理。

在许多系统中，功能可以跨本地设备和远程设备分布。例如，本地设备可以处理接收到的输入和传感器数据以生成连续地被传送到远程VR设备的用户姿态。远程VR设备可以然后生成对应的视图图像和对应的音频信号并且将这些传送到本地设备用于呈现。在其他系统中，远程VR设备可以不直接地生成视图图像和对应的音频信号，而是可以选择相关的场景数据并且将此传送到本地设备，其可以然后生成被呈现的视图图像和对应的音频信号。例如，远程VR设备可以识别最接近的捕获点并且提取对应的场景数据(例如，一组对象源及其位置元数据)并且将此传送到本地设备。本地设备可以然后处理接收到的场景数据以生成针对特定当前用户姿态的图像和音频信号。用户姿态通常对应于头部姿态，并且对用户姿态的提及通常可以被等效地认为对应于对头部姿态的提及。

在许多应用中，尤其是对于广播服务，源可以以独立于用户姿态的场景的图像(包括视频)和音频表示的形式传送或流式传输场景数据。例如，与某个虚拟房间的范围内的音频源相对应的信号和元数据可以被传送或流式传输到多个客户端。然后，个体客户端可以在本地合成与当前用户姿态相对应的音频信号。类似地，源可以传送音频环境的一般描述，包括描述环境中的音频源和环境的声学特性。然后可以在本地生成音频表示并将其呈现给用户，例如使用双耳渲染和处理。

图3图示了VR系统的这样的示例，其中，远程VR客户端设备301与VR服务器303例如经由网络305(例如，互联网)进行联络。服务器303可以被布置为同时支持潜在大量的客户端设备301。

VR服务器103可以例如通过传输包括图像数据形式的图像表示的图像信号来支持广播体验，客户端设备能够使用该图像信号来在本地合成与适当的用户姿态(姿态是指位置和/取向)相对应的视图图像。类似地，VR服务器303可以传送场景的音频表示，从而允许针对用户姿态在本地合成音频。具体地，当用户在虚拟环境中四处移动时，合成并呈现给用户的图像和音频被更新以反映用户在(虚拟)环境中的当前(虚拟)位置和取向。

在许多应用(诸如图3的应用)中，因此可能期望对场景进行建模并生成可以有效地包括在数据信号中的有效图像和音频表示，该数据信号然后可以被传送或流式传输到可以针对与捕获姿态不同的姿态在本地合成视图和音频的各种设备。

在一些实施例中，表示场景的模型可以例如在本地存储，并且可以在本地用于合成适当的图像和音频。例如，房间的音频模型可以包括可以在房间中听到的音频源的性质以及房间的声学性质的指示。然后可以使用模型数据来合成特定位置的适当音频。

如何表示音频场景以及如何使用该表示来生成音频是一个关键问题。旨在向收听者提供自然和逼真效果的音频渲染通常包括声学环境的渲染。对于许多环境，这包括存在于环境中(诸如在房间中)的扩散混响的表示和渲染。已经发现这种扩散混响的渲染和表示对环境的感知(诸如对音频是否被感知为表示自然和逼真的环境)具有显著影响。在下文中，将描述用于表示音频场景以及基于该表示渲染音频并且特别地扩散混响音频的有利方法。

将参考如图4所示的音频装置来描述该方法。音频装置被布置为生成表示声学环境中的音频的音频输出信号。具体地，音频装置可以生成表示由用户在具有多个音频源并且具有给定声学性质的虚拟环境中四处移动所感知的音频的音频。每个音频源由表示来自音频源的声音的音频信号以及可以描述音频源的特性(诸如提供音频信号的水平指示)的元数据来表示。另外，提供元数据以表征声学环境。

音频装置包括用于每个音频源的路径渲染器401。每个路径渲染器401被布置为生成表示从音频源到收听者的直达路径的直达路径信号分量。直达路径信号分量是基于收听者和音频源的位置生成的，并且可以具体地通过根据距离和例如音频源在到用户的特定方向上的相对增益(例如，对于非全向源)针对音频源潜在地频率相关性地缩放音频信号来生成直达信号分量。

在许多实施例中，渲染器401还可以基于在源位置与用户位置之间的遮挡或衍射(虚拟)元素来生成直达路径信号。

在许多实施例中，路径渲染器401还可以为个体路径生成另外的信号分量，其中，这些信号分量包括一个或多个反射。这可以例如通过评估墙壁、天花板等的反射来完成，如本领域技术人员将已知的。直达路径和反射路径分量可以被组合成用于每个路径渲染器的单个输出信号，并且因此可以为每个音频源生成表示直达路径和早期/离散反射的单个信号。

在一些实施例中，每个音频源的输出音频信号可以是双耳信号，并且因此每个输出信号可以包括左耳和右耳(子)信号两者。

来自路径渲染器401的输出信号被提供给组合器403，该组合器403组合来自不同路径渲染器401的信号以生成单个组合信号。在许多实施例中，可以生成双耳输出信号，并且组合器可以执行来自路径渲染器401的个体信号的组合(诸如加权组合)，即，可以将来自路径渲染器401的所有右耳信号加在一起以生成组合的右耳信号，并且可以将来自路径渲染器401的所有左耳信号加在一起以生成组合的左耳信号。

路径渲染器和组合器可以以任何合适的方式实施，通常包括作为用于在合适的计算资源上(诸如微控制器、微处理器、数字信号处理器或包括诸如存储器等的支持电路的中央处理单元等)处理的可执行代码。应当理解，多个路径渲染器可以被实施为并行功能单元(诸如例如一组专用处理单元)，或可以被实施为针对每个音频源的重复操作。通常，针对每个音频源/信号执行相同的算法/代码。

除了个体路径音频分量之外，音频装置还被布置为生成表示环境中的扩散混响的信号分量。通过将源信号组合成下混信号并且然后将混响算法应用于下混信号以生成扩散混响信号来(有效地)生成扩散混响信号。

图4的音频装置包括下混器405，下混器405接收多个声音源(通常是混响器模拟扩散混响的声学环境内的所有源)的音频信号，并将它们组合成下混。因此，下混反映了环境中生成的所有声音。下混被馈送到混响器407，混响器407被布置为基于下混生成扩散混响信号。混响器407可以具体地是参数混响器，诸如Jot混响器。混响器407耦合到组合器403，扩散混响信号被馈送到组合器403。然后，组合器403继续将扩散混响信号与表示个体路径的路径信号组合，以生成表示收听者感知的环境中的组合声音的组合音频信号。

将参考如图5所图示的音频混响装置进一步描述扩散混响信号的生成。音频混响装置可以包括在图4的音频装置中，并且可以具体地实施下混器405和混响器407。

音频混响装置包括被布置为接收表示音频的音频场景数据的接收器501。音频场景数据具体地包括多个音频信号，其中，音频信号中的每一个表示一个音频源(并且因此音频信号描述来自音频源的声音)。另外，接收器501接收每个音频源的元数据。该元数据包括音频源的(相对)信号水平指示，其中，信号水平指示可指示由音频信号表示的声音源的水平/能量/幅度。源的元数据还包括指示来自声音源的声音辐射的方向性的方向性数据。音频信号的方向性数据可以例如描述增益模式，并且可以具体地描述音频源在与音频源的位置不同的方向上的相对增益/能量密度。

接收器501还接收指示声学环境的元数据。具体地，接收器501接收扩散混响信号与总信号的关系，并且具体地，接收扩散混响信号与总信号比(也可以称为扩散混响信号水平与总信号水平比，或在一些情况下，扩散混响信号水平与总信号能量比，或发射能量与扩散混响能量比)，其指示声学环境中扩散混响声音相对于总发射声音的水平。在下文中，为了简洁起见，扩散混响信号与总信号比也将被称为扩散与源比DSR或等效地源与扩散比SDR(以下描述将主要使用前者)。

将意识到，比和反比可以提供相同的信息，即任何比都可以表达为反比。因此，扩散混响信号与总信号的关系可以通过反映扩散混响声音的水平的值除以反映总发射声音的值的分数来表达，或等效地通过反映总发射声音的值除以反映扩散混响声音的水平的值的分数来表示。还应当理解，可以引入估计值的各种修改，例如，可以应用非线性函数(例如对数函数)。

可以在元数据中使用并提供指示声学环境中的扩散混响声音相对于总发射声音的水平的扩散混响信号与总信号关系的任何指示。以下描述将集中于由扩散混响信号的水平与总信号比的水平(例如，能量或能量密度)之间的比表示的关系。因此，描述将集中于扩散混响信号与总信号比的示例，其也将被称为DSR。

接收器501可以以任何合适的方式实施，包括例如使用分立或专用电子器件。接收器501可以例如被实施为诸如专用集成电路(ASIC)的集成电路。在一些实施例中，电路可以被实施为编程的处理单元，例如在合适的处理器(诸如中央处理单元、数字信号处理单元或微控制器等)上运行的固件或软件。这样的电路还可以被实施为处理单元的一部分、集成电路和/或分立电子电路。

接收器501可以从任何合适的源并且以任何合适的形式(包括例如作为音频信号的一部分)接收音频场景数据。可以从内部或外部源接收数据。接收器401可以例如被布置为经由网络连接、无线电连接或到内部源的任何其他合适的连接来接收房间数据。在许多实施例中，接收器可以从本地源(诸如本地存储器)接收数据。在许多实施例中，接收器501可以例如被布置为从本地存储器(诸如本地RAM或ROM存储器)检索房间数据。

接收器501可以耦合到路径渲染器401，并且可以将音频场景数据转发到这些路径渲染器401，以用于生成如前所述的路径信号分量(直达路径和早期反射)。

音频混响装置还包括下混器405，下混器405还被馈送音频场景数据。下混器405包括能量电路/处理器505、系数电路/处理器507和下混电路/处理器509。

下混器405以及实际上能量电路/处理器505、系数电路/处理器507和下混电路/处理器509中的每一个可以以任何合适的方式实施，包括例如使用分立或专用电子器件。接收器501可以例如被实施为诸如专用集成电路(ASIC)的集成电路。在一些实施例中，电路/处理器可以实施为编程处理单元，例如在合适的处理器上运行的固件或软件，诸如中央处理单元、数字信号处理单元或微控制器等。应当理解，在这些实施例中，处理单元可以包括板上或外部存储器、时钟驱动电路、接口电路、用户接口电路等。这些电路还可以实施为处理单元的一部分、集成电路和/或分立电子电路。

系数处理器507被布置为确定所接收的音频信号中的至少一些音频信号的下混系数。音频信号的下混系数可以对应于下混中的该音频信号的加权。下混系数可以是生成下混信号的加权组合中的音频信号的权重。因此，当组合音频信号以生成下混信号(其在许多实施例中是单声道信号)时，下混系数可以是音频信号的相对权重，例如，它们可以是加权求和的权重。

系数处理器507被布置为基于所接收的扩散混响信号与总信号比(即，扩散与源比DSR)来生成下混系数。

响应于指示从音频源发射的总能量的所确定的总发射能量指示来进一步确定系数。尽管DSR通常对于一些并且通常所有音频信号是共同的，但是总发射能量指示通常特定于每个音频源。

总发射能量指示通常指示归一化总发射能量。相同的归一化可以应用于所有音频源以及直达和反射路径分量。因此，总发射能量指示可以是相对于其他音频源/信号的总发射能量指示或相对于个体路径分量或相对于音频信号的满标度样本值的相对值。

当与DSR组合时，总发射能量指示可以针对每个音频源提供下混系数，该下混系数反映对来自该音频源的扩散混响声音的相对贡献。因此，将下混系数确定为DSR和总发射能量指示的函数可以提供反映对扩散声音的相对贡献的下混系数。因此，使用下混系数来生成下混信号可以导致反映环境中的总生成声音的下混信号，其中，声音源中的每一个被适当地加权，并且其中，声学环境被准确地建模。

在许多实施例中，作为DSR和总发射能量指示的函数的下混系数与响应于混响器(407)性质的缩放组合可以提供反映扩散混响声音相对于相应路径信号分量的适当相对水平的下混系数。

能量处理器505耦合到系数处理器507，并且被布置为从针对音频源接收的元数据确定总发射能量指示。

所接收的元数据包括每个源的信号参考水平，其提供音频水平的指示。信号参考水平通常是归一化或相对值，其提供信号参考水平相对于其他音频源或相对于归一化参考水平的指示。因此，信号参考水平通常可以不指示源的绝对声音水平，而是相对于其他音频源的相对水平。

在特定示例中，信号参考水平可以包括参考距离形式的指示，其提供要施加到音频信号的距离衰减为0dB的距离。因此，对于等于参考距离的音频源与收听者之间的距离，可以在没有任何距离相关缩放的情况下使用所接收的音频信号。对于小于参考距离的距离，衰减更小，并且因此当确定收听位置处的声音水平时，应当应用高于0dB的增益。对于高于参考距离的距离，衰减更高，并且因此当确定收听位置处的声音水平时，应当应用高于0dB的衰减。等效地，对于音频源与收听位置之间的给定距离，相比于与更短参考距离相关联的音频信号，更高的增益将被应用于与较高参考距离相关联的音频信号。由于音频信号通常被归一化以表示有意义的参考距离或利用全动态范围(例如，喷气发动机和板球都将由利用所使用的数据字的全动态范围的音频信号表示)，因此参考距离提供了特定音频源的信号参考水平的指示。

在该示例中，信号参考水平还由被称为预增益的参考增益指示。为每个音频源提供参考增益，并且提供在确定经渲染音频水平时应当应用于音频信号的增益。因此，预增益可以用于进一步指示不同音频源之间的水平变化。

元数据还包括指示来自由音频信号表示的声音源的声音辐射的方向性的方向性数据。每个音频源的方向性数据可以指示在距音频源的不同方向上相对于信号参考水平的相对增益。方向性数据可以例如提供来自音频源的辐射图案的完整功能或描述，其定义每个方向上的增益。作为另一示例，可以使用简化的指示，例如指示预定模式的单个数据值。作为又一示例，方向性数据可以为一系列不同的方向间隔(例如，球体的节段)提供个体增益值。

因此，元数据与音频信号一起可以允许生成音频水平。具体地，路径渲染器可以通过将增益应用于音频信号来确定直达路径的信号分量，其中，增益是预增益、根据音频源与收听者之间的距离和参考距离确定的距离增益以及在从音频源到收听者的方向上的方向性增益的组合。

关于扩散混响信号的生成，元数据用于基于信号参考水平和音频源的方向性数据来确定音频源的(归一化)总发射能量指示。

具体地，总发射能量指示可以通过在所有方向上对方向性增益进行积分(例如，在以音频源的位置为中心的球体的表面上进行积分)来生成，并且通过信号参考水平并且具体地通过距离增益和预增益来缩放。

然后将所确定的总发射能量指示馈送到系数处理器507，在系数处理器507中用DSR处理所确定的总发射能量指示以生成下混系数。

然后，下混处理器509使用下混系数来生成下混信号。具体地，可以将下混信号生成为音频信号的组合并且具体地求和，其中，每个音频信号由对应音频信号的下混系数加权。

下混通常被生成为单声道信号，该单声道信号然后被馈送到混响器407，混响器407继续生成扩散混响信号。

应当注意，虽然路径渲染器401对个体路径信号分量的渲染和生成是位置相关的，例如关于确定距离增益和方向性增益，但是然后扩散混响信号的生成可以独立于源和收听者两者的位置。

可以基于信号参考水平和方向性数据来确定总发射能量指示，而不考虑源和收听者的位置。具体地，源的预增益和参考距离可以用于确定在距源的标称距离处的非方向性相关信号参考水平(标称距离对于所有音频信号/源是相同的)，并且其相对于例如音频信号的满标度样本被归一化。可以针对归一化球体(例如针对参考距离处的球体)执行在所有方向上的方向性增益的积分。因此，总发射能量指示将独立于源和收听者位置(反映扩散混响声音在诸如房间的环境中趋于均匀)。然后将总发射能量指示与DSR组合以生成下混系数(在许多实施方式中，还可以考虑其他参数，诸如混响器的参数)。由于DSR也与位置无关，下混和混响处理也是如此，因此可以在不考虑源和收听者的特定位置的情况下生成扩散混响信号。

这种方法可以提供高性能和自然发声的音频感知，而不需要过多的计算资源。它可以特别适合于例如虚拟现实应用，其中，用户(和源)可以在环境中四处移动，并且因此其中，收听者(并且可能地一些或所有音频源)的相对位置可以动态地改变。

在下文中，将更详细地描述图4和图5的方法的各种实施例的具体方面。

在许多实施例中，元数据还可以包括扩散混响信号应当何时开始的指示，即，它可以指示与扩散混响信号相关联的时间延迟。时间延迟指示可以具体地是预延迟的形式。

预延迟可以表示RIR中的延迟/滞后，并且可以被定义为早期反射和扩散、后期混响之间的阈值。由于该阈值通常作为从(更多或更少)离散反射到完全干扰的高阶反射的混合的平滑过渡的一部分而发生，因此可以使用合适的评估/决策过程来选择合适的阈值。该确定可以基于RIR的分析自动进行，或基于房间尺寸和/或材料性质计算。

替代地，可以选择固定阈值，例如进入RIR的80ms。预延迟可以以秒、毫秒或样本来指示。在下面的描述中，假设预延迟被选择为在其之后混响实际扩散的点处。然而，如果不是这种情况，则所描述的方法仍然可以充分工作。

因此，预延迟指示从源发射的开始起的扩散混响响应的开始。例如对于如图6所示的示例，如果源在t0(例如，t0＝0)处开始发射，则直达声音在t1>t0处到达用户，第一反射在t2>t1处到达用户，并且第一反射在t2>t1处到达用户，并且早期反射和扩散混响之间的定义阈值在t3>t2到达用户。那么，预延迟是t3-t0。

在该系统中，扩散混响信号与总信号比(即扩散与源比DSR)可以用于将用户接收的源的扩散混响能量或水平的量表达为该源的总发射能量的比。它可以以如下方式表达：扩散混响能量被适当地调节以用于要渲染的信号和对应的元数据(例如，预增益)的水平校准。

以这种方式表达它可以确保该值与环境中的收听者和源的绝对位置和取向无关，与用户相对于源的相对位置和取向无关，并且反之亦然，与用于渲染混响的特定算法无关，并且与系统中使用的信号水平存在有意义的联系。

所描述的方法计算下混系数，该下混系数考虑方向性图案以在源信号之间施加正确的相对水平，并且考虑DSR以在混响器407的输出上实现正确的水平。

DSR可以表示发射源能量与扩散混响性质(诸如具体地扩散混响信号的能量或(初始)水平)之间的比。

该描述将主要集中于指示相对于总能量的扩散混响能量的DSR：

扩散混响能量可以被认为是由房间响应从扩散部分的开始产生的能量，例如，它可以是从由预延迟指示的时间直到无穷大的RIR的能量。注意，房间的后续激发将合计为混响能量，因此这通常仅可以通过利用狄拉克脉冲的激发来直接测量。替代地，它可以从测量的RIR导出。

混响能量表示扩散场空间中的单个点中的能量，而不是在整个空间上积分的能量。

上述内容的特别有利的替代方案将是使用指示扩散声音相对于环境中总发射声音的能量的初始幅度的DSR。具体地，DSR可以指示在由预延迟指示的时间处的混响幅度。

在预延迟处的幅度可以是在预延迟处或紧随预延迟之后的房间脉冲响应的最大激励。例如在预延迟后5、10、20或50ms内。选择特定范围内的最大激励的原因是在预延迟时间处，房间脉冲响应可以巧合地处于响应的低部分。在总体趋势是衰变幅度的情况下，预延迟之后的短间隔内的最大激励通常也是整个扩散混响响应的最大激励。

使用指示初始幅度(在例如10毫秒的间隔内)的DSR使得在许多混响算法中将DSR映射到参数更容易且更鲁棒。因此，在一些实施例中，DSR可以被给出为：

DSR中的参数是相对于相同的源信号水平参考来表达的。

这可以例如通过在某些已知条件(诸如源和麦克风之间的距离以及源的方向性图案)内用麦克风测量(或模拟)感兴趣的房间的RIR来实现。源应当将校准量的能量发射到房间中，例如具有已知能量的狄拉克脉冲。

可以从规范测量或导出测量装备中的电转换和模数转换的校准因子。它还可以根据RIR中的直达路径响应来计算，RIR中的直达路径响应可以根据源的方向性图案和源-麦克风距离来预测。直达响应在数字域中具有一定的能量，并且表示发射能量乘以麦克风方向的方向性增益和距离增益，该距离增益可以取决于麦克风表面相对于半径等于源-麦克风距离的总球体表面积。

两个元件应当使用相同的数字水平参考。例如满标度1kHz正弦对应于100dB SPL。

测量来自RIR的扩散混响能量并用校准因子对它进行补偿给出了在与已知发射能量相同的域中的适当能量。与发射的能量一起，可以计算适当的DSR。

参考距离可以指示应用于信号的距离增益为0dB的距离，即其中不应当应用增益或衰减来补偿距离。然后可以通过考虑相对于参考距离的实际距离来计算路径渲染器401应用的实际距离增益。

表示距离对声音传播的影响是参考给定距离来执行的。距离的加倍使能量密度(每表面单位的能量)降低6dB。距离的减半引起能量密度(每表面单位的能量)增加6dB。

为了确定给定距离处的距离增益，必须知道对应于给定水平的距离，因此可以确定当前距离的相对变化，即，以便确定密度已经减小或增加了多少。

忽略空气中的吸收并且假设不存在反射或遮挡元素，源的发射能量在具有以源位置为中心的任何半径的任何球体上是恒定的。对应于实际距离与参考距离的表面的比指示能量的衰减。渲染距离d处的线性信号幅度增益可以表示为b：

其中，r_ref是参考距离。

作为示例，如果参考距离是1米并且渲染距离是2米，则这导致大约6dB的信号衰减(或-6dB的增益)。

总发射能量指示可以表示声音源发射的总能量。通常，声音源在所有方向上辐射出，但不是在所有方向上同等地辐射出。在源周围的球体上的能量密度的积分可以提供总发射能量。在扬声器的情况下，通常可以利用施加到端子的电压和描述阻抗、能量损耗和电能到声压波的传递的扬声器系数的知识来计算发射的能量。

能量处理器505被布置为通过考虑音频源的方向性数据来确定总发射能量指示。应当注意，当确定可能具有变化的源方向性的源的扩散混响信号时，重要的是使用总发射能量而不仅仅是信号水平或信号参考水平。例如，考虑与具有方向性系数1并且对于所有其他方向具有系数0的非常窄的波束相对应的源方向性(即，能量仅在非常窄的波束中传输)。在这种情况下，发射源能量可以非常类似于音频信号和信号参考水平的能量，因为这表示总能量。如果替代地考虑具有相同能量和信号参考水平但具有全向方向性的音频信号的另一个源，则该源的发射能量将远高于音频信号能量和信号参考水平。因此，在两个源同时激活的情况下，全向源的信号应当在扩散混响信号中并且因此在下混中比非常定向的源强得多地表示。

如上所述，能量处理器505可以根据在围绕音频源的球体的表面上对能量密度进行积分来确定发射的能量。忽略距离增益，即，在距离增益为0dB的半径(即，其中，半径对应于参考距离)的表面上积分，可以根据下式确定总发射能量指示：

其中，g是方向性增益函数，p是与音频信号/源相关联的预增益，并且x指示音频信号本身的水平。

由于p与方向无关，因此它也可以移动到积分之外。类似地，信号x独立于方向(方向性增益反映该变化)。(它可以稍后相乘，因为：

并且因此积分变得与信号无关。)

在下文中更详细地描述了用于确定该积分的一种具体方法。

期望在球体上对方向性增益进行积分。

使用半径等于参考距离(r)的球体意味着距离增益为0db，并且因此可以忽略距离增益/衰减。

在该示例中选择球体，因为它提供了有利的计算，但是可以从包围源位置的任何形状的任何闭合表面确定相同的能量。只要在积分中使用适当的距离增益和方向性增益，就考虑面向源位置(即，具有与源位置一致的法向量)的有效表面。

表面积分应定义小表面dS。因此，定义具有两个参数(方位角(a)和仰角(a))的球体提供了这样做的维度。对于我们的解使用坐标系，我们得到：

f(a,e,r)＝r*cos(e)*cos(a)*u_x+r*cos(e)*cos(a)*u_y+r*sin(e)*u_z

其中，u_x、u_y和u_z是坐标系的单位基向量。

小表面dS是球面相对于两个参数的偏导数的叉积乘以每个参数的微分的幅度：

dS＝|f_a x f_e|da de

导数确定在感兴趣点处与球体相切的矢量。

f_a＝-r*cos(e)*sin(a)*u_x+r*cos(e)*cos(a)*u_y+0*u_z

f_e＝-r*sin(e)*cos(a)*u_x-r*sin(e)*sin(a)*u_y+r*cos(e)*u_z

导数的叉积是垂直于两者的向量。

f_a x f_e＝(r²*cos(e)*cos(a)*cos(e)+0*sin(e)*sin(a))*u_x+(-0*sin(e)*cos(a)+r²*cos(e)*sin(a)*cos(e))*u_y+(r²*cos(e)*sin(a)*sin(e)*sin(a)+r²*cos(e)*cos(a)*sin(e)*cos(a))*u_z

＝r²*cos²(e)*cos(a)*u_x+r²*cos²(e)*sin(a)*u_y+(r²*cos(e)*sin(e)*sin²(a)+r²*cos(e)*sin(e)*cos²(a))*u_z

＝r²*cos²(e)*cos(a)*u_x+r²*cos²(e)*sin(a)*u_y+(r²*cos(e)*sin(e)*(sin²(a)+cos²(a)))*u_z

＝r²*cos²(e)*cos(a)*u_x+r²*cos²(e)*sin(a)*u_y+r²*cos(e)*sin(e)*u_z

叉积的幅度是由矢量f_a和f_e跨越的平行四边形的表面积，并且因此是球面上的表面积：

|f_a x f_e|＝sqrt((r²*cos²(e)*cos(a))²+(r²*cos²(e)*sin(a))²+(r²*cos(e)*sin(e))²)

＝sqrt(r⁴*cos⁴(e)*cos²(a)+r⁴*cos⁴(e)*sin²(a)+r⁴*cos²(e)*sin²(e))

＝sqrt(r⁴*cos⁴(e)*(cos²(a)+sin²(a))+r⁴*cos²(e)*sin²(e))

＝sqrt(r⁴*cos⁴(e)+r⁴*cos²(e)*sin²(e))

＝sqrt(r⁴*cos²(e)*(cos²(e)+sin²(e)))

＝sqrt(r⁴*cos²(e))

＝abs(r²*cos(e))＝r²*cos(e)when e＝[-0.5*pi,0.5*pi]

导致：

dS＝r²*cos(e)*da*de

其中前两项定义归一化表面积，并且利用乘以da和de，它基于节段da和de的大小而变成实际表面。然后可以根据方位角和仰角来表达表面上的双积分。根据上文，表面dS根据a和e来表达。

可以在方位角＝0...2*pi(内积分)和仰角＝-0.5*pi...0.5*pi(外积分)上执行两个积分。

其中g(a,e)是作为方位角和仰角的函数的方向性。因此，如果g(a,e)＝1，则结果应当是球面的表面。(解析地计算出积分作为证明导致如所预期的4*pi*r²)。

在许多实际实施例中，方向性图案可以不作为可积分函数提供，而是例如作为样本点的离散集合提供。例如，每个采样的方向性增益与方位角和仰角相关联。通常，这些样本将表示球体上的网格。处理这一点的一种方法是将积分转换为求和，即可以执行离散积分。在该示例中，积分可以被实施为对球体上的指向性增益可用的点的求和。这给出了g(a,e)的值，但是要求正确地选择da和de，使得它们不会由于重叠或间隙而导致大的误差。

在其他实施例中，方向性图案可以被提供为空间中有限数量的非均匀间隔的点。在这种情况下，可以在感兴趣的方位角和仰角的范围内对方向性图案进行内插和均匀地重新采样。

替代的解决方案可以是假设g(a,e)在其定义的点周围是恒定的，并且局部解析地求解积分。例如对于小的方位角和仰角范围。例如在相邻的定义点之间的中间。这使用上述积分，但具有不同范围的a和e，并且g(a,e)假设为常数。

实验表明，通过直接求和，即使方向性分辨率相当粗糙，误差也很小。此外，误差与半径无关。对于10个点之间的方位角的线性间隔，并且10个线性间隔的仰角点导致-20dB的相对误差。

如上所表达的积分提供了与球体半径成比例的结果。因此，它与参考距离成比例。这种对半径的依赖性是因为我们没有考虑两个不同半径之间的“距离增益”的反作用。如果半径加倍，则“流动”通过固定表面积(例如1cm2)的能量低6dB。因此，可以说积分应当考虑距离增益。然而，在参考距离处进行积分，参考距离被定义为在信号中反映距离增益的距离。换句话说，由参考距离指示的信号水平不被包括作为被积分的值的缩放，而是通过在其上执行积分的表面积随参考距离变化来反映(因为积分是在半径等于参考距离的球体上执行的)。

因此，如上所述的积分反映了音频信号能量缩放因子(包括任何预增益或类似的校准调节)，因为音频信号表示半径等于参考距离(没有方向性增益)的球体上的固定表面区域处的正确信号回放能量。

这意味着如果参考距离更大，则在不改变信号的情况下，总信号能量缩放因子也更大。这是因为对应信号表示比具有相同信号能量但在更小参考距离处的声音源相对更响亮的声音源。

换句话说，通过在半径等于参考距离的球体的表面上执行积分，自动考虑由参考距离提供的信号水平指示。更高的参考距离将导致更大的表面积，并且因此导致更大的总发射能量指示。具体地，直接在距离增益为1的距离处执行积分。

上述积分产生归一化到所使用的表面单位和用于指示参考距离r的单位的值。如果参考距离r以米为单位表达，则积分的结果以m²为单位提供。

为了将估计的发射能量值与信号相关联，它应当以对应于信号的表面单位表达。由于信号的水平表示对于参考距离处的用户应当播放的水平，因此人耳的表面区域可能更适合。在参考距离处，相对于整个球体表面的该表面将与将感知的源能量的部分相关。

因此，表示针对音频信号中的满标度样本归一化的发射源能量的总发射能量指示可以由下式指示：:

其中，E_dir,r指示通过在半径等于参考距离的球体的表面上对方向性增益进行积分而确定的能量，p是预增益，并且S_ear是归一化缩放因子(以将所确定的能量与人耳的区域相关)。

利用表征空间的扩散声学性质的DSR和从方向性、预增益和参考距离元数据导出的计算的发射源能量，可以计算对应的混响能量。

DSR通常可以利用由其两个部件使用的相同参考水平来确定。这可以与总发射能量指示相同或不同。无论如何，当这种DSR与总发射能量指示组合时，当使用由上述积分确定的总发射能量时，所得到的混响能量也表达为针对音频信号中的满标度样本归一化的能量。换句话说，所考虑的所有能量基本上被归一化到相同的参考水平，使得它们可以直接组合而不需要水平调节。具体地，所确定的总发射能量可以直接与DSR一起使用，以生成从每个源生成的扩散混响的水平指示，其中，水平指示直接指示相对于其他音频源的扩散混响和相对于个体路径信号分量的适当水平。

作为具体示例，可以通过将DSR乘以总发射能量指示来直接获得不同源的扩散混响信号分量的相对信号水平。

在所描述的系统中，至少部分地通过调整用于生成下混信号的下混系数来执行不同音频源对扩散混响信号的贡献的调整。因此，可以生成下混系数，使得来自每个音频源的扩散声音的相对贡献/能量水平反映所确定的源的扩散混响能量。

作为具体示例，如果DSR指示初始幅度水平，则下混系数可以被确定为与DSR乘以总发射能量指示成比例(或等于DSR乘以总发射能量指示)。如果DSR指示能量水平，则下混系数可以被确定为与DSR的平方根乘以总发射能量指示成比例(或等于DSR的平方根乘以总发射能量指示)。

作为具体示例，用于为多个输入信号中的具有索引x的信号提供适当调节的下混系数d_x可以通过下式来计算：

其中，p指代预增益，并且

在预增益之前信号x的归一化发射源能量。DSR表示扩散混响能量与发射源能量的比。当下混系数d_x应用于输入信号x时，所得到的信号表示当由具有单位能量的混响响应的混响器滤波时相对于信号x的直达路径渲染以及相对于其他源j≠x的直达路径和扩散混响能量为信号x提供正确的扩散混响能量的信号水平。

替代地，下混系数d_x可以根据下式来计算：

d_x＝E_norm,x*DSR

其中，

指代信号x的归一化发射源能量，并且DSR表示扩散混响能量与初始混响响应幅度的比。当下混系数d_x应用于输入信号x时，所得到的信号表示与扩散混响信号的初始水平相对应的信号水平，并且可以由具有以幅度1开始的混响响应的混响器处理。因此，混响器的输出相对于信号x的直达路径渲染和相对于其他源j≠x的直达路径和扩散混响能量为信号x提供正确的扩散混响能量。

在许多实施例中，通过将DSR与总发射能量指示组合来部分地确定下混系数。无论DSR是否指示总发射能量与扩散混响能量或扩散混响响应的初始幅度的关系，常常都需要进一步调整下混系数以适应所使用的特定混响器算法，该算法对信号进行缩放使得混响处理器的输出反映期望的能量或初始幅度。例如，在输入水平保持不变时，混响算法中的反射密度对所产生的混响能量具有强烈影响。作为另一实例，混响算法的初始幅度可以不等于其激励的幅度。因此，可能需要算法特异性或算法和配置特异性调节。这可以包括在下混系数中，并且通常对于所有源是共同的。对于一些实施例，这些调节可以应用于下混或包括在混响器算法中。

一旦生成了下混系数，下混处理器509就可以例如通过直接加权组合或求和来生成下混信号。

所描述的方法的优点是它可以使用常规混响器。例如，混响器407可以由反馈延迟网络实施，例如在标准Jot混响器中实施。

如图7所图示，反馈延迟网络的原理使用具有不同延迟的一个或多个(通常多于一个)反馈回路。输入信号(在当前情况下，下混信号)被馈送到回路，其中，信号以适当的反馈增益被反馈。通过组合回路中的信号来提取输出信号。因此，信号以不同的延迟连续地重复。使用互质的延迟并且具有在回路之间混合信号的反馈矩阵可以创建类似于真实空间中的混响的模式。

反馈矩阵中的元素的绝对值必须小于1，以实现稳定的衰变脉冲响应。在许多实施方式中，在回路中包括额外的增益或滤波器。这些滤波器可以控制衰减而不是矩阵。使用滤波器具有衰变响应对于不同频率可以不同的益处。

在混响器的输出被双耳渲染的一些实施例中，估计混响可以分别通过左耳和右耳的平均HRTF(头部相关传递函数)进行滤波，以便产生左声道混响信号和右声道混响信号。当HRTF在用户周围的球体上以均匀间隔的间隔可用于多于一个距离时，可以意识到，使用具有最大距离的HRTF的集合来生成左耳和右耳的平均HRTF。使用平均HRTF可以基于/反映混响是各向同性的并且来自所有方向的考虑。因此，不是包括用于给定方向的一对HRTF，而是可以使用所有HRTF的平均。可以针对左耳执行一次平均并且针对右耳执行一次平均，并且可以使用所得到的滤波器来处理混响器的输出以用于双耳渲染。

在一些情况下，混响器本身可以引入输入信号的着色，导致不具有如DSR所描述的期望的输出扩散信号能量的输出。因此，也可以均衡该过程的效果。可以基于被分析地确定为混响器操作的频率响应的倒数的滤波器来执行该均衡。在一些实施例中，可以使用机器估计学习技术(诸如线性回归、线拟合等)来估计传递函数。

在一些实施例中，可以将相同的方法均匀地应用于整个频带。然而，在其他实施例中，可以执行频率相关处理。例如，所提供的元数据参数中的一个或多个可以是频率相关的。在这样的示例中，该装置可以被布置为将信号划分为与频率相关性相对应的不同频带，并且可以在每个频带中单独执行如前所述的处理。

具体地，在一些实施例中，扩散混响信号与总信号比DSR是频率相关的。例如，可以为一系列离散频带/频段提供不同的DSR值，或可以根据频率提供DSR。在这样的实施例中，该装置可以被布置为生成反映DSR的频率相关性的频率相关下混系数。例如，可以生成各个频带的下混系数。类似地，因此可以生成频率相关的下混和扩散混响信号。

对于频率相关的DSR，在其他实施例中，下混系数可以由作为下混生成的一部分对音频信号进行滤波的滤波器来补充。作为另一示例，DSR效应可以被分成频率无关(宽带)分量和频率相关分量，频率无关(宽带)分量用于生成频率无关下混系数，频率无关下混系数用于在生成下混信号时缩放各个音频信号，频率相关分量可以应用于下混，例如通过将频率相关滤波器应用于下混。在一些实施例中，这样的滤波器可以与另外的着色滤波器组合，例如作为混响器算法的一部分。图7图示了具有相关(u,v)和着色(h_L,h_R)滤波器的示例。这是专门用于双耳输出的反馈延迟网络，称为Jot混响器。

因此，在一些实施例中，DSR可以包括频率相关分量部分和非频率相关分量部分，并且系数处理器507可以被布置为根据非频率相关分量部分(并且独立于频率相关的部分)生成下混系数。然后可以基于频率相关分量部分来调整下混的处理，即，可以根据频率相关的部分来调整混响器。

在一些实施例中，来自音频源中的一个或多个的声音辐射的方向性可以是频率相关的，并且在这种情况下，能量处理器505可以被布置为生成频率相关的总发射能量，当与DSR(其可以是频率相关的或独立的)组合时，该总发射能量可以产生频率相关的下混系数。

这可以例如通过在离散频带中执行个体处理来实现。与频率相关的DSR的处理相比，方向性的频率相关性通常必须在生成下混信号之前(或作为生成下混信号的一部分)执行。这反映了通常需要频率相关的下混以包括方向性的频率相关效应，因为这些频率相关效应对于不同的源通常是不同的。在积分之后，可能的是净效应在频率上具有显著的变化，即，给定源的总发射能量指示可以具有实质的频率相关性，其中，这对于不同的源是不同的。因此，由于不同的源通常具有不同的方向性图案，因此不同源的总发射能量指示通常也具有不同的频率相关性。

在下文中将描述可能方法的具体示例。提供表征空间的扩散声学性质的DSR并根据方向性、预增益和参考距离元数据确定发射源能量允许计算对应的期望混响能量。例如，这可以被确定为：

E_norm*DSR

当用于计算DSR的分量使用相同的参考水平(例如，与信号的满标度相关)时，当使用如上面针对发射源能量计算的E_norm时，所得到的混响能量也将是针对PCM信号中的满标度样本归一化的能量，并且因此对应于可以应用于对应的输入信号以在所使用的信号表示中提供正确的混响水平的扩散混响的脉冲响应(IR)的能量。

这些能量值可以用于在混响算法之前确定混响算法、下混系数或下混滤波器的配置参数。

存在生成混响的不同方式。基于反馈延迟网络(FDN)的算法(诸如Jot混响器)是合适的低复杂度方法。替代地，噪声序列可以被整形为具有适当的(频率相关的)衰变和频谱形状。在两个示例中，可以调节原型IR(具有至少适当的T60)，使得其(频率相关的)水平被校正。

可以调节混响器算法，使得它们产生具有单位能量的脉冲响应(或DSR的单位初始幅度可以与初始幅度相关)，或混响器算法可以例如在Jot混响器的着色滤波器中包括其自己的补偿。替代地，可以利用(潜在地频率相关的)调节来修改下混，或可以修改由系数处理器507产生的下混系数。

可以通过在没有任何这样的调节但是应用所有其他配置(诸如适当的混响时间(T60)和反射密度(例如FDN中的延迟值))的情况下生成脉冲响应并测量该IR的能量来确定补偿。

补偿可以是该能量的倒数。为了包括在下混系数中，通常应用平方根。例如：

在许多其他实施例中，可以从配置参数导出补偿。例如，当DSR相对于初始混响幅度时，可以从其配置导出第一反射。根据定义，相关性滤波器是能量保存的，并且着色滤波器也可以被设计为。

假设没有着色滤波器的净提升或衰减，混响器可以例如导致取决于T60和最小延迟值minDelay的初始幅度(A₀)。

预测混响能量也可以启发式地进行。

作为扩散混响能量的一般模型，可以考虑指数函数A(t)：

A(t)＝A₀·e^-α·(t-t3)

对于t≥t3＝predelay。其中，α是由T60控制的衰变因子，并且A₀是在预延迟处的幅度。

计算像这样的函数的累积能量，它将渐近地接近一些最终能量值。最终能量值与T60具有几乎完美的线性关系。

线性关系的因子取决于函数A的稀疏性(将每第2个值设置为0产生约一半的能量)、初始值A₀(能量随着

线性地缩放)和采样率(随着fs的变化线性地缩放)。可以使用T60、反射密度(从FDN延迟导出)和采样率利用这样的函数可靠地建模扩散尾部。模型的A₀可以如上所示的那样被计算为等于FDN的A₀。

当生成具有在0.1-2s范围内的宽带T60值的多个参数混响时，IR的能量与模型接近线性。实际能量和指数方程模型平均之间的缩放因子由FDN响应的稀疏性确定。这种稀疏性朝向IR的结束而变得更小，但在开始时具有最大的影响。根据用延迟值的多种配置测试上述内容，已经发现，在模型降低因子和FDN中配置的延迟之间的最小差异之间存在几乎线性关系。

例如，对于Jot混响器的特定实施方式，这可以相当于通过下式计算的缩放因子SF：

SF＝7.0208*MinDelayDiff+214.1928

通过从t＝0到无穷大积分来计算模型的能量。这可以分析地进行，并且导致：

组合上述内容，我们得到混响能量的以下预测。

将认识到，为了清楚性，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将显而易见的是，在不减损本发明的情况下，可以使用不同的功能电路、单元或处理器之间的功能性的任何适合的分布。例如，被图示为由分离的处理器或控制器执行的功能性可以由相同处理器或控制器执行。因此，对特定功能单元或电路的引用仅将被看作对用于提供所描述的功能性而不是指示严格逻辑或物理结构或组织的适合的装置的引用。

本发明可以以任何适合的形式来实施，包括硬件、软件、固件或这些的任何组合。本发明可以可选地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何适合的方式物理地、功能地和逻辑地实施。实际上，功能可以被实施在单个单元中、在多个单元中或作为其他功能单元的一部分。因此，本发明可以被实施在单个单元中或可以物理地并且功能上被分布在不同的单元、电路和处理器之间。

虽然本发明已经结合一些实施例描述，但是其不旨在限于本文阐述的特定形式。相反，本发明的范围仅由附图限制。此外，虽然特征可能看起来结合特定实施例描述，但是本领域的技术人员将意识到，所描述的实施例的各种特征可以根据本发明进行组合。在权利要求中，术语包括不排除其他元件或步骤的存在。

此外，虽然单独地列出，但是多个装置、元件、电路或方法步骤可以通过例如单个电路、单元或处理器实施。此外，虽然单独特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且不同的权利要求中的包括不暗示特征的组合不是可行的和/或有利的。而且，一个类别的权利要求中的特征的包括不暗示对该类别的限制，而是相反指示特征同样地酌情适用于其他权利要求类别。此外，权利要求中的特征的次序不暗示特征必须工作的任何特定次序，并且特别地，方法权利要求中的单独步骤的次序不暗示步骤必须以该次序执行。相反，步骤可以以任何适合的次序执行。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供为澄清示例，而不应当被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于生成针对环境的扩散混响信号的音频装置；所述装置包括：

接收器(501)，其被布置为接收表示所述环境中的声音源的多个音频信号；

元数据接收器(501)，其被布置为接收针对所述多个音频信号的元数据，所述元数据包括：

扩散混响信号与总信号的关系度量，其指示扩散混响声音相对于所述环境中的总发射声音的水平，

以及针对每个音频信号的：

信号水平指示；

方向性数据，其指示来自由所述音频信号表示的所述声音源的声音辐射的方向性；

电路(505、507)，其被布置为针对所述多个音频信号中的每个音频信号：

基于所述信号水平指示和所述方向性数据来确定总发射能量指示，并且

基于所述总发射能量和所述扩散混响信号与总信号的关系来确定下混系数；

下混器(509)，其被布置为通过组合通过将针对每个音频信号的所述下混系数应用于所述音频信号而生成的每个音频信号的信号分量来生成下混信号；

混响器(407)，其用于根据下混信号分量来生成针对所述环境的所述扩散混响信号。

2.根据权利要求1所述的音频装置，其中，声音辐射的所述方向性是频率相关的，并且所述电路被布置为确定频率相关的总发射能量和频率相关的下混系数。

3.根据前述权利要求中的任一项所述的音频装置，其中，所述扩散混响信号与总信号的关系是频率相关的，并且所述电路(505、507)被布置为确定频率相关的下混系数。

4.根据前述权利要求中的任一项所述的音频装置，其中，所述扩散混响信号与总信号的关系包括频率相关的部分和非频率相关的部分，并且其中，所述电路(505、507)被布置为根据所述非频率相关的部分来确定所述下混系数，并且根据所述频率相关的部分来调整所述混响器(407)。

5.根据前述权利要求中的任一项所述的音频装置，其中，所述电路被布置为响应于用通过对由所述多个音频信号中的第一音频信号表示的所述声音源的方向性图案进行积分而确定的值将针对所述第一音频信号的所述信号水平指示进行缩放来确定针对所述第一音频信号的所述总发射能量指示，所述方向性图案是基于方向性数据确定的。

6.根据前述权利要求中的任一项所述的音频装置，其中，针对所述多个音频信号中的第一音频信号的所述信号水平指示包括参考距离，所述参考距离指示针对所述第一音频信号的距离参考增益的距由所述第一音频信号表示的所述音频源的距离。

7.根据从属于权利要求5的权利要求6所述的音频装置，其中，针对作为距由所述第一音频信号表示的所述音频源的所述参考距离的距离执行所述积分。

8.根据任一前述权利要求所述的音频装置，其中，所述扩散混响信号与总信号的关系指示相对于所述环境中的总发射声音的能量的扩散混响声音的能量。

9.根据前述权利要求中的任一项所述的音频装置，其中，所述扩散信号与总信号的关系指示扩散声音相对于所述环境中的总发射声音的能量的初始幅度。

10.根据前述权利要求中的任一项所述的音频装置，其中，针对所述多个音频信号中的第一音频信号确定的所述下混系数与由所述第一音频信号表示的第一音频源的位置无关。

11.根据前述权利要求中的任一项所述的音频装置，其中，针对所述多个音频信号中的第一音频信号确定的所述下混系数与收听者的位置无关。

12.根据前述权利要求中的任一项所述的音频装置，其中，针对所述多个音频信号中的第一音频信号的所述信号水平指示还包括针对所述第一音频信号的增益指示，所述增益指示指示当渲染来自由所述第一音频信号表示的第一音频源的声音时要应用于所述第一音频信号的增益，并且其中，所述电路(505、507)被布置为响应于所述增益指示而确定针对所述第一音频信号的所述下混系数。

13.根据前述权利要求中的任一项所述的音频装置，还包括直达渲染电路(401)，所述直达渲染电路被布置为响应于针对所述多个音频信号中的第一音频信号的所述信号水平指示和所述方向性数据而生成针对所述第一音频信号的直达路径音频信号。

14.根据前述权利要求中的任一项所述的音频装置，其中，所述元数据还包括延迟指示，并且所述扩散信号与总信号的关系指示相对于所述环境中的总发射声音的能量的具有比所述延迟指示更长的延迟的扩散混响声音的能量。

15.一种生成针对环境的扩散混响信号的方法，所述方法包括：

接收表示所述环境中的声音源的多个音频信号；

接收针对所述多个音频信号的元数据，所述元数据包括：

以及针对每个音频信号的：

信号水平指示；

针对所述多个音频信号中的每个音频信号：

通过组合通过将针对每个音频信号的所述下混系数应用于所述音频信号而生成的每个音频信号的信号分量来生成下混信号；

根据下混信号分量来生成针对所述环境的所述扩散混响信号。

16.一种包括计算机程序代码模块的计算机程序产品，当所述程序在计算机上运行时，所述计算机程序代码模块适于执行权利要求15的所有步骤。