CN111095952A

CN111095952A - 使用体积音频渲染和脚本化音频细节级别的3d音频渲染

Info

Publication number: CN111095952A
Application number: CN201880057183.7A
Authority: CN
Inventors: D·塔尔; C·A·沃尔夫; J·E·麦卡特尼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2017-09-29
Filing date: 2018-09-24
Publication date: 2020-05-01
Anticipated expiration: 2038-09-24
Also published as: CN114286277A; US11950084B2; US11146905B2; CN111095952B; US20200296533A1; US20210400415A1; WO2019067370A1

Abstract

本发明提供了一种用于声学渲染三维虚拟环境的音频引擎。音频引擎使用几何体积来表示声源和任何声音阻隔器。基于从体积声源投射到收听者的声音并且考虑它们之间的任何体积阻隔器来生成体积响应。音频引擎也随时间的推移基于收听者与声源之间的距离来提供声音的细节级别的修改。也描述了其他方面并要求对其他方面进行保护。

Description

使用体积音频渲染和脚本化音频细节级别的3D音频渲染

优先权要求

本非临时专利申请要求于2017年9月29日提交的美国临时专利申请62/566,130的在先申请日期的权益。

技术领域

本文的公开内容涉及三维(3D)音频渲染。

背景技术

计算机程序员使用2D和3D图形渲染和动画基础结构作为快速软件应用程序开发的便利手段，诸如用于开发例如游戏应用程序。例如，图形渲染和动画基础结构可包括允许程序员以有限编程开销创建使用复杂特殊效果的2D和3D场景的库。

此类图形框架的一个挑战是图形程序诸如游戏常常需要必须基于场景中各种对象的非确定性或随机动作实时地确定的音频特征。将音频特征并入图形框架常常需要大量时间和资源来确定当场景中的对象改变时音频特征应如何改变。

对于虚拟音频环境中声音的空间表示(3D音频渲染)，目前的方法通常将声音表示为空间中的点。这通常意味着应用程序需要为虚拟音频环境中存在的各种声音中的每一者生成点。这一过程是复杂的，并且目前的方法通常是特设的。

对于声音的合成，当前方法随着虚拟音频环境中收听者与声源之间的距离增大而使声音衰减。在一些情况下，还执行声音的滤波，其中随着与代表声源的对象的虚拟距离增大，声音的高频率衰减超过低频率。

附图说明

在附图的图示中通过举例而非限制的方式示出了本文的实施方案，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”实施方案未必是同一实施方案，并且其意指至少一个。另外，为了简洁以及减少附图的总数，某个附图可能被用于示出不止一个实施方案的特征，并且对于某个实施方案，可能并不需要该附图中的所有元素。

图1示出了用于解释三维(3D)虚拟音频环境的代表性视图。

图2示出了用于解释示例性3D虚拟音频环境的代表性视图。

图3A示出了用于解释具有几何体积的示例性对象的代表性视图。

图3B示出了用于解释具有简化边界体积的示例性对象的代表性视图。

图4示出了用于解释声音阻隔对象的示例性音频特征的代表性视图。

图5是用于根据示例性实施方案解释体积音频渲染的流程图。

图6是用于解释使用脚本化音频细节级别的音频渲染的流程图。

图7示出了用于执行3D音频渲染的示例性系统。

具体实施方式

现在将参考所附附图来解释本发明的若干个实施方案。只要未明确限定方面，本发明的范围就不只限于所示部件，其仅是为了举例说明的目的。另外，虽然阐述了许多细节，但应当理解，本发明的一些实施方案可在没有这些细节的情况下被实施。在其它情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

体积音频对象

一般来讲，本文的实施方案旨在将3D虚拟音频环境中的声源表示为几何体积，而不是点。具体地讲，虚拟场景中的对象可被定义为具有几何体积并且具有与音频特征相关联的材料。该材料或其相关联的音频特征可指示该对象为不产生声音的声音阻隔器，或者该对象为确实产生声音的声音产生器(源)。应当注意的是，此处考虑的声音不是混响声音，而是未从3D虚拟环境或场景中的对象反射的直接路径声音。因此，可以将材料限定其声学特性的声源或其他对象添加到虚拟场景中。这使得可能是音频渲染引擎而不是应用程序使用对象的几何体积来渲染更真实的音频环境(在这里也被称为体积音频或声学渲染，或体积响应)。

在一个方面，图形处理单元(GPU)是双重用途的，因为其除了图形渲染任务之外，也用于执行体积音频渲染任务，这两者可能在给定应用程序例如游戏应用程序中被要求。这使得可能通过同时“查看”整个虚拟场景来线性化音频渲染任务的时间复杂度，这将时间复杂度降低到O(1)*L，其中L是收听者角度的数量。这也使得可能经由图形渲染过程并且具体地使用深度缓冲来更自然地处理阻隔。

本发明的另一实施方案旨在随着时间的推移随着收听者移动更靠近3D虚拟环境中的声源而提高声音的细节级别(LOD)，并且随着时间的推移随着收听者移动更远离声源而降低LOD，而不是仅仅衰减声音或对声音进行频成形。在一个方面，提供一种脚本语言，其程序地描述音频系统随时间推移如何渲染声音。在脚本过程期间(当正在编写特定脚本时)，为声音设计者提供一组与声音的细节级别(LOD)相关的度量。设计者从这组可用度量中进行选择，并设置所选度量的各种参数，以定义用于渲染由特定对象产生的声音的过程。音频引擎针对(限定正被渲染的场景中的声音的帧序列的)每个帧反复执行该脚本，以产生扬声器驱动器信号。因此，为了声音设计和功率消耗或信号处理预算管理的目的，这些度量用于随时间推移迭代地修改声音渲染的复杂度(例如，粒度)。这些度量包括诸如声源与收听者之间的距离、声源与收听者之间的立体角、收听者相对于声源的速度、声源所产生的声音的“响度掩蔽量”、以及当前全局信号处理负载之类的信息。其他度量可包括该声源相对于其他声源的优先级以及该声源对于其他对象的位置。

例如，可以基于收听者和声源之间的距离来改变声音的合成或随时间推移合成声音的过程。随着收听者移动更靠近声源，声音的合成随着时间的推移变得更加复杂(例如，更细粒度和更细节)，并且随着收听者移动远离声源，声音的合成随着时间的推移变得复杂度更低。这产生可在交互式虚拟环境中对于时间和空间两者平滑且连续地修改各个声音的细节级别的音频渲染过程。

图1是用于解释三维(3D)虚拟音频环境的代表性顶视图。在直接路径声源渲染方法中，确定声源(例如，河流10)是否能被收听者(例如，收听者12A、收听者12B)听到。此过程通常需要深入了解场景及其层次结构。大多数常规方法反复地运行视线(LOS)测试，在遍历场景图的同时从该源向收听者发射射线。如果在任何点，射线与对象(例如球体、边界框或网格)相交，则声源的直接路径贡献被标记为被阻隔。图1示出了此类示例性对象，如房屋15。遍历整个场景分级结构的成本的范围是从适度到极端，具体取决于场景的大小和复杂度。通常采用简化的形状以使射线对形状的计算最小化。

为了改善真实性，一些方法使用射线对网格计算。在这种情况下，运行时复杂度通常为O(T*S)*L，其中T为网格中三角形的数量，S为声源的数量，而L为收听者角度的数量。因此，具有1000个三角形、1个源和1个收听者角度的单个网格需要1000个相交测试。当前模拟体积源的方法通常涉及跟踪声源上的单个最近点并将其视为相关联声音的源位置。点可例如通过指示虚拟环境中位置的XYZ坐标来表示。一些当前方法以多个点源来逼近声源的形状或体积。例如，框源可以以8个点源来逼近(例如，每个顶点一个点源)。然而，那个简单修改可将相交测试的数量增加8倍，总计8000个射线对网格相交测试。在图1的示例中，河流10是以点25(分别为点25a-k)来逼近。可以从收听者到声源10的点25中的一者或多者执行射线跟踪。由于从收听者12A到点25e-g的射线与房屋15相交，因此声源10的来自这些点的直接路径贡献被标记为被阻隔。(类似地，从收听者12B到点25e-g的射线与房屋15相交，并且来自点25e-g的声音被标记为被阻隔。)这样，程序员必须知道房屋15和房屋15的位置，以便定位声源点，使得收听者能听到与河流10相关联的声音。

因此，在当前方法中，声源常常由空间中的一个或多个点来空间地表示，这导致时间和资源的显著使用，因为(在位于音频渲染引擎之上的软件抽象层中执行的)应用程序需要为在虚拟环境中存在的各种声音中的每一者生成点。在虚拟场景发生变化(诸如，收听者移动位置或将另一对象引入虚拟环境中)的情况下，需要再次执行该过程以确定当虚拟场景中的对象改变时音频特征应如何改变。再次参见图1，当收听者从更远离声源的位置(例如，收听者12B)移动到更靠近声源的位置(例如，收听者12A)时，表示声源的点需要相对于房屋15向外移动更远(例如，点25c和25i)，以便声源被听到。当收听者从更靠近声源的位置(例如，收听者12A)移动到更远离声源的位置(例如，收听者12B)时，这些点需要相对于房屋15向内移动(例如，点25d和25h)。

当收听者朝向和远离声源移动时，也可能想要考虑应如何改变声音的合成。当前方法往往随着虚拟环境中收听者与声源之间的距离增大而使声音衰减。声音的体积可根据距离而增大或减小。在一些情况下，也执行声音的滤波，其中随着距离增大，声音的高频率被衰减更多。

一些当前的方法使用空间聚类算法，该算法用替代物诸如经烘烤(baked)录音或空间相干声音现象的统计模型诸如树林中的风或飞溅到湖泊中的瀑布来替换远离收听者的声音。当前的空间聚类方法常常有几个问题。首先，空间聚类将声音中的细节限制到空间相干的声音现象，这使得许多情况未解决，因为许多交互式虚拟环境包含近距离中无关声音的混合。其次，音频渲染应用通常必须提供非常复杂的信号处理方案，该方案必须尝试在声音群集中的各种声音之间混合而不引入“爆裂”伪迹，常常使用许多不同类型的统计模型和关于混合不同类型声音的规则。

现在结合图2描述本公开的一个方面。在图2的示例中，虚拟场景包括两个收听者(例如，收听者212A、收听者212B)和两个可显示的对象，即河流210和房屋215。当然，虚拟场景可包括任何实际数量的对象以及各种类型的对象。河流210是作为声源的对象，其在3D虚拟环境中被体积地表示。因此，不是被构造成从构成该对象的一个或多个离散点(如图1所示)产生声音，而是说河流210从表示其的形状的整个体积的表面产生声音。房屋215是阻隔来自河流210的声音到达收听者212A的声音阻隔对象。房屋215在3D虚拟环境中也被体积地表示。

图3A示出了可用于表示对象诸如房屋215的示例性几何体积。如图3A所示，对象315A的几何体积可由被例示为立方体的形状30a表示。对象315B的几何体积由形状30b和35表示(例如，分别为立方体和锥体)。

在图2的示例中，河流210的几何体积被例示为平面。然而，声音产生对象诸如河流也可具有更复杂的形状。图3B示出了具有卷绕路径的河流310的示例。在一个方面，确定若干简化的边界体积(例如，36、37、38、39)，它们作为整体或一起表示河流310的几何体积。尽管在图2中体积36-39未被显示为重叠，但这些体积在一些情况下可重叠。

尽管图3A和图3B将若干具体形状例示为用于描述此处涉及几何体积的概念的示例，但另选地，可使用其他形状和形状组合来表示声音产生对象和声音阻隔对象两者的几何体积。

在一个方面，不同的材料与几何体积或对象的每个组成组分或形状相关联，使得一个或多个材料构成对象。在图3A的示例中，对象315B可表示具有砖主体(形状30b)和瓦屋顶(形状35)的房屋，其中每一者由不同的材料制成。每个材料与一个或多个音频特征相关联，所述一个或多个音频特征可限定声音(与声音产生对象相关联)，或者可限定阻隔的量(与声音阻隔对象相关联)。每个材料可通过材料标识来标识，使得相关联的音频特征可例如经由表查找来获得。材料与其标识之间的关系可存储在存储器中的数据库诸如查找表中。材料可具有在所存储的数字资产库中可用的预定义音频特征。在一个方面，系统允许设计者选择具有预定义几何体积和材料的对象，然后操纵该对象以为其分配不同的材料。

在一个实施方案中，为了执行体积音频渲染，确定直接路径用于将场景从收听者的角度(收听者的视角)渲染到特殊帧缓冲器中，其中存储有3D场景的组成像素的深度值、表面的法线(法线向量)和材料标识。在一个实施方案中，渲染多于一个收听者的角度。渲染两个角度就允许简单的立体分离，而渲染来自例如立方体的角部的所有角度就提供完全音频空间化。在渲染过程期间，针对其材料(并因此针对其相关联的音频特征)分析虚拟场景的每个输出像素，从而得到用于控制附接至材料的声音的增益的可见度度量。同样在渲染过程期间，从收听者到声源计算飞行时间(例如，距离或等效地为延迟)。在一个实施方案中，该计算是通过整合表面(材料)的深度值，或通过简单地计算从收听者到与表面(材料)相关联的多边形的质心的距离来执行。在一个实施方案中，这些过程由图形处理单元(GPU)执行以生成从收听者的角度可见的材料(例如，多边形)的列表、以及相关联的增益和飞行时间(距离)。然后可将这些结果发送给中央处理单元(CPU)或与GPU分开的其他合适的数字处理器，其任务在于处理来自多个采样器(例如，每个材料一个采样器)的一个或多个数字音频信号，其中音频信号根据结果而被衰减和延迟，然后利用平移技术、基于HRTF的技术或其他方案被下混合到N个扬声器通道以用于完全空间化回放。

因此，可以将声音表示为音频引擎中应用层下方的体积，而不是点。就这一点而言，在应用层，应用程序接收关于要放置在虚拟环境中的对象的输入，例如，具有几何体积(例如，形状、长度等)、相关联材料、和位置(例如，虚拟场景中的坐标位置)。对象可为例如河流210或房屋215。与河流210的几何体积相关联的材料可与限定流水声音(例如，存储在存储器中的一个或多个声音文件)的音频特征相关联。与房屋215的几何体积相关联的材料可与限定吸声特征的音频特征相关联。音频特征也可根据空气中直接声音路径的长度(距离)来限定衰减的量。图4是声音阻隔对象的一个示例性音频特征的表示。如图4所示，对于与声音阻隔器的几何体积相关联的材料，振幅对频率响应指示随着频率增大而发生更多的衰减。在其他实施方案中，声音阻隔器的音频特征可限定对象在所有频率中阻碍声音。

应用程序也接收关于收听者的输入，包括在虚拟场景中的位置。利用关于虚拟环境中的对象和收听者的信息，可以计算从收听者212A的角度整个河流听起来如何，如图2所示：在房屋的每一侧(例如，区域231、232)有由河流的体积产生的声音，并且存在被房屋215阻隔的经滤波的由河流的体积产生的声音(例如，233)。在与河流210相关联的声音是流水的情况下，因此可以从收听者12A的角度生成声音，使得收听者12A听到来自河流210的左区域231的水(其被恰当地投射到收听者212A的左侧)、来自河流210的右区域232的水(其被适当地投射到收听者212A的右侧)、以及来自区域233的水的经滤波版本(其被房屋215阻隔并且被适当地投射到收听者212A的中心)。在一个实施方案中，当收听者穿过虚拟场景时，从区域231、232、233中每一者投射的声音的量由音频引擎调制而应用程序没有采取任何动作，从而得到更高的真实性。

虽然图2示出了两个对象，即河流210和房屋215，但应当理解，这仅仅是一个示例。其他虚拟环境可包括任意数量的任何类型的对象。例如，虚拟环境可具有多个声音产生对象(源)和多个声音阻隔对象。

由于上述布置，尤其是因为对象的几何体积是已知的，因此可以知道移动对象如何影响声音的阻隔。例如，音频引擎可以确定在体积对象移动、旋转、改变取向或被阻隔时如何渲染声音。

在一个实施方案中，使用GPU，可以渲染更多声源，因为它们真实地“在虚拟场景中”，使得设计虚拟场景的音频方面的复杂性降低。此外，通过使用DSP处理，可以提供允许完全动态环境的完全实时处理。因此，与使用常规技术创建虚拟场景相比，可以更快更容易地创建虚拟场景。此外，应用程序上的负载减小，因为是音频引擎可提供对象的几何体积和相关联材料。

在一个实施方案中，也可考虑声音的合成。例如，对象的音频特征可限定用于合成声音的具体算法或脚本。再次使用图2来例示，当收听者朝向和远离对象移动时，渲染由对象产生的声音的方式可基于收听者与对象的接近度而改变。在图2的示例中，如果收听者正远离河流210站立(例如，收听者212A)，则音频特征可指示河流210所产生的声音是流水。作为一个示例，可通过回放声音文件循环来产生流水声音。然而，当收听者移动更靠近河流210(例如，收听者212B)时，音频特征可指示河流210所产生的声音还包括更多细节，诸如水泡和溅水。这些附加细节可随着时间的推移以附加的复杂性和粒度被渲染。这些附加细节也可混合，使得收听者听不到单个元素冒出。这样，当收听者移动更靠近河流210时，持续的流水声音可被在时间上更精细的粒子合成代替，使得声源所产生的声音的细节级别被提高并且收听者听到附加的细节。因此，不仅通过随着时间的推移引入附加的声音元素，而且也通过修改声音被渲染和元素被混合的方式，可能提高声音的复杂性。在这种情况下，声音因此被称为是相对于空间和时间两者合成。所述算法或脚本可表示由收听者与声源之间的距离参数化的单个合成函数。在一个实施方案中，该算法是连续合成函数，其连续地随着收听者更靠近声源而越来越详细地渲染音频，例如通过提高该函数的参数化的复杂性。

脚本化音频细节级别

在一个实施方案中，在脚本化音频细节级别过程中，声音设计者正在经由声音脚本语言脚本化或编写程序化音频，其限定音频引擎渲染由场景中的给定音源对象产生的声音的过程。然后，将输出脚本存储为在这里被称为声音脚本的数据结构。控制逻辑的变化的程度被提供作为音频引擎的一部分，其根据声音脚本内指定的细节级别(LOD)度量随时间推移(经由音频信号处理或音频渲染)修改由声源对象产生或被阻隔对象修改的声音。这些度量可包括诸如声源与收听者之间的距离、声源与收听者之间的立体角、收听者相对于声源的速度、声源所产生的声音的响度掩蔽量、以及当前全局信号处理负载之类的信息。其他度量可包括该声源相对于其他声源的优先级以及该声源对于其他对象的位置。

声音脚本在与该脚本相关联的场景中的音源对象被加载时由更高层应用程序(例如，游戏应用程序)加载和运行。当收听者和声源(如由更高层应用程序所信号指示)相对于彼此围绕虚拟环境移动时，例如，收听者的取向改变，LOD度量被例如3D音频环境模块765反复更新—参见图7，并且在声音脚本内被使得可供用于随时间推移对音频信号处理的动态、程序化修改(例如，由音频渲染模块755执行)。

在图2的实施方案中，当收听者远离河流210(例如，收听者212A)时，声音脚本可回放经烘烤(或预定和固定)的河流循环。然而，当收听者更靠近河流210时，河流循环可被具有更定向细节的更短河流循环的混合序列代替。而当收听者使其头部朝向河流边缘(例如，收听者212B)时，所述更短河流循环可被更细粒纹理的水滴声和溅水声替代。河流210所产生的声音的这个演变是由设计者在(与河流210相关联的)声音脚本中定义。

涉及脚本化音频细节级别的另一示例如下。在该示例中，直升机被认为是声源。在该场景中，声音脚本可播放一系列振幅调制噪声突发以模拟特定频率的旋转转子叶片。当直升机移动更靠近收听者时，声音脚本可引入引擎噪声循环(例如，由存储在存储器中的另一声音文件产生)。

转到图5，示出了用于解释体积音频渲染的流程图。就这一点而言，以下实施方案可被描述为过程500，该过程可被描绘为流程图、流程框图、结构图或框图。虽然流程图可将操作描述为顺序的过程，但是这些操作中的多个操作可并行执行或同时执行。此外，操作的顺序可被重新排列。另外，其他实施方案可包括未被示为流程图的一部分的附加框。在其它实施方案中，一个或多个框可被移除。过程在其操作被完成时终止。过程可对应于方法、程序等。过程500可由包括硬件(例如电路、专用逻辑等)、软件(例如实现在正被数字处理器执行的非暂态计算机可读介质上)或它们两者的组合的处理逻辑来执行。

在图5的实施方案中，在框501处，接收关于收听者(例如，收听者212A、收听者212B)的收听者信息，包括三维虚拟环境中的位置和取向。所述取向可包括例如收听者的鼻部正面向哪个方向。

在框502处，接收关于三维虚拟环境中任何声音阻隔对象(例如，房屋215)的信息。在不存在阻隔声音的对象的情况下，过程前进至框503。在存在多个阻隔声音的对象的情况下，对于这些对象中的每一者接收信息。所述信息可包括声音阻隔对象的几何体积、与几何体积相关联的一种或多种材料、以及声音阻隔对象在三维虚拟环境中的位置。所述材料限定声音阻隔对象的一个或多个音频特征。在一个实施方案中，音频特征限定阻隔对象如何衰减音频信号(例如，作为频率响应)。例如，音频特征可限定响应，其中音频信号的较高频率分量比音频信号的较低频率分量衰减更多。

在框503处，接收关于三维虚拟环境中声音产生对象(例如，河流210)的信息。所述信息可包括声音产生对象的几何体积、与几何体积相关联的一种或多种材料、以及声音产生对象在三维虚拟环境中的位置。所述材料可与声音产生对象的一个或多个音频特征相关联。在一个实施方案中，音频特征限定声音产生对象要产生的声音(作为音频信号)。在一个实施方案中，音频特征限定用于合成声音的脚本(参见例如图6，如下所述)。

在虚拟环境包括不止一个声音产生对象的情况下，在框503处接收关于所述声音产生对象中每一者的信息。

如上文结合图3A和图3B所述，声音阻隔对象和声音产生对象的几何体积(例如，形状315A、形状315B)可各自由一个或多个子体积(例如，形状30a、形状30b)构成。此外，基于对象信息，子体积36-39可由音频引擎通过生成界定对象(例如河流210)形状的简化体积来生成，使得设计者(用户)不必执行划分对象以获得更简单的声音产生区域的任务。在一些实施方案中，每个子体积与相同材料相关联。在其他实施方案中，每个子体积与不同材料相关联。

在一个实施方案中，基于与材料相关联的音频特征，虚拟环境中所述对象中的每一者可被分类为声音阻隔器或声源(发生器)。例如，如果对象的材料不与产生声音的音频特征相关联，则该对象被分类为声音阻隔器。如果对象的材料与产生声音的音频特征相关联，则该对象被分类为声源(发生器)。如前所述，所产生的声音可由存储在存储器中的音频文件生成，可以是声音的混合，可以被合成，或者可以是它们的任何组合。在一些示例中，对象可以是声源和声音阻隔器两者(例如，扬声器箱)。在这些示例中，对象可与声音阻隔材料和声音产生材料二者相关联。作为一个示例，声音产生对象可以在声音阻隔对象内侧，例如，通过喇叭扬声器发射的声音。在喇叭扬声器的示例中，喇叭的基座处的压缩驱动器可被认为是声音产生对象，而喇叭可被认为是声音阻隔器。

在其他示例中，对象可与具有声音产生和声音阻隔特性两者的材料相关联。作为一个示例，声音产生对象也可被认为是声音阻隔对象，例如振动的发动机。在振动的发动机的示例中，声音由发动机产生，使得其可被视为声音产生对象，并且发动机对于从收听者的角度在其后面的任何声源也充当阻隔器。在这种情况下，根据一个实施方案，与表示发动机的几何体积相关联的材料指示声源和声音阻隔器两者，使得发动机的几何体积作为声音产生对象和声音阻隔对象两者来处理。在一个实施方案中，运行时算法可被配置为执行音频渲染，使得此类对象的自阻隔不发生。

在一个实施方案中，设计者可调节与对象相关联的声音，或者可指定声源如何渲染声音。这将结合下文进一步描述的图6进行更详细的讨论。

仍然参见图5，在框504处，基于收听者信息、声音阻隔对象信息和声音产生对象信息来确定声音产生对象(对于其，所产生的声音被投射到收听者)的几何体积的哪一部分被声音阻隔对象阻隔(例如，区域233)。此外，确定声音产生对象(对于其，所产生的声音被投射到收听者)的几何体积的哪一部分不会被声音阻隔对象阻隔(例如，区域231、区域232)。因此，该过程确定在虚拟场景中收听者能听到什么声音。就这一点而言，收听者常常定位在3D虚拟环境中的图形相机处或附近。例如，参见图2，为了生成逼真的音频环境，收听者212A应当听到来自河流210的区域231和区域232的一定量的声音、以及来自区域233的由于房屋215的阻隔而更少量的声音。来自所有这些区域的声音可基于收听者与河流210之间的(飞行时间)距离或空气量而衰减。

在虚拟环境中没有声音阻隔对象的情况下，不执行框504并且过程前进至框505。

在存在多个声音产生对象的情况下，针对每个声音产生对象相对于给定声音阻隔对象执行或重复框504。在存在多个声音阻隔对象的情况下，针对声音产生对象相对于每个声音阻隔对象执行或重复框504。在存在多个声音产生对象和多个声音阻隔对象的情况下，针对每个独特对的声音产生和声音阻隔对象执行框504。在一个实施方案中，如果在声音产生对象和收听者之间的直接路径中存在多个声音阻隔对象，则基于收听者信息、关于声音阻隔和产生对象的信息确定声音产生对象(对于其，所产生的声音被投射到收听者)的几何体积的哪些部分将被这多个声音阻隔对象阻隔。该过程也确定声音产生对象(对于其，所产生的声音被投射到收听者)的几何体积的哪些部分将不被这多个声音阻隔对象阻隔。也可基于声音阻隔对象的音频特征来确定从收听者的角度由于这多个声音阻隔对象而被衰减的声音的量。例如，可确定被第一阻隔对象阻隔、然后被第二阻隔对象阻隔的声音的量。

在框505处，确定来自声音产生对象的几何体积的以下部分的能量的量，即对于其，(被投射到收听者的)所产生的声音将被声音阻隔对象阻隔(例如，区域233的能量)。另外，确定来自声音产生对象的几何体积的以下部分的能量的量，即对于其，(被投射到收听者的)所产生的声音将不被声音阻隔对象阻隔(例如，区域231、232的能量)。

在虚拟环境中没有声音阻隔对象的情况下，不是确定来自被阻隔和未被阻隔部分的能量的量，而是确定来自声音产生对象的几何体积(或几何体积的一个或多个部分)的能量的量，对于其，所产生的声音被投射到收听者。

在存在多个声音产生对象和/或多个声音阻隔对象的情况下，在一个实施方案中，来自每个声音产生对象的贡献在框505中加和。在一个实施方案中，确定来自以下每个声音产生对象的能量的量(或贡献之和)，即对于其，(投射到收听者的)所产生的声音将被一个或多个所述声音阻隔对象阻隔。另外，确定来自以下每个声音产生对象的能量的量(或贡献之和)，即对于其，(投射到收听者的)所产生的声音将不被一个或多个所述声音阻隔对象阻隔。

在框506处，基于所确定的能量的量来生成声音产生对象的体积响应。体积响应用于“演进”声源所产生的声音，以使声音听起来是来自声源的整个几何体积。在虚拟场景包括声音阻隔对象的情况下，能量的量是根据(i)(被投射到收听者的)所产生的声音将被声音阻隔对象阻隔的声音产生对象的几何体积的部分和(ii)(投射到收听者的)所产生的声音将不被声音阻隔对象阻隔的声音产生对象的几何体积的部分来确定的。在虚拟环境中没有声音阻隔对象的情况下，能量的量是根据所产生的声音被投射到收听者的声音产生对象的几何体积(或几何体积的一个或多个部分)来确定的。

在一个实施方案中，头部相关传递函数(HRTF)也用于音频渲染过程中。在一个实施方案中，(来自框505的)所累积的能量被加和成响应并(在频域中)乘以HRTF。HRTF是需要应用于右耳输入和左耳输入(例如，左耳机驱动器信号和右耳机驱动器信号)的滤波器类型的数学描述，其使得给定声音可信地来自收听者头部周围的不同方向。HRTF可由音频引擎选择，或者可由设计者输入。也可以为设计者提供HRTF的列表来从中进行选择。在一个实施方案中，应用程序可基于关于收听者相关特征(例如，身高、性别等)的用户输入来选择HRTF。HRTF可被存储在存储器中的数据库中。

在一个实施方案中，为了输出立体声信号，可在HRTF处理之后添加串扰消除滤波器。例如，体积响应可用于渲染双耳输出，其中可对信号进行后处理，使得声音在通过立体声扬声器回放时听起来是双耳的。可为每个输出硬件生成和调谐滤波器。

在一个实施方案中，体积响应可用于多通道设置中。例如，可使用在房间中的扬声器位置(例如，方位和高度)已知的扬声器布局的凸包来构造向量基平移器。因此，不是体积源的每个传入方向的左HRTF通道和右HRTF通道，而存在2…N个平移位置在之间混合，使用由扬声器布局的凸包构造的矢量基平移器。

应当指出的是，过程500考虑对收听者的直接路径(例如，未从其他表面反射的声音的部分，或透射穿过对象或围绕对象衍射而不是被其反射的声音的部分)，而不是混响路径。在一个实施方案中，在收听者到达声音阻隔对象的阻挡由声源产生的声音的边缘的情况下，可使用缩放技术连同特殊包封体积来平滑声音阻隔对象上的硬边缘，使得收听者听到平滑过渡并且可避免边缘爆裂伪迹。

转到图6，示出了用于根据本文一实施方案解释使用脚本化音频细节级别的音频渲染的流程图。与图5类似，以下实施方案可被描述为过程600，该过程通常被描绘为流程图、流程框图、结构图或框图。虽然流程图可将操作描述为顺序的过程，但是这些操作中的多个操作可并行执行或同时执行。此外，操作的顺序可被重新排列。另外，其他实施方案可包括未被示为流程图的一部分的附加框。在其它实施方案中，一个或多个框可被删除。过程在其操作被完成时终止。过程可对应于方法、程序等。过程600可由包括硬件(例如电路、专用逻辑等)、软件(例如实现在非暂态计算机可读介质上)或它们两者的组合的处理逻辑来执行。

在图6的实施方案中，在框601处，接收关于收听者的收听者信息，包括三维虚拟环境中的位置和收听者头部的取向。

在框602处，接收被置于虚拟环境中的声音产生对象。例如，对象可由设计者(例如，游戏应用程序的作者)输入以用于放置在虚拟环境中。由于声音产生对象是已知的，因此可以分析声音产生对象的输出(例如，RMS级别)并提供对象的响度作为反馈，使得与该对象相关联的脚本化声音输出可被修改并且可执行附加的筛选等。

在框603处，接收关于声音产生对象的信息。在一个实施方案中，该信息包括声音产生对象在三维虚拟环境中的位置，其可由设计者输入。在一个实施方案中，该信息包括声音产生对象的几何体积。如前所述，几何体积可由设计者分配给对象，或者对象可被预定义有相关联的几何体积(例如，房屋可被预定义为具有立方体体积)。

应当注意，在一些实施方案中，过程可跳过框602并前进至框603，在那里接收对象信息。例如，在一个实施方案中，可使用虚拟场景几何结构(例如，距离、立体角、速度、优先级等)而不接收对象本身。

在框604处，一个或多个音频特征与声音产生对象相关联，所述音频特征中的一者限定要由声音产生对象产生的声音。另选地，对象可被预定义有相关联的几何体积和材料，并且所述材料可被预定义为与音频特征相关联。如前所述，材料的音频特性也可由设计者输入或修改。在一个实施方案中，音频特征可将声音定义为由音频文件产生的声音元素。在一个实施方案中，音频特征限定用于合成声音产生对象的声音的脚本。

在框605处，随时间推移，基于收听者的位置与声音产生对象的位置之间的距离修改声音的细节级别。在一个实施方案中，这涉及脚本定义随着收听者的位置与声音产生对象的位置之间的距离减小，每单位时间增加用于合成声音的声音文件的数量。在一个实施方案中，这涉及脚本定义随着收听者的位置与声音产生对象的位置之间的距离增大，每单位时间减少用于合成声音的声音文件的数量。

在一个实施方案中，细节级别的修改涉及脚本增加用于声音合成函数的参数的数量，使得由声音产生对象产生的声音随着时间的推移随着收听者的位置与声音产生对象的位置之间的距离减小而变得细粒度更高。在一个实施方案中，细节级别的修改涉及脚本减少用于声音合成函数的参数的数量，使得由声音产生对象产生的声音随着时间的推移随着收听者的位置与声音产生对象的位置之间的距离增大而变得细粒度更低。

在存在多个声音产生对象的实施方案中，可针对每个声音产生对象执行图6的过程。

图7根据一个或多个实施方案示出了框图形式的用于执行3D音频渲染的系统的示例性具体实施、以及能够支持渲染3D声音的网络的总体视图。具体地，图7示出了3D声音渲染系统700，其为可通过网络705连接到其他网络设备710A、710B的计算机系统。网络设备710可包括设备诸如智能电话、平板电脑、膝上型计算机和台式计算机、以及网络存储设备诸如服务器等。网络705可以是任何类型的有线或无线计算机网络，包括互连网络的集合(例如，互联网)，尽管在图7中被例示为单个云符号。

3D声音渲染系统700可包括中央处理单元(CPU)730和图形处理单元(GPU)720。在各种实施方案中，计算系统700可以包括巨型计算机、台式计算机、膝上型计算机、视频游戏控制台、嵌入式设备、手持式设备(例如，移动电话、智能电话、MP3播放器、相机、GPS设备)或者包括或被配置为包括GPU的任何其他设备。在图7所示的实施方案中，CPU 730和GPU 720被包括在分开的集成电路(IC)或封装上。然而在其他实施方案中，CPU 730和GPU 720或它们的集体功能可以被包括在单个IC或封装中。

3D声音渲染系统700还可包括存储器740。存储器740可包括可用于执行设备功能的一个或多个不同类型的存储器。例如，存储器740可包括高速缓存、ROM、和动态RAM。存储器740可在各种编程模块(软件)被CPU 730和GPU 720执行期间存储所述各种编程模块(软件)，包括音频渲染模块755、图形渲染模块760和3D音频环境模块765。

在一个或多个实施方案中，音频渲染模块755可包括音频框架，诸如音频视频(AV)音频引擎。AV音频引擎可包含用于声音/音频输出系统(例如，声卡-未示出)的抽象层应用编程接口(API)，诸如Open-AL、SDL Audio、X-Audio 2、和Web Audio。其允许其用户(例如，音频视觉应用程序诸如游戏应用程序的作者)通过生成包括用户(例如，包含对音频渲染模块755、图形渲染模块760和3D音频环境模块765的API调用的游戏应用程序的作者)所定义的各种经连接音频节点的音频图形来简化音频视觉应用程序的实时音频输出。存在多个可能的节点，例如源节点、过程节点和目标节点。源节点生成声音，过程节点以某种方式修改所生成的声音，而目标节点接收声音。出于本公开的目的，源节点可对应于声源对象，而目标节点可对应于声音收听者。

此外，各种节点可与使其相关联声音为“3D声音”的特征相关联。此类特征可包括例如对于体积直接路径响应和混响响应两者强调或不强调随着距离的自然衰减特征的标量。这些特征中的每一者都可影响声音如何被生成。可使用一种或多种算法来确定这各种特征中的每一者，并且算法可基于节点在音频环境中的重要性而根据节点而变化。例如，更重要的节点可使用资源更密集(计算更密集)算法来渲染声音，而较不重要的节点可使用计算花费较低的算法用于渲染其声音。

在一个或多个实施方案中，图形渲染模块760是允许更高层应用程序(例如，游戏)的开发者在图形场景中定义在更高层应用程序中被调出的对象的空间表示的软件程序(应用程序)，并且负责渲染或绘制正被显示(投射)的虚拟环境中的3D或2D图形对象的视觉方面。在一个或多个实施方案中，这种框架可包括表示场景中几何结构的几何对象、表示视角的相机对象、以及表示光源的光对象。图形渲染模块760可包括渲染API，如Direct3D、OpenGL或具有用于GPU 720的软件抽象层的其他渲染API。

在一个或多个实施方案中，存储器740还可包括3D音频环境模块765。在一个实施方案中，3D音频环境模块765执行结合图5所述的体积音频渲染。在一个实施方案中，3D音频环境模块765执行结合图6所述的脚本化音频细节级别过程。

在一个或多个实施方案中，预定义对象及其相关联的材料和音频特征、脚本和其他数据结构可被存储在存储器740中，或者它们可被存储在存储装置750中。这个数据可以树、表、数据库或任何其他类型的数据结构的形式存储。存储装置750可以包括能被处理器访问以提供指令和/或数据给处理器的任何存储介质，并且可以包括物理机器可读介质的多个实例，犹如它们是单个物理介质一样。

尽管音频渲染模块755、图形渲染模块760和3D音频环境模块765被描绘成被包括在同一3D声音渲染系统中，但是各种模块和部件另选地可存在于各种网络设备710中。例如，数据可跨网络705被存储在网络存储装置中。另外，各种模块可由各种网络设备710托管。此外，各种模块和部件中的任一者可以任何组合被分布在整个网络705上。

物理环境

物理环境是指无需电子系统帮助个体就能够感觉和/或个体能够交互的世界。物理环境(例如，物理森林)包括物理元素(例如，物理树、物理结构和物理动物)。个体可直接与物理环境相互作用和/或感觉物理环境，诸如通过触摸、视觉、嗅觉、听觉和味觉。

模拟现实

相比之下，模拟现实(SR)环境是指经由电子系统个体能够感觉和/或个体能够交互的完全或部分由计算机创建的环境。上文所述的虚拟环境的一个示例是SR环境。在SR中，监测个体移动的子集，并且响应于该子集，以符合一个或多个物理定律的方式更改SR环境中的一个或多个虚拟对象的一个或多个属性。例如，SR系统可检测到个体向前走几步，并且响应于此，以类似于此类情景和声音在物理环境中会如何改变的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如，音频指令)而进行对SR环境中一个或多个虚拟对象的一个或多个属性的修改。

个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如，个体可与创建多维(例如，三维)或空间听觉环境和/或实现听觉透明性的听觉对象进行交互和/或感知。多维或空间的听觉环境为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下，听觉透明选择性地结合来自物理环境的声音。在一些SR环境中，个体可仅与听觉对象进行交互和/或仅感知听觉对象。

虚拟现实

SR的一个示例是虚拟现实(VR)。VR环境是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟环境。VR环境包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的环境内模拟个体动作的子集和/或通过对个体或其在计算机创建的环境内的存在的模拟，来与VR环境中的虚拟对象进行交互和/或感知VR环境中的虚拟对象。

混合现实

SR的另一个示例是混合现实(MR)。MR环境是指被设计为将计算机创建的感官输入(例如，虚拟对象)与来自物理环境的感觉输入或其表示集成的模拟环境。在现实谱系上，混合现实环境介于一端的VR环境和另一端的完全物理环境之间并且不包括这些环境。

在一些MR环境中，计算机创建的感官输入可以适应于来自物理环境的感官输入的变化。另外，用于呈现MR环境的一些电子系统可以监测相对于物理环境的取向和/或位置，以使虚拟对象能够与真实对象(即来自物理环境的物理元素或其表示)交互。例如，系统可监测运动，使得虚拟植物相对于物理建筑物看起来是静止的。

增强现实

混合现实的一个示例是增强现实(AR)。AR环境是指至少一个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如，电子系统可具有不透明显示器和至少一个成像传感器，成像传感器用于捕获物理环境的图像或视频，这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合，并在不透明显示器上显示该组合。个体利用系统经由物理环境的图像或视频间接地查看物理环境，并且观察叠加在物理环境之上的虚拟对象。当系统使用一个或多个图像传感器捕获物理环境的图像，并且使用那些图像在不透明显示器上呈现AR环境时，所显示的图像被称为视频透传。另选地，用于显示AR环境的电子系统可具有透明或半透明显示器，个体可通过该显示器直接查看物理环境。该系统可在透明或半透明显示器上显示虚拟对象，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。又如，系统可包括将虚拟对象投影到物理环境中的投影系统。虚拟对象可例如在物理表面上或作为全息图被投影，使得个体利用该系统观察叠加在物理环境之上的虚拟对象。

增强现实环境也可指其中物理环境的表示被计算机创建的感官信息改变的模拟环境。例如，物理环境的表示的一部分可被以图形方式改变(例如，放大)，使得所改变的部分仍可代表初始捕获的图像但不是忠实再现的版本。又如，在提供视频透传时，系统可改变传感器图像中的至少一者以施加不同于图像传感器捕获的视点的特定视点。再如，物理环境的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。

增强虚拟

混合现实的另一个示例是增强虚拟(AV)。AV环境是指计算机创建环境或虚拟环境并入来自物理环境的至少一个感官输入的模拟环境。来自物理环境的感官输入可为物理环境的至少一个特征的表示。例如，虚拟对象可呈现由成像传感器捕获的物理元素的颜色。又如，虚拟对象可呈现出与物理环境中的实际天气条件相一致的特征，如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中，增强现实森林可具有虚拟树木和结构，但动物可具有从对物理动物拍摄的图像精确再现的特征。

硬件

许多电子系统使得个体能够与各种SR环境进行交互和/或感知各种SR环境。一个示例包括头戴式系统。头戴式系统可具有不透明显示器和一个或多个扬声器。另选地，头戴式系统可以被设计成接收外部显示器(例如，智能电话)。头戴式系统可具有分别用于拍摄物理环境的图像/视频和/或捕获物理环境的音频的一个或多个成像传感器和/或麦克风。头戴式系统也可具有透明或半透明显示器。透明或半透明显示器可结合基板，代表图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶、或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中，透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如，电子系统可以是基于投影的系统。基于投影的系统可使用视网膜投影将图像投影到个体的视网膜上。另选地，投影系统还可将虚拟对象投影到物理环境中(例如，投影到物理表面上或作为全息图)。SR系统的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如，具有或不具有触觉反馈的控制器)、平板电脑、智能电话，以及台式计算机或膝上型计算机。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是数据处理领域技术人员所用的方法，而这些方法也能最有效的将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在以下权利要求中给出的术语的讨论涉及音频系统或类似电子设备的动作和过程，其操控在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行所述系统的功能。

虽然已描述并且在附图中示出了某些实施方案，但应当理解，此类实施方案仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。例如，应当理解，各种实施方案的方面可结合其他实施方案的方面来实践。因此，要将描述视为示例性的而非限制性的。

Claims

1.一种用于声学渲染三维虚拟环境的数字音频处理系统，包括：

处理器和存储器，其中所述存储器中存储有指令，所述指令在被所述处理器执行时：

接收关于收听者的收听者信息，所述收听者信息包括所述三维虚拟环境中的位置和取向；

接收关于所述三维虚拟环境中的声音产生对象的信息，所述信息包括所述声音产生对象的几何体积、所述声音产生对象的音频特征、和所述声音产生对象在所述三维虚拟环境中的位置；

确定来自所产生的声音将被投射到所述收听者的所述声音产生对象的所述几何体积的一部分的能量的量；以及

基于所确定的能量的量来生成音频信号作为所述声音产生对象的体积响应。

2.根据权利要求1所述的系统，其中所述存储器中存储有指令，所述指令在被所述处理器执行时：

接收关于所述三维虚拟环境中的声音阻隔对象的信息，所述信息包括所述声音阻隔对象的几何体积、所述声音阻隔对象的音频特征、和所述声音阻隔对象在所述三维虚拟环境中的位置；

基于所述收听者信息、所述声音阻隔对象信息和所述声音产生对象信息来确定i)被投射到所述收听者的所产生的声音将被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的部分、以及ii)被投射到所述收听者的所产生的声音将不被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的部分；以及

确定来自i)的能量的量和来自ii)的能量的量，

其中，所述声音产生对象的所述体积响应是基于所确定的来自i)和ii)的能量的量来生成的。

3.根据前述权利要求中任一项所述的系统，其中所述声音阻隔对象具有多个音频特征，所述音频特征中的一者限定其中被所述声音阻隔对象阻隔的音频信号的较高频率分量与被所述声音阻隔对象阻隔的所述音频信号的较低频率分量相比被衰减更多的响应。

4.根据前述权利要求中任一项所述的系统，其中所述声音产生对象的所述音频特征限定要由所述声音产生对象产生的声音。

5.根据前述权利要求中任一项所述的系统，其中要由所述声音产生对象产生的所述声音是使用连续声音合成函数合成的，所述连续声音合成函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别。

6.根据前述权利要求中任一项所述的系统，其中要由所述声音产生对象产生的所述声音是使用连续函数合成的，所述连续函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别。

7.根据前述权利要求中任一项所述的系统，其中所述声音产生对象的所述几何体积由多个子体积构成，每个子体积与相应材料相关联，并且每个相应材料与所述声音产生对象的所述音频特征中的至少一个相关联。

8.根据前述权利要求中任一项所述的系统，其中所述存储器中存储有指令，所述指令在被所述处理器执行时：

随时间的推移根据所述收听者的位置与所述声音产生对象的位置之间的距离来修改所述体积响应的细节级别，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别，其中提高所述细节级别包括i)增加用于合成所述声音的声音文件的数量、ii)增加用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而变得细粒度更高，或者i)和ii)两者。

9.一种用于声学渲染三维虚拟环境的方法，所述方法包括：

接收关于所述三维虚拟环境中至少一个声音产生对象的信息，所述信息包括所述声音产生对象的几何体积、所述声音产生对象的一个或多个音频特征、和所述声音产生对象在所述三维虚拟环境中的位置；

确定来自所产生的声音被投射到所述收听者的所述声音产生对象的所述几何体积的一个或多个部分的能量的量；以及

10.根据权利要求9所述的方法，还包括：

接收关于所述三维虚拟环境中至少一个声音阻隔对象的信息，所述信息包括所述声音阻隔对象的几何体积、所述声音阻隔对象的一个或多个音频特征、和所述声音阻隔对象在所述三维虚拟环境中的位置；

基于所述收听者信息、所述声音阻隔对象信息和所述声音产生对象信息来确定被投射到所述收听者的所产生的声音将被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的部分、以及被投射到所述收听者的所产生的声音将不被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的部分；以及

确定来自被投射到所述收听者的所产生的声音将被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的所述部分的能量的量和来自被投射到所述收听者的所产生的声音将不被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的所述部分的能量的量；

其中，所述声音产生对象的所述体积响应是基于所确定的来自被投射到所述收听者的所产生的声音将被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的所述部分和来自被投射到所述收听者的所产生的声音将不被所述声音阻隔对象阻隔的所述声音产生对象的所述几何体积的所述部分的能量的量来生成的。

11.根据权利要求9至10中任一项所述的方法，其中所述声音阻隔对象的所述音频特征中的一者限定其中被所述声音阻隔对象阻隔的音频信号的较高频率分量与被所述声音阻隔对象阻隔的所述音频信号的较低频率分量相比被衰减更多的响应。

12.根据权利要求9至11中任一项所述的方法，其中所述声音产生对象的所述音频特征中的一者限定要由所述声音产生对象产生的声音。

13.根据权利要求9至12中任一项所述的方法，其中要由所述声音产生对象产生的所述声音是使用连续声音合成函数合成的，所述连续声音合成函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别。

14.根据权利要求9至13中任一项所述的方法，其中要由所述声音产生对象产生的所述声音是使用连续函数合成的，所述连续函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别。

15.根据权利要求9至14中任一项所述的方法，其中所述声音产生对象的所述几何体积由一个或多个子体积构成，每个子体积与材料相关联，并且每个材料与所述声音产生对象的所述音频特征中的至少一个相关联。

16.根据权利要求10至15中任一项所述的方法，其中所述声音阻隔对象的所述几何体积由一个或多个子体积构成，每个子体积与材料相关联，并且每个材料与所述阻隔产生对象的所述音频特征中的至少一个相关联。

17.一种存储计算机可执行指令的非暂态计算机可读存储介质，所述计算机可执行指令在被处理器执行时，执行一种用于声学渲染三维虚拟环境的方法，所述方法包括：

确定来自所产生的声音被投射到所述收听者的所述声音产生对象的所述几何体积的部分的能量的量；以及

基于所确定的能量的量来生成所述声音产生对象的体积响应。

18.根据权利要求17所述的非暂态计算机可读存储介质，所述方法还包括：

19.根据权利要求17至18中任一项所述的非暂态计算机可读存储介质，其中所述声音阻隔对象的所述音频特征中的一者限定其中被所述声音阻隔对象阻隔的音频信号的较高频率分量与被所述声音阻隔对象阻隔的所述音频信号的较低频率分量相比被衰减更多的响应。

20.根据权利要求17至19中任一项所述的非暂态计算机可读存储介质，其中所述声音产生对象的所述音频特征中的一者限定要由所述声音产生对象产生的声音。

21.根据权利要求17至20中任一项所述的非暂态计算机可读存储介质，其中要由所述声音产生对象产生的所述声音是使用连续声音合成函数合成的，所述连续声音合成函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别。

22.根据权利要求17至21中任一项所述的非暂态计算机可读存储介质，其中要由所述声音产生对象产生的所述声音是使用连续函数合成的，所述连续函数随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别。

23.根据权利要求17至22中任一项所述的非暂态计算机可读存储介质，其中所述声音产生对象的所述几何体积由一个或多个子体积构成，每个子体积与材料相关联，并且每个材料与所述声音产生对象的所述音频特征中的至少一个相关联。

24.根据权利要求17至23中任一项所述的非暂态计算机可读存储介质，其中所述声音阻隔对象的所述几何体积由多个子体积构成，每个子体积与材料相关联，并且每个材料与所述阻隔产生对象的所述音频特征中的一个相关联。

25.一种用于声学渲染三维虚拟环境的数字音频处理系统，包括：

处理器；和

存储器，所述存储器中存储有指令，所述指令在由所述处理器执行时，使得所述处理器：

接收关于声音产生对象的信息，所述信息包括所述声音产生对象在所述三维虚拟环境中的位置；

将音频特征与所述声音产生对象相关联，所述音频特征限定要由所述声音产生对象产生的声音；以及

随时间的推移，根据所述收听者的位置与所述声音产生对象的位置之间的距离来修改所述声音的细节级别。

26.根据权利要求25所述的系统，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别，其中提高所述细节级别包括增加用于合成所述声音的声音文件的数量和增加用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而变得细粒度更高。

27.根据权利要求25至26中任一项所述的系统，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别，其中降低所述细节级别包括减少用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而变得细粒度更低。

28.根据权利要求25至27中任一项所述的系统，其中关于所述声音产生对象的信息包括所述声音产生对象的几何体积，其中所述几何体积与材料相关联，并且其中所述音频特征基于所述材料与所述对象相关联。

29.一种用于声学渲染三维虚拟环境的方法，所述方法包括：

将一个或多个音频特征与所述声音产生对象相关联，所述音频特征中的一者限定要由所述声音产生对象产生的声音；以及

30.根据权利要求29所述的方法，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别，其中提高所述细节级别包括增加用于合成所述声音的声音文件的数量和增加用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而变得细粒度更高。

31.根据权利要求29至30中任一项所述的方法，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别，其中降低所述细节级别包括减少用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而变得细粒度更低。

32.根据权利要求29至31中任一项所述的方法，其中关于所述声音产生对象的信息包括所述声音产生对象的几何体积，其中所述几何体积与材料相关联，并且其中所述一个或多个音频特征基于所述材料与所述对象相关联。

33.一种存储计算机可执行指令的非暂态计算机可读存储介质，所述计算机可执行指令在被处理器执行时，执行一种用于声学渲染三维虚拟环境的方法，所述方法包括：

34.根据权利要求33所述的非暂态计算机可读存储介质，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而提高所述声音的细节级别，其中提高所述细节级别包括增加用于合成所述声音的声音文件的数量和增加用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离减小而变得细粒度更高。

35.根据权利要求33至34中任一项所述的非暂态计算机可读存储介质，其中修改所述细节级别包括随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而降低所述声音的细节级别，其中降低所述细节级别包括减少用于连续声音合成函数的参数的数量，使得所述声音产生对象所产生的所述声音随着时间的推移随着所述收听者的位置与所述声音产生对象的位置之间的距离增大而变得细粒度更低。

36.根据权利要求33至34中任一项所述的非暂态计算机可读存储介质，其中关于所述声音产生对象的信息包括所述声音产生对象的几何体积，其中所述几何体积与材料相关联，并且其中所述一个或多个音频特征基于所述材料与所述对象相关联。