CN102440003A

CN102440003A - 音频空间化和环境仿真

Info

Publication number: CN102440003A
Application number: CN200980151136XA
Authority: CN
Inventors: 杰里·马哈布比; 斯蒂芬·M·伯恩西; 加里·史密斯
Original assignee: GenAudio Inc
Current assignee: GenAudio Inc
Priority date: 2008-10-20
Filing date: 2009-10-20
Publication date: 2012-05-02
Anticipated expiration: 2029-10-20
Also published as: JP5694174B2; US8520873B2; US9271080B2; US20140064494A1; EP2356825A4; CN102440003B; EP2356825A1; WO2010048157A1; US20100246831A1; JP2012506673A

Abstract

公开了用于改进人耳的声音定位的方法。在一些实施例中，该方法可以包括：通过向头部相关传递函数（HRTF）的一个或多个位置参数应用周期性函数来创建多个定位源的虚拟移动。

Description

音频空间化和环境仿真

相关申请的交叉引用

本专利合作条约专利申请要求在2008年10月20日提交的题为“Audio Spatialization and Environment Simulation”的美国临时专利申请号61/106,872的优先权，其内容整体通过引用合并于此。

本申请涉及如下共同所有的专利申请，每个所述专利申请通过引用合并犹如下面全部阐述的：

在2007年3月1日提交的题为“Audio Spatialization and Environment Simulation”的美国临时申请号60/892,508；

在2008年3月3日提交的题为“Audio Spatialization and Environment Simulation”的美国实用新型申请号12/041,19；以及

在2008年3月3日提交的题为“Audio Spatialization and Environment Simulation”的PCT申请PCT/US08/55669。

发明内容

GenAudio的AstoundSound™技术是独特的声音定位过程，其将收听者置于静止和/或移动声音的虚拟空间的中心。由于人脑的心理声学响应，收听者可以感知这些定位声音从空间内的任意位置发出。来自GenAudio的AstoundSound™技术的心理声学效果可以通过针对头部相关传递函数（HRTF）应用数字信号处理（DSP）来实现。

一般说来，HRTF可以对人的头部、肩部、外耳、躯干、皮肤和耳廓的形状和组成进行建模。在一些实施例中，两个或更多个HRTF（一个针对头部的左侧而一个针对头部的右侧）可以修改输入声音信号以便于创建声音从空间中的不同（虚拟）位置发出的印象。使用GenAudio的AstoundSound™技术，可以通过少至两个扬声器来实现心理声学效果。

在一些实施例中，该技术可以通过软件框架来显现，该软件框架通过双耳滤波方法，诸如将音频信号划分为左耳和右耳声道并且将分离的数字滤波器集合施加到两个声道中的每个，来实施DSP HRTF。此外，在一些实施例中，可以在不使用编码/解码或者特殊的重放设备的情况下实现定位音频输出的后滤波。

AstoundSound™技术可以通过模型-视图-控制器（MVC）软件架构来实现。这种类型的架构可以使得该技术能够以许多不同的形式实例化（instantiate）。在一些实施例中，AstoundSound™的应用程序可以经由常见的软件接口集合访问相似的底层处理代码。此外，AstoundSound™技术核心可以包括可以跨越多个平台使用（例如，可以在Macintosh、Windows和/或Linux上操作）的控制器和模型。这些控制器和模型还可以实现音频输入信号的实时DSP处理全程（play-through）。

附图说明

图1图示了用于潜在系统架构的模型视图控制器。

图2图示了处于相对于收听者的方位（azimuth）和高度（elevation）中的一个或多个虚拟扬声器。

图3图示了针对扩展器的过程流。

图4图示了针对扩展器的潜在配线图。

图5图示了针对插件的过程流。

图6图示了针对插件的潜在配线图。

图7图示了振荡三维空间中的虚拟声源。

图8图示了针对插件的过程流。

图9图示了潜在配线图。

图10图示了源音频反射的定位。

图11图示了用于音频定位的过程流。

图12图示了双二阶滤波器和等式。

具体实施方式

AstoundStereo™扩展器应用程序

在一些实施例中，AstoundStereo™扩展器应用程序可以被实施为独立式可执行程序，其可以采用正常的立体声音频作为输入并且对其进行处理，使得输出具有明显较宽的立体声声像。此外，可以保留来自输入的中心信息（例如，声乐（vocal）和/或中心舞台乐器）。因而，由于底层AstoundStereo™ DSP技术创建了发出音频的虚拟扬声器已被置于相对于收听者头部的预定方位角、高度和距离的心理声学感知，因此收听者可以“听到”较宽的立体声声像。该虚拟音频定位可以呈现为将虚拟扬声器置于比收听者的物理扬声器和/或耳机相距更远。

扩展器的一个实施例可以被实例化为用于计算机的音频设备驱动器。结果，扩展器应用程序可以是全局执行的音频处理器，其能够处理由计算机生成的和/或通过计算机的大量音频。例如，在一些实施例中，扩展器应用程序可以处理所有产生或路由计算机上的音频的第三方应用程序。

将扩展器实例化为用于计算机的音频设备驱动器的另一结果是，当用户登录到他/她的计算机账户中时扩展器可以存在并且工作（active）。因而，大量的音频可以被路由到扩展器并且在不加载用于处理的各个文件的情况下被实时地处理，对于诸如iTunes和/或DVD Player（播放器）的第三方应用程序而言情况可能就是这样。

AstoundStereo™扩展器的一些特征包括：

立体声扩展的对称虚拟扬声器定位（EL、AZ、DIST）

立体声扩展强度调整

ActiveBass™

全局旁通（global bypass）

可选择输出设备。

过程流

来自产品控制器库的软件控制器类可以实现AstoundStereo™扩展器应用程序的过程流。如前面提到的，控制器类可以是针对底层DSP模型和功能的常见接口定义。控制器类可以定义适用于立体声扩展处理的DSP交互。图3图示了题为“数字处理音频用于定位”的示例性DSP交互，其可以适用于立体声扩展。图3中示出的活动在图11中被更详细地描绘。

控制器可以接受双声道立体声信号作为输入，其中信号可以被分离为左、右声道。每个声道然后可以路由通过AstoundStereo线性DSP功能集合，如图4中所示，并且被定位到空间中的特定点（例如，两个虚拟扬声器位置）。

虚拟扬声器位置可以由基于视图的应用程序固定为处于相对于收听者的特定方位、高度和距离（例如，参见下面的无限脉冲响应滤波器），其中一个虚拟扬声器位于离开收听者的左耳的某个距离处而另一个位于离开收听者的右耳的某个距离处。这些位置可以与用于增强的声乐和中心舞台乐器存在的%-中心旁通（下面更详细地描述）的参数、用于增强的低频响应的低通滤波和补偿（例如，参见下面的低频处理）的参数、以及用于距离仿真的参数（例如，参见在2008年3月3日提交的题为“Audio Spatialization and Environment Simulation”的PCT申请PCT/US08/55669中的距离仿真描述）组合。

使位置与这些参数组合可以向收听者给出较宽的立体声场的感知。

显然，在一些实施例中，虚拟扬声器位置可以是不对称的。

对称的安置可能不期望地减损定位效果（例如，由于信号抵消），下面关于半球对称性更详细地描述这一点。

由于AstoundStereo扩展器是应用程序（而非插件），因此它可能包含全局DSP旁通开关以规避DSP处理并且允许收听者听到以其原始立体声形式的音频信号。此外，扩展器可以包括集成数字水印技术，其可以检测独特的且听不见的GenAudio数字水印。检测该水印可以自动地使AstoundStereo扩展器过程实现全局旁通。带水印的信号可以指示输入信号已变更为已经包含AstoundSound™功能。可以完成对该类型的信号的旁通以避免两次处理输入信号并且减损或以其他方式破坏定位效果。

在一些实施例中，AstoundStereo™过程可以包括用户可定义的立体声扩展强度级。该可调整的参数可以组合用于低频处理、%-中心旁通和定位增益的所有参数。此外，一些实施例可以包括针对立体声扩展强度级的预定最小和最大设置。该用户可定义的调整可以是针对所有关联的参数的最小值和最大值之间的线性插值。

AstoundStereo™技术的ActiveBass™特征可以包括用户可选择的开关，其可以将一个或多个低频参数（下面在低频处理部分中描述）增加到预定设置以获得来自收听者音频输出设备的更低沉的、更浑厚的和更现场的低音响应。

在一些实施例中，可选择的输出设备特征可以是收听者可以从各种输出设备（诸如，内建计算机扬声器、耳机、经由计算机的线路输出端口的外部扬声器、USB/FireWire扬声器/输出设备和/或任何其他可以将音频路由到扬声器/输出设备的安装端口）当中进行选择的机制。

AstoundStereo™扩展器插件应用程序

一些实施例可以包括AstoundStereo™扩展器插件，其可以基本上与AstoundStereo™扩展器可执行程序相似。在一些实施例中，扩展器插件可能与扩展器可执行程序不同在于，其可以由第三方可执行程序托管（host）。例如，扩展器插件可以驻留在音频重放可执行程序诸如Windows Media Player、iTunes、Real Player和/或WinAmp（仅举几个例子）内。显然，扩展器插件可以包括基本上与扩展器可执行程序相同的特征和功能。

过程流

尽管扩展器插件可以包括基本上与扩展器可执行程序相同的内部过程流，但是外部流可以不同。例如，代替用户或系统实例化该插件，这可以由第三方音频重放可执行程序处置。

AstoundStereo™插件应用程序

AstoundStereo™插件可以由第三方可执行程序（例如，ProTools、Logic、Nuendo、Audacity、Garage Band等）托管，然而它可以具有与AstoundStereo™扩展器的某些相似性。与扩展器相似，它可以创建宽的立体声场，然而不同于扩展器，它可以针对专业的声音工程师进行定制并且可以暴露许多DSP参数并且允许经由3D用户接口访问的参数的宽可调谐控制范围。再者，不同于扩展器，插件的一些实施例可以与扩展器不同在于集成了数字水印部件，其可以将数字水印编码到最终输出音频信号中。以该方式的水印使得GenAudio能够独特地识别通过该技术所处理的各种音频。在一些实施例中，暴露的参数可以包括：

定位方位和高度

独立的左和右定位增益

定位距离和距离混响

针对定位音频输出的增加感知的方位和高度中的位置颤音

主输入和输出增益

中心旁通扩频和增益

中心带通频率和带宽

低频带通频率、滚降、增益和ITD补偿

4频带HRTF滤波器均衡

反射定位方位和高度（下面在混响定位部分中更详细地讨论）

反射定位量、房间尺寸、衰减、密度和阻尼。

过程流

该插件可以由第三方主机（host）可执行程序实例化并且破坏。

%-中心旁通

（上文在图3和6中提及的）%-中心旁通是DSP元件，其在一些实施例中允许使音频的中心信息（例如，声乐或“中心舞台”乐器）的至少一部分未经处理。可以被允许旁通处理的立体声音频输入中的中心信息量可以在不同的实施例之间变化。

通过允许旁通特定的立体声音频，中心声道信息可以保持突出，这是较自然、逼真的表现。在没有该特征的情况下，中心信息可能变得丢失或者减损，并且向音频给出不自然的声音。在操作期间，在实际定位处理发生之前，进入的音频信号可以被划分为中心信号和立体声边缘信号。在一些实施例中，该过程可以包括从左声道和右声道中减去L+R单声道总和，即M-S解码。在处理了立体声边缘之后，随后可以处理中心部分。以该方式，中心旁通可以确定把多少经处理的中心信号添加回到输出。

中心带通

图6中示出的中心带通DSP元件可以增强%-中心旁通DSP元件的结果。可以通过可变带通滤波器对中心信号进行处理以便强调主声乐或乐器（其通常存在于录音的中心声道中）。如果仅使整个中心声道衰减，则可以从混音（mix）中移除声乐和主乐器，创建“卡拉OK”效果，这对于一些应用而言不是所期望的。应用带通滤波器可以通过选择性地移除对于主声乐不太相关的频率来减轻该问题，并且因此可以在不丢失主声乐的情况下扩宽立体声声像。

空间振荡器

如果存在声源和人耳之间的相对移动，则人脑可以更准确地确定声音的位置。例如，收听者可以在声源静止时使他们的头部从一侧移动到另一侧以帮助确定声音位置。反之亦然。因而，空间振荡器DSP元件可以采用给定的定位声源并且使其在定位的空间中振动和/或摇动以向收听者提供额外的空间化。换言之，通过振动和/或摇动两个虚拟扬声器（定位的声源），收听者可以更容易地检测AstoundStereo™过程的空间化效果。

在一些实施例中，（一个或多个）虚拟扬声器的总体移动可能是非常小的，或者几乎察觉不到。然而，即使虚拟扬声器的移动可能是小的，但是人脑可能足以辨认和确定位置。所定位声音的空间振荡可以通过对HRTF函数的位置参数应用周期函数来实现。这些周期函数可以包括但不限于正弦、方波和/或三角（仅举几个例子）。一些实施例可以结合频率和深度变量来使用正弦波生成器以重复地调整定位点的方位。以该方式，频率是可以指示振动速度的乘数，并且深度是可以指示针对定位点行进的距离的绝对值的乘数。在一些实施例中，该过程的更新率可以基于每个样本。

半球对称性

由于收听者的头部是关于身体的纵分面对称的，因此在一些实施例中可以利用该对称性使所存储的滤波器系数的数量减少1/2。代替存储针对收听者的左侧和右侧的给定对称位置（诸如在90º和270º方位）的滤波器系数，滤波器系数可以针对一侧进行选择性存储，并且然后通过交换两个位置和输出声道而针对相反侧进行再现。换言之，代替处理在270º方位的位置，可以使用对应于90º方位的滤波器并且然后可以交换左声道和右声道以将该效果镜像到半球的另一侧。

AstoundSound™插件应用程序

用于专业声音工程师的AstoundSound™插件可以具有与AstoundStereo™插件的相似性。例如，它可以由第三方可执行程序托管并且也可以暴露所有DSP参数以获得宽范围的调谐能力。两者可能不同在于AstoundSound插件可以采用单声道信号作为输入并且允许经由3D用户接口的单个声源的全4D（随时间移动的3维空间定位）控制。不同于本文件中讨论的其他应用程序，AstoundSound插件可以实现用于使虚拟声源在3D空间中移动的3D输入设备（例如，“3D鼠标”）的使用。

此外，AstoundSound插件可以集成水印部件，其将数字水印直接编码到最终输出音频信号中，使得GenAudio能够独特地识别通过该技术所处理的各种音频。由于一些实施例可以将该功能实施为插件，因此主机可执行程序可以实例化该插件的多种实例，其可以允许对多个单声道声源空间化。在一些实施例中，综合用户接口可以示出在主机内运行的AstoundSound插件的这些独立实例化的一个或多个定位位置。在一些实施例中，暴露的参数可以包括：

定位方位和高度

定位距离和距离混响

方位和高度中的位置颤音

主输入和输出增益

低频带通频率、滚降、增益和ITD补偿

4频带HRTF滤波器均衡

反射定位方位和高度（细节参见混响定位部分）

反射定位量、房间尺寸、衰减、密度和阻尼。

过程流

该插件由第三方托管可执行程序实例化并且破坏。

混响定位

为了改进空间化效果，一些实施例可以通过应用与直接（“干”）信号不同的定位滤波器集合来定位混响（或反射）信号。因此我们可以定位在直接信号自身的路线外直接信号的反射的感知来源。尽管可以在任何位置定位反射（即可变定位），但是已确定将它们定位到收听者后面导致了更高的清晰度（clarity）和更好的总体空间化。

常见技术

无限脉冲响应滤波器

传统的AstoundSound™ DSP技术可以定义概念单位球上的许多（例如，～7000+）独立点。对于这些点中的每个，基于该点的右HRTF和左HRTF以及右和左头部-耳道传递函数的逆，计算两个有限脉冲响应（FIR）滤波器。

在一些实施例中，这些FIR滤波器可以由无限脉冲响应（IIR）滤波器集合取代。例如，可以使用最小均方误差近似从原始1920-系数FIR HRTF滤波器中创建64-系数IIR滤波器集合。不同于在频域中进行线性卷积所需的基于块的处理，IIR滤波器可以在时域中进行卷积而不需要执行傅立叶变换。该时域卷积过程可以用于逐个样本地计算定位结果。在一些实施例中，IIR滤波器不具有固有延时，并且因此，它们可以用于仿真位置更新和定位声波而不引入可感知的处理延迟（延时）。此外，系数的数量从原始FIR滤波器中的1920减少到IIR滤波器中的64个系数可以明显减少存储器占位面积（footprint）和/或用于计算定位结果的CPU周期。通过根据从原始FIR滤波器导出的ITD测量使左和右信号延迟，可以将耳间时间差异（Inter-aural Time Difference，ITD）添加回到信号中。

由于HRTF测量可以以相对细微的分辨率在空间中以规则的间隔执行，因此可以针对位置更新（即当随时间使声源移动时）使相邻滤波器之间的空间插值最小化。实际上，一些实施例可以在没有任何插值的情况下实现这一点。就是说，通过加载针对最近测量方向的IIR滤波器，可以仿真移动声源方向。然后可以跨越少量的样本使位置更新平滑以避免当在相邻IIR滤波器之间切换时的任何拉链（zipper）噪声。可以针对ITD将线性插值的延迟线施加到右和左声道，允许子样本准确性。IIR滤波器与FIR滤波器相似在于它们还通过计算过去（和/或未来）样本的加权总和来处理样本，其中可以通过系数集合来确定权重。然而，在IIR情况中，该输出可以被反馈到滤波器输入，从而创建理论上决不衰减到零的渐近衰减脉冲响应（因此有“无限脉冲响应”之名）。以该方式反馈经处理的信号可以通过使其多次通过滤波器来部分地“重复处理”该信号，并且因此对于给定数量的系数，增加滤波器的控制或陡度。下面在图12中示出了针对IIR双二阶结构的一般示图以及用于生成其输出的公式。

采样率独立性

以44.1kHz采样率对传统的FIR滤波器进行采样，并且因此由于奈奎斯特（Nyquist）标准，FIR滤波器能够处理0Hz和一半的采样率（即奈奎斯特频率）之间的信号。然而，在现今的音频产生环境中，可能期望更高的采样率。为了使得AstoundSound™滤波器能够应对更高的采样率而不丢失伴随更高采样率出现的高频内容，可以旁通原始滤波器的奈奎斯特频率（22050Hz）以上的频率。为了实现该旁通，可以首先将信号划分为低（<奈奎斯特）和高（>=奈奎斯特）频带。低频带然后可以被下采样到传统的HRTF滤波器的采样频率并且随后由定位算法以44.1kHz采样频率进行处理。同时，高频带可以被保留用于稍后处理。在将定位处理应用到低频带之后，所得到的定位信号可以再次被上采样到传统的采样率并且与高频带混合。以该方式，可以在不能经受针对44.1kHz的采样率转换的原始信号中创建针对高频的旁通。

备选的实施例可以通过经过以较高的采样率重新设计传统的FIR滤波器和/或将它们转换为IIR结构来延伸它们的采样率，而实现相同的效果。然而，这可能意味着将两次附加的采样率转换应用于经处理的信号，并且因此，当处理较频繁遇到的采样率如44.1kHz时可能表现较高的处理负载。由于44.1kHz采样率已被良好地测试并且仍是现今的消费者音乐再现系统上频繁遇到的采样率，因此一些实施例可以消除额外的带宽并且仅在更有限数量的情况中应用采样率转换。再者，由于AstoundSound™ DSP处理的大部分可以以44.1kHz进行，因此每个采样周期可以消耗更少的CPU指令。

滤波器均衡

“滤波器均衡”通常指的是使特定的频谱带衰减以减少在HRTF定位中可能引入的色化（colorization）的过程。传统上，对于许多（例如，～7000+）独立滤波点，计算平均幅值响应以确定滤波器与理想化（平坦）幅值响应过程的总体偏离。该平均过程识别偏离平坦幅值的传统滤波器集合的频谱中的4个不同峰值，使滤波器以潜在不期望的方式使信号色化。为了定义定位/色化权衡，AstoundSound™ DSP实施的一些实施例可以在4个不同频率处添加4频带均衡器，从而使这些不同频率点处的增益衰减。尽管这里已讨论了4个不同频率，但是应当注意，任何数目的与众不同的频率均衡点是可能的，并且可以实施多频带均衡器，其中每个不同频率可以由均衡器的一个或多个频带解决。

低频处理

低通滤波

在一些实施例中，可能不需要定位低频。此外，在一些情况中，定位低频可能改变它们的存在并且影响最终输出音频。因此，在一些实施例中，输入信号中存在的低频可以被旁通。例如，信号可以在频率上被划分，允许低频无改变地通过。应当注意，旁通开始所在的精确频率阈值（在这里被称为“LP频率”）和/或频率中的旁通起始的定位（在这里被称为“Q因子”或“滚降”）可以是可变的。

ITD补偿

当准备定位信号与旁通低频信号的最终混合时，在最终输出之前，由耳间时间差异（ITD）引入到定位信号中的时间延迟可以使这两个信号具有不同的相对时间延迟。该时间延迟人工产物（artifact）可能针对过渡频率处的低频内容在它与定位信号混合时创建相位失准。因而，在一些实施例中，使用ITD补偿参数来使低频信号延迟预定量可以补偿相位失准。

相位翻转

在一些情况中，定位信号和旁通低频信号之间的相位失准可能使低频信号衰减到几乎被抵消的点。因而，在一些实施例中，可以通过使信号极性反转（这等效于使信号乘以-1）来使信号相位翻转。以该方式翻转信号可以将衰减改变为增强，恢复许多原始低频信号。

低通增益

在一些实施例中，低频可以具有可调整输出增益。该调整可以允许经滤波的低频在最终音频输出中具有或多或少地的突出存在。

Claims

1. 一种用于改进人耳的声音定位的方法，所述方法包括如下动作：通过向头部相关传递函数（HRTF）的一个或多个位置参数应用周期性函数来创建多个定位源的虚拟移动。