CN1672325A

CN1672325A - 声虚拟现实引擎和增强传送音的高级技术

Info

Publication number: CN1672325A
Application number: CNA038184494A
Authority: CN
Inventors: T·帕多克; J·巴伯
Original assignee: Sonic Focus Inc
Current assignee: Arc International Ltd By Share Ltd; Xinnuopu System Co
Priority date: 2002-06-05
Filing date: 2003-06-05
Publication date: 2005-09-21
Anticipated expiration: 2023-06-05
Also published as: WO2003104924A3; US8676361B2; WO2003104924A2; US20060098827A1; EP1532734A4; JP4817658B2; KR101118922B1; JP2005529520A; EP1532734A2; KR20050043800A; CA2488689C; AU2003251403A1; CN100481722C; CA2488689A1

Abstract

本发明公开了一种可在服务器端、客户端或两端的传送系统中采用增强传送音频信号的技术和系统。所述技术包括：使用动态处理和其它处理单元处理经过工作频带不同的多个通道的音频信号而形成经处理的音频信号，随后为经处理的音频信号提供录音或收听环境增强和其它声音增强。还公开了用于实现多通道处理及环境与声音增强的技术与系统。

Description

声虚拟现实引擎和增强传送音的高级技术

相关申请的交叉引用

本申请要求根据以下美国临时申请的优先权：2002年6月5日提交的题为“增强传送音的高级技术”(Advanced Technique forEnhancing Delivered Sound)，序列号为60/386541的美国临时申请和2003年5月20日经United States Express Mail(挂号标签为EV331871310US)提交的题为“声虚拟现实引擎”(Acoustic VirtualReality Engine)的美国临时申请。

技术领域

本发明涉及用于增强传送音频信号如经有限带宽连接传送的音乐的高级处理技术，并且更具体地说，涉及为收听从任意数据信息源传来的数字录音的收听者创造实况演奏感觉的处理技术。

背景

因特网的快速扩展使其要快速开发更新和更有效的方式以利用其通信技术，而又不是局限于文本应用。受到关注的两个新应用是音频和视频广播。这两个应用有一个共同的问题：即当到因特网的连接带宽受限时，其效用会受损。由于视频广播对带宽有较大需求，因而对使用有限带宽连接的大量因特网终端用户(即客户)而言尤其成问题。

在因特网上传送诸如音乐等音频信息的一种常用方法是“下载”音频文件到客户的计算机。数字音频文件也通常以MPEG音频或其它格式复制和压缩到压缩光盘(CD)、个人播放器或计算机硬盘驱动器上，这样，与流式音频相比，可在更有利或移动式收听环境中收听它们。

因特网传送的音频的另一种常见形式是流式音频。“流式”指边下载边收听。通常，与客户机的连接相比，服务器具有很高的因特网带宽连接。在将流式音频用于音乐时，因特网主机站点(即“服务器”)经因特网连接向正在收听的终端用户(即“客户”)提供实况音乐会音乐、音乐节目主持人选择的音乐或存储的音乐。但由于客户的连接带宽通常有限，流式或下载(压缩)音乐的收听效果与理想效果相去甚远，对习惯于CD质量音乐的客户尤其如此。

收听效果的下降可归于两个主要原因：为补偿有限带宽传送要求而对压缩信号造成的损伤或为满足存储要求而需要减小文件大小；以及差的客户收听环境。对于后者，经常通过连接到客户计算机的扬声器收听因特网正下载或已下载的音乐，通常很少注意在计算机所处位置提供良好的收听环境。虽然近来已致力于改善有限声道带宽问题，但收听环境差的问题尚未得到满意的解决。因此，有益的是提供一种技术解决方案，以增强客户接收和收听通过有限带宽连接接收的声音信号的环境。此外，还有益的是提供这样一种系统，它可以补偿将音频文件压缩成更小文件大小而导致的失真。

演奏的音乐由极其复杂的动态声场组成。听众不断变化的收听环境和音乐家在音色、节拍和不可预测的实况演奏动态范围方面的变化一起创造了独特感人的音乐体验。在得到环境音效支持的乐器和音符汇合形成基于时域的音效活动(acoustical event)时，形成了实况声场。这些元素每个都在不断的动态变化中。房间模式和节点随收听者位置而变化；音乐动态范围随艺术家的情绪而改变；甚至收听者的头部位置会使每时每刻的体验产生变化。

其他人已采用了各种方案以在数字录音中使声乐和乐器独奏清晰。在传统增强技术中最常用的方法是在声波的较高频率范围添加谐波失真(“激励器”)。但人为将失真加进立体声场会使用户在一段时间后感到疲劳和不舒服。基于“激励器”类型处理的增强处理程序经常需要低音增强电路以补偿过分加重高频谐波而造成的单薄。

电视机和汽车音响中采用的用于立体声波形清晰度增强而另一方案是在低频范围添加时延电路以及在中频范围添加时延电路，其中，两个延迟均设为相对于高频范围的固定延迟点。此电路的用途不是为了声音模拟，而是为了扬声器标准化，旨在补偿扬声器电路中导致已经过放大和声转换的声波中的频率相关相位误差的阻抗。在此设计中，高频能级由VCA控制电压调整，该电压最初由用户通过“按品味调整”能级控制设置，并在计算经延迟的中频带和低频带RMS求和值后，同时按比率计(ratiometriclly)动态调整。频带相移技术(banded phase-shift)加重较高频谐波，并为整个混合信号的谐波频率添加高频“边缘”，但会掩蔽和降低收听者鉴别提供乐器独奏声和声乐深度与丰满度的主要基频的能力，使它们听起来空洞而又不可信。此扬声器校正方法的另一问题是，它并非对所有类型的变换器有用，而只对那些表现出与此处理程序内时间校正电路匹配的高频和中频时延误差类型的变换器有用。

用于混音清晰度增强的另一种方法是在低频范围中添加时延电路，且该时延电路的延迟相对于高频范围设到根据公式的延迟点(formulaic delay point)。频带相移技术加重较高频率谐波，并将高频“边缘”添加到整个混合信号中，但会隐蔽和降低收听者鉴别提供乐器独奏和声乐深度与丰满度的主要基频的能力。在与低音补偿增强电路相结合时，相移技术的效果为“响度曲线”效果：更多的低音和高音及去加重乐器独奏与声音基频。

压缩器和压控放大器(VCA)已应用到这些高频增强电路的更复杂形式中，以依据检测信号的RMS值调整加到原始声波上的失真和相移量(phase shift material)。

虽然在将音轨合成为立体声前有助于在各音轨上产生特殊效果，但高频增强(“激励器”)处理程序对乐器独奏和声乐的基频及立体声场的整体平衡很不利，因而又不能用作专业质量的立体声控制工具。在信号密度降低前添加失真或相移信号时，对音乐波形进行进一步的压缩或进行向下采样会导致很难预测的负面效果。响度曲线方案在低收听能级有效，但中等或高收听音量会使混音尖锐，从而导致收听者疲劳和不满意。

因此需要提供一种信号处理方法技术，可为收听数字录音或其它数字信息源的用户精确地造成实况演奏感觉，而又不具有常规做法产生的不合需要的副作用。

发明公开

本申请公开了一种改进的音频信号处理方法和系统。所公开的方法/系统用于增强要压缩和/或已压缩音频信号的质量。所述系统使用一组可调节的数字信号处理器(DSP)以对音频信号输入进行各种处理。根据一个实施例，所述方法/系统可用于在将音频信号压缩成更小格式前对其进行“转换(rip)”。如上所述，为了在有限带宽网络连接上传送音频信号，将其压缩可能是必需的。压缩可能也是为了在诸如软盘、CD-ROM、闪存和磁驱动器等具有有限存储空间的介质上存储音频信号副本所必需的。所述方法/系统的另一实施例用于在音频信号解压缩后将其增强。例如，所述方法/系统与客户流媒体接收机一起用于把经流式接收机解压缩后的音频信号增强。根据另一示例，所述方法和系统可在音频信号从存储空间有限的介质上读出并予以解压缩时将其增强。在优选实施例中，所公开的方法/系统用在音频流的压缩和解压缩端。然而，可以设想，所公开的方法/系统可只用于音频流压缩端或解压缩端。

所述方法/系统的上游(即压缩端)实施例的一个应用是以比实时更快的速度处理音频信号的“转换(ripper)”程序。此“转换”程序可用于在电子音频文件被压缩和存储在存储装置上之前增强该文件。由于“转换”程序以比实时更快的速率运行，因此，压缩文件所需的时间大大减少。所述方法/系统的上游实施例也可以在经诸如因特网等有限带宽网络传送音频信号前将该信号增强。根据此实施例，所述方法/系统补偿了在经网络传送前进行压缩而带来的失真。另一应用是所述公开方法/系统的下游(即解压缩端)实施例。下游实施例可用于在音频信号从存储介质读出并予以解压缩时将其增强。由于所公开的方法/系统可以比实时更快的速度运行，因此，它可有效地增强解压缩音频信号，且具有最小的延迟影响。

根据本申请的公开内容，自适应动态类型处理通过使用FSM(平坦频谱建模)声环境建模技术，创建原实际演奏的逼真的可信实况声场。这里所述的处理技术可用于播放数字音乐录音、音效、音轨或任何数字音频源文件，而无论来源是“真实”录音或由机器生成(例如，计算机游戏音轨或音效)。实况音乐模拟生活的特点：不可预测、生气勃勃、充满活力和不断变化。自适应动态类型处理程序是一种恢复数字声音表现的均衡的逼真方案。在与这里所述的录音环境模拟技术相结合时，使声音波形同时在时域和频域上得到分析和修改，随后，依据实况演奏的预测模型再现声音。与人工生成或“foley”声场，如电影音轨或合成音轨如游戏音轨中的那些声场一起使用时，采用这种技术可增加以前从未实现过的新的真实度。

所公开的技术可创建可信的声音虚拟现实生成环境，该环境通过宽带自适应动态类型处理与平坦频谱模型的组合，将动态强度和全面的声真实感与清晰度添加到整个波形中。这可以通过实现完整的32位和64位虚拟现实音效引擎实现，其中，可进行清晰的对话，创建并操纵空间感，且用户可对声乐和声音环境特征进行简单而全面的控制。每种乐器声和声乐都集中而清晰，甚至作为每个音符主要基础的基频亦如此。本发明的自适应动态类型处理方法不会在谐波上添加刺耳的边缘或仅添加中心频率。本发明可再现整个声场的清晰度和“逼真度”。所有音频带的分辨率(definition)和焦点(focus)都得以保持，且不会在任一频带中对谐波作不适当或不自然的加重。

自适应动态类型处理程序和录音环境模拟技术涉及两个核心处理程序的合作：使用按时间排列的几个滤波带和一个非滤波带的声音波形多通道处理；和墙壁与房间模拟器功能。同时在时域和频域对声音波形进行分析和修改，随后，通过在这些核心处理程序中设置处理参数而根据实况演奏的预测模型再现声音。

自适应动态类型处理产生了时间节拍，用于模拟实况声音的不可预测、动态的和不断变化的特征。这是通过使用在时间上对齐但在声音特征上不同的多个滤波带或声音通道以及一个非滤波带或声音通道来实现的。在一个实施例中，这些声音特征差异通过对所述多个滤波带和所述非滤波带中的每个频带应用不同的压缩参数(例如，冲击(attack)、释放(release)、增益率(gain ratio)和目标能级(targetlevel))来实现。例如，针对非滤波带的压缩可设为提供这样一种声音，它模拟从无周围环境的舞台发出声音的方式，而针对中范围频带的压缩设为模拟从诸如音乐配音室等更活泼的环境发出的声音。这些差异导致在从这些不同的声音通道输出的声音之间产生时间节拍，从而使收听者感受到一种更活泼或更有动感的演奏。最好不采用声音通道之间的时延来形成这种时间节拍。

所公开的实施例的另一个重要特征是在自适应动态类型处理后使用墙壁和/或房间效应处理以提供声音的“尾声”。墙壁/房间效应处理为声音增加了早期、中期和后期的反射分量，从而形成了演奏的虚拟壳和外表集。这种壳或外表集可根据要形成的环境而有所不同。

在与墙壁区(wall block)(早期反射)相结合时，自适应动态类型处理与房间区(room block)(后反射)用于模拟类似结合相对静止的系统的演奏(具有因声波冲击材料所致的一些变化)的随机事件，如声环境。不可预测事件(通过自适应动态类型处理)与可预测环境(通过墙壁和房间反射)的结合是独特的，可为收听者提供类似实况音乐体验的感觉。因此，所公开的技术可为收听数字音乐录音、电影或游戏音轨或其它音源的用户创建精确的实况演奏感。

亦可增加适当的实况事件模拟器处理的可信度的另一要素将是添加机制(例如添加麦克风和扬声器)，用于确定用户收听环境的特征，这将提供有关收听能级、收听空间的脉冲响应的全面的过程信息及有关收听者所用的收听空间和变换器的时间和频率信息。此信息虽然对所公开的实施例的正确运用是可选的，但可用于校准系统。

附图简述

通过结合附图参照如下详细说明书和权利要求书，可获得本发明更完整的理解。

图1是根据本发明实施例，用于增强压缩音频数据的高级技术流程图；

图2A是根据一个优选实施例，说明发生在网络服务器端的增强处理的方框图；

图2B是根据一个优选实施例，说明发生在网络客户端的增强处理的方框图；

图3是根据另一优选实施例，说明发生在网络客户端的增强处理的方框图；

图4是根据一个优选实施例，说明用于增强音频信号的信号处理功能的方框图；

图5是根据一个优选实施例，说明与客户端增强有限带宽音乐相关联的信号处理功能的方框图；

图6是根据另一优选实施例，说明用于增强音频信号的信号处理功能的方框图；

图7是根据另一优选实施例，说明用于增强音频信号的信号处理功能的方框图；

图8是根据另一优选实施例，说明用于增强音频信号的信号处理功能的方框图；

图9是根据一个优选实施例，说明与客户端增强有限带宽音乐相关联的信号处理功能的方框图；

图10是适用于图1所示体系结构的示例声增强单元的图示；

图11是适用于图10所示体系结构的示例空间增强单元的图示；

图12是适用于图10所示体系结构的示例墙壁效果单元的图示；

图13是适用于图10所示体系结构的示例房间效果单元的图示；

图14是适用于图10所示体系结构的示例亚音效果单元的图示；

图15是适用于图10所示体系结构的示例超前AGC单元的图示；

图16A提供了图10中自适应动态类型处理块(标记为核心处理程序)的一种实现的说明性示例；

图16B是图16A所示声音通道的时间响应特性的图示。

优选实施例详细说明

本文公开了一种用于增强经有限带宽传送系统或从压缩数字文件传送给用户的声音的技术。更具体地说，公开了用于客户端增强声音文件的技术，声音文件可以流的形式传送到或经因特网或其它途径下载到用户设备，如CD、便携式播放器、机顶盒等，并且它可以通过具有有限保真度的计算机声音系统，在具有环境噪声或其它不良声音属性的环境中播放。另外还公开了以比实时更快的速度压缩音频信号，以便音频信号可经有限带宽连接广播的技术。其它实施例包括基于客户端的应用(其中，在将音频信号解压之后对其进行增强)，如流式媒体接收机或电子音频文件播放器(即MP3播放器)。因此，所公开的方法/系统可在下列应用中使用：

·以比实时快的速度运行的服务器端“转换程序”；

·无需预先转换声音文件的客户端增强装置；

·实时增强音频信号的广播服务器；

·实时增强音频信号的接收机客户端；

·服务器端“转换程序”，其中，压缩文件以后在客户端解码以便进一步增强质量和清晰度；以及

·客户端-服务器布置，其中，音频信号在压缩前在服务器端增强，并在解压缩后在客户端进一步增强。

图1是根据一个优选实施例，说明用于增强音频数据的高级技术的流程图。在步骤102中，音频数据编码成数字格式数据。此时，也可将数据信号压缩以便为后续传送作准备。在步骤104中，可使用各种处理技术对后续传送期间预计要丢失或受损的频率和动态范围进行加重，从而增强数字格式的编码音频信号。随后，在步骤106中，通过到诸如因特网等网络的连接传送增强的音频信号，该连接可能仅属于窄带或中等带宽。在到达客户端站点后，在步骤108中，将传送来的音频信号解码(必要时还要解压缩)。最后，在步骤110中，对解码得到的音频信号进行进一步的增强处理，以恢复预计在传送期间丢失或受损的频率和动态范围。

图2A显示了根据一个优选实施例，在网络服务器端(即主机站点)上进行的增强处理。在主机站点210，从音乐源202例如存储的文件或实况输入选择音乐。在音乐源202与音频编解码器204之间插入的是增强处理单元212。增强处理单元212在音频信号由发送音频编解码器204进行编码前对其进行增强。如果流式服务器206要向具有已知和/或类似收听环境的客户广播，则增强处理是有益的。类似地，增强处理在广播的音乐类型已知或已确定，或始终为相似类型时也是有益的，因为可以以对特定种类的音乐最有利的方式来调整增强处理。

发送音频编解码器204通过编码器(即编解码器对的发送侧)处理音乐，编码器以适合客户的因特网连接带宽的方式将音乐格式化并压缩。

编解码器是编码器/解码器系统，在本发明中用作音频数据压缩器(编码器)和音频/数据解压缩器(解码器)。数据压缩/解压缩编解码器也称为“压缩扩展器”。在本公开中，“数据压缩”指缩减数据文件大小的任何处理程序，而“声级压缩”指减小音频信号动态范围的任何处理程序。一些常用的编解码器是Sony 8Track、DolbyAC3和WMA(UP3)。

在应用传送音频编解码器204后，流式服务器206随后通过到因特网的输出连接214把经过数据压缩和格式化的音乐文件发送到指定地址。虽然本说明书主要涉及音乐的流式传送和增强，但它同样适用于任何音频或音频/视频素材。此外，应注意，此系统和技术可用于各种声音传送协议，包括例如Real Audio、MP3和WindowsMedia。

在本文中，“实时”指收听客户几乎在服务器在音频编解码器内处理音乐的同时收听到音乐。虽然到扬声器的连接会产生一些延迟而仍被视为“实时”，但最好在音乐源的音乐流与客户在收听的扬声器之间不对音乐片段进行明显的缓冲，而是让扬声器播放连续的音乐片段。下载的文件可全部存储并在以后播放，并且最好以与流式文件相同的方式进行压缩，但压缩率可小于实时流传送所用的压缩率。

图2B说明根据一个优选实施例，在网络客户端进行的增强处理(即“解码器端增强”)。在存在各种收听环境和/或音乐类型的环境中，这种类型的增强处理是有利的。增强的编码信号通过窄带或中等带宽连接222到达客户端站点230。具体而言，信号222可提供给个人计算机244或另一合适的处理平台。在优选实施例中，个人计算机244包括调制解调器242、与接收音频编解码器246和增强处理单元相关联的处理器244、扬声器驱动器248及扬声器250。类似服务器站点210上提供的增强处理单元212，增强处理单元252最好在信号由接收机音频编解码器244解码后对解码信号进行增强。

与CPU 244相关联的客户端接收编解码器246的处理器执行的操作大部分与服务器的发送音频编解码器244相反。具体而言，接收编解码器246将数据流转换回易于使用的音乐格式，并且将音乐解压缩以将其恢复到尽可能接近其在音乐源202上的原始质量。接收音频编解码器244处理可以软件形式在CPU 244上运行，或者可通过使用附加声卡在硬件中执行。扬声器驱动器248也可以在声卡上找到或用软件实现。典型客户收听环境中的扬声器250由一对差到中等质量的中频带驱动器组成，并可包括低音扬声器和/或亚低音扬声器。客户和计算机所处的客户端站点230是收听环境的末端组件：它对感知的声音质量有很大影响，这是因为它的频谱响应如谐振以及它所引入的环境噪声。

发送音频编解码器204和接收音频编解码器246设计成在给定它们之间的连接带宽限制的情况下，产生与输入信号基本相似的输出。这些编解码器(204、246)的数据压缩处理可产生不需要的假信号和失真。但下述高级技术不一定修改这些压缩过程。

在图2B(和图3)的配置中，增强处理单元252最好是与处理器相关联的软件。但也可想到用于替代实施例的其它配置。例如，处理可在位于本地或相连装置上的专用数字信号处理器中进行。

图3显示了根据另一优选实施例在网络客户端进行的增强处理。不同于图2B所示的实施例，在图3所示实施例中客户端站点300处包括了麦克风302。麦克风302经耦合306连接到增强处理单元252，以便向该单元提供反馈。基于该反馈，增强处理单元252能够提供对扬声器驱动器248的附加控制。

为了在仅采用适中或典型功率的情况下取得优越的性能，采用了几项改进和技术。其中一种技术是采用扩展比特深度进行声处理，以便在系统中产生大动态范围，从而又不需要强输入限幅器并减少截断误差噪声。

任一类型处理(例如信号混合、均衡、压缩等)改变原始数字数据的程度与数据的比特分辨率呈反比。为便于说明，下述技术对数据处理级采用64位声音样本。然而，可设想采用其它样本尺寸，如8位、16位、24位和32位。

图4是说明根据一个优选实施例，用于增强音频信号的信号处理功能的方框图。在图4中，音频信号405提供给人工智能(AI)动态压缩器410。AI动态压缩器410通过信号线412与AI动态解压缩器415串联工作，以便将输入音频信号405的动态范围增强到所需范围。这两个处理器410、415中的偏差形成了信号的总动态扩展。在经AI动态压缩器410处理后，音频信号由并行设置的两个单元处理：高频假信号掩蔽处理器420和清晰度处理器(中频带)425。高频假信号掩蔽处理器420包括可调滤波器和可变时延电路，它对输入音频信号中不合需要的假信号和不合需要的声音产生掩蔽效应。清晰度处理器425也包括具有可变时延电路的可调滤波器，它对输入音频信号中不合需要的中频频率产生重新对齐效应(realignmenteffect)。在由这两个单元处理后，音频信号由混音器427合并并馈入3D/实况增强器430中。3D/实况增强器430将实况和立体声成分添加到音频信号的声场中。3D/实况增强器430使用三维模型来确定信号处理进行的程度。在音频信号由3D/实况增强器430处理后，它由录音环境模拟器435处理，该模拟器435将扩散、混响、深度、再生和房间衰减添加到音频信号中。录音环境模拟器435无需为虚拟录音室添加谐振模式和节点即可实现这些效应。在由录音环境模拟器435处理后，音频信号由消音器440处理，消音器440可有效消除音频信号中的音轨(vocal track)。完成此功能是因为大多数音轨是居中的(centered)，并且在整个音频信号中较干(dry)。在去除声乐信号后，由宽带立体声增强器445对音频信号进行处理，该增强器将更宽的立体声成分添加到音频信号的声场中。此时，将音频信号馈入AI动态解压缩器415，在该解压缩器中，通过人工智能算法处理音频信号以确保恢复音频信号的全部动态范围。在音频信号经AI动态扩展处理器415处理后，随后由AI衰减和失真检测处理器450进行处理，该处理器450调整信号能级(即音量)，直至取得最佳增益。AI衰减和失真检测处理器450适于动态调整音频信号的增益，以便将一致的信号能级连续提供给收听者。此时，经处理的音频信号455可馈入驱动器或驱动器组，以便个人可收听信号。

图5是说明根据一个优选实施例，与客户端增强有限带宽音乐相关联的信号处理功能的方框图。虽然图5中只显示了一个处理声道，应理解，也可采用多个处理声道。此外，下述解码和增强处理程序最好是在处理器上运行的软件例程，因此，信号通道引用涉及将数据从一个例程传递到另一个例程的常见编程技术。因此，与优选实施例相一致，信号通道或通道并未用于指物理连接，而是在替代实施例中可使用不同的连接。

增强处理程序从接收编解码器246输出的音频信号开始。最初，信号通过声道输入502导向限幅器504。限幅器504最好是标准音频限幅器，即防止因缺少动态范围而使声音的较响部分抑制下游处理。根据声级，限幅器504进行增益调整，这对声音有着色效应，如“抽吸(pumping)”和“削波(clipping)”。由于限幅或解压缩所致的增益改变常常会被收听者注意到，这称为“抽吸”。而“削波”则发生在信号超出系统中可用的最大可能值时。

限幅器504的输出将信号分成四个离散的通道或频带。它们称为全带宽通道510、低音通道520、中音通道540和高音通道560。每个通道最好单独处理。全带宽通道510让全带宽声音到达输出混音器578。与下述各种滤波频带的处理相反，全频带通道510最好不进行声级解压缩。低音、中音和高音通道(520、540、560)最好将信号过滤到非重叠频带中。

应理解，可采用更多或更少的通道。例如，可存在用于亚低音扬声器频带的附加通道，并且中频带可分割成两个单独的中频带。当替代实施例中使用的频带数量很多时，最好由ARBI滤波器提供滤波。例如，限幅器504可以是具有用于动态参数滤波的三百个立体声声道的ARBI滤波器(因此，还需要三百个声级解压缩的立体声声道和三百个时延对齐的立体声声道)。

在处理前，全带宽、低音、中音和高音通道(510、520、540、560)的相应输入由放大器506a-d放大。在处理后，全带宽、低音、中音和高音通道(510、520、540、560)的相应输出由放大器507a-d放大，然后在混音器578处合并。

由滤波器形成的每个频带由图5中所示的各种处理单元单独处理，后续段落中将会予以说明。

除全频带通道510外，每个频带包括用于参数均衡的均衡器。用于低音、中音和高音通道(520、540、560)的此类参数均衡器分别由标号522、542和562表示。每个此类参数均衡器(522、542、562)提供多个窄带滤波器，每个滤波器具有用于增益、带宽或“Q”值及中心频率的控制。均衡器(522、542、562)可包括奈奎斯特(Nyquist)补偿滤波器，该滤波器可减少因采样混淆导致的寄生信号。

针对每个频带的特定的、可编程的声级扩展或压缩由包括在每个低音、中音和高音通道(520、540、560)中的动态处理单元执行。此类处理单元最好包括不同的滤波器及扩展器和/或压缩器。低音通道520最好包括高截止频率滤波器524、低通滤波器526和高通滤波器528及扩展器530和压缩器532。中音通道540最好包括高截止频率滤波器544和带通滤波器546及扩展器548和压缩器550。高音通道560最好包括高截止频率滤波器564、低带通滤波器566和高通滤波器568及扩展器570。全带宽通道最好局限于压缩器512。应理解，每个通道中使用的处理单元将根据与通道相关联的频带数量和类型及其它设计选择变化。

每个频带(包括全带宽通道510)最好还提供时延对齐单元，以补偿上述单元可能产生的不同时延，或服务器端录音或处理时已产生的不同时延。用于全带宽、低音、中音和高音通道(510、520、540、560)的此类时延单元分别由标号514、534、552和572表示。通常，用于正确对齐的时延大约为若干微秒。

在处理后，每个频带输出连接到混音器578。混音器578在4个通道(510、520、540、560)之间提供信号平衡，并将混合信号导向主均衡器580。

主均衡器580为混音器578输出的信号提供参数均衡。它对信号进行最终的信号宽频谱整形。均衡后的信号随后(可选地)通过高度均衡的谐振滤波器传递，以增强亚低音扬声器和低音频率。此类滤波器最好包括高截止频率滤波器582、低通滤波器584和高通滤波器586。

墙壁模拟器590可耦合到高通滤波器586。墙壁模拟器590使用扩散场矩阵(DFM)技术来产生模拟实际舞台反射的时延。这种声音反射环境的模拟可增加音乐的生动性感或混响质量，而又不会引入不需要的谐振峰。

常规DFM技术对非谐波、非谐振波反射使用数论算法。例如，在此上下文中可应用由M.R.Schroeder所著“科学与通信中的数论”(Number Theory in Science and Communication，by M.R.Schroeder，Springer Verlag，Berlin 1986，second edition)中第15.8节中所述的二次剩余和第13.9节中所述的本原根。但是，那些常规技术只提供用于模拟房间“混响”的长时间反射。最好采用本原根计算，它通过应用扩散场矩阵DFM技术来提供声音的早期反射，即直接声(directsound)5到30毫秒内的反射，对Schroeder所论述的方法上进行了改进。

墙壁模拟器590也可用于分解、重新整形或去除强周期性处理假信号或棘手的周期性特征的不需要的效应。舞台模拟器中采用的DFM未使用再生，即，未从该处理单元输出向输入反馈。此处理级的控制参数包括大小和到墙壁的距离。

墙壁模拟器590的输出导向房间模拟器592。房间模拟器592使用DFM技术产生类似于自然房间音效的时延和谐振。DFM技术类似于在墙壁模拟器590中使用的那些技术，但它使用再生。房间模拟器592可以添加混响和衰减以增强干音乐素材，并进一步掩蔽编解码器引起的微小失真。此处理级的其它参数包括房间大小、房间纵横比和湿/干混合。房间模拟器592的另一用途是补偿收听者收听环境中差的房间音效。如上所述，用于为干信号添加自然房间或舞台音效的相同DFM技术也可用于在收听者房间中对谐振进行去加重或进行滤波，并可用于降低房间感知的环境噪声级。为此，如图3所示，通过使用放置在收听者平常的收听位置附近且功能上已连接到CPU的麦克风，可取得收听者的房间音效。DFM技术最好只用在墙壁模拟器590和房间模拟器592中，其中只有房间模拟器592使用再生单元。

依据可由房间模拟器592测量和补偿的客户端站点或收听室的质量，可应用不同的滤波器。一个滤波器可补偿收听室的音效，这种补偿基于具有多个谐振点的变换函数R(ω)来进行。如果大部分房间具有软表面，如地毯、窗帘或加垫家俱，则房间变换函数R(ω)将在高频处下降。然而，如果收听室具有硬质表面，则房间变换函数R(ω)的高频端下降程度可能不会如此大。

实现房间谐振补偿的初始步骤是使用麦克风302(参见图3)确定收听室的音效。通过使用扬声器250(参见图3)产生具有已知频谱N_o(ω)的声音并监视房间音响效果对使用麦克风通过扬声器产生的声音的影响，可确定房间音效。扬声器250产生诸如“白噪声”等在每个频率具有相等能量的声音。由麦克风变换的信号的频谱N_i(ω)随后用于按以下等式计算房间变换R(ω)：

R(ω)＝N_i(ω)/[N_o(ω)M(ω)]，

其中，频谱N_i(ω)和N_o(ω)在SPLA刻度上均按分贝来度量，并且如上所示，M(ω)是麦克风的变换函数。或者，如果N_o(ω)是与优选实施例中一样的“平坦”白噪声频谱，则

R(ω)＝N_i(ω)/[kM(ω)]。

典型的补偿房间滤波将正好的是房间频谱的倒数，即为：

F(ω)＝1/R(ω)，

其中，F(ω)是收听室的补偿滤波函数。滤波函数F(ω)可在房间模拟器592或主均衡器580之一或两者中的增强器中实现。

可采用另一滤波器来补偿环境噪声。通过对环境房间噪声对应频带上的特定音乐频带进行提升，可实现环境房间噪声补偿。这种提升提高了音乐的信噪比，并相应提高了音乐清晰度，而又无需提高整体音量。这种降噪技术在噪声频谱基本上不变时表现良好。与音效滤波器的情况一样，可采用麦克风302(参见图3)来获得收听房间环境噪声的测量值。声音到电的转换由麦克风变换函数M(ω)描述。因此，描述从原始声音频谱到麦克风转换的信号频谱的变换由下式给出：

M(ω).T(ω)＝M(ω).R(ω).S(ω).C(ω).I(ω).P(ω)。

通过将麦克风302放在收听者附近可非常精确地监视收听者听到的声音。补偿环境噪声的滤波器频谱通常具有与环境噪声频谱相同的普通形状。此类滤波器也可在房间模拟器592或主均衡器580之一或两者中的增强器中实现。

通过补偿录制音乐的环境或模拟录音环境(实际上可能不同于录制音乐的环境)，可获得进一步的增强。可让客户选择多个录音环境。根据优选实施例，客户可从以下6个模拟录音环境中进行选择：录音室(A，B)、大厅(A，B)和体育馆。例如，在录音室环境，将会有早期反射增强。或者，在模拟大厅环境中，将存在短的混响时间，而模拟体育馆将具有长得多的混响时间。在某种意义上，用户由于模拟如何录制音乐而成了“制作人”。或者，模拟录音环境的应用可只基于录制音乐的真正环境，而又不基于用户偏好。这种情况下，系统将校正录音中产生的不合需要的假信号，并且已下载或流式传送的文件可包括标记，如MP3文件的ID3标记，该标记将标识合适的录音房间音效。

房间模拟器592的输出连接到卡拉OK录音单元593。卡拉OK录音单元593具有来自两个立体声道的房间模拟器输入。将这两个左右声道的信号进行比较，并可以去除这两个声道中具有相等能量的音乐分量如声乐，从而提供卡拉OK效果。这种操作最好如下所述在3D增强器595中以类似的方式完成，只不过卡拉OK单元592不会重新引入原立体声信号。

卡拉OK单元595的输出连接到宽带单元594。宽带单元594比较左右声道，然后对两个声道施加算法和延迟处理，以改变它们之间的感知距离。这种效果会改变感觉到的音乐立体声分隔扩展(stereoseparation spread of the music)。尽管产生增强宽声场(wideness)的其它尝试会导致信号低频率部分的损失，但宽带单元594可产生这种分隔，并使低频率分量基本不变。这种效果处理集成到标准PL-2处理中，PL-2处理是由加利福尼亚州旧金山的Dolby公司发布的一种定位算法。具体而言，卡拉OK单元593、宽带单元594和3D增强器595(如下所述)均需要左右声道的交互，它们通过组合使用两个声道完成PL-2解码。

宽带单元594的输出连接到3D增强器595。3D增强器595从立体声信号去除“等能量”(共模)信号内容(通常是独唱声和乐器声)，并将其延迟，然后使用频率和时域函数组合将它与原信号重新混合。这为收听者提供了“加宽的”声舞台，而无需使等能量音乐素材移位。

3D增强器595的输出随后连接到能级放大器596。能级放大器596又连接到AI能级控制597。AI能级控制597电路用于在峰值事件期间降低音频能级，然后在峰值事件过去后恢复音频能级。为在收听处理期间或在录音时防止声音失真，人类工程师总是通过将乐器或发声器官的音量控制下移以降低音量。通过在本质上模拟人类工程师，AI能级控制597通过分析数字流寻找失真和信号过载以识别峰值事件，从而快速降低音频能级。然后，它在峰值事件发生后将音量恢复到初始音量设置，而无需“始终启用”音频压缩器电路，始终启用音频压缩器电路会不利地导致丢失动态缘和平直声。

AI能级控制597的输出连接到主扩展器598，用于选择性地增加主立体声信号的动态范围。主扩展器598的输出连接到放大器599。

主扩展器598控制系统的最终输出音量级。它允许收听者将音量级设到其喜欢的高度，而无需担心扬声器驱动器电路或扬声器过载。此特征是通过监视失真样本检测扬声器峰值声级的处理程序来实现的。根据优选实施例，削波量的模糊逻辑记录用于确定音量级应降低的程度。或者，该处理程序超前查看音乐流，预测扬声器过载峰值声级的来临。如果已到达或预计要到达这种声级，则使用非线性衰减与时间关系曲线自动降低主控增益级，该关系曲线模拟人们会使用的衰减与时间关系。

主扩展器598是增强处理的最后一级，它向声道输出504提供增强信号，声道输出504又连接到扬声器驱动器电路。扬声器驱动器电路将处理器的信号增强数字表示转换成硬件模拟信号，并向扬声器提供必需的放大和连接。

这里所述的声级解压缩可扩展音乐动态范围，以帮助校正从录制原始音频源起任何时候发生的音频信号压缩。通常，音乐的录制和混音包括对许多音轨的声级压缩，以便利用记录介质有限的动态范围。此外，可以在录制后应用某种形式的压缩，以降低用于因特网广播的带宽。此后一种压缩基本上可由接收编解码器去除，但可能已进行了不充分的校正，否则需要进一步扩展以提高音乐的“生动性”或其它主观质量。最好采用对每个加重频带使用不同时间常数和扩展因子的动态处理。

图5所示的不同处理单元可由主控程序控制，该程序可忽略任何处理程序并可以指定每个处理程序的参数。“外壳(skin)”是允许客户控制参数和预设值的界面，即，“外壳”是在收听者的个人计算机屏幕上显示的增强程序的可视交互部分。衰减器控制可由收听者用于指定系统中的每个参数，并且“单选按钮”(即启用/关闭开关)可用于选择预设参数组。可单独调整增强参数，或者可选择不同的预设值。

系统可包括可同时控制各频带处理器参数的“大”控制。对于“大”参数的低值，很少进行动态处理，并且声级动态范围与录制的音乐相等。对于“大”参数的高值，每个频带的处理动态范围相对于录制的音乐的声级动态范围增加了。

预设参数组有两种类型：收听者定义类型和内置类型。收听者可以从其自己以前标记的组中选择预设值，或者可以从内置预设值菜单进行选择。内置预设值是基于带宽、编解码器类型、收听者的扬声器和音乐类型的考虑而设计的。一旦收听者选择内置预设值，则收听者随后可调整任一单独的参数或参数组以定制该内置预设值。经调整的参数组随后可加以标记并保存为新预设值。例如，如果选择了内置预设值，则收听者以后可选择一组房间补偿参数，这些参数可应用到选定的内置预设值。

图6是说明根据一个优选实施例的3D增强器的方框图。与其它单元的情况一样，此单元具有左输入602和右输入604及左输出650和右输出652。一个混音器640与左输出650相关联，而另一混音器642与右输出652相关联。与左输入602相关联的信号通过低通滤波器606和高通滤波器608传递。类似地，与右输入604相关联的信号通过低通滤波器610和高通滤波器612传递。低通滤波器606和610的输出分别通过放大器622和628传递，而这两个放大器的输出分别导向混音器640和混音器642。类似地，高通滤皮器608和612的输出分别通过放大器624和626传递，而这两个放大器的输出分别导向混音器640和混音器642。高通滤波器608和612的输出在加法器632相加，随后导向放大器634。放大器634的输出传递到混音器640及时延单元636上，时延单元636的输出又导向混音器642。

3D增强器单元适合配置成向客户端提供加宽的声舞台。3D增强器单元类似于下面结合图11所述的空间增强器单元，它从立体声信号(通常为独唱声和乐器声)删除“等能量”(共模式)信号内容，之后将其延迟，然后使用频域和时域组合函数将它与原信号重新混合。这为收听者提供了“加宽的”声舞台，而无需使相等能量素材移位。

图7是说明根据一个优选实施例的宽带单元的方框图。与其它处理单元的情况一样，此单元具有左输入702和右输入704及左输出750和右输出752。一个混音器740与左输出750相关联，而另一混音器742与右输出752相关联。与左输入702相关联的信号通过高通滤波器706和低通滤波器708传递。类似地，与右输入704相关联的信号通过高通滤波器710和低通滤波器712传递。低通滤波器708和712的输出分别导向混音器740和混音器742。类似地，高通滤皮器706和710的输出分别通过时延单元724和726传递，这两个时延单元的输出又分别导向混音器740和混音器742。时延单元724提供的时延最好大于时延单元726提供的时延。例如，单元724的时延可以为0.05-2.0毫秒，而单元726的时延可以为0.5-30毫秒。

宽带单元最好配置成在由相应高通滤波器706/710处理的左右声道高频信息之间产生所需的时间差。相应的时延单元724/726可加以调整，以提供所需的差分时延。在实际实施例中，差分时延介于5到22毫秒之间，并且最好大约为20毫秒，这在Haas效应(或领先效应)范围内。运行中，一个时延单元的延迟值可以设为固定值，而另一个时延单元的时延则可变以取得Haas效应。

图8是说明根据所公开的方法/系统的增强处理器的替代实施例的方框图。图8所示系统包括图4所示的许多相同单元，而且其工作方式也与上述相同。但应注意，图8包括以下附加处理单元：低音动态处理器902；时延单元905、918和919；DFM墙壁模拟器909；偏移装置907；波发生器915；增益窗口门限处理器917及声乐检测电路918。图8中还显示了扬声器921(附带放大器920)和麦克风922。低音动态处理器902包括器与可变时延电路、压缩器和扩展器块相结合的特殊滤波器，以增强动态低音声音。墙壁模拟器909执行与上面参照前面图形所述相同的功能。在部署在X86兼容处理器(PC和派生装置)上的实施例中，波发生器915用于防止Intel FPU在无声期间“非正常”操作。偏移装置907用于实现AI动态压缩器901与AI动态解压缩器913之间的通信。还应注意，AI衰减器与失真检测装置916可用于监视收听环境923并提供反馈，以便可为输出信号施加适当的增益级。这可以通过使用Fletcher-Munson查找表来完成。

图9-16说明了本发明的另一优选实施例的各个方面，这些方面可在客户端处理组件，如个人计算机或能够处理音频文件以便向用户播放的其它装置上实现。

图9是说明根据一个优选实施例，与客户端增强有限带宽音乐相关联的信号处理功能的方框图。在实际实施例中，图9所示体系结构900可用硬件、软件、固件或它们的任意组合形式实现。虽然图9只显示了一个处理声道，但应理解，也可采用多个处理声道。例如，虽然这里只描述了一个声道、单声道、立体声道，但根据需要，可采用多个所述声道以提供其它功能和声音处理。此外，在声道内，虽然此处可描述特定数量的通道，但要理解，在本发明的精神范围内可采用更少或更多的此类通道。

此外，下述解码和增强处理程序最好是在处理器上运行的软件例程，因此，对信号通道的引用涉及将数据从一个例程传递到另一例程的常见编程技术。因此，与优选实施例相一致，信号通道或通道并不用于指物理连接；而是在替代实施例中可使用不同的连接。

增强处理程序从接收编解码器输出的音频信号开始。最初，信号通过声道输入902导向压缩器904。压缩器904最好是标准音频限幅器，即防止声音的较响部分使下游处理因缺乏动态范围而无法进行。压缩器904根据声级调整增益，这对声音有着色效应，如“抽吸”和“削波”。由于限幅或解压缩而导致的增益改变常常是可为收听者所注意到的，这称为“抽吸”效应。在信号超出系统中可用的最大可能值时会发生“削波”现象。

压缩器904的输出将信号分成多个离散的通道或频带，其中至少一个对应于全带宽信号。在优选实施例中，压缩器904的输出导向四个流。它们称为全带宽通道906、低音通道908、中音通道910和高音通道912。每个通道最好单独处理。全带宽通道906用于让全带宽声音到达输出混音器913。与下述各种滤波频带的处理相反，全频带通道906最好未进行声级解压缩。低音、中音和高音通道908/910/912最好将信号过滤到非重叠频带中。

应理解，可采用更多或更少的通道。例如，可存在用于亚低音扬声器频带的附加通道，并且中频带可分割成两个单独的中频带。在替代实施例中使用的频带数量很多时，滤波可由ARBI滤波器提供。例如，压缩器904可以是具有用于动态参数滤波的三百个立体声声道的ARBI滤波器。

在处理前，全带宽、低音、中音和高音通道906/908/910/912的相应输入由相应的可变增益放大器914a-d放大。在实际实施例中，处理体系结构900采用的每个可变增益放大器具有介于-30dB与+25dB之间的可调增益，调整分辨率为0.1dB。在运行中，可根据此处所述的其它结合本发明操作执行的处理功能单元的要求，确定该处理体系结构的许多设置和/或可调特征(包括放大器914的可调增益设置)。处理后，全带宽、低音、中音和高音通道906/908/910/912的相应输出由可变增益放大器916a-d放大，然后在混音器913处组合。

由滤波器形成的每个频带由图9所示的不同处理单元单独处理，更详细的描述如下。每个低音、中音和高音通道906/908/910/912中包括的动态处理单元执行针对每个频带的特定的可编程的声级扩展或压缩。此类处理单元最好包括不同的滤波器及扩展器和/或压缩器。例如，低音通道908最好至少包括低通滤波器918和压缩器920。中音通道910最好至少包括带通滤波器922和压缩器924。高音通道912最好至少包括高通滤波器925和压缩器928。在例示实施例中，全带宽通道906包括压缩器930，并且不需要使用任何滤波单元。应理解，每个通道中使用的处理单元可随与通道相关联的频带的数量和类型及其它设计选择变化。

如上所述，与每个频带通道对应的处理信号作为到混音器913的相应输入。混音器913在四个通道之间提供信号均衡，并将混合信号932导向若干可选(即能够被忽略)或任选的处理单元。图9显示了这些处理单元的优选顺序。然而，本发明的替代实施例可利用此类处理单元的不同排序和/或采用其它的或替代的处理单元。

在例示实施例中，混合信号932用作到声增强器单元934的输入，声增强器单元934适合配置成在时域增强声乐和乐器独奏，而没有涉及立体声波形中的乐器独奏或声乐素材的基频的附加的频域着色或泛音失衡。下面结合图10更详细地描述一个示例声增强器单元。声增强器单元934的输出随后(可选地)通过高度均衡的谐振滤波器传递，以增强亚低音扬声器和低音频率。此类滤波器最好包括高截止频率滤波器936、低通滤波器938和高通滤波器940。高截止频率滤波器936对高于给定“交叉”频率的频率范围进行加重。交叉的“陡度”可通过改变滤波器的“Q”值或质量因子进行调整。

滤波后的输出信号可导向空间增强器单元942，此单元配置成向收听者提供加宽声舞台。空间增强器单元942从立体声信号去除“相等能量”(共模)信号内容(通常是独唱声和乐器声)，并对其进行延迟，然后使用频率和时域组合函数将其与原信号重新混合。这为收听者提供了“加宽的”声舞台，而无需使相等能量素材移位。

下面结合图11更详细地描述了一个示例空间增强器单元。在例示实施例中，空间增强器单元942的输出用作到墙壁模拟器单元944的输入。墙壁模拟器单元944最好使用扩散场矩阵(DFM)技术，以产生模拟实际舞台反射的时延。此类声反射环境的模拟可增加音乐的生动性或混响质量，而又不会引入不需要的谐振峰值。下面结合图12更详细描述一个示例墙壁模拟器单元。

常规的DFM技术对非谐波、非谐振波反射使用数论算法。例如，在此上下文中可应用由M.R.Schroeder所著“科学与通信中的数论”(Number Theory in Science and Communication，by M.R.Schroeder，SpringerVerlag，Berlin，Second Edition(1986))中第15.8节中所述的二次剩余和第13.9节中所述的本原根。但是，那些常规技术只提供模拟房间“混响”的长时间反射。最好采用本原根计算，它通过应用“扩散场矩阵”(“DFM”)技术以提供声音的早期反射，即直接声5到30毫秒内的反射，对Schroeder所授的方法上进行了改进。

墙壁模拟器944还可帮助分解、重新整形或去除强周期性处理假信号或棘手的周期性特征的有害效应。在舞台模拟器中使用的DFM技术不使用再生，即不使用从输出到此处理单元输入的反馈。此处理级的控制参数包括墙壁尺寸和与墙壁的距离。

在例示实施例中，墙壁模拟器单元944的输出导向房间模拟器单元946。下面结合图13更详细地描述了一个示例房间模拟器单元。房间模拟器单元946使用DFM技术产生类似于自然房间音效的时延和谐振。DFM技术类似于在墙壁模拟器单元944中使用的那些技术，但它使用再生。房间模拟器单元946可以添加混响和衰减，或者可以添加无混响的DFM以增强干音乐素材，并进一步掩蔽编解码器引入的微小失真。此处理级的其它参数包括房间尺寸、房间纵横比和湿/干混合(其中，“干式”指缺少音效处理，而“湿式”指使用音效处理)。房间模拟器单元946的另一使用是补偿收听者收听环境中差的房间音效。如上所述用于为干信号添加自然房间或舞台音效的相同DFM技术也可用于将收听者房间中的谐振或滤波去加重，并降低感知的房间环境噪声级。

依据可由房间模拟器单元946测量和补偿的客户站点或收听室的质量，可应用不同的滤波器。一个滤波器可根据具有多个谐振点的变换函数R(ω)补偿收听室音效。如果房间大部分为软表面，如地毯、窗帘或加垫家俱，则房间变换函数R(ω)可能在高频率下降。然而，如果收听室具有许多硬表面，则房间变换R(ω)的高频端可能下降的程度不会如此大。

通过补偿录制音乐的环境或模拟录音环境(可能实际上不同于录制音乐的环境)，可获得进一步的增强。客户可选择多个录音环境。根据优选实施例，客户可从以下10个模拟录音环境中进行选择：音频录音室、jazz session、夜总会、游戏空间(game space)、bass jam、剧院、摇滚音乐会、sonic wide、交响乐或大教堂。例如，在录音室环境中，将具有早期反射(DFM)增强。或者，在模拟大厅环境中，将具有短的混响时间，而模拟体育馆将具有长得多的混响时间。在某种意义上，用户由于要模拟如何录制音乐而成了“制作人”。或者，模拟录音环境的应用可只基于录制音乐的实际环境而非用户偏好。在这种情况下，系统将校正录音中不合需要的假信号，并且已下载或以流方式传来的文件可包括标记，如MP3文件的ID3标记，该标记将标识适当的录音房间音效。

房间模拟器单元946的输出连接到次声增强器单元948，次声增强器单元948适合配置成提供信号的低音增强。下面结合图14更详细地描述一个示例次声增强器单元。

次声增强器单元948的输出连接到超前自动增益控制(AGC)单元950。超前AGC单元950适合配置成提供对整个处理的输出动态范围的控制。术语“超前”指给控制放大器足够时间以平滑地改变增益的信号延迟，而不会在输出中引入瞬态或“抽吸”现象。此特征用于在峰值事件期间降低音频能级，然后在峰值事件过后恢复音频能级。为避免声音在收听过程期间或在录制声音期间失真，人类工程师总会通过将令人不悦的乐器声或声乐的音量控制下移以降低音量。通过在本质上模拟人类工程师，超前AGC单元950通过分析数字流查找失真和信号过载以识别峰值事件，快速将音频能级向下移。在峰值事件发生后，它又将音量恢复到初始音量设置，而无需“始终启用”音频压缩器电路，否则会不利地导致丢失动态缘和平直声。

下面结合图15更详细地描述了一个示例超前AGC单元。值得注意的是，超前AGC单元950可包括一个或多个延迟单元(未显示)，以补偿不同处理单元可能产生的不同时延或服务器端录音或处理期间已产生的不同时延。通常，正确对齐的时延大约为几微秒。

在此例示实施例中，超前AGC单元950是增强处理的最后一级，用于向声道输出952提供增强信号，声道输出952又连接到扬声器驱动器电路。该扬声器驱动器电路将处理器的信号增强数字表示转换成硬件模拟信号，并向扬声器提供必需的放大和连接。

图9显示了各个处理单元(在混音器913与声道输出952之间)的优选排序。然而，实际实施例可在必要时采用此类处理单元的不同排序以适应特殊应用的要求或特殊收听者的需要。此外，在本发明的替代实施例中可利用附加的和/或替代的处理单元。

此处所述声级解压缩实现了对音乐动态范围的加宽，以帮助校正从前面录制原始音频源起任何时候进行的音频信号压缩。通常，音乐的录制和混合包括许多音轨的声级压缩以便利用录制介质有限的动态范围。类似地，可在录制后应用某种压缩形式，以降低用于因特网广播的带宽。此后一种压缩基本上可由接收编解码器去除，但可能已进行了不充分的校正，否则需要进一步扩展以提高音乐的“生动性”或其它主观质量。最好采用对每个加重频带使用不同时间常数和扩展因子的动态处理。

图9所示的不同处理单元可由主控程序控制，该程序可忽略任何处理程序并可以指定每个处理程序的参数。“外壳(skin)”是允许客户控制参数和预设值的界面，即，“外壳”是在收听者的个人计算机屏幕上显示的增强程序的可视交互部分。衰减器控制可由收听者用于指定系统中的每个参数，并且“单选按钮”(即启用/关闭开关)可用于选择预设参数组。可单独调整增强参数，或者可选择不同的预设值。

图10是适用于图9所示体系结构的示例声增强器单元1000的图示。声增强器单元1000在录制中使声乐清晰，而又不会对赋予声乐深度和丰满度的主要基频产生不利影响。在运行中，可根据此处所述的其它结合本发明操作执行的处理功能单元的要求，确定声增强器单元1000的许多设置和/或可调特征。

声增强器单元1000是立体声处理单元，它接收左输入信号1002和右输入信号1004，并产生对应的左输出信号1006和对应的右输出信号1008。左声道输入信号1002路由到绝对值生成器1010，该生成器生成表示左输入信号1002绝对值的输出信号1012。右声道输入信号1004路由到绝对值生成器1014，此生成器生成表示右输入信号1004绝对值的输出信号1016。换言之，左右声道输入信号是经过全波整流的。比较器1018接收两个输出信号1012/1016，并产生表示输出信号1016减去输出信号1012所得的差分信号1020。差信号1020的电压与左右输入之差成正比。

所得的差分电压随后经过过滤，以去除快速瞬变而成为控制电压。比较器1018的输出连接到可变电阻1022的一端。可变电阻1022的另一端连接到(或对应于)节点1024。另一可变电阻1026的第一端也连接到节点1024。可变电阻1026的第二端连接到可变电容1028的第一端。并且可变电容1028的第二端连接到参考电压如地。可变电阻1022、可变电阻1026和可变电容1028可单独进行调整以提供适合的能级和交叉频率。这些可变元件属于一种可调低通滤波器装置，该滤波器装置将差分信号1022调理成出现在节点1024上的适当控制信号1029。

左输入信号1002也用作到第一压控放大器1030的输入，并且右输入信号1004也作为到第二压控放大器1032的输入。压控放大器的差分特征在时间上使左右声道音频能级的信号振幅均衡。控制信号1029调整两个压控放大器1030/1032的增益-压控放大器1030的输出信号1034表示左输入信号1022的放大形式，而压控放大器1033的输出信号1036表示右输入信号1004的放大形式。这两个输出信号1034/1036馈入加法器1038，产生总输出信号1040。加法器1038有效地去除所有反相素材，并形成合成的“声乐”或“中心”声道。这利用了最初录制时大多数音轨与相等能量混合进入左右声道的事实。总输出信号1040用作到可调增益放大器1042的输入，以提供适当的信号能级。放大器1042的输出随后由带通滤波器装置1044处理，以产生滤波信号1046。带通滤波器装置1044去除所需有声范围外的低音和高音内容。

左输入信号1002也用作到加法器1048的输入，并且右输入信号1004也用作到加法器1050的输入。加法器1048生成左输入信号1002和滤波信号1046的和信号；此和信号表示左输出信号1006。加法器1050生成右输入信号1004和滤波信号1046的和信号；此和信号表示右输出信号1008。加法器1048/1050将声乐输出与原左右声道信号混合，从而加重源素材的声乐内容。

空间增强器单元通过从立体声信号中剥离普通混合素材，然后将结果直接混回左声道，且将右声道适当延迟，从而实现复杂的声场增强。低音内容已在处理前从原信号中去除，然后重新加入“最终的”左右声道混音器中，从而防止低频低音能量损害“剥离器(stripper)”电路的效果。图11是适用于图9所示体系结构的示例空间增强器单元1100的图示。在运行中，可根据此处所述的其它结合本发明操作执行的处理功能单元的要求，确定空间增强器单元1100的许多设置和/或可调特征。

空间增强器单元1100是立体声处理单元，它接收左输入信号1102和右输入信号1104，并产生对应的左输出信号1106和对应的右输出信号1108。一个混音器1110与左输出信号1106相关联，而另一混音器1112与右输出信号1108相关联。

左输入信号1102通过低通滤波器1114和高通滤波器1116传递。在例示实施例中，低通滤波器1114实现为具有通常设在大约300Hz的可调截止频率的二阶滤波器。此滤波器用于隔离低频率内容，以便它不会使空间增强器单元1100失衡或生成不合需要的假信号。在例示实施例中，高通滤波器1116实现为具有通常设在大约300Hz的可调截止频率的二阶滤波器。类似地，右输入信号经低通滤波器1118和高通滤波器1120传递。在优选实施例中，低通滤波器1118的特征匹配低通滤波器1114的特征，并且高通滤波器1120的特征匹配高通滤波器1116的特征。

低通滤波器1114和1118的输出分别通过可变增益放大器1122和可变增益放大器1124传递，这两个放大器的输出又分别导入混音器1110和混音器1112。类似地，高通滤波器1116和1120的输出分别通过可变增益放大器1126和可变增益放大器1128传递，这两个放大器的输出又分别导入混音器1110和混音器1112。在实际实施例中，空间增强器单元1100采用的每个可变增益放大器1110具有介于-30dB与+25dB之间的可调增益，调整分辨率为0.1dB。高通滤波器1116和1120的输出也用作到减法器1130的输入。减法器1130的输出表示高通滤波器1116的输出减去高通滤波器1120的输出。此运算有效地在相位上消除了两个声道共有的素材，从而形成了“剥离的(stripped)”信号。减法器1130的输出随后导向可变增益放大器1132。可变增益放大器1132的输出用作到混音器1110的额外输入以及到时延单元1134的输入。

时延单元1134配置成引入介于0.05毫秒到30毫秒的延迟(例如，以48kHz频率抽样的1到1440个样本)。在运行中，可根据此处所述的其它结合本发明操作执行的处理功能单元的要求，确定特定的延迟量。时延模拟涉及收听者耳朵之间距离的空间函数。在实际的实现方案中，时延不应超过大约2.2毫秒。在一个优选实施例中，时延大约为1.1毫秒。时延单元1134的输出用作到混音器1112的另一输入。

混音器1110用作加法器以将其输入信号合并。实际上，混合产生了具有更宽带立体声映像的更复杂的声场和空间移位。因此，空间增强器单元1100对离散的左右声道内容进行加重并将该内容与原信号内容重新混合。混音器1112其类似的作用。混音器1110的输出用作到可变增益放大器1136的输入，该放大器的输出表示左声道输出信号1106。混音器1112的输出用作到可变增益放大器1138的输入，该放大器的输出表示右声道输出信号1108。右右输出信号1106/1108可路由到所述体系结构中采用的其它处理单元，如墙壁效果单元944(参见图9)。

该墙壁效果单元用于人为地将早期反射信号添加到信号中，模拟接近演奏源的反射表面的效应。此单元中未使用再生。在例示实施例中，信号通道可概括如下：

·通过计算跨反射表面的本原根分布，在环形延迟线中形成预定的“抽头”点。

·信号经低通滤波以近似理想反射表面的频率响应。

·将滤波信号加到环形延迟线。

·在延迟线的预定抽头点上“抽取”延迟信号。将抽取值求和并降低振幅，模拟沿反射表面的距离点上漏气(air loss)的影响。

·合成的反射“湿”信号按比率与原“干”信号混合以提供块输出。

图12是适用于图9所示体系结构的示例墙壁效果单元1210的图示。墙壁效果单元1210使用扩散场矩阵(DFM)技术来产生模拟从实际舞台反射的时延。此类声音反射环境的模拟可增加音乐的生动性，或可以增加不带混响的扩散场矩阵类型能量以增加音乐的“实况”质量，而又不会引入不需要的谐振峰值。

常规DFM技术对非谐波、非谐振波反射使用数论算法。例如，在此上下文中可应用由M.R.Schroeder所著“科学与通信中的数论”(Number Theory in Science and Communication，by M.R.Schroeder，SpringerVerlag，Berlin 1986，2nd Edition)中第15.8节中所述的二次剩余和第13.9节中所述的本原根。但是，那些常规技术只提供模拟房间“混响”的长时间反射。最好采用本原根计算，它通过应用扩散场矩阵DFM技术以提供声音的早期反射，即直接声5到30毫秒内的反射，从而对Schroeder所授的方法进行了改进。

墙壁效果单元1210还可帮助分解、重新整形或去除强周期性处理假信号或故障周期性特征的不利效应。在舞台模拟器中使用的DFM技术不使用再生，即不使用从输出到此处理单元输入的反馈。此处理级的控制参数包括墙壁尺寸和与墙壁的距离。

参照图12，现在将描述墙壁效果单元1210的实施。应理解，虽然图12显示了用于单声道的墙壁效应处理，但为了得到立体声效果，也可使用两个所示声道。

声道输入沿两条通道：到湿/干混音器1214的输入的直接通道1212以及滤波、延迟与求和通道1216，通道1216的输出加到湿/干混音器1214的另一输入。如箭头1218所示，墙壁效果单元1210的输出可加以调整，以提供不同比率或比例的源自直接通道1212和处理通道1216的信息。

每个输入样本沿通道1216加到低通滤波器1220上。随后，经滤波的样本加到环形延迟线1222。如图12可见，可在延迟线1222的不同点采用n个乘法器抽头以形成如下和值：

y = Σ_{n = 0}^{i = x} D (n) * S (i)

其中，抽头的数量等于x+1，D(n)表示延迟样本n，并且S(i)表示要加到乘积上的系数。x的值将由实际实现方案中可用的处理能力来控制。因此，形成了针对乘法器抽头所有位置的D*S和。作为运算的一部分，乘法器抽头的位置索引向右移位，并且如果位置索引超出延迟线末端，则位置索引会回绕到延迟线1222的开始处。此求和运算的输出是加到湿/干混音器1214的输入之一的和值“v”。

在图12中提供的墙壁效果单元1210的示例中，环形延迟线1222的总长在抽样率为Fs＝48kHz时为98毫秒，并且可能有6(x＝5)个乘法器抽头。此外，最长的反射(W)在抽样率为Fs＝48kHz时可少于或等于30毫秒。W轴的长度影响墙壁效应的“大小”。此外地，墙壁效应的“混合”由箭头1218(用符号表示)所示设置的湿/干比率决定。

可理解，与图12中的实现一样，由于未执行完整的卷积，墙壁效果单元1210不是有限脉冲响应滤波器(FIR)。

墙壁效果单元1210的输出可导向房间效果单元1310。

图13是适用于图9所示体系结构的示例房间效果单元的图示。现在参照图13描述房间效果单元1310的实现方案。虽然图13显示了房间效果单元实现方案的一部分，但要理解，对立体声或多声道实施例可采用两个或两个以上的所示部分。

房间效果单元1310采用DFM技术产生类似于自然房间音效的时延和谐振。DFM技术类似于在墙壁效果单元1210中使用的那些技术，但它使用再生。房间效果单元1310可以添加混响和衰减以增强干音乐素材，并进一步掩蔽编解码器引起的微小失真。此处理级的其它参数包括房间尺寸、房间纵横比和湿/干混合。房间效果单元1310用于将人工的“后期”反射添加到信号中，以模拟实际房间环境的环境反射率。例示实施例采用8个并联的手调梳状滤波器，为串联的4个全通滤波器馈送信号。合成的反射“湿”信号按比率与原“干”信号混合在一起以提供输出。

通过补偿录制音乐的环境或模拟录音环境(可能实际上不同于录制音乐的环境)，可获得进一步的增强。客户可选择多个录音环境。根据优选实施例，客户可从以下10个模拟的录音环境中进行选择：音频录音室、jazz session、夜总会、游戏空间(game space)、bassjam、剧院、摇滚音乐会、sonic wide、交响乐或大教堂。例如，在录音室环境中，将具有早期反射增强。或者，在“夜总会”环境中，将具有短的混响时间，而“大教堂”将具有长得多的混响时间。在某种意义上，用户由于要模拟如何录制音乐而成了“制作人”。或者，模拟录音环境的应用可只基于录制音乐的实际环境而非用户偏好。在这种情况下，系统将校正录音中不合需要的假信号，并且已下载或以流方式传来的文件可包括标记，如MP3文件的ID3标记，该标记将标识适当的录音房间音效。

图13所示的房间效果单元1310的实现采用了多条并行通道(在此示例中采用了8条这种通道1312a-h)，各通道分别由梳状滤波器1314a-h之一处理。这些梳状滤波器1314中每个滤波器的输出随后在加法器1316中求和，随后加到几个全通滤波器块1318、1320、1322和1324。每个梳状滤波器1314单独进行参数化以提供不同的混响增强量，从而降低通常由常规处理技术产生的“金属”或“细弱(tiny)”声假信号量。全通滤波器块1318、1320、1322和1324的参数经调整，以使其相位特征也对减少此类“金属”或“细弱”声假信号有贡献。在实际实施例中，梳状滤波器和全通滤波器可由经验丰富的音响工程师手动调整，以提供所需的输出信号特征。

在房间效果单元1310中处理声信号后，声信号接着输入次声增强器单元。

在例示实施例中，次声效果单元使用Q值可调的低通滤波器与比较器的组合来增强信号低音。次声效果单元可具有以下特征和/或特性：

·低通滤波器边缘频率和“Q”值均可调，以提供频域中的平滑或“驼峰”式响应。

·压缩器通过跟踪振幅随时间的变化，提高低音信号的平均能量。限制高能量素材，并放大低能量素材，以提高平均能量。

·对经过滤波的“湿”信号进行增益控制，随后将其与原“干”信号相加以提供块输出的可变控制。

图14显示了图9所示次声效果单元948的功能块级实现。图14中虽然只显示了单声道，但要理解，可为立体声再现采用两个所示声道。在本发明的本优选实施例中，通过把沿如下两条通道传播的声道输入信号版本合并实现次声效果函数1410：(1)无滤波或压缩从而使原声道输入声音得以保持的通道1412；和(2)优选低通滤波器1416和压缩器1418分别对声音进行滤波和压缩的通道1414。这两个信号最好如图所示通过求和单元1420相加，以便为次声效果单元1410提供声道输出。要注意的是，在求和单元1420中，箭头1422指示可操作该单元以提供经滤波/压缩信号与未滤波/未压缩信号的可选比率，以增强或降低声道输入信号中的较低频率成分数量。

最好是根据此处所述的其它结合本发明操作执行的处理功能单元的处理要求，确定低通滤波器1416和压缩器1418的特征。

如上面结合图9所述，超前AGC单元950提供超前自动增益控制功能。此特征用于降低峰值事件期间的音频能级，然后在峰值事件过后恢复音频能级。为在收听处理过程中或在录制声音时保持声音不失真，人类工程师总是会通过将令人不悦的乐器声或声乐的音量控制下移以降低音量。通过在本质上模拟人类工程师，超前AGC单元950通过分析数字流以发现失真和信号过载而识别峰值事件，从而快速将音频能级向下移。随后，在峰值事件发生后，它将音量恢复到初始音量设置，而无需“始终启用”音频压缩器电路，否则会不利地导致动态缘和均匀声音的丢失。在例示实施例中，信号通道可概括如下：

·将信号加到环形延迟线。

·对信号进行全波整流，比照“目标”振幅((目标振幅表示期望动态范围的最大信号值)测量所得值。

·如果整流信号超过目标值，则控制放大器的增益会按预定的“负斜坡(negative ramp)”值降低。

·如果整流信号低于目标值，则控制放大器的增益按预定的“正斜坡”值增加。

·从延迟线中更早的位置提取输出信号样本并将其加到控制放大器。放大的信号成为块输出。

图15提供了超前AGC单元950的功能块级实现。虽然在功能块级描述了超前AGC单元，但根据本文提供的详细说明，本领域的技术人员会明白，在本发明精神范围内，这些功能可容易地用软件、硬件、固件或它们的任意组合实现。此外，虽然图15只显示了单声道，但可为立体声再现采用两个所示声道。

在图15所示的超前AGC实现1510中，在延迟线1512的输入处接收声道输入信号。延迟线最好是可以容纳抽样率约为48kHz时声道输入的一千(1000)个样本的数字延迟线。延迟线1512的输出加到压控放大器1514的输入。该压控放大器的操作受通过对取自延迟线1512的样本(最好是输入单元1518中的样本)应用滤波功能1516而获得的信号能级的控制。如标记压控放大器1514的控制输入的减号(-)所示，最好当滤波样本的能级增加时，降低压控放大器1514的增益，且反之亦然。

滤波功能1516最好提供低通功能，并且由图15中与可变电阻1522串联且连接在延迟线1512第一块的输出与参考电压如地电位之间的可变电容1520表示。因此，低通功能1516截止频率以下的频率将对压控放大器1514的增益调整具有最大影响，而截止频率以上的频率将具有比例衰减效果。本领域的技术人员会理解，滤波功能1516的可变电容和可变电阻的设置会影响滤波功能的特征。在运行中，可根据如此处所述的其它结合本发明操作执行的处理功能单元的处理要求，确定这些设置。

还要注意的是，超前AGC单元1510在信号处理流的输出端提供固有时延。对于本发明，已发现在处理流程中该点处实现时延功能优于在信号流前端的每个频带声道(banded channel)中使用时延。这种配置的优点之一是具有允许在波形到达收听者之前对其进行修改的缓冲特征。

图16a提供了图9所示自适应动态类型处理块(标记为核心处理程序)的一种实现的说明性示例。图16b是图16a所示声音通道的时间响应特性的图示。

输入信号在AI(人工智能)动态预压缩器的输入1602处接收。信号平均分布到全范围缓冲放大器1612、低通缓冲放大器1611、带通缓冲放大器1610和高通缓冲放大器1609。

全范围流路由到全范围流压缩器1601，在时域中就增益率、包络冲击(envelope attack)和包络释放(envelope release)方面对其进行修改，并设置最大目标能级。信号随后路由到缓冲放大器1614，然后到求和放大器1617。

低通范围流路由到缓冲放大器1611，然后通过低通滤波器1605路由到低通流压缩器1632，在时域中就增益率、包络冲击和包络释放方面进行修改，并设置最大目标能级。随后，信号路由到缓冲放大器1614，然后到求和放大器1617。

中间或带通流路由到缓冲放大器1610，然后通过带通滤波器1606，在时域中就增益率、包络冲击和包络释放方面进行修改，并设置最大目标能级。随后，信号路由到缓冲放大器1615，然后到求和放大器1617。

高通流路由到缓冲放大器1609，然后通过高通滤波器1607，在时域中就增益率、包络冲击和包络释放方面进行修改，并设置最大目标能级。随后，信号路由到缓冲放大器1616，然后到求和放大器1617。

全范围流、低通流、中间流和高通流的相加可模拟撞击实况演奏会听众耳膜的实况直接声与房间环境(压力音效(pressureacoustics))的低频动态、中频声音(声波+压力音效)和高频声音(声波音效(wave acoustics))的结合。这些波的和在时域中形成必要时可在频域归一化以去除过度频率非线性的的组合波形。

求和放大器1617的输出1631路由到图9的声乐增强器块934。

图16a中包括了所述公开实施例的一种实现方案的实际参数。从这些值中可以看出，用于各流中压缩器块的冲击、释放、增益率和目标能级有明显不同。如上所述，所述各流中压缩器、滤波器和增益块的不同参数设置用于在处理的声音信号中形成时间节拍或不可预测的特性。

压缩器块的冲击参数确定通道如何迅速响应声级增加的变化。冲击的设置越大，响应就越快。释放参数控制压缩器的输出滞后加到压缩器输入的声音信号下降的程度。释放设置幅度越大，滞后就越大。增益率是输入信号包络与最大为压缩器块目标能级的输出的动态比率。要注意的是，目标能级不用作门限，而是用作允许该压缩器输出的最大比特数量(在数字信号处理意义上)。

未经滤波的全范围流通道[1612→1601→1613]的设置用于提供全带宽、高SPL模拟，这种模拟提供预计从没有任何周围环境的舞台布置所能获得的声音。

处理低频声音的低流通道[1611→1632→1614]的设置用于实现对预计从很“静”的环境发出的声音特征的模拟，所述环境例如从中返回很少中频或高频分量的环境。

处理中频声音的中间流通道[1610→1603→1615]的设置用于实现对预计从更活泼的环境发出的声音特征的模拟，所述环境例如“录音室”。

处理高频声音的高流通道[1609→1607→1616]的设置用于实现对预计从活泼得多的环境发出的声音特征的模拟，所述环境例如“石膏(plaster)”墙壁。

下面提供了用于图16a中每个流的典型参数设置的表格。

	全范围	低流	中流	高流
	全范围	低流	中流	高流	输入缓冲能级	1dB	2dB	-2dB	-3dB
滤波器-F	--	239Hz(低通)	637Hz(带通)	4.8kHz(高通)	输入缓冲能级	1dB	2dB	-2dB	-3dB
滤波器-F	--	239Hz(低通)	637Hz(带通)	4.8kHz(高通)	滤波器-Q	--	1.9	1.5	2.7
压缩器-A	1.0004	1.0009	1.0004	1.0004	滤波器-Q	--	1.9	1.5	2.7
压缩器-A	1.0004	1.0009	1.0004	1.0004	压缩器-R	0.999208	0.999235	0.999191	0.999156
压缩器-RA	2.3dB	8.9dB	6.0dB	12.3dB	压缩器-R	0.999208	0.999235	0.999191	0.999156
压缩器-RA	2.3dB	8.9dB	6.0dB	12.3dB	压缩器-T	30331个样本	31713个样本	32700个样本	30259个样本
输出缓冲能级	2dB	-14dB	-14dB	-20dB	压缩器-T	30331个样本	31713个样本	32700个样本	30259个样本

另一组运行令人满意的参数如下：

	全范围	低流	中流	高流
	全范围	低流	中流	高流	输入缓冲能级	1dB	2dB	-2dB	-3dB
滤波器F	--	239Hz(低通)	637Hz(带通)	4.8kHz(高通)	输入缓冲能级	1dB	2dB	-2dB	-3dB
滤波器F	--	239Hz(低通)	637Hz(带通)	4.8kHz(高通)	滤波器Q	--	1.9	1.5	2.7
压缩器-A	1.0004	1.0005	1.0001	1.0003	滤波器Q	--	1.9	1.5	2.7
压缩器-A	1.0004	1.0005	1.0001	1.0003	压缩器-R	0.999208	0.999235	0.999191	0.999156
压缩器-RA	2.3dB	8.9dB	6.0dB	12.3dB	压缩器-R	0.999208	0.999235	0.999191	0.999156
压缩器-RA	2.3dB	8.9dB	6.0dB	12.3dB	压缩器-T	30331个样本	31713个样本	32700个样本	30259个样本
输出缓冲能级	2dB	-14dB	-14dB	-20dB	压缩器-T	30331个样本	31713个样本	32700个样本	30259个样本

现在参照图16b，左侧的曲线组显示对应于各不同声音通道或流，冲击、释放、目标能级与增益率之间的关系。此外，还可以看出各流之间的响应特性关系。最后，该页右侧的曲线显示了处理的组合响应特性。因此，从这些曲线可以看出，环境动态由低流、中流和高流声音通道中每条通道提供，以及直接声动态由全范围流通道提供。

在此实施例中，全范围流通道提供了直接声增强，低范围流通道提供压力音效增强，中范围流通道提供波与压力增强，以及高范围流通道提供波增强。

要注意的是，这些流中每个流的曲线显示各流之间冲击、释放、增益率和目标能级中的差异是时间的函数。因此，全范围流的包络具有相对于所示基线的最大能级，以及比其它流更陡的上升和下降时间。同时要注意的是，相对于各曲线在t1和t2时刻的点，高流通道大部分能量集中在介于t1与t2之间的时间间隔中部。另一方面，低范围流的能量分布占据了t1与t2之间的大部分期间，甚至扩展到t1前和t2后的点。

继续参照图16a，优选实施例包括允许收听者调整直接声舞台与反射(或者模拟)声舞台之间比率的“邻近控制”特征。通过提供对全范围流压缩器1601增益率单元的可调访问，可在例示实施例中实现邻近控制特征。当此增益率升高时，收听者收到的输出信号在性质上更直接，具有更少的反射内容。相反，当此增益率下降时，收听者接收的输出信号将在性质上更不直接，具有更多的反射内容。在实际实施例中，此增益率范围为0.8到5.0，额定范围为1.2到2.5

虽然通过附图和上述详细说明描述了优选实施例，但可理解，本发明并不限于所公开的实施例，而是可以在不脱离权利要求书及其等同物提出并限定的本发明精神范围的前提下，进行各种重新配置、修改和替代。

Claims

1.一种用于增强传送音频数据的方法，包括：

将音频数据编码成数字格式的信号；

通过预加重预计要丢失或失真的频率和动态范围来增强所述数字格式的信号，从而得到增强的音频信号；

发送所述增强的音频信号到客户端站点；

在传送到所述客户端站点后，将所述增强音频信号中包含的数据解码，产生解码音频信号；以及

处理所述解码音频信号以恢复通过预加重预计要丢失或失真的所述频率和动态范围保持的频率和动态范围。

2.如权利要求1所述的方法，其特征在于：预计要丢失或失真的所述频率和动态范围至少在一定程序上可归因于所述音频信号的压缩。

3.如权利要求1所述的方法，其特征在于：预计要丢失或失真的所述频率和动态范围至少在一定程序上可归因于所述音频信号的传送。

4.如权利要求1所述的方法，其特征在于还包括：在所述增强的音频信号传送前将其压缩，产生压缩的增强音频信号。

5.如权利要求4所述的方法，其特征在于还包括：在所述压缩的增强音频信号传送后将所述信号解压缩。

6.一种增强音频信号的方法，包括：

接收音频信号；

将所述音频信号分离成对应于离散频带的分量信号；

使用独特的处理通道处理一个或多个所述分量信号，产生经处理的分量信号；

汇聚所述经处理的分量信号以重建标准信号输入一个或多个声道；以及

对所述标准信号执行其它后处理以掩蔽由所用的编解码器和设备引入的假信号和响应异常，从而得到增强的音频信号。

7.如权利要求6所述的方法，其特征在于：所述音频信号是压缩的音频信号。

8.如权利要求5所述的方法，其特征在于：所述分离步骤将所述音频信号至少分离成一个全带宽分量信号和至少一个有限带宽分量信号。

9.如权利要求8所述的方法，其特征在于：所述至少一个有限带宽分量信号至少包括以下之一：低音分量信号、中音分量信号和高音分量信号。

10.如权利要求6所述的方法，其特征在于所述后处理至少包括以下之一：

3D/实况增强，用于将实况和立体声成分添加到所述增强音信号声场中；

录音环境模拟，用于将扩散、混响、深度、再生和房间衰减添加到所述增强音频信号中；

消音，用于降低所述增强音频信号中的声乐；

宽带立体声增强，用于将更宽的立体声成分添加到所述增强音频信号声场中；

参数均衡，用于提供所述增强音频信号的宽频谱整形；

将所述增强音频信号滤波以增强亚低音扬声器和低音频率；

墙壁模拟，用于产生模拟舞台所反射的时延；

房间模拟，用于产生模拟自然房间音效的时延；

卡拉OK增强，用于去除来自左右信号声道的等能量分量；

声乐增强，用于使声乐特征清晰；

亚音增强，用于所述增强音频信号的低音增强；以及

超前自动增益控制，用于控制输出动态范围。

11.如权利要求6所述的方法，其特征在于：所述后处理包括房间模拟，用于补偿所述增强音频信号收听环境中差的房间音效。

12.一种用于补偿在差音效环境中运行的音频设备的方法，包括：

获取音频设备所处收听环境的测量脉冲响应；

利用所述测量脉冲响应导出补偿处理程序；以及

通过采用所述补偿处理程序，在音频播放期间补偿所述收听环境和音频设备中的缺陷。

13.如权利要求12所述的方法，其特征在于：所述获取步骤使用所述收听环境内的麦克风测量所述脉冲响应。

14.如权利要求12所述的方法，其特征在于所述获取步骤包括：

使用所述音频设备产生具有已知频谱的声音；

对响应所述声音而生成的测试信号进行转换，所述测试信号指示所述收听环境的音效；以及

依据所述测试信号的频谱和所述声音的已知频谱，计算房间变换函数。

15.一种用于增强音频信号的系统，包括：

用于处理音频信号全带宽分量的全带宽通道，所述全带宽通道产生经处理的全带宽信号；

用于处理所述音频信号的有限带宽分量的至少一个有限带宽通道，所述有限带宽通道产生经处理的有限带宽信号；

配置成将所述经处理的全带宽信号与所述经处理的有限带宽信号进行组合以形成混合音频信号的混音器；以及

用于进一步增强所述混合音频信号的一个或多个后处理单元。

16.如权利要求15所述的系统，其特征在于：所述至少一个有限带宽通道至少包括以下之一：

用于处理所述音频信号低音分量的低音通道；

用于处理所述音频信号中音分量的中音通道；以及

用于处理所述音频信号高音分量的高音通道。

17.如权利要求15所述的系统，其特征在于：所述一个或多个后处理单元至少包括以下之一：

配置成将实况和立体声成分添加到所述混合音频信号的声场中的3D/实况增强单元；

配置成将扩散、混响、深度、再生和房间衰减添加到所述混合音频信号的录音环境中的模拟器；

配置成降低所述混合音频信号中声乐的消音单元；

配置成将更宽的立体声成分添加到所述混合音频信号的声场中的宽带立体声增强单元；

配置成提供所述混合音频信号宽频谱整形的参数均衡器；

配置成增强所述混合音频信号中亚低音扬声器和低音频率的至少一个滤波器；

配置成产生模拟舞台所反射的时延的墙壁模拟器；

配置成产生模拟自然房间音效的时延的房间模拟器；

配置成去除来自左右信号声道的等能量分量的卡拉OK增强单元；

配置成使声乐特征清晰的声增强单元；

配置成增强所述增强音频信号低音分量的亚音增强单元；以及

配置成控制输出动态范围的超前自动增益控制单元。

18.一种用于播放数字音频文件的设备，所述设备包括：

数字音频信号源；

耦合到所述数字音频信号源的至少一个处理器，所述至少一个处理器配置成执行一种包括下列步骤的方法：

从所述数字音频信号源接收音频信号；

将所述音频信号分离成对应于离散频带的分量信号；

使用独特的处理通道处理一个或多个所述分量信号，从而得到经处理的分量信号；

聚集所述经处理的分量信号以在一个或多个声道中重建标准信号；以及

对所述标准信号执行其它后处理以掩蔽由所用编解码器和设备引入的假信号和响应异常，从而得到增强的音频信号；以及

耦合到所述处理器的一个或多个扬声器驱动器，所述一个或多个扬声器驱动器配置成驱动一个或多个扬声器以播放所述增强音频信号。

19.一种用于增强音频信号传送的方法，所述方法包括：

通过在所述音频信号的声流中创建时间节拍而修改所述音频信号，产生经修改的音频信号；以及

将反射分量插入所述经修改的音频信号。

20.如权利要求19所述的方法，其特征在于所述修改步骤包括以下步骤：

形成所述音频信号的至少第一声流和第二声流；以及

改变所述第二声流中所述音频信号的特征，同时保持所述第一声流与所述第二声流中信号之间的时间对齐。

21.如权利要求20所述的方法，其特征在于：

所述形成步骤包括根据第一组参数压缩所述第一声流中的所述音频信号；以及

所述改变步骤包括以下步骤：

将所述第二声流中的所述音频信号滤波以获得滤波的音频信号；以及

根据不同于所述第一组参数的第二组参数压缩所述滤波的音频信号。

22.如权利要求21所述的方法，其特征在于还包括以下步骤：选择所述第二组参数以提供来自所述第二声流的经改变的音频信号，此音频信号具有选定环境发出的声音的特征。

23.如权利要求19所述的方法，其特征在于：所述插入步骤包括插入早期、中期和后期反射分量中的至少一个分量。

24.如权利要求19所述的方法，其特征在于所述修改步骤包括以下步骤：

形成全范围声流、低范围声流、中范围声流和高范围声流；

对所述低范围声流中的所述音频信号进行低通滤波以获得低通滤波的音频信号；

根据“静”环境参数组压缩所述低通滤波的音频信号；

对所述中范围声流中的所述音频信号进行带通滤波以获得带通滤波的音频信号；

根据“音乐录音”舞台环境参数组压缩所述带通滤波的音频信号；

对所述高范围声流中的所述音频信号进行高通滤波以获得高通滤波的音频信号；

根据“石膏墙壁”环境参数组压缩所述高通滤波音频信号。

25.一种增强音频信号到用户的传送的方法，所述方法包括：

通过在所述音频信号的声流动态范围中形成差异而修改所述音频信号，产生经修改的音频信号；

将可预测的环境特征添加到所述经修改的音频信号中，从而形成增强的音频信号；以及

将所述增强音频信号传送给收听者。

26.如权利要求25所述的方法，其特征在于还包括以下步骤：将声场增强特征插入所述增强音频信号以向所述收听者提供可选择的收听声场可控性。

27.一种用于增强音频信号的系统，包括：

用于处理音频信号全带宽分量的全带宽通道，所述全带宽通道产生经处理的全带宽信号，它包括：

具有所述音频信号输入的第一输入放大器、具有所述经处理的全带宽信号输出的第一输出放大器及连接在所述第一输入放大器与所述第一输出放大器之间的第一压缩器；

至少一个用于处理所述音频信号有限带宽分量的有限带宽通道，所述有限带宽通道产生经处理的有限带宽信号，所述至少一个有限带宽通道包括：

具有所述音频信号输入的第二输入放大器、具有所述经处理的有限带宽信号输出的第二输出放大器、连接在所述第二输入放大器与所述第二输出放大器之间的第二压缩器以及连接在所述第二输入放大器与所述第二输出放大器之间的滤波器；以及

配置成将所述经处理的全带宽信号与所述经处理的有限带宽信号组合以形成混合音频信号的混音器。

28.如权利要求27所述的系统，其特征在于还包括：用于进一步增强所述混合音频信号的一个或多个后处理单元。

29.如权利要求27所述的系统，其特征在于：所述第一输入放大器、所述第一输出放大器、所述第二输入放大器及所述第二输出放大器中至少一个是可变增益放大器。

30.如权利要求27所述的系统，其特征在于所述至少一个有限带宽通道至少包括以下之一：

用于处理所述音频信号低音分量的低音通道；

用于处理所述音频信号中音分量的中音通道；以及

用于处理所述音频信号高音分量的高音通道。

31.如权利要求30所述的系统，其特征在于：

对于所述低音通道，所述滤波器是低通滤波器；

对于所述中音通道，所述滤波器是带通滤波器；以及

对于所述高音通道，所述滤波器是高通滤波器。

32.如权利要求27所述的系统，其特征在于还包括：配置成接收输入音频信号并将所述音频信号生成为所述输入音频信号的压缩表示的预压缩器。

33.一种用于播放数字音频文件的设备，所述设备包括：

数字音频信号源；

将反射分量插入所述经修改的音频信号；以及

34.一种用于播放数字音频文件的设备，所述设备包括：

数字音频信号源；

将可预测的环境特征添加到所述经修改的音频信号以形成增强音频信号；以及

将声场增强特征插入所述增强音频信号以向所述收听者提供可选择的收听声场可控性；以及

耦合到所述处理器的一个或多个扬声器驱动器，所述一个或多个扬声器驱动器配置成驱动一个或多个扬声器以将所述增强音频信号传送给所述收听者。