CN102668374A

CN102668374A - 音频录音的自适应动态范围增强

Info

Publication number: CN102668374A
Application number: CN2010800533612A
Authority: CN
Inventors: M·维尔什; E·斯特因; J-M·卓特
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2009-10-09
Filing date: 2010-10-08
Publication date: 2012-09-12
Anticipated expiration: 2030-10-08
Also published as: EP2486654A4; EP2486654A1; TW201137862A; CA2777182C; BR112012008257A2; CA2777182A1; CN102668374B; JP5730881B2; US20110085677A1; EP2486654B1; WO2011044521A1; HK1167527A1; KR20120093934A; HK1173274A1; US8879750B2; TWI505263B; KR101732208B1; JP2013507842A; PL2486654T3

Abstract

本发明涉及音频录音的自适应动态范围增强。提供用于调节音频信号的方法和装置。根据本发明的一个方面，提供一种用于调节音频信号的方法，该方法包括以下的步骤：接收至少一个音频信号，每个音频信号具有至少一个通道，每个通道在时间序列上被分成多个帧；对于多个连续时间段计算音频信号的动态偏移的至少一个测量值；将音频信号滤波成多个子带，每个帧由至少一个子带代表；从连续时间段导出动态增益因子；分析帧的至少一个子带以确定是否在帧中存在瞬态；和向具有瞬态的每个帧施加动态增益因子。

Description

音频录音的自适应动态范围增强

相关申请的交叉引用

本发明要求发明人Walsh等在2009年10月9日提交的发明名称为ADAPTIVE DYNAMIC RANGE ENHANCEMENT OF AUDIORECORDINGS、序列号为61/250,320的美国临时专利申请，和发明人Walsh等在2010年9月10日提交的发明名称为ADAPTIVEDYNAMIC RANGE ENHANCEMENT、序列号为61/381,860的美国临时专利申请的优先权，在此引入序列号为61/217,562和61/381,860美国临时专利申请为作为参考。

关于联邦资助研究/开发的声明

不适用

技术领域

本发明一般涉及音频信号处理，更特别地，涉及通过恢复或强调音频流和录音的动态范围来增强它们。

背景技术

遵照格言“声音越大越好”，在唱片业中以更高水平的响度灌录（master）和发行唱片成为一般惯例。伴随诸如CD的数字媒体格式的出现，用通过可用于代表编码信号的比特数限定的最大峰值电平将音乐编码。在达到CD的最大振幅时，通过诸如多频带动态范围压缩、峰值限制和均衡化的信号处理技术，仍可进一步增加响度感知。通过使用这种数字灌录工具，录音师可通过压缩瞬态峰值（诸如鼓击）并增加得到的信号的增益使平均信号电平最大化。极度使用动态范围压缩可将削波和其它可听到的畸变引入到录音的波形中。使用这种极度动态范围压缩的现代唱片集因此以牺牲音乐再现的质量来得到响度。增加音乐发行物的响度以匹配竞争发行物的实践可具有两种效果。由于存在可用于录音的最大响度级（与响度受回放扬声器和放大器限制的回放相反），提升歌曲或音轨的总响度最终产生从开始到结束最大并且均匀地响亮的片段。这产生具有小的动态范围（在大声部分和安静部分存在很小的差异）的音乐，这种效果常常被视为艺术家创作表现的疲劳和空白。

另一可能的效果是畸变。在数字领域中，它通常被称为削波。数字媒体不能输出比数字满刻度高的信号，因此不管信号的峰值什么时候被按过该点，这都导致变得被削波的波形。当出现这种情况时，它有时可产生可听的卡嗒声。但是，类似鼓击的某些声音将仅对于非常短的时间达到它们的峰值，并且，如果该峰值远比信号的其余部分声音大，那么该卡嗒声将不被听到。在许多的情况下，鼓击的峰值被削波，但是它不被随意的收听者检测到。

图1a和图1b提供有害的灌录技术的视觉呈现。图1a和图1b所示的音频录音波形代表原始灌录音轨和已经通过使用不同的技术灌录的同一版本的音轨。图1a表示原始录音，大量峰值的存在表示代表存在于原始性能中的各种类型的力度（dynamics）的高动态范围。由于诸如鼓击的某些敲击节拍听起来将是有力并且清楚的，因此该录音提供振动收听体验。相反，在图1b中示出的录音被重新灌录以用于更大声的商业CD发行。存在于原始录音中的大多数峰值被压缩或者甚至被削波，并且，作为结果，录音的动态范围已经受损。在商业音乐的灌录阶段越来越侵略性地使用动态范围压缩已经产生大量来自消费者、制作者和艺术家的强烈反对。

音频行业为解决该问题所讨论的方法集中于讨论处于问题本源的灌录技术。在Bob Katz.的Mastering Audio,Second Edition:The Artand the Science中描述了这样的一个例子。Katz描述了如何可通过使用处理信号的校准监视以及使用更多适度的压缩参数在不使最终的结果畸变的情况下对于响度灌录唱片。而大多数的灌录工程师会同意，Katz的方法常常被播音室管理的需求取代。即使更保守的灌录技术变为新的标准，它也解决不了已被灌录并分发给最终用户的现有录音的主要部分的问题。

用于修改音频录音的力度的现有处理技术在现有技术中是已知的。一种这种处理是响度调平（leveling），其中经受不同程度动态范围压缩的音频材料的觉察响度之间的差值被归一化为某预定水平。但是，这些方法被用于将从各种源播放的连续音轨的平均响度归一化，并且不进行任何尝试以恢复过度动态范围压缩内容的动态范围。作为结果，当在更低的规定收听级别上被播放时，压缩媒体可更加不发出动态表现的声音。

另一已知的技术是，如在授权给Bench的发明名称为DynamicExpander的美国专利No.3,978,423中描述的那样，应用向上扩展器（upward expander）。向上扩展器根据固定“扩展曲线”向音频信号施加时间变化增益，由此输出信号电平比高于选择的阈值的输入电平大。作为结果，源信号的较大声音部分的振幅增加。但是，这可在输出信号中导致具有过分强调的瞬态的原本动态的声道（soundtrack）。

另一已知的技术是当检测到瞬态时提升较低和较高频带的动态谱均衡化。作为结果，产生更动态的输出。在以下的文献中描述了动态谱均衡化：X Rodet,F Jaillet,Detection and Modeling of Fast AttackTransients（2001），Proceedings of the International Computer MusicConference；授权给Goodwin等的发明名称为Transient Detection andModification in Audio Signals的美国专利No.7,353,169；和授权给Avendano等的发明名称为Method for Enhancing Audio Signals的美国专利申请No.11/744,465。与前面的方法不同，这些动态增强技术专门地影响信号瞬态。但是，它影响所有的信号瞬态，甚至是已表现出高力度的那些信号瞬态。动态谱均衡化一般向所有音频信号内容施加处理，不管它是否需要。对于某些类型的音频内容，这可导致过度动态处理输出。

授权给Hipert等的美国专利No.6,453,282概括了在离散时间音频域中进行瞬态检测的方法。由于当总体观看信号时由于瞬态导致的能量变化变得不明显，因此当分析严重动态范围压缩的材料时，这种时域方法是不可靠的。这导致瞬态信号的错误分类并导致产生误判（false positive）。

鉴于不断增加对于改善音频录音的呈现的关注，在本领域中需要改善音频处理。

发明内容

根据本发明，提供用于调节音频信号的方法和装置。本发明对于音频信号、特别是对于经受了有害灌录技术的音频信号的动态范围提供强制增强。

根据本发明的一个方面，提供一种用于调节音频信号的方法，该方法具有以下的步骤：接收至少一个音频信号，每个音频信号具有至少一个通道，每个通道在时间序列上被分成多个帧；对于多个连续时间段计算音频信号的动态偏移的至少一个测量值；将音频信号滤波成多个子带，每个帧由至少一个子带代表；从连续时间段导出动态增益因子；分析帧的至少一个子带以确定是否在帧中存在瞬态；和向具有瞬态的每个帧施加动态增益因子。

动态偏移的测量值可由时间段的波峰因数（crest factor）代表。可通过在帧内取得峰值信号大小的函数与音频信号的平均信号大小的函数的比，计算每个连续时间段的波峰因数。方法还可包括对于至少一个子带计算子带相对能量函数的步骤。

可通过比较帧或该帧的一部分的每个子带中的子带瞬态能量与相对能量阈值并将通过该相对能量阈值的子带的数量求和，计算每个帧的总体子带瞬态能量。在该帧的分析中通过相对能量阈值的子带的数量大于预定分数的总子带的情形下，瞬态可存在于帧中。例如，在对该帧的分析中，通过相对能量阈值的子带的数量大于四分之一的总子带的情形下，瞬态可存在于帧中。

方法通过下述步骤继续，对于分析中的总子带数量，基于通过阈值的子带的数量计算动态增益加权因子。根据加权因子加权每个帧的动态增益因子。如果对于该帧没有检测到瞬态，则该帧的先前动态增益可通过使用指数衰减曲线减小为1的值。在向输入信号施加最终动态增益之前，可进行对于音调状音频的检查，以避免对于存在于输入信号中的强音调进行可听的调制。如果在子带内检测到强音调，则对于该帧周期不向该子带施加附加的增益，并且，该子带的动态增益继续以基于先前帧的动态增益值衰减。

根据本发明的另一方面，提供一种音频信号处理装置。音频信号处理装置包括：用于接收至少一个音频信号的接收部件，每个音频信号具有至少一个通道，每个通道在时间序列上被分成多个帧；用于对于多个连续时间段计算音频信号的动态偏移的至少一个测量值的计算部件；用于将音频信号滤波成多个子带的滤波部件，每个帧由至少一个子带代表；用于从动态偏移的测量值导出动态增益并分析帧的至少一个子带以确定是否在帧内存在瞬态并且向具有瞬态的每个帧施加动态增益的导出部件。

附图说明

参照以下的描述和附图，将更好地理解这里公开的各种实施例的这些和其它特征和优点，其中，类似的附图标记始终表示类似的部件，并且其中：

图1a是原始音频录音的波形的透视图；

图1b是动态范围被过度压缩的重新灌录的音频录音的波形的透视图；

图2是根据本发明的实施例的使用用于在多通道扬声器或头戴式耳机上回放的自适应动态增强的收听环境的示意图；

图3是示出根据本发明的实施例的在自适应动态增强处理器之前的可选响度调平处理块的流程图；

图4是示出在根据本发明的一个实施例的用于检测瞬态并因此施加增益的自适应动态增强处理中采取的步骤的流程图；

图5是示出在根据本发明的一个实施例的检测瞬态、针对已知的阈值评价瞬态并因此施加自适应EQ曲线的自适应动态增强处理中采取的步骤的流程图。

具体实施方式

以下关于附图阐述的详细描述意图是作为本发明的当前优选实施例的描述，并且不是要代表可以构建或利用本发明的唯一形式。描述结合示出的实施例阐述用于开发和操作本发明的功能和步骤次序。但是，应当理解可通过也要包含于本发明的精神和范围内的不同实施例实现相同或等同的功能和次序。还应理解，使用诸如第一和第二等的关系术语仅用于相互区分实体，而未必要求或隐含这些实体之间的任何实际的这种关系或次序。

本发明的目的是解决有害录音技术中的问题，在有害录音技术中，采用侵略性应用动态范围压缩算法，音频录音被灌录为尽可能的大声。这些录音信号中的瞬态的动态偏移远比它们应当偏移的低。当在适度的级别上收听时，这产生弱声、沉闷或无生气再现的感受。

本发明分析音频录音的力度，并增强表现有害灌录实践的迹象的瞬态。使用通过分析源音频录音信号的响度和动态性能得到的智能/自适应处理来设计本发明。除非必须，避免修改原始音频录音信号的力度。但是，也可由用户调整附加的动态处理的缺省量，使得任何录音的力度可对于更尖锐或“更强力”的声音被夸大，或者对于更细微的增强减小。可以使用本发明以增强源自任何媒体源的任何音乐、电影或游戏声轨和任何收听环境中的瞬态力度。

现在参照图2，提供示出多个实施例的实现的示意图。图2示出用于在扬声器或头戴式耳机上回放动态增强的音频录音的音频收听环境。音频收听环境包括至少一个诸如DVD或BD播放器、TV调谐器、CD播放器、手持播放器、因特网音频/视频设备或游戏控制台等的至少一个消费者电子设备10。消费者电子设备10提供被动态增强以补偿任何有害灌录技术的源音频录音。

在本实施例中，消费者电子设备10与音频再现系统12连接。音频再现系统12通过动态增强音频录音的自适应动态增强处理（ADE）来处理音频录音。在替代性的实施例中，独立式消费者电子设备10可通过ADE处理增强音频录音。

音频再现系统12包含诸如IBM PowerPC、Inter Pentium（×86）处理器等的可代表一个或多个常规类型的这种处理器的中央处理单元（CPU）。随机存取存储器（RAM）暂时存储由CPU执行的数据处理操作的结果，并且一般通过专用的存储器通道与其互连。音频再现系统12还可以包含也在i/o总线上与CPU通信的诸如硬盘驱动器的永久存储设备。也可以连接诸如磁带机、光驱的其它类型的存储设备。图形卡也通过视频总线与CPU连接，并且向显示监视器传送代表显示数据的信号。诸如键盘或鼠标的外设数据输入设备可以在USB端口上与音频再现系统连接。USB控制器对于与USB端口连接的外设翻译送往和来自CPU的数据和指令。诸如打印机、麦克风和扬声器等的附加设备可与音频再现系统12连接。

音频再现系统12可利用诸如来自Redmond,Washington的微软公司的WINDOWS、来自Cupertino,CA的苹果公司的MAC OS、和具有X-Windows窗口系统的各种UNIX版本等的具有图形用户界面（GUI）的操作系统。音频再现系统12执行一个或多个计算机程序。一般地，操作系统和计算机程序以有形的方式体现于例如包含硬盘驱动器的固定和/或可去除数据存储设备中的一个或多个的计算机可读介质中。操作系统和计算机程序均可从上述的数据存储设备被加载到RAM中以供CPU执行。计算机程序可包含指令，这些指令当被CPU读取和执行时导致其执行步骤以执行本发明的步骤或特征。

以上的音频再现系统12仅代表适于实现本发明的各方面的一个示例性装置。音频再现系统12可具有许多不同的配置和结构。可以在不背离本发明的范围的情况下很容易地替代任何这种配置或结构。本领域技术人员可以认识到，上述的次序最常用于计算机可读介质中，但是，可在不背离本发明范围的情况下，存在能够被替代的其它现有次序。

可通过硬件、固件、软件或它们的任意组合实现ADE处理的一个实施例的要素。当实现为硬件时，ADE处理可在一个音频信号处理器上被使用，或者分布于各种处理部件之间。当实现为软件时，本发明的实施例的要素基本上是用于执行必要任务的代码段。软件优选包含用于实施在本发明的一个实施例中描述的操作的实际代码或模仿或模拟操作的代码。程序或代码段可被存储于处理器或机器可存取介质中，或者在传送介质上，通过在载波中体现的计算机数据信号或通过载波调制的信号被传送。“处理器可读或可存取介质”或“机器可读或可存取介质”可包含可存储、传送或传递信息的任何介质。处理器可读介质的例子包含电子电路、半导体存储器件、只读存储器（ROM）、闪速存储器、可擦ROM（EROM）、软盘、紧致盘（CD）ROM、光盘、硬盘、光纤介质、射频（RF）链接等。计算机数据信号可包含可在诸如电子网络信道、光纤、空气、电磁、RF链接等的传送介质上传播的任何信号。代码段可通过诸如因特网、内联网等的计算机网络被下载。可在制造物品中体现机器可存取介质。机器可存取介质可包含当被机器访问时导致机器执行以下描述的操作的数据。术语“数据”这里指的是出于机器可读目的编码的任何类型的信息。因此，它可包含程序、代码、数据、文件等。

可通过软件实现本发明的实施例的全部或一部分。软件可具有相互耦合的几个模块。软件模块与另一模块耦合以接收变量、参数、自变数、指针等，并且/或者产生或通过结果、更新的变量、指针等。软件模块也可以是与在平台上运行的操作系统交互作用的软件驱动器或接口。软件模块也可以是配置、建立、初始化、发送和接收送往和来自硬件设备的数据的硬件驱动器。

本发明的一个实施例可被描述为通常示为程序框图、流程图、结构图或框图的处理。虽然框图可将操作描述为依次的处理，但是可以并行或同时地执行多个操作。另外，操作的次序可被重新配置。处理在完成其操作时终止。处理可与方法、程序、过程等对应，图2是示出用于在头戴式耳机14或扬声器16上再现的音频再现系统12的示意图。音频再现系统12可从各种音频或音频/视频源10接收数字或模拟音频源信号。音频源信号可以是单个信号、二通道信号（诸如音乐轨道或TV广播）或多通道信号（诸如电影声道）。音频信号可以是诸如真实世界声音或工程声音等的任何被觉察或不被觉察的声音。

音频再现系统12可包含用于连接模拟音频源的模拟数字转换器或数字音频输入接口。它可包含用于处理音频信号的数字信号处理器以及用于将处理的输出信号转换成被发送到换能器（头戴式耳机14或扬声器16）的电信号的数字模拟转换器和信号放大器。音频再现系统12可以是专用于音频和/或视频信号的选择、处理和路由的家庭影院接收器或汽车音响系统。作为替代方案，音频再现系统12和音频信号源中的一个或几个可被一起结合到诸如便携式媒体播放器、电视机或膝上型计算机的消费者电子设备10中。诸如在电视机或膝上型计算机的情况下，扬声器16也可被结合到同一电器中。

图3是示出ADE处理环境的高层流程图。流程图通过接收输入信号在步骤300上开始。输入信号是数字音频信号。在本实施例中，在步骤310中，通过响度调平算法处理输入信号，由此，随时间适调整到来的输入信号的增益，使得它具有基本上恒定的平均响度级（比如说，-20dB相对于0dB的满度）。响度调平算法是可选的特征，并且对于实现ADE处理来说是不需要的。随后，在320中，如果存在上游增益归一化算法，那么ADE处理可在不导致可源自信号波形削波的可听的伪信号的情况下，将基准增益电平因子化为扩展到来的信号的增益所需要的可用的动态余量（headroom）。该通信由虚线箭头表示。ADE动态余量需求也可将输入的灌录增益和输入信号内容的增益因子化。可通过使用由DYNAMICS ENHANCEMENT LEVEL描述的用户参数缩放施加的动态增强的量。使用输出限制器以确保作为向输入信号施加需要的动态EQ的结果不出现输出饱和。

现在参照图4，示出描述ADE处理的一个实施例的流程图。ADE处理通过接收代表音频录音的输入信号在步骤400中开始。输入信号是至少一个通道的数字音频信号。输入信号代表通过模拟/数字转换被转换成数字格式的已被转换成电子信号并被适当地预处理的有形的物理现象、特别是声音。一般地，如在本领域中已知的那样，会施加模拟滤波、数字滤波和其它的预处理，以使混淆、饱和或下游的其它信号处理误差最小化。可通过诸如PCM编码的常规的线性方法代表音频信号。在步骤410中，通过可适当地为互补正交镜像滤波器组的多抽头、多频带、分析滤波器组滤波输入信号。作为替代方案，可以使用诸如多相滤波器组的伪正交镜像滤波器（PQMF）。滤波器组产生多个子带信号输出。在本实施例中，使用这种子带输出中的64个。但是，本领域技术人员很容易认识到输入信号可被滤波成任意数量的子带。作为滤波功能的一部分，滤波器组应优选还关键地大大削弱每个子带中的子带信号，特别是将每个子带信号削弱到刚刚足以完全代表每个子带中的信号（“临界采样”）的更少数量的采样/秒。该子带采样也可模仿人听觉的生理机能。

在滤波之后，在步骤420中分析子带以进行瞬态检测。可以设想，不是所有的子带都被用于瞬态分析，原因是，可以获知，某些频率具有瞬态的可能性很低。在本实施例中，通过使用在频带上计算能量的加权和的瞬态检测算法来检测瞬态。由于信号能量通常占据叫低的频率，因此使用附加权重以强调瞬态不再显著的信号的能量。这减少瞬态识别过程中的“误判”的可能性：

{TE}_{HF} (m, c) = Σ_{k = 0}^{N - 1} w (k) {| G (k, m, c) |}^{2}, - - - (1)

其中TE_HF（m,c）是瞬时的高频加权瞬态能量，k是频带指数，m是分析帧指数，c代表通道指数，w(k)与第k个频率加权滤波系数对应，以及|G（k,m,c）|代表第c个通道的第m个分析帧的第k个频带的绝对增益。本领域技术人员可以理解，可根据本发明应用各种瞬态检测算法，并且以上的例子作为例子被提供且不应被解释为限制本发明的范围。

将瞬时的瞬态能量函数与先前的瞬态能量的时间平均相比较。该比较表明可能的瞬态事件，其中，瞬时的瞬态能量应远大于平均瞬态能量。可通过在每个频带中应用泄漏积分器滤波器（leaky integratorfilter）计算平均瞬态能量TE_av：

TE_av(m，c)＝(1-α_TE)TE_av(m-1，c)+α_TETE_HF(m，c) (2)

其中，α_TE与瞬态能量阻尼因子对应，m代表帧指数，以及c代表通道指数。

如果

那么触发瞬态开端，其中，G_TRANS与一些预定的短暂阈值对应。一般地，2～3的G_TRANS的值产生良好的结果，但是，阈值也可根据源材料改变。随后，在步骤440中，通过在64个分析频带中的每一个中取峰值信号电平与先前信号电平的时间平均的比，计算多频带波峰因数值CF(k,m,c)。

CF (k, m, c) = \frac{G_{peak} (k, m, c)}{G_{av} (k, m, c)} - - - (3)

通过使用具有不同起始（attack）和释放时间常数的泄漏积分器导出峰值信号电平和平均信号电平。计算平均信号电平的替代性方法包括在存储于系统存储器中的过去频率子带的几个“帧”上平均化。本实施例中的峰值和平均增益计算使用泄漏积分器滤波器。

G_peak(k，m，c)＝(1-α_{peak_av})G_peak(k，m-1，c)+α_{peak_av}G(k，m，c)

如果G(k，m，c)＞G_peak(k，m-1，c) (4)

G_peak(k，m，c)＝(1-α_{peak_rel})G_peak(k，m-1，c)+α_{peak_rel}G(k，m，c)

如果G(k，m，c)≤G_peak(k，m-1，c)(5)

G_av(k，m，c)＝(1-α_av)G_av(k，m-1，c)+α_avG(k，m，c) (6)

导出的波峰因数基于增益的比。作为结果，导出的波峰因数与输入信号的电平无关。因此，不管系统的灌录增益或原始录音的录音水平如何，结果都相同。参见式（3），诸如打击乐器敲击的显著瞬态应具有比更稳定状态或音调状信号高的波峰因数。如果信号包含表现相反的波峰因数值的瞬时开端，那么它是在该频带上的后－录音动态范围压缩或限制的强烈指示。在这种情况下，原始信号应从短时增益提升受益，以产生希望的波峰因数值，其中，短时指的是检测到的瞬时的开端和衰减时间的量级上的开端和衰减时间。

作为结果，ADE处理在检测到瞬态开端的任意时间评价波峰因数。在步骤460中，波峰因数被评价，并且如果它比目标波峰因数阈值（通过算法调谐和/或用户偏好的组合确定）低，那么该子带中的增益增加，使得获得希望的波峰因数值。该增益可被限制为保持在规定或动态评价的动态余量预算内：

G_{eq} (k, m, c) = \min (G_{eq_\max}, (1 - α_{attack}) G_{eq} (k, m - 1, c) + α_{attack} \frac{{CF}_{T \arg et}}{CF (k, m, c)})

如果

且TE_HF(m，c)＞G_TRANSTE_av(m，c)

(7)

其中，G_eq(k,m,c)代表施加的增益函数，G_{eq_max}代表最大允许增益（通常与分配的算法动态余量对应），α_attack是增益起始阻尼函数（gainattack damping function），如果发现源自迅速增益变化的伪信号，则该增益起始阻尼函数可被调谐到接近1的值。该阻尼函数的值可以是与频率有关的，以对于不同的频率范围允许在不同的速率上出现增益斜坡。CF_Target代表目标波峰因数值，并且CF（k,m,c）代表在频率k和帧m和通道c上测量的波峰因数值。

如果没有检测到瞬态开端或者如果波峰因数大于等于目标波峰因数值，那么施加的动态EQ增益通过使用模仿典型的瞬态打击的力度的包络线向1的值后退。增益降低的速率被加权，使得较高频率增益比较低频率增益快地减小：

G_eq(k，m，c)＝max(1，α_decay(k，m)G_eq(k，m-1，c)) (8)

其中，α_decay(k,m)代表与频率有关的衰减阻尼因子。在本实施例中，α_decay(k,m)由以1和0为边界在从高值到低值的频率上呈指数倾斜的64点函数代表。

在步骤480中，由“Dynamics Enhancement Level”（DEL）代表的用户参数以0.0和1.0之间的值缩放目标波峰因数。0.0的DEL值意味着，将总是获得波峰因数阈值，并因此不对于原始信号进行增强。0.5的DEL值代表缺省分析阈值，并且代表“合理”波峰因数期望。通过该值，被压缩的信号得到增强，而具有足够力度的信号将接收很少或不接收动态增强。1.0的DEL值代表超出“合理”波峰因数期望，使得不管是否需要都增强大多数的瞬态的力度。

通过将子带输入信号成分乘以从增强增益得到的时变EQ曲线导出输出。这些增益在频率上被平滑化，以避免伪信号。EQ曲线被施加于原始复合输入信号数据，并且，通过使用64频带合成组或等同的频率时间域滤波器，得到的复合频带系数然后被再组合并被变换成时域输出采样块。最后，合成滤波器频带的时域输出通过软限制器（或等同物），以抵消可能由超出可用动态余量的信号电平增加导致的任何偶然的电平过冲。

对于每个分析帧重复该输入/输出处理。EQ曲线的增益根据每个帧的分析动态改变。在上述的实施例中，通过频域中的倍增以及随后的对于输入合成块互补的输出合成，导出的增益曲线被施加到原始信号。在其它的实施例中，分析和合成方法可不同。例如，如上所述，分析可在频域中进行，并且，当已经计算了希望的增益曲线时，可通过使用FIR和/或IIR滤波器在时域中实现代表该希望的频率响应的滤波器。时域滤波器的系数可根据每个输入数据帧的分析改变。作为替代方案，波峰因数和瞬态开端检测的分析可整体上在时域中出现。

上述的分析和合成使用均匀分开的频带。优选在更好地匹配人听力的心理声学的对数分开的频带上执行分析。

现在参照图5，给出示出ADE处理的优选实施例的流程图。流程图通过使用64频带过采样多相分析滤波器组将输入信号转换成复合频域表示在步骤500中开始。可以使用其它类型的滤波器组。也可使用不同数量的滤波器组。在这里描述的实现中，分析滤波器组对于64个时域输入采样的每个块提取64个频域采样的块，以形成子带音频信号。

在步骤510中，为了评估存在于输入信号中的力度的量，对于每个通道导出与频率无关的每帧波峰因数。

其中，H_sum(m,c)被定义为输入数据的第c个通道的第m个帧的k个频带大小的和：

H_sum(m，c)＝∑H(k，m，c)

峰值和函数被定义为：

H_{sum_pk}(m，c)＝H_sum(m，c))如果H_sum(m，c)＞H_{sum_pk}(m-1，c)

否则，

H_{sum_pk}(m)＝(1-α_{pk_rel})H_{sum_pk}(m-1)+α_{pk_rel}H_sum(m)

平均和函数由泄漏积分器函数定义：

H_{sum_av}(m，c)＝(1-α_avg)H_{sum_av}(m-1，c)+α_avgH_sum(m，c)

其中，α_{pk_rel}代表峰值释放系数，以及α_avg代表平均平滑化系数。

每帧波峰因数被定义为峰值信号大小与平均信号大小的比，

CF (m, c) = \frac{H_{sum_pk} (m, c)}{H_{sum_av} (m, c)}

其中CF(m)代表输入数据的第c个通道的第m个帧的波峰因数。可以设想，可按照能量求和描述波峰因数。

H_sum(m，c)＝∑|H(k，m，c)|²

每帧波峰因数表示存在于输入信号中的动态范围的量。当检测到瞬态时，该波峰因数应大于等于一些期望的目标值。如果每帧波峰因数在存在瞬态的情况下太低，那么向输入信号帧施加短期增益以使测量的波峰因数增加到更希望的值，其中，短时指的是检测瞬态的开端和衰减时间的量级的开端和衰减时间。

在步骤520中，通过取得规定的目标波峰因数CF_T的比导出每帧动态增益G_DYN(m,c)，并且，测量的波峰因数CF(m,c)代表获得希望的动态偏离电平所需要的增益的量。

G_{DYN} (m, c) = \frac{{CF}_{T}}{CF (m, c)}

CF_T的值被假定为代表例如14dB的动态材料的合理波峰因数。也可通过称为动态增强电平（DEL）的用户可控制增益修改该规定的目标波峰因数，由此间接地影响施加的增强的量。

G_{DYN} (m, c) = \frac{[DEL * {CE}_{T}]}{CF (m, c)}

如果目标波峰因数比测量的波峰因数大，那么G_DYN(m,c)将小于1。如果允许该增益值，那么它最终导致输入中的瞬态事件的电平的降低。但是，在本实施例中，G_DYN(m,c)限于大于等于1。

G_{DYN} (m, c) = \max (1, \frac{[DEL * {CF}_{T}]}{CF (m, c)})

在该阶段中不向输入信号施加G_DYN(m,c)。而是，只有满足两个其它条件才施加：

1.已对于当前的帧检测到瞬态；或

2.施加增益的子带不具有任何强的音调内容。

在步骤540中，检测当前帧中的瞬态。通过使用计算每子带相对能量函数的瞬态检测算法，分析子带信号以检测瞬态。当在子带内检测到大的能量增加时，该函数的值将急剧增加。更多子带的存在表明同时的增加，这进一步表示在给定的帧内已经检测到瞬态的可能性更高。

相对能量函数可被定义为：

RE (k, m, c) = \frac{E_{inst} (k, m, c)}{E_{av} (k, m, c)} - - - (1)

其中，E_inst(k,m,c)代表在第c个通道的第m个帧的第k个子带上测量的能量，以及E_av(k,m,c)代表在第c个通道的第m个帧的第k个子带上测量的平均能量。每子带平均基于泄漏积分函数：

E_av(k，m，c)＝(1-ε_av)E_av(k，m-1，c)+ε_avE_inst(k，m，c)

对于每个子带相对能量函数，将当前值与一些相对能量阈值RE_TRESH相比较。如果在子带中超过相对能量函数阈值，那么该子带被标注为具有表示瞬态的能量增加。然后通过将通过相对能量阈值的子带的数量求和，计算总体每帧瞬态能量函数。

TE(m，c)＝∑(RE(k，m，c)＞RE_TRESH)

其中，TE(m,c)是0与K之间的整数值，其中，K代表分析的子带的总数。注意，K可小于帧中的频带的总数。例如，可能更希望使瞬态检测关注于已检测到明显的能量的子带。

超过相对能量阈值的明显比例的子带表示代表瞬态的能量的宽带增加。但是，难以使子带的确切数量与正结果相关联以具体地限定瞬态。在一些情况下，平均信号电平可能太高，使得相对能量阈值可在许多频带中保持较低。虽然具有解释这一点的肯定结果的子带的所需数量可减少，但是，这可导致“误判”瞬态检测。因此，每帧瞬态能量函数以导出瞬态的可能性的估计为开始。并且，计算与超过RE_TRESH的子带的数量成比例的一系列增益加权函数。例如，

如果TE(m,c)>K/2，则W_T(m,c)=1

如果TE(m,c)>K/3，则W_T(m,c)=0.75

如果TE(m,c)>K/4，则W_T(m,c)=0.5；

其中，K代表分析中的子带的总数。

否则，

W_T(m,c)=0

可对于正子带阈值和相关的加权增益使用其它的值。在步骤550中，确定任意的输入通道上的W_T(m,c)>0的任何值代表瞬态开端。然后通过加权因子修改动态增益：

G_{DYN_MOD}(m，c)＝max(1，G_DYN(m，c)*W_T(m，c))

施加边界检查以确保不施加小于1的增益。然后可向当前数据帧的所有子带施加该增益。但是，由于这些频带中的增益的突然增加会导致可听的信号调制，因此在具有明显的音调状成分的子带中，这会是不希望的。为了避免这种情况，对于存在强音调分析每个子带。通过它们的性质，音调状成分具有相对较低的峰值平均比（或子带波峰因数）。因此，不存在向具有低于所谓的音调阈值的测量波峰因数的子带施加的附加增益，并且它们继续基于它们的原始衰减轨道衰减。

在步骤530中，通过在分析频带中的每一个中取峰值增益电平与时间平均增益的比，计算每子带波峰因数值。

CF (k, m, c) = \frac{G_{peak} (k, m, c)}{G_{av} (k, m, c)}

均使用泄漏积分器实现峰值和平均滤波器。

如果G(k，m，c)＞G_peak(k，m-1，c) ，则G_peak(k，m，c)＝G(k，m，c)

其中，G(k,m,c)代表第c个通道的第m个帧的第k个子带的大小。

否则，

G_peak(k，m，c)＝(1-β_{peak_rel})G_peak(k，m-1，c)+β_{peak_rel}G(k，m，c))

G_av(k，m，c)＝(1-β_av)G_av(k，m-1，c)+β_avG(k，m，c))

其中，β_{peak_rel}代表每子带峰值释放函数，以及β_av代表平均平滑化函数。

在检测瞬态开端的帧中，将每子带波峰因数与预定的阈值γ_TONE相比较，这确定是否在该子带中存在音调状成分。如果子带波峰因数低于该阈值，那么假定检测到音调状成分，并且，对于该帧不向该子带施加增益。可以使用音调的各种测量，诸如在J.Johnston,“Transform coding of audio signals using perceptual noise criteria,”IEEE J Sel.Areas in Comm.,vol.6,no.2,pp.314-323,1998年2月中描述的音调的系数。描述为EQ_DYN(k,m,c)的最终的每子带动态增益被即时更新为以下的值：

如果CF(k，m，c)＞γ_TONE，则EQ_DYN(k，m，c)＝G_{DYN_MOD}(m，c)

在步骤560中确定，如果没有检测到瞬态或者如果在子带中检测到音调状成分，那么，通过使用将典型的瞬态衰减函数模型化的与频率相关的指数曲线，EQ_DYN(k,m,c)的相对子带值向1（不处理）的值衰减：

EQ_DYN(k，m，c)＝max(EQ_DYN(k，m，c)*σ_decay(k)，1)

其中，σ_δecay(k)代表随着频率的增加而减小以模拟低频率瞬态与高频率瞬态相比多慢地衰减的每子带衰减系数函数。施加边界检查以确保不施加小于1的增益。

在步骤570中，EQ_DYN(k,m,c)在有限的范围内被约束以避免输出饱和，如下：

如果EQ_DYN(k，m，c)*|X(k，m，c)|＞Y_max

{EQ}_{DYN} (k, m, c) = {EQ}_{DYN} (k, m, c) \frac{Y_{\max}}{| X (k, m, c) |}

其中，|X(k,m,c)|代表第c个通道的第m个帧的第k个段的输入数据的大小，以及Y_max代表每个通道的每个帧的每个子带的最大允许输出值。如果保证的话，EQ_DYN(k,m,c)的最终版本可在频率上被平滑化以避免伪信号。

在步骤580中，通过将每个频带中的复合输入系数乘以EQ_DYN(k,m,c)，向适当的输入通道施加规定的增强。

Y(k，m，c)＝EQ_DYN(k，m，c)X(k，m，c)

其中，X(k,m,c)代表第c个通道的第m个帧的第k个段的输入数据，以及Y(k,m,c)代表第c个通道的第m个帧的第k个段的输出数据。

通过使用64频带合成组或等同的频率时间域滤波器，得到的复合频带系数被再组合并被变换成时域输出采样块。

对于每个输入采样块重复上述的输入/输出处理（步骤500～580）。EQ曲线的增益将根据每个输入信号块的分析动态改变。

EQ曲线的增益根据每个输入信号帧的分析动态改变。在上述的实施例中，通过频域中的倍增以及随后的对于输入合成块互补的输出合成，导出的增益曲线被施加到原始信号。在其它的实施例中，分析和合成方法可以不同。

上述的分析和合成使用均匀分开的频带。但是，优选在更好地匹配人听力的心理声学的对数分开的频带上执行分析。

这里表示的细节仅是例子，并且仅出于解释性讨论本发明实施例的目的以及为了提供被认为是本发明的原理和概念方面的最有用且很容易理解的描述而给出这里表示的细节。关于这一点，不尝试以比对本发明的基本理解所需要的更详细地表示本发明的细节，通过附图给出的描述使得本领域技术人员很容易理解如何在实践中体现本发明的几个形式。

Claims

1.一种用于调节音频信号的方法，包括：

接收至少一个音频信号，每个音频信号具有至少一个通道，每个通道在时间序列上被分成多个帧；

对于多个连续时间段计算音频信号的动态偏移的至少一个测量值；

将音频信号滤波成多个子带，每个帧由至少一个子带代表；

从动态偏移的测量值导出动态增益；

分析帧的至少一个子带以确定是否在帧中存在瞬态；和

向具有瞬态的每个帧施加动态增益。

2.根据权利要求1所述的方法，其中，动态偏移的测量值是时间段的波峰因数。

3.根据权利要求2所述的方法，其中，通过在帧内取得峰值信号大小的函数与音频信号的平均信号大小的函数的比，计算每个连续时间段的波峰因数。

4.根据权利要求1所述的方法，其中，分析步骤还包含：

计算至少一个子带的子带相对能量函数，所述子带相对能量函数被表示为：

RE (k, m, c) = \frac{E_{inst} (k, m, c)}{E_{av} (k, m, c)};

其中：

RE(k,m,c)＝在第c个通道的第m个帧的第k个子带上测量的子带相对能量；

E_inst(k,m,c)＝在第c个通道的第m个帧的第k个子带上测量的瞬时能量；

E_av(k,m,c)＝代表在第c个通道的第m个帧的第k个子带上测量的平均能量。

5.根据权利要求4所述的方法，其中，通过将帧的每个子带中的子带相对能量与阈值相比较并将通过阈值的子带的数量求和，计算每个帧的总体子带瞬态能量，该总体子带瞬态能量被表示为：

TE(m，c)＝∑(RE(k，m，c)＞RE_TRESH)

其中：

TE(m,c)＝在第c个通道的第m个帧上测量的总体子带瞬态能量；

RE(k,m,c)＝在第c个通道的第m个帧的第k个子带上测量的子带相对能量；以及

RE_thresh＝阈值相对能量值。

6.根据权利要求5所述的方法，其中，在该帧的分析中通过阈值的子带的数量大于预定分数的总子带的情形下，瞬态存在于帧中。

7.根据权利要求5所述的方法，还包括以下的步骤：

基于通过阈值的子带的数量，计算每个帧的加权因子。

8.根据权利要求7所述的方法，其中，基于加权因子加权每个帧的动态增益。

9.根据权利要求1所述的方法，还包括：

导出每个帧中的每个子带的子带增益；和

向每个子带施加子带增益。

10.根据权利要求9所述的方法，其中，通过确定峰值增益电平与时间平均增益的比，计算每个子带的子带波峰因数，该波峰因数被表示为：

CF (k, m, c) = \frac{G_{peak} (k, m, c)}{G_{av} (k, m, c)};

其中：

CF＝第c个通道的第m个帧的第k个子带上的子带波峰因数值；

G_peak＝第c个通道的第m个帧的第k个子带上的峰值增益电平；

G_av＝第c个通道的第m个帧的第k个子带上的时间平均增益。

11.根据权利要求10所述的方法，其中，将子带波峰因数与预定的音调阈值相比，并且如果子带波峰因数低于预定的音调阈值，则子带增益不被进一步修改。

12.根据权利要求11所述的方法，其中，如果对于具有低于预定的音调阈值的子带波峰因数的每个子带没有检测到瞬态，则通过使用指数衰减曲线减小施加的子带增益。

13.根据权利要求11所述的方法，其中，如果对于具有低于预定的音调阈值的子带波峰因数的每个子带检测到音调成分，则通过使用指数衰减曲线减小施加的子带增益。

14.一种音频信号处理装置，包括：

用于接收至少一个音频信号的接收部件，每个音频信号具有至少一个通道，每个通道在时间序列上被分成多个帧；

用于对于多个连续时间段计算音频信号的动态偏移的至少一个测量值的计算部件；

用于将音频信号滤波成多个子带的滤波部件，每个帧由至少一个子带代表；

用于从动态偏移的测量值导出动态增益并分析帧的至少一个子带以确定是否在帧内存在瞬态并且向具有瞬态的每个帧施加动态增益的导出部件。

15.根据权利要求14所述的音频信号处理装置，其中，动态偏移的测量值是时间段的波峰因数。

16.根据权利要求15所述的音频信号处理装置，其中，通过在帧内取得峰值信号大小的函数与音频信号的平均信号大小的函数的比，计算每个连续时间段的波峰因数。

17.根据权利要求16所述的音频信号处理装置，其中，计算至少一个子带的子带相对能量函数，该子带相对能量函数被表示为：

RE (k, m, c) = \frac{E_{inst} (k, m, c)}{E_{av} (k, m, c)};

其中：

18.根据权利要求17所述的音频信号处理装置，其中，通过比较帧的每个子带中的子带瞬态能量与阈值并将通过阈值的子带的数量求和，计算每个帧的总体子带瞬态能量，该总体子带瞬态能量被表示为：

TE(m，c)＝∑(RE(k，m，c)＞RE_TRESH)

其中：

TE(m,c)＝在第c个通道的第m个帧上测量的总体子带瞬态能量；

RE_thresh＝阈值相对能量值。

19.根据权利要求18所述的音频信号处理装置，其中，瞬态存在于帧中，其中通过阈值的子带的数量大于帧中的总子带的四分之一。

20.根据权利要求19所述的音频信号处理装置，其中，基于通过阈值的子带的数量，计算每个帧的加权因子。

21.根据权利要求20所述的音频信号处理装置，其中，根据加权因子对于每个帧将动态增益加权。

22.根据权利要求14所述的音频信号处理装置，其中，分析部件计算每个帧中的每个子带的子带增益，并且，向每个子带施加子带增益。

23.根据权利要求22所述的音频信号处理装置，其中，通过确定峰值增益电平与时间平均增益的比，计算每个子带的子带波峰因数，该波峰因数被表示为：

CF (k, m, c) = \frac{G_{peak} (k, m, c)}{G_{av} (k, m, c)};

其中：

CF＝第c个通道的第m个帧的第k个子带上的子带波峰因数值；

G_peak＝第c个通道的第m个帧的第k个子带上的峰值增益电平；

G_av＝第c个通道的第m个帧的第k个子带上的时间平均增益。

24.根据权利要求23所述的音频信号处理装置，其中，将子带波峰因数与预定的音调阈值相比，并且如果子带波峰因数低于预定的音调阈值，则子带增益不被进一步修改。

25.根据权利要求23所述的音频信号处理装置，其中，如果对于具有低于预定的音调阈值的子带波峰因数的每个子带没有检测到瞬态，则通过使用指数衰减曲线减小施加的子带增益。

26.根据权利要求23所述的音频信号处理装置，其中，如果对于具有低于预定的音调阈值的子带波峰因数的每个子带检测到音调成分，则通过使用指数衰减曲线减小施加的子带增益。