CN105144289A

CN105144289A - 元数据驱动的动态范围控制

Info

Publication number: CN105144289A
Application number: CN201480018639.0A
Authority: CN
Inventors: F·M·鲍姆加特
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2013-03-29
Filing date: 2014-03-27
Publication date: 2015-12-09
Anticipated expiration: 2034-03-27
Also published as: EP3364412A1; EP3364412B1; WO2014160895A1; KR20150122759A; KR20170090512A; CN109509477B; US20170229134A1; US10453463B2; HK1215488A1; EP2956937B1; CN105144289B; US11315579B2; HK1257290A1; CN109473114A; EP2956937A1; KR20190010729A; TW201503108A; US20190378524A1; AU2014241174A1; KR102163613B1

Abstract

本发明描述了一种用于对动态范围控制/压缩(DRC)增益值进行编码并将其应用于一条声音节目内容的系统。具体地，表示一条内容的DRC增益曲线的一组DRC增益值可被分为与该条内容的帧对应的若干个帧。一组字段可与表示一条内容的音频信号一起被包括。附加字段可使用线性插值或样条插值来表示DRC增益值。附加字段可包括：1)用于每个DRC帧的初始增益值，2)DRC曲线中的特定点处的一组斜率值，3)用于每对连续斜率值的一组时间增量值，和/或4)表示斜率值的点之间的DRC增益曲线中的DRC增益值的变化的一个或多个增益增量值。

Description

元数据驱动的动态范围控制

相关问题

本专利申请要求于2013年3月29日提交的美国临时专利申请61/806,628；于2013年7月24日提交的美国临时专利申请61/857,966；以及于2013年10月16日提交的美国临时专利申请61/891,687的较早申请日期的权益。

技术领域

本发明的实施例通常涉及一种用于对音频信号进行编码并对其应用动态范围控制/压缩(DRC)的系统和方法。此外，本文所述的系统和方法考虑到开发中的新的编解码器在MPEG-H(3D音频)中的DRC需求。还描述了其他实施例。

背景技术

动态范围控制/压缩(DRC)通过(1)使得音频信号中的轻柔部分较响亮；(2)使得音频信号中的响亮部分较轻柔；或(3)同时使得轻柔部分较响亮并使得响亮部分较轻柔来在某种程度上减小音频信号的动态范围。减小的动态范围在若干个情况下可为所期望的，这些情况包括对于可仅再现小的动态范围并同时保持低失真、收听具有分心噪声的环境的音频回放系统的情况，以及在收听者不想打扰其他人的情况。

尽管DRC是如今音频编解码器的重要特征，但若干个新近的音频编解码器并不支持DRC。例如，移动图像专家组(MPEG)设定的统一的语音和音频编码(USAC)标准中缺少DRC。高级音频编码(AAC)结合DRC工具，但该DRC工具具有包括有限时间分辨率和混叠失真在内的缺点。

发明内容

本发明描述了一种用于对动态范围控制/压缩(DRC)增益值进行编码并将其应用于一条声音节目内容的系统和方法。在一个实施例中，表示一条声音节目内容的DRC增益曲线的一组DRC增益值可被分为与该条声音节目内容的帧对应的若干个帧。附加字段或一组字段可与表示一条声音节目内容的音频信号一起被包括。附加字段可使用线性插值或样条插值来表示DRC增益值。在一个实施例中，附加字段可包括：1)用于每个DRC帧的初始增益值，2)DRC曲线中的特定点处的一组斜率值，3)用于每对连续斜率值的一组时间增量值，以及4)表示与斜率值对应的点之间的DRC增益曲线中的DRC增益值的变化的一个或多个增益增量值。如本文所述，本文的系统和方法提供了一种用于对DRC增益值进行编码并将其应用于一条声音节目内容的有效技术。

以上概述不包括本发明的所有方面的详尽列表。可预期的是，本发明包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求中特别指出的各种方面的所有合适的组合来实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。

附图说明

本发明的实施例以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出，本公开中提到“一”或“一个”实施例未必是同一实施例，并且它们表示至少一个实施例。

图1示出了根据一个实施例的在音频解码器之后的压缩后处理的框图。

图2示出了根据一个实施例的动态范围控制/压缩(DRC)增益表示。

图3示出了根据一个实施例的编码器DRC特性。

图4示出了根据一个实施例的在发射器处生成的一组示例性DRC元数据。

图5示出了根据一个实施例的示例性差值类型。

图6示出了根据一个实施例的两个延迟模式。

图7示出了根据一个实施例的林奎茨-莱利(Linkwitz-Riley)交叉滤波器的拓扑结构。

图8示出了根据一个实施例的利用具有64个子频带的滤波器组的4频带DRC的加权系数的实例。

图9示出了根据一个实施例的用于某些对应解码器窗口形状的动态范围控制/压缩(DRC)窗口形状。

图10示出了根据一个实施例的应用于单独小块窗口的DRC增益值。

图11示出了根据一个实施例的应用于音频信号上的DRC增益值。

具体实施方式

现在将参考所附附图来解释本发明的若干个实施例。每当在实施例中描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本发明的一些实施例可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对本具体实施方式的理解。

将动态范围控制/压缩(DRC)元数据结合到比特流/格式中的元数据系统相比于在收听者端处(即，在回放处)确定DRC增益值的系统提供若干个优点。这些优点包括(1)音频信号的回放处的较低复杂性；(2)DRC的复杂性在回放期间出现的问题减少，这就允许实现更复杂的DRC程序；以及(3)收听者端处的音频回放设备可决定是否应用DRC。尽管使用DRC元数据系统提供了若干个优点，但传统的DRC元数据系统诸如由高级电视系统委员会(ATSC)和移动图像专家组(MPEG)所提供的那些传统的DRC元数据系统也提供了若干个缺点。

传统的DRC元数据系统(例如，由ATSC和MPEG标准所限定的那些传统DRC元数据系统)支持如表1所示的轻压缩和重压缩。在大多数情况下，DRC增益值更新的速率为每帧一个值。在48kHz的采样率下，这相当于介于21ms和43ms之间的更新间隔。轻压缩模式中的AC-3在48kHz、约5ms的情况下具有快六倍的速率。此外，对于较低音频采样率，这些传统的DRC元数据系统中的DRC增益值以较低速率更新。

表1：音频标准中的DRC增益元数据的参数

实际DRC调谐表明，对于某些音频信号的增益变化应比可利用当前标准所实现的增益变化快得多。

当前DRC标准和系统(诸如MPEG-AAC和ATSC)的另一问题源于在应用反相MDCT滤波器组之前将DRC增益应用于频域中的事实。MDCT滤波器组为基于时域混叠消除的转换。如果对连续重叠块应用不同的增益值，则无法实现混叠消除。增益变化可导致听觉失真诸如预回声。这对于响板记录可能很容易示出。

在一个实施例中，如果在解码器重建音频信号之后将DRC增益应用于时域中，则可避免MDCT伪像。在频域中，每个长块或每个短块至多可修改增益一次。相比之下，本文所述的时域方法支持所期望的更高时间分辨率。

尽管时域方法当前不支持多频带DRC(对MPEG轻压缩可用)，但可改进本文所述的实施例以支持多频带DRC。由于插值和DRC增益的应用，本发明提出的方案可稍微增大解码器复杂性。然而，考虑到特别是利用可在高比特率下出现并且可利用高质量回放系统重现的内容来避免不必要的失真，这些缺点显得无关紧要。

DRC工具

概述

本文所述的DRC工具基于可应用于时域或子频带域音频信号(诸如HE-AAC解码器的QMF滤波器组的子频带)的统一DRC增益编码。以下描述首先涵盖了时域应用。对于子频带域应用，仅描述了对时域方法的修改。

时域应用

如图1所示，本节描述了动态压缩工具如何应用于解码之后的时域音频信号。图1示出了在音频解码器之后的压缩后处理的框图。在一个实施例中，DRC工具的解码器部件由元数据来驱动，该元数据有效地表示压缩增益样本和用于插值的参数。在一些实施例中，增益样本可尽可能快地更新以准确地表示下至至少1ms的更新间隔的增益变化。如果增益基本上恒定，则每DRC帧仅使用单个增益样本可足以。为了使比特率最小化，编码器可仅选择足够的DRC增益样本以确保解码之后的音频信号中的重建的DRC增益的足够精度。实际上，在存在较大增益变化的情况下，这可能意味着较小的更新间隔。

由于编码器仅提供稀疏采样的增益值，因此解码器可应用插值以实现样本之间的平滑增益转换。经插值的增益的采样率为音频采样率。所使用的插值技术可基于样条。两个相继增益样本之间的一个区段的内插值从该区段的两端处的两个增益样本及其斜率(导数)导出。因此，当从一个区段过渡到下一个区段时，由于该两个区段在过渡点处具有相同斜率，因此一阶导数是连续的。

图2示出了基于经量化的DRC增益样本的插值。上面的曲线A示出了以诸如音频采样率的高采样率的DRC输出增益。DRC增益的样本和斜率(即，圆圈和箭头)基于均匀时间网格稀疏地提取。下面的曲线B示出了经量化的增益样本坐标(时间和值)和经量化的斜率，该两者被传输至DRC解码器工具。解码器工具在增益曲线应用于由虚线所示的音频信号之前对其进行插值。

在一个实施例中，用于对增益曲线进行采样的最小可能时间间隔为介于0.5ms和1.0ms之间的固定值并且最大可能时间间隔为每DRC帧一个增益样本。

除了上述样条模式之外，“简单”模式在没有定时参数和斜率参数的情况下也可用于传输每DRC帧仅一个DRC增益值。该模式最适合于具有基本上恒定DRC增益的帧并且占用最小数量的位。

对于DRC工具与音频编解码器协同应用，提供如下参数来调节DRC帧尺寸和时间分辨率，使得编解码器和DRC处理在复杂性和延迟方面可最有效地完成。这些参数为：

·以音频采样间隔为单位的DRC帧尺寸

·以音频采样间隔为单位的delta_t_min

·延迟模式

尽管这些参数具有默认值，但编解码器规格可覆写这些默认值。

修改DRC特性

DRC工具支持通过以下若干种方式对经解码的DRC增益进行的修改：

·升压因子

·压缩因子

·自定义DRC特性

升压因子为以dB为单位的应用于正增益值以减小放大率的介于0和1之间的值。压缩因子为应用于负增益值以减少衰减的介于0和1之间的值。

包括编码器DRC的DRC配置在下文中可称为“样本描述”。例如，前六个静态DRC特性在图3中示出。从概念上来讲，如果此类静态压缩特性无法从DRC算法中明确得出，则该特性可使用1kHz正弦曲线来测量。当峰值在满刻度时，正弦曲线的水平被限定在-3dBFS。图3所示的特性具有下至完全没压缩的不同压缩程度。在最简单的情况下，根据期望压缩效果来选择特性。在还必须控制过载的情况下，例如对于降混，任选地仅可将限制器应用于可能不具有静态压缩效果的编码器中。因此，在仅应用限制器而无DRC的情况下，恒为0dB增益的特性可为有用的。一般来讲，在比特流中传送的DRC增益可为动态压缩或限制或该两者的结果。

发射器处的DRC元数据生成的实例在图4中示出。基于根据草案ISO/IEC14496-12的样本描述来对DRC进行配置。音频信号在其进入DRC之前可为规格化为-31LKFS的响度。DRC元数据可与音频比特流一起被传输。

接收器可基于样本描述中所传达的发射器的DRC特性并基于自定义目标DRC特性来修改静态DRC特性。利用所接收的DRC增益值(gainQuant)开始，接收器可应用反相发射器DRC特性，然后应用新的目标DRC特性，如表2所示：

表2：根据目标DRC特性的DRC增益映射

发射器特性1至6的反相可根据表3和表4来计算。请注意，由于增益总是为0dB，因此特性2不具有有用的反相。

表3：反相编码器DRC特性1至6的计算

表4:DRC特性1至6的参数

解码器DRC目标特性不被认为是标准化的。它们可由实现器任选地进行定义以实现自定义的压缩特性。以下章节更详细地解释如何应用增益映射。

样本描述可包括总共11个编码器DRC特性。为了与现有系统兼容，除了上述以及图3所示的前6个特性，样本描述还包含表5中所示的能够在ATSC系统中可用的另外五个特性。

特性的索引(DRC_characteristic)	简况⁵的名称
		7	电影光
8	电影标准
		9	音乐光
10	音乐标准
		11	语音

表5：编码器DRC特性7至11的索引

样条区段

解码器中的DRC增益的插值基于成对的增益样本。每对具有增益坐标(时间和以dB为单位的值)和斜率信息。解码器将选择如图5所示的三个可用类型的插值中的一个插值。在大多数情况下，选择三次插值，该插值由图5中的样条区段A示出。然而，在某些情况下，应用将线性插值和二次插值结合的混合插值来代替，该线性插值和二次插值由图5中的样条区段B和C示出。对于混合插值，在两个增益坐标之间插入节点(示出为图5中的样条区段B和C中的方块)。在该节点的一侧应用线性插值，并且在另一侧应用二次插值。下面对该方法进行充分详细的说明。

组帧

在DRC帧中整理DRC增益信息。在DRC帧的持续时间内，每个DRC帧包含用于生成DRC增益的DRC数据。对于给定音频项，DRC帧持续时间为恒定不变的并且其为音频采样间隔的倍数。DRC帧不重叠。实际上，只要条件合适，则建议DRC帧尺寸与编解码器的帧尺寸相同以使延迟和复杂性最小化。这可作为默认设置。

时间分辨率

DRC工具使用均匀时间网格来生成DRC增益的稀疏表示。该网格的间距限定了最大可用时间分辨率delta_t_min。delta_t_min的单位在音频采样率下为一个采样间隔。出于复杂性方面的考虑，选择delta_t_min为音频采样间隔的整数倍，其对应持续时间介于[0.5…1.0]ms之间。优选地，delta_t_min为2的整数幂，使得采样率可在音频和DRC之间有效地转换。基于如下公式来计算默认值：

delta_t_min＝2^M其中f_s0.0005s<delta_t_min≤f_s0.001s(1)

在上面的公式中，音频采样率f_s以Hz为单位，并且指数M为非负整数。

解码器中的预先操作

DRC工具解码器可在两个延迟模式中的一个延迟模式中操作。低延迟模式立即应用经解码的DRC增益，而默认模式利用一个DRC帧的延迟来应用DRC增益。默认模式支持从当前DRC帧的任何位置到下一DRC帧的任何位置的增益样本插值。低延迟模式要求增益值样本位于DRC帧的末尾处。

图6示出了两个延迟模式：低延迟模式A和默认延迟模式B。上面的图示A示出了每个DRC帧具有位于帧末尾处的样条节点，使得针对该帧的整个DRC增益曲线可通过插值立即生成。下面的图示B示出了插值增益曲线利用一个DRC帧的延迟被应用，因为对帧n-1的插值(由圆圈表示)仅能够在接收到帧n的第一节点(由方块表示)之后完成。

对于常见的感知编解码器，默认延迟模式B将不需要附加解码器延迟。由于重叠相加操作，已需要该延迟。

低延迟模式可适用于不具有固有延迟(诸如由重叠相加所引起的延迟)的解码器。例如，一些无损编解码器就属于这种情况。

解码

增益坐标和斜率的解码过程包含以下任务序列：

·采集DRC配置信息

·解析DRC比特流

·应用包括哈夫曼解码的代码表以对经量化的值进行解码

·撤销差分编码

DRC配置信息可为样本描述的一部分。DRC配置信息可包括与解码相关的如下参数：

·增益序列的数量：nDrcGainSequences

·针对每个声道的增益序列的分配。使用相同序列的声道被称为声道组。组的总数为nDrcChannelGroups

·组中DRC频带的数量：nDrcBands

给出这些参数，可根据表20和表21来解析DRC比特流。在下文中，为了清楚起见，伪码限于一个增益序列。在一般情况下，可添加外循环以处理表6和表9中的每个增益序列。

编码值通过应用该表22和表25进行解码。该操作在表6中由伪函数decode_initial_gain()、decode_delta_gain()、decode_time_delta()和decode_slope()来表示。经差分编码的值继而根据表6转换为绝对值。经解码的结果由增益值gDRC[g][b][k]、时间值tDRC[g][b][k]和斜率值sDRC[g][b][k]来表示，其中g为声道组索引，b为频带索引，并且k为样条节点索引。时间值为以delta_t_min为单位的相对于DRC帧起始的整数。与DRC帧的起始一致的音频样本具有tDRC＝0的时间值。

表6:dB域中的DRC增益样本坐标和斜率的解码。

增益修改和插值

如上根据标题“修改DRC特性”所述的，存在在DRC工具解码器中适应DRC特性的若干种方式。将这些调整应用于dB域中的经解码的增益样本。

函数toLinear()在表7中被引入，其包括用于从以dB为单位的对数值生成线性增益样本的所有必要步骤(见表7)。该函数包含支持DRC增益值的修改的可选的映射函数mapGain()(见表2)，其目的在于实现不同于在编码器中所使用的压缩特性。映射由索引characteristicIndex控制，该索引在其大于0的情况下将选择自定义解码器DRC特性中的一个自定义解码器DRC特性。否则，将不替换编码器特性。可基于样本描述中所传达的编码器压缩特性来生成经修改的特性。此外，还支持压缩和升压因子以分别缩放负增益和正增益。这些因子则具有1.0的值，除非用户提供范围[0,1]中的值。最后，应用响度标准化增益。

在将增益应用于音频信号之前，必须将音频信号转换为线性域和必须内插于增益样本之间的增益值。为了实现较低复杂性，可在插值之前完成dB到线性的转换。因此，插值过程完全是在线性域中完成的。增益修改和到线性域的转换两者均使用表7的伪码来完成。输入变量为dB域中的增益样本和斜率。输出由线性域中的增益样本和斜率组成。对于响度标准化，以dB为单位的响度标准化增益值(loudnessNormalizationGainsDb)可由响度控制工具或其他装置提供至解码器。如果未提供，则使用0.0的默认值。在一个实施例中，标准化增益是以目标响度和内容响应之间的以dBFS为单位的差值来计算的。目标响度为所期望的输出响度水平。内容响度等于如2013年10月在瑞士日内瓦举行的第106届MPEG会议上的ISO/MPEG(106^thMPEGmeetingGeneva,Switzerland),“14496-12PDAM3-EnhancedAudio(FileFormat)”中所定义的程序响度或锚响度。如果程序响度和锚响度均未提供，则可将默认值用于内容响度。

表7:DRC增益样本和相关联的斜率从dB域到线性域的转换

增益插值由表8中的伪码来实现。输入变量为：

·以目标采样率间隔tGainStep为单位的两个增益样本之间的时间差

·以dB为单位的一对相继的增益样本gain0和gain1

·dB域中的一对对应斜率陡度值slope0和slope1。

该函数使用toLinear()来将变量转换为线性域。结果为在位于一对增益样本之间的目标采样率下的平滑增益值序列。目标采样率为经压缩的音频信号的采样率。

表8：一个样条区段的DRC增益的插值

应用压缩

将每个样条区段的内插增益值串联以生成整个DRC帧的完整增益向量gain[g][b][t]。最后，应用如表9所示的增益向量。如果当前声道c属于样本描述中所指定的当前DRC声道组，则函数channelInDrcGroup()则返回TRUE。请注意，对样条区段的调度取决于如表9中所指示的延迟模式(见上文标记“解码器中的预先操作”的章节)。

表9：将样条区段串联成增益向量并且将该DRC增益向量应用于音频声道。

表9基于以下假设：

·splineSegment为包含一个样条区段的增益值的向量。

·持续时间为描述以音频采样间隔为单位的样条区段的持续时间的整数。

·nNodes为当前DRC帧中的增益值的数量。

·drcFrameSize为DRC帧中的音频采样间隔的数量。

·如果delayMode＝＝DELAY_MODE_DEFAULT，则初始化以下变量：gDRCprev[g][b][0]＝0.0,sDRCprev[g][b][0]＝0.0；tDRCprev[g][b][0]＝drcFrameSize；nNodesPrev[g][b]＝1.

多频带DRC滤波器组

当将DRC增益应用于时域中并且使用多频带DRC时，必须在DRC增益应用于频带之前将时域音频信号分离成子频带。滤波器配置参数可由在MPEG文件格式中所定义的DRCInstructions()来传送。MPEG文件格式可为多个频带和介于频带之间的交叉频率索引提供比特流语法。

时域音频信号由具有图7所示的拓扑结构的林奎茨-瑞利(LR)滤波器分离成指定数量的频带。针对2个频带、3个频带和4个频带的林奎茨-瑞利交叉滤波器的拓扑结构在图7中示出。如图7所示，频带索引b随频带频率而增大。交叉频率f_C,b随索引b(即，f_C,b+1>f_C,b)而增大。在全通滤波器范围内的交叉频率指定具有匹配的相位响应的对应LR低通滤波器。如果存在多于两个的频带，则全通滤波器被添加以补偿不同输出的延迟，使得它们均同相。低通滤波器和高通滤波器实现为二阶区段(双二阶)。

如图7所示，每个林奎茨-瑞利(LR)交叉滤波器由形成平坦频率响应的一对互补的低通滤波器和高通滤波器构成。每个LR低通滤波器由两个相同巴特沃斯(Butterworth)(BW)低通滤波器的级联来创建。类似地，每个LR高通滤波器为与BW低通滤波器具有相同阶数和截止频率的两个相同BW高通滤波器的级联。

每个BW滤波器和每个全通滤波器实现为具有如下传递函数的二阶区段。

H (z) = \frac{b_{0} + b_{1} z^{- 1} + b_{2} z^{- 2}}{a_{0} + a_{1} z^{- 1} + a_{2} z^{- 2}} - - - (2)

基于表26中的交叉频率索引，解码器可查找归一化交叉频率f_c,Norm或滤波器系数参数γ和δ。然后使用用于BW滤波器的表10和用于全通滤波器的表11来计算滤波器系数。以Hz为单位的交叉频率由如下公式来计算f_c：

f_c＝f_s·f_c,Norm。(3)

在多速率解码器配置诸如双速率HE-AAC的情况下，f_s为最终输出信号的采样率。

表10：巴特沃斯滤波器系数公式

图7中的全通滤波器用于生成与LR低通滤波器中的一个LR低通滤波器相同的相位响应(具有图7中匹配的灰度级和匹配的f_c)，使得所有频带的信号在滤波器组的输出处均同相。如表11所示，全通滤波器系数从对应BW低通滤波器的系数导出。

表11：全通滤波器系数公式

在将DRC增益应用于单个频带之后，通过添加所有频带来计算最终音频信号。

应用于解码器的子频带域的DRC

尽管DRC增益在时域中的应用对于AAC是必需的，但其他MPEG编解码器使用子频带域DRC。子频带域DRC的概念意味着解码器的现有子频带信号受DRC增益应用限制。因此，不必要添加用于多频带DRC的时域频带分离并且可能在频域中进行渲染和/或降混之前应用DRC增益。表12包含编解码器和应用DRC增益的域的不完全列表。域可取决于解码器配置而非比特流。例如，如果MPEG-Surround利用普通的AAC解码器来解码，则在时域中应用DRC增益。此外，子频带域可以不是核心编解码器的MDCT域。相反，子频带域通常为QMF域。

表12：各种MPEG解码器的DRC增益应用的域

为了实现多频带压缩，将压缩器频带映射到解码器子频带组。无需进行附加滤波。DRC交叉频率映射到可用的最靠近的解码器子频带交叉频率。给出用于子频带s的f_c,Norm,SB(s)归一化子频带交叉频率,f_c,Norm(b)的经映射的交叉频率为：

\begin{matrix} \begin{matrix} i f & f_{c, N o r m, S B} (s) \leq f_{c, N o r m} (b) \leq f_{c, N o r m, S B} (s + 1) : \end{matrix} \\ f_{c, N o r m, M a p p e d} (b) = \{\begin{matrix} f_{c, N o r m, S B} (s); & \begin{matrix} i f & f_{c, N o r m} (b) < 0.5 (f_{c, N o r m, S B} (s) + f_{c, N o r m, S B} (s + 1)) \end{matrix} \\ f_{c, N o r m, S B} (s + 1); & e l s e \end{matrix} \end{matrix} - - - (4)

如本文所述，可对DRC增益进行解码。然而可使用表8和表9中所述的相同技术来内插DRC增益，降低插值结果的采样率以匹配子频带信号的采样率。这可由因子L通过对经插值的时域DRC增益进行二次采样或通过使用子频带采样率作为目标来进行直接内插来实现。

为了避免DRC频带之间的频谱突变，相邻DRC频带的增益之间可能存在“淡入淡出”。该操作被称为重叠。重叠是由加权系数w来控制的，针对每个子频带存在一个加权系数。加权系数w可根据表14来计算并且确定当前频带的DRC增益的贡献和下一频带的DRC增益的贡献。图8示出了利用具有64个子频带的滤波器组的4频带DRC的加权系数的实例。图8中的频带边缘表示为短划线，频带中心表示为实线，并且权重表示为虚线。

在重叠之后，将每个压缩器频带的DRC增益应用于与压缩器频带对应的每个子频带组。将导致滤波器组延迟的小延时D添加至DRC增益以实现与音频信号的适当的时间对准。下采样和延迟操作可由表13中的伪码的第一部分来表示。下文将两个参数的值作为特定于编解码器的值进行论述。表13中伪码的变量和函数的含义在表15中进行说明。描述假设所有子频带中的采样率是相等的。如果不是这种情况，则可针对不同的子频带采样率来调整下采样因子L。

表13：解码器子频带中的DRC增益下采样、重叠和应用

表14：重叠加权的计算。

代码项	含义
		gainSb	待应用于解码器子频带的DRC增益
gainLr	低速率(重采样的)DRC增益
		fCross	归一化交叉频率
drcFrameSizeSb	一个音频帧中的每子频带的子频带样本数量
		nDecoderSubbands	解码器子频带的数量
fCenterSubband	解码器子频带的中心频率
		w0,w1	增益重叠的权重
olapSize	重叠区域相对于交叉频率的尺寸
		Olap	以归一化频率为单位的重叠区域的尺寸
audioSampleSbIn	动态压缩之前的经解码的子频带音频样本
		audioSampleSbOut	动态压缩之后的经解码的子频带音频样本

表15：代码项的说明

用于传统流式场景的DRC配置

DRC配置信息可由MPEG文件格式语法来传达。然而，如果使用传统流式格式诸如ADTS来承载不支持MPEG文件格式的MPEG音频流，则可将配置信息嵌入音频流中。这可通过将文件格式的AudioSampleEntry()语法(或其压缩版本)添加至theuni_drc_info()语法来实现。由于样本条目信息仅在相比于帧速率的低速率下才需要，因此可使用指示该信息何时可用的存在标记。扩展语法在表16中给出。

表16：具有样本条目域的扩展uni_drc_info()有效载荷的语法。

对于这种情况，DRC信息仅可在解码器接收到样本条目之后被解码。样本条目信息的重复率确定解码延迟。

优先性

如果比特流包含所提出的DRC元数据和其他DRC元数据诸如MPEG轻压缩或重压缩，则所提出的元数据将具有优先性，除非解码器被指示应用其他DRC元数据。

特定于解码器的信息

高级音频编码(AAC)

用于AAC的DRC元数据扩展

对于AAC而言，可使用用于承载填充元素中的所提出的DRC元数据的具有新ID的新扩展有效载荷。ID使用4位代码进行编码并且当前仅定义了7位。将该DRC信息嵌入在新扩展有效载荷中保证了与将忽略新有效载荷的现有解码器的向后兼容性。所提出的新的extension_type在表17中给出。其包含表20中给出的uni_drc_info()。

符号	扩展类型的值	目的
			UNI_DRC	1111	统一的DRC

表17：对AAC的新的extension_type的定义

AAC的延迟模式

AAC使用默认延迟模式。

用于AAC的DRC帧尺寸和时间分辨率

DRC帧尺寸具有默认尺寸(即，其具有与AAC帧尺寸相同的持续时间)。

如上文标记“时间分辨率”的章节中所指定的，计算在音频采样率下的样本数的delta_t_min的值。为了方便起见，这里基于以下公式和表18来提供具体值：

Δt_min＝2^M(5)

适用指数M可通过查找满足以下条件的音频采样率范围被找到：

f_s,min≤f_s<f_s,max(6)

f_s,min[Hz]	f_s,max[Hz]	M
			8000	16000	3
16000	32000	4
			32000	64000	5
64000	128000	6

表18：用于确定AAC的DRC时间分辨率的表

给定编解码帧尺寸N_Codec，在速率delta_t_min下以DRC样本为单位的DRC帧尺寸为：

N_DRC＝N_Codec2^-M(7)

MPEG-DUSAC

DRC元数据扩展

在USAC中，新扩展有效载荷可承载于扩展有效载荷元素UsacExtElement中。为此目的，新扩展元素类型根据

表19来定义。应用依赖于默认编解码的DRC设置。

符号	扩展类型的值	目的
			ID_EXT_ELE_DRC	3	统一的DRC

表19：用于USAC的新的usacExtElementType的定义

MPEG-4HE-AAC、HE-AACv2、MPEG-DSurround、MPEG-DSAOC

DRC元数据扩展

如上所述，DRC元数据可承载于AAC核心流中。

MPEG-4HE-AAC、HE-AACv2、MPEG-DSurround和MPEG-DSAOC由核心解码器诸如AAC-LC以及位于该核心解码器的顶部上的一个或多个附加层构成。附加层相比于核心增加了音频带宽或音频声道的数量。对于这些解码器，应在合成滤波器组之前即刻将DRC增益应用于最高层的子频带，但并非在渲染/混合阶段之后进行。

子频带中的DRC增益应用

对于QMF域中的DRC增益应用，时域DRC增益可由时域采样间隔D延迟并由因子L进行下采样。D和L的值取决于配置，诸如单一速率与双速率HE-AAC。对于所有配置，必须实现DRC增益和音频信号之间的适当时间对准。

比特流语法

DRC比特流在表20和表21中定义。通常，DRC比特流time_domain_drc_info()承载于主机编解码器的扩展有效载荷字段中。

表20:uni_drc_info()有效载荷的语法

表21:drc_gain_sequence()的语法

表22：初始DRC增益值的编码

表23:DRC增益差的编码

表24：斜率坡度的编码

表25:nNodesMax＝N_DRC时的时间差的编码

crossover_freq_index	f_c,Norm	γ	δ
				0	2/1024	0.0000373252	0.9913600345
1	3/1024	0.0000836207	0.9870680830
				2	4/1024	0.0001480220	0.9827947083
3	5/1024	0.0002302960	0.9785398263
				4	6/1024	0.0003302134	0.9743033527
5	2/256	0.0005820761	0.9658852897
				6	3/256	0.0012877837	0.9492662926
7	2/128	0.0022515827	0.9329321561
				8	3/128	0.0049030350	0.9010958535
9	2/64	0.0084426929	0.8703307793
				10	3/64	0.0178631928	0.8118317459
11	2/32	0.0299545822	0.7570763753
				12	3/32	0.0604985076	0.6574551915
13	2/16	0.0976310729	0.5690355937
				14	3/16	0.1866943331	0.4181633458
15	2/8	0.2928932188	0.2928932188

表26：归一化交叉频率和相关联的滤波器系数参数的编码

线性插值DRC编码

尽管上述涉及基于使用样条插值对增益值进行编码和解码，但在一些实施例中，可使用线性插值来对增益值进行编码和应用。例如，在一个实施例中，可使用如上所述的样条节点来针对一条声音节目内容对DRC值进行编码。在该实施例中，可从比特流中删除每个样条节点之间的斜率值。相反，可在样条节点之间执行线性插值而不是样条插值。以这种方式，DRC增益值的编码可通过避免生成斜率值来简化。

基于窗口的重叠相加DRC增益插值

在一个实施例中，基于窗口的重叠相加增益插值法可用于对DRC增益值进行解码。在该方法中，以类似于上述的方式对增益值进行编码和接收。然而，每个增益值在解码期间用作窗口的乘法器(例如，窗口系数的向量)。经插值的增益曲线此后可通过使用重叠相加法来获得。例如，窗口的经插值的DRC增益曲线可为增益值与窗口的乘积。使用窗口的一个原因在于，相比于由在子频带中应用增益值的标准化解码器产生的增益曲线可生成相同的增益曲线。此外，基于窗口的重叠相加增益插值法不生成混叠失真。下文以举例的方式来描述该基于窗口的重叠相加增益插值法的更多深入描述。

图9示出了用于某些对应解码器窗口形状(虚线)的DRC窗口形状(实线)。从上到下，图9示出了示例性长窗口、由长到短的过渡窗口、短窗口和由短到长的过渡窗口。DRC窗口可通过解码器合成窗口的平方来计算。DRC窗口可以与对应解码器合成窗口相同的时间被应用。

以下公式示出了DRC窗口如何根据具有AAC帧尺寸N的长AAC合成窗口来计算：

w_{D R C, l o n g} (n) = w_{A A C, l o n g}^{2} (n),

对于n＝[0，2N-1](8)

短窗口和过渡窗口可以类似的方式来计算。以下公式(9)示出了由从比特流导出的DRC增益值加权的连续DRC窗口的重叠相加过程。时间索引和帧索引分别被表示为n和k。时间索引0位于当前合成窗口的起始(当前帧的第一输出样本)处。

g(n)＝g_DRC(k-1)w_DRC(k-1,N+n)+g_DRC(k)w_DRC(k,n)其中n＝[0,N-1](9)

DRC增益继而可x_AAC根据以下公式(10)应用于解码器输出信号以生成最终的经压缩的音频输出x_DRC。DRC增益并不被应用于MDCT域。

x_DRC(n)＝g(n)x_AAC(n)，对于n＝[0,N-1](10)

当在MPEG中使用轻压缩时，多频带DRC元数据可用于将独立DRC增益值应用于单个短块或分组短块。相比于标记“多频带”，可对每个DRC增益进行编码，使其应用于短块的整个MDCT频域。因此，每个DRC增益作为单频带DRC进行操作。如果是这种情况，DRC操作可如上所述类似地在时域中完成。

例如，如图10的上面图所示，如果针对8个短块给出5个DRC增益值，则对应DRC窗口被示出为实线。下图示出使用具有相同形状和g₀到g₄的对应DRC增益值的8个短DRC窗口。DRC窗口可从使用具有参数N′＝N/8的公式(8)的短窗口形状导出。通过以参数N′代替N来对应地应用公式(9)和(10)。

一般来讲，比特流语法允许独立选择用于单个帧的单频带或多频带DRC。利用上述时域DRC具体实施，无论何时存在真实的多频带DRC增益信息(“真实的多频带”意味着针对不同的子频带存在不相等的DRC增益值)，解码器都将切换到MDCT域DRC处理。

该提案包括经修改的MPEG-AACDRC具体实施，该具体实施通过单频带DRC的向后兼容的方式避免了混叠失真。尽管上述涉及MPEG-AACDRC，但在其他实施例中，可使用包括频域DRC增益值的任何类型的比特流音频。

在上述实施例中，解码器被修改以将DRC应用于时域。在另一个实施例中，可将附加字段添加至比特流以提高DRC增益值在时域中应用于音频信号的可变性。DRC增益值的新字段可在比特流语法中的不同位置处定义。对于MPEG标准，一个选项是表27中所示的填充元素中所携带的附加扩展有效载荷的定义。在该实施例中，可将程序内容的音频声道分成DRC组，其中每个组具有独立的一组DRC信息，即将单独的独立DRC应用于每组声道。音频声道可仅属于一个DRC组或不属于DRC组。可将分组信息添加至样本描述，其在轨道的起始出现一次。在该实施例中，DRC组的数量被称为nDrcChannelGroups。

表27：时域DRC扩展有效载荷

在观察实际具体实施中随时间变化的增益时，可看出增益有时可变化非常缓慢，而在音频信号表现出攻击时增益可表现出显著变化。用于对DRC增益值进行编码的必要比特率通过支持用于每个所谓的drcGainInfoBlock的单个可选的时间分辨率而降低。音频帧均匀分成多表28中所示的最多至8个这些信息块并且每个信息块可包含最多至16个增益值。

与增益值的较大时间分辨率相关联的比特率增加进一步通过使用利用增益变化的熵编码进行的自适应方案来减轻。DRC增益值可使用表27中定义的语法在每个音频帧中传输。

码字

nDrcGainInfoBlocks

注释

0x0	1	每帧1个块
			0x1	2	每帧2个块
0x2	4	每帧4个块
			0x3	8	每帧8个块

表28:nDrcGainInfoBlocks的查找表

条目drcGainCodingMode确定表29中所给出的信息块的增益值的数量。每帧可存在至少一个增益值以支持随机插入。第一增益值根据表30来编码。其余增益值使用表31或表32(根据所选择的drcGainCodingMode)进行差分编码。

表29:drcGainCodingMode的查找表

表30:gainInitial的表示

表31:drcGainCodingMode＝＝1时的DRC增益差的编码

表32:drcGainCodingMode∈[2,3]时的DRC增益差的编码

表33：对数DRC增益值[dB]的解码

差值的非均匀分辨率是由心理声学引起的，诸如观察到增益变化上的偏差越不易听到，增益变化越大。反之亦然，如果增益几乎恒定不变(并且音频包络也恒定不变)，则增益变化上的偏差更容易听到。非对称范围适用于对音频信号中的突发攻击进行快速反应DRC增益衰减。增益增加通常较慢。

典型的音频解码器使用重叠相加法利用与后续块50％的重叠来重建音频信号。每个块由在任一端渐缩的窗口来加权。例如，MPEG-AAC的典型帧尺寸为1024个样本。对于每个新帧，解码器重建2048个样本，其中将前1024个样本添加到前一个块的后1024个样本并且结果为解码器输出。在重建块的后半部分期间均匀调度具有帧k的信息块。每个信息块内的增益值均匀分布在信息块的持续时间内。该方案确保了所有必要DRC增益值在对起始和末尾进行解码时并且对于插值均为可用的。

图11示出了其中比特流的帧n包含用于合成窗口的后半部分的DRC增益。帧n具有4个信息块，这些信息块分别具有1个、8个、2个和4个DRC增益值。DRC增益值的定时基于增益值在每个信息块内的均匀分布来计算。随后，使用线性插值来生成每个时域音频样本的增益值。

表34：计算DRC增益值的时间位置

增益值定时的计算在表34中给出。结果tGain[g][k]指示以采样间隔为单位的始于当前输出帧的第一样本处的0.0的样本位置。帧尺寸以N_frane样本来表示。

给出增益值和它们的定时，针对当前输出帧的所有样本的平滑增益曲线可通过如表35所示的线性增益值的线性插值来构建。gDRCprev为前一帧的最后DRC增益值。在该实施例中，需要下一帧的第一增益值来内插帧的增益值以用于输出。由于重叠相加过程，该增益值是可用的，而无需在比特流之前进行额外读取。引入函数toLinear()以包括用于从以dB为单位的对数值生成线性增益值的所有必要步骤。

表35:DRC增益值的插值

最后，如表36所示，应用经插值的DRC增益。

表26:DRC增益值的应用

上述该实施例包括针对音频标准诸如MPEG-Audio的改进的DRC元数据编码和处理。已解决当前标准的缺点，诸如生成混叠失真以及DRC元数据的时间分辨率不足。

如上所述，多种技术可用于对DRC增益值进行编码并将其应用于一条声音节目内容。在一些实施例中，一种用于将频域动态范围控制(DRC)增益值应用于时域中的音频信号的方法，包括：接收比特流，其中该比特流包括经编码的音频信号和频域DRC增益值；由回放设备中的解码器对经编码的音频信号进行解码以产生时域中的经解码的音频信号；由解码器来确定用于将频域DRC增益值应用于时域中的经解码的音频信号的DRC窗口权重；基于频域DRC增益值和DRC窗口权重来确定时域DRC增益值；以及将时域DRC增益值应用于时域中的经解码的音频信号的对应帧。

在一个实施例中，DRC窗口权重基于解码器的合成窗口来确定。在一个实施例中，DRC窗口权重利用与解码器的合成窗口相同的定时作为解码器合成窗口的平方来计算。在一个实施例中，DRC窗口权重基于解码器的合成窗口和编码器的窗口的乘积来确定。在一个实施例中，经解码的音频信号的当前帧的时域DRC增益值基于利用所应用的对应DRC窗口权重的当前帧的频域DRC增益值以及利用所应用的对应DRC窗口权重的前一帧的频域DRC增益值来确定。在一个实施例中，应用时域DRC增益值以产生时域中的DRC音频信号是基于时域DRC增益值和经解码的音频信号的对应时间分割的乘积而进行的。在一个实施例中，时域DRC增益值中的一个或多个时域DRC增益值应用于经解码的音频信号的整个DRC窗口。在一个实施例中，经编码的音频信号为移动图像专家组-高级音频编码(MPEG-AAC)DRC音频信号。在一个实施例中，经编码音频信号为高级电视系统委员会(ATSC)DRC音频信号。

在一个实施例中，一种对比特流中的表示一条声音节目内容的动态范围控制(DRC)增益值进行编码的方法，包括：将声音节目内容的每个音频声道从一组DRC组分成单个DRC组；以及将DRC增益元数据插入到每个DRC组的比特流中，其中每个DRC组的DRC增益元数据用于将对应DRC增益值可变地应用于DRC组中的每个帧。在一个实施例中，每个DRC组的DRC增益元数据包括：表示针对初始DRC增益值的所选择的编码模式的第一数据值；表示初始DRC增益值的第二数据值；以及表示应用于初始DRC增益值的差值以生成DRC组的每个帧的DRC增益值的第三数据值。在一个实施例中，第一数据值表示基于初始DRC增益值应用于DRC组的每个帧的增益值的数量。在一个实施例中，由第一数据值所表示的所选择编码模式选自一组预定义编码模式。在一个实施例中，DRC增益值使用插值而被应用。在一个实施例中，插值为线性域中的线性插值。在一个实施例中，将多个声道分配给单个DRC组。在一个实施例中，非均匀时间分辨率基于由编码器DRC所生成的增益变化用于DRC增益值的更新率以使比特流的比特率最小化。在一个实施例中，表示初始增益值的第一数据值使用基于心理声学的非均匀量化标度来编码以使比特流的比特率最小化。在一个实施例中，表示初始增益值的第一数据值使用可变长度代码来编码以使比特流的比特率最小化。在一个实施例中，对表示应用于DRC组的每个帧的初始DRC增益值的差值第三数据值进行编码以使比特流的比特率最小化。在一个实施例中，对表示应用于初始DRC增益值的差值的第三数据值进行可变长度代码编码以使比特流的比特率最小化。

如上所述，本发明的一个实施例可为具有存储在其上的指令的机器可读介质诸如一个或多个固态存储器设备，该指令对一个或多个数据处理部件(本文中一般称为“处理器”或“计算机系统”)机型编程以执行上述操作中的一些操作。在其他实施例中，可通过包含硬连线逻辑部件的特定硬件部件来执行这些操作中的一些操作。可替代地，可通过经编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。

虽然已描述并且在附图中示出了某些实施例，但应当理解，此类实施例仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其它修改。因此，要将描述视为示例性的而非限制性的。

Claims

1.一种对比特流中的表示一条声音节目内容的动态范围控制(DRC)增益值进行编码的方法，包括：

将所述声音节目内容的每个音频声道从一组DRC组分成单个DRC组；

将DRC增益值编码为用于每个DRC组的每个音频帧中的每个DRC子频带的DRC增益数据；以及

将所述DRC增益数据插入到每个DRC组的所述比特流中。

2.根据权利要求1所述的方法，其中在DRC帧中整理所述DRC增益数据，所述DRC帧的尺寸等于所述DRC组中的所述音频帧的尺寸。

3.根据权利要求1所述的方法，其中所述DRC增益数据的用于对所述DRC增益值进行编码的最大采样率为相对于所述声音节目内容的采样间隔的二的整数幂。

4.根据权利要求3所述的方法，其中所述DRC增益数据的最小采样间隔介于1/2ms和1.0ms之间。

5.根据权利要求2所述的方法，还包括：

将编码模式数据值插入到每个DRC组的所述比特流中，其中所述编码模式数据值表示用于对每个对应DRC帧中的所述DRC增益值进行编码的模式。

6.根据权利要求5所述的方法，其中所述编码模式指示DRC组的DRC增益值的数量。

7.根据权利要求5所述的方法，还包括：

将初始增益值插入到每个DRC帧的所述比特流中，其中所述初始增益值指示用于生成对应DRC帧中的后续DRC增益值的起始DRC增益值。

8.根据权利要求7所述的方法，还包括：

将时间增量值插入到成对DRC增益值的所述比特流中，其中所述时间增量值指示每对DRC增益值之间的时间间隔；以及

将增益增量值插入到成对DRC增益值的所述比特流中，其中所述增益增量值指示每对DRC增益值之间的DRC增益值差值。

9.根据权利要求7所述的方法，还包括：

将斜率值插入到每个DRC帧的所述比特流中，其中所述斜率值对应于表示所述DRC增益值的DRC增益曲线的采样点。

10.根据权利要求8所述的方法，其中时间增量值和增益增量值用于由音频回放设备使用插值来将DRC增益应用于对应音频帧。

11.根据权利要求10所述的方法，其中所述插值为线性插值或基于窗口的重叠相加插值。

12.根据权利要求10所述的方法，其中所述音频回放设备进一步使用斜率值来使用插值将DRC增益应用于对应音频帧。

13.根据权利要求12所述的方法，其中斜率值、时间增量值和增益增量值在每个DRC帧的末尾处插入以允许所述回放设备在解码期间使用低延迟模式。

14.根据权利要求12所述的方法，其中所述插值为三次插值。

15.根据权利要求12所述的方法，其中所述插值为样条插值。

16.根据权利要求1所述的方法，其中多个声道被分配给单个DRC组。

17.根据权利要求8所述的方法，其中所述时间增量值经哈夫曼编码。

18.一种用于将动态范围控制(DRC)增益值应用于一条声音节目内容的方法，包括：

采集多频带DRC配置信息，其中所述多频带DRC配置信息指示所述比特流中的独立DRC增益序列的数量以及整个频带或多个DRC子频带的所述比特流中的DRC声道组的数量；

解析所述比特流以检索表示每个DRC增益帧的DRC增益值的经量化的数据值；

使用代码表对所述经量化的数据值进行解码以生成DRC增益数据；

对所述DRC增益数据进行解码以生成待应用于所述一条声音节目内容的对应音频帧的DRC增益值；以及

将所述DRC增益值应用于每个音频帧的所述整个频带或多个子频带。

19.根据权利要求18所述的方法，其中所述DRC配置信息是从所述比特流的标头采集的。

20.根据权利要求18所述的方法，还包括：

从每个DRC声道组中的每个DRC增益帧的所述比特流中提取编码模式数据值，其中所述编码模式数据值表示每个对应DRC增益帧中的所述DRC增益值的编码模式。

21.根据权利要求20所述的方法，还包括：

从每个DRC增益帧的所述比特流中提取初始增益值，其中所述初始增益值用于将增益应用于对应音频帧的第一区段。

22.根据权利要求20所述的方法，还包括：

从所述比特流中提取一个或多个时间增量值，其中所述时间增量值中的每个时间增量值指示成对DRC增益值之间的时间间隔；以及

从所述比特流中提取一个或多个增益增量值，其中所述增益增量值指示成对DRC增益值之间的DRC增益值差值。

23.根据权利要求22所述的方法，还包括：

从每个DRC增益帧的所述比特流中提取斜率值，其中所述斜率值对应于表示所述DRC增益值的DRC增益曲线的采样点。

24.根据权利要求22所述的方法，还包括：

基于对应DRC增益帧的所述初始增益值来生成音频帧的所述第一区段的DRC增益值；以及

基于针对所述第一区段所生成的所述DRC增益值、与所述第一区段和第二区段相关联的时间增量值和增益增量值来使用插值生成所述音频帧的所述第二区段的DRC增益值。

25.根据权利要求18所述的方法，还包括：

对所述音频信号进行滤波以将每个音频帧分离成多个子频带。

26.根据权利要求22所述的方法，其中所述插值为线性插值或基于窗口的重叠相加插值。

27.根据权利要求23所述的方法，还包括：

基于针对所述第一区段所生成的所述DRC增益值、与所述第一区段和第二区段相关联的斜率值、时间增量值和增益增量值来使用插值生成所述音频帧的所述第二区段的DRC增益值。

28.根据权利要求27所述的方法，其中所述插值为样条插值。