CN102171755B

CN102171755B - 音频元数据的编码变换

Info

Publication number: CN102171755B
Application number: CN2009801383855A
Authority: CN
Inventors: W·A·席尔德巴赫; K·M·克劳斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB; Coding Technologies Sweden AB
Priority date: 2008-09-30
Filing date: 2009-09-17
Publication date: 2012-09-19
Anticipated expiration: 2029-09-17
Also published as: CN102171755A; WO2010039441A1; US20100083344A1; CN102682780A; JP2012504260A; US8798776B2; EP2332140A1; TW201027517A; CN102682780B; JP5129888B2; EP2332140B1; TWI457913B; AR073676A1

Abstract

本发明涉及音频编码的领域。特别地，本发明涉及不同的音频编码方案之间的音频元数据的编码变换。本发明描述了用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法和系统，其中，第一和第二音频编码方案使用编码块，并且其中，各编码块具有至少一个相关联的增益值。该方法和系统基于第一增益元数据的增益值选择第二增益元数据的增益值，使得在与第二增益元数据的增益值相关联的时刻周围的时间间隔内，选择第一增益元数据的最小增益值。

Description

音频元数据的编码变换

相关申请的交叉引用

本申请要求在2008年9月30日提交的美国临时专利申请No.61/101,497的优先权，在此以引用方式包含其全部内容。

技术领域

本发明涉及音频编码的领域。特别地，本发明涉及不同的音频编码方案之间的音频元数据的编码变换。

背景技术

随着数字电视和无线电系统的不断增长，意图引导节目响度和动态范围的接收机侧控制以及控制立体声下混的元数据即“关于数据的数据”越来越受到重视。由于音频数据的发射(emission)格式或传输(transmission)格式未必与制作(production)或回传(contribution)格式即在音频信号的创建或后处理期间使用的编码方案相同，因此必须找到将元数据从一种格式编码变换为另一种格式的手段。通过将音频编解码器HE AAC(也称为aacPlus)引入到几种新的广播系统中，需要解决如何最好地编码新的元数据以及如何将预先存在的元数据编码变换为HE AAC和从HE AAC编码变换预先存在的元数据的问题。

HE AAC(高效率高级音频编码)是以48kbps立体声在CD音频质量附近提供全带宽的现有技术的低比特率编解码器。它已在HEAAC配置文件(profile)下在MPEG-4中被标准化。该配置文件以对存在于原MPEG-2 AAC定义中的若干缺点进行改善的方式对于解码器中的元数据的任选的应用提供增强的方式。特别地，它允许诸如DRC(动态范围控制)、DN(对话归一化)之类的元数据的规范或从多声道到立体声的下混，所述下混被广泛用于广播中以在特定的收听环境中实现原节目材料的适当的再现。

虽然诸如HE AAC之类的编解码器被广泛用于广播中，但是，在制作侧以及在接收机侧，不同的编码方案是常见的。作为例子，DolbyE编码方案被内容制作者频繁使用，而Dolby数字编码方案(也被称为AC-3或Dolby D编码方案)被频繁用于剧场和家庭剧场解码系统中。因此，需要不同编码方案之间的音频元数据的编码变换，该编码变换确保在制作侧被初始定义的元数据以非劣化的方式到达最终的解码系统。目标一般是，当比较经受初始定义的元数据的初始编码音频流与经受编码变换的元数据的接收的音频流时，确保通过收听器检测不到感知差异或者能检测到很少的感知差异。以下发明应对该问题，并且定义用于将元数据从一种压缩比特流格式变换成不同的压缩比特流格式的方法，特别是在两种格式的成帧方式(framing)不兼容的情况下。

发明内容

本发明描述用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法，其中，第一和第二音频编码方案使用编码块，并且其中，各编码块具有至少一个相关联的增益值。该方法包括以下步骤：基于第一增益元数据的增益值选择第二增益元数据的增益值，使得在与第二增益元数据的增益值相关联的时刻周围的时间间隔内，选择第一增益元数据的最小增益值。

这种第一和第二编码方案的例子可以为Dolby E、AAC、HE AAC和/或Dolby Digital(Dolby D)及其变型，诸如Dolby Digital Plus。第一音频编码方案也可被称为元数据编码变换器的输入处的源编码方案，而第二音频编码方案也可被称为元数据编码变换器的输出处的目标编码方案。两种编码方案均限定与已编码的音频信号相关联的元数据。典型地，基本的编码方案将已编码的音频信号分段成编码块。取决于编码方案，这种编码块可包含不同数量的已编码信号采样。此外，编码块还可覆盖已编码的音频信号的不同的时间长度。通常，各编码块具有相关联的元数据，所述相关联的元数据也包含要被施加到特定编码块的音频信号的增益值。另一方面，许多音频编码方案应用所谓的采样和保持行为，所述采样和保持行为在于保持当前增益值直到接收更新的增益值的时刻。因此，在这样的情况下，当前增益值与编码块相关联，直到接收到更新的增益值。

根据本发明的另一方面，用于选择第二元数据的增益值的时间间隔由上限和下限限定。该上限和下限由分别被加到与第二增益元数据的增益值相关联的时刻和从与第二增益元数据的增益值相关联的时刻被减去的时间常数来确定。换句话说，在优选的实施例中，该间隔围绕与第二增益元数据的增益值相关联的时刻而对称。

该时间常数可被选择，使得它大于或等于第一音频编码方案的编码块的时间长度和第二音频编码方案的编码块的时间长度中的最大值。如果以这种方式选择时间常数，那么所描述的方法产生抵抗增益过冲和破音的经编码变换的增益值。在某些条件下，可以确保经编码变换的增益元数据决不超过源增益元数据。

另一方面，时间常数也可被选择为小于第一音频编码方案的编码块的时间长度和第二音频编码方案的编码块的时间长度中的最大值。为了实现源增益元数据和目标增益元数据之间的良好的匹配，这可能是有益的。

在某些情况下，可能发生没有第一增益元数据的增益值落入与第二增益元数据的增益值相关联的时刻周围的时间间隔内。作为例子，如果时间常数被选择为特别小或者如果第二音频编码方案的编码块的时间长度小于第一音频编码方案的编码块的时间长度，那么可能发生这种情况。在这样的情况下，该方法可将第二增益元数据的增益值选择为与和第二增益元数据的增益值相关联的编码块之前的编码块相关联的第二增益元数据的增益值。作为替代方案，该方法可将该时间间隔之前的第一增益元数据的增益值选择作为第二增益元数据的增益值。换句话说，编码变换器可使用音频编码方案的采样和保持行为并且保持当前增益值，直到接收更新的增益值。

根据本发明的另一方面，该方法可进一步被调整以适于第二音频编码方案允许选择内插第二增益元数据的相邻增益值以形成第二增益曲线的不同的内插曲线的情况。这种音频编码方案的例子是HE AAC，所述HE AAC允许选择特别适于增益释放的线性内插曲线和特别适于增益攻击的多个突兀的内插曲线。如果第二音频编码方案提供这种功能，那么该方法还可包含以下步骤：基于第一增益元数据的增益值来选择第二增益元数据的两个相邻增益值之间的适当的内插曲线。

可例如基于第一增益元数据的两个相邻增益值之间的差值来选择该适当的内插曲线。如果例如第一源增益值(非常)高并且下一源增益值(非常)低，那么可选择“攻击”状内插曲线。另一方面，如果第一个和下一个源增益值相当类似，那么可选择“释放”状内插曲线。

作为替代方案，如果第一增益曲线与第一增益元数据的增益值相关联，其中，可通过内插第一增益元数据的相邻增益值获得该第一增益曲线，那么可基于第一增益曲线的斜率来选择该适当的内插曲线。特别地，如果第一增益曲线的负斜率高于预定义的阈值，那么可检测增益攻击。换句话说，如果第一增益曲线陡峭地下降，那么可检测增益攻击。另一方面，如果第一增益曲线的负斜率低于预定义的阈值，那么可检测增益释放。基于第一增益曲线的检测的增益攻击或增益释放，该方法于是选择两个增益元数据的两个相邻增益值之间的适当的内插曲线。

如以上已经提及的，第二编码方案可允许选择多个“攻击”内插曲线(也被称为内插曲线图案)。这些不同的内插曲线图案典型地在时间上相互延迟，并由此允许定义不同的“攻击”时间。为了使用第二编码方案的该功能，该方法可基于第一增益曲线的斜率的绝对值最大的位置而选择第二增益元数据的两个相邻增益值之间的适当的内插曲线。换句话说，该方法确定第一增益曲线的最陡的点并且选择最接近该最陡的点的第二编码方案的内插曲线图案。

根据本发明的又一方面，第二增益元数据的增益值的选择可不仅基于第一增益元数据的增益值的集合，而且基于整个第一增益曲线。在这样的情况下，该方法包括以下步骤：将该时间间隔内的第一增益曲线的最小值选择作为第二增益元数据的增益值。如果没有第一增益元数据的增益值落入与第二增益元数据的增益值相关联的时刻周围的时间间隔内，那么这会是特别有用的。

作为计算第一增益曲线的最小值的低复杂度替代方案，将该时间间隔内的第一增益曲线的一组采样的最小值选择作为第二增益元数据的给定增益值会是有益的。第一增益曲线的该组采样可包含落入该时间间隔内的第二增益值的编码块的时刻处的第一增益曲线的采样。

另外，本发明描述了用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法，其中，第一和第二音频编码方案具有不同的每编码块的音频采样数量，并且其中，各编码块具有相关联的增益值。此外，相邻编码块的一系列增益值被内插以定义增益曲线。该方法包括以下步骤：基于第一增益元数据的增益值来选择第二增益元数据的增益值，使得第二增益曲线总是在第一增益曲线的下方。使用该条件，可以确保没有破音的源音频信号被编码变换成也没有破音的目标音频信号。

此外，本发明描述了用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法，其中，第一和第二音频编码方案使用编码块，并且，各编码块具有相关联的增益值。另外，第二增益曲线与第二增益元数据的增益值相关联。该方法包括以下步骤：选择第二增益元数据的增益值，使得在与第一音频编码方案的编码块相关联的时刻处，第二增益曲线小于或等于第一增益元数据的增益值。

根据本发明的另一方面，第二增益元数据的增益值的选择可不仅基于第一增益元数据的所述一组增益值，而是基于整个第一增益曲线。在这些情况下，该方法可选择第二增益元数据的增益值，使得在与第一音频编码方案的编码块相关联的时刻处和/或在与第二音频编码方案的编码块相关联的时刻处，第二增益曲线小于或等于第一增益曲线。特别是当第二音频编码方案的编码块的时间长度小于第一音频编码方案的编码块的时间长度时，这会是有益的。

对于某些编码方案，增益曲线由与相邻的增益值和窗函数相关联的段构成。典型地，通过使用编码方案的窗函数在相邻的增益值之间进行内插来获得曲线段。在这样的情况下，可通过增益值和窗函数的一组采样来确定特定时刻处的增益曲线的上述的采样。对于某些编码方案，窗函数对于曲线段的全部或子集是相同的，使得可通过增益值和窗函数的有限的一组采样来描述增益曲线。即使当使增益值选择基于源增益曲线时，这也允许所描述的方法的低复杂度实现。

此外，本发明还描述了实现上述的编码变换方法的编码变换系统。这些编码变换系统可以是传输系统或消费者机顶盒的一部分。编码变换系统可利用由周围的系统提供的处理和存储器装置，但是，该编码变换系统也可包含诸如CPU之类的自身的处理装置和诸如ROM或RAM之类的存储器装置。

作为例子，音频编码变换系统的实现可包含数字处理器和用于存储用于由处理器执行的指令的存储器。存储器还可存储进入的元数据和在传输之前产生的离开的元数据。特别地，编码块的增益值可被存储于存储器中用于处理。此外，优选具有存储于存储器中的第一和/或第二音频编码方案的窗函数或多个窗函数的采样。

可以在用于从传输音频格式向用于在消费者的家中回放或记录的音频编码方案进行编码变换的机顶盒中实现示例性的音频编码变换系统。作为例子，可以在机顶盒中设置作为传输音频编码方案的HE AAC和作为用于回放的发射音频编码方案的Dolby Digital(Plus)之间的编码变换。

可以作为用于从制作或回传音频编码格式向传输音频格式进行编码变换的头端来实现用于音频编码变换系统的另一例子。作为例子，可以在这种前端系统中设置作为制作音频方案的Dolby E和作为传输音频编码方案的HE AAC之间的编码变换。

应当注意，在本文件中描述的方法和系统可被应用于诸如DolbyE、也称为Dolby D或AC-3的Dolby Digital(Plus)、AAC(高级音频编码)和/或也称为aacPlus的HE AAC(高效率AAC)之类的多种的第一和第二音频编码方案。

此外，应当注意，可以相互组合地使用在本文件中描述的方法和系统的特征。特别是，采用用于一个编码变换方向的一种方法和用于反向编码变换方向的另一方法会是有益的。

附图说明

以下，参照附图描述本发明的选择的实施例：

图1图示典型的编码变换链。

图2图示音频编解码器的典型的编码和解码结构；

图3图示用于不同的音频编解码器的不同的内插增益曲线；

图4a图示音频编解码器的内插函数；

图4b图示与图4a的内插函数相关联的窗函数；

图4c图示非对称窗函数及其相关联的内插函数的例子；

图5图示一系列级联的经内插的增益曲线；

图6示出图示第一编码变换算法的增益匹配性质的第一例子；

图7a和图7b示出图示第一编码变换算法的增益匹配性质的第二例子；

图8示出使用第一编码变换算法的增益元数据的编码变换的实验结果；

图9a和图9b图示第二编码变换算法的增益匹配性质；

图10示出使用第三编码变换算法的增益元数据的编码变换的实验结果。

具体实施方式

元数据是例如在Dolby Digital、Dolby E、AAC、HE AAC或其它音频编解码器中与多声道音频比特流一起行进的“关于音频数据的数据”。它使得广播设备不必根据传输的音频流而连续调整和压缩音频水平。它还提供关于音频流的声学动力学的具有高的艺术自由度的音频混合器。过去，与多声道音频一起工作的广播设备常具有声轨的平均水平落在其它节目制作(programming)之上或之下的问题。并且，当在具有立体声或单音频输出的电视机上回放环绕声音内容时出现问题。使用音频元数据，声音工程师可全部在后期制作阶段对于各种回放系统以不同的方式混合音频内容并且设定回放水平，因此，广播设备可递送更一致的音频信号并且确保最重要的音频要素通过。

元数据提供若干参数，这些参数特别意图改变向消费者的特有收听环境递送的节目的声音。这些元数据参数被称为对话水平(也称为对话归一化或dialnorm)、动态范围控制和下混。虽然在技术上不是单独的元数据参数，但是消费者的解码器内的下混通过特定的元数据参数被实现，并且，如同dialnorm和动态范围控制那样，在监视和选择实现下混条件的元数据参数时必须小心。制作侧的声音工程师最终负责优化多声道混合以用于最好地在最佳收听环境中再现。但是，还应小心确保也解决并非最佳的收听环境。这就是在编码变换期间元数据不畸变或者仅以有限的方式畸变十分重要的原因，以便保持在制作阶段期间设计的元数据的质量。

对话水平参数向家庭解码器提供归一化值。该值将音频的音量调整到预设的水平，这帮助从节目内容到节目内容和从媒体到媒体的水平匹配。对话水平不在节目材料上使任何压缩或膨胀生效(assert)，而是将音频的音量降低到标准化水平。对话水平与动态范围控制配置文件协同工作。对话水平参数在节目的轻声和大声部分之间设定一种“空带(null band)”。

动态范围控制(DRC，有时被称为动态范围压缩或午夜模式)给予消费者用减小的动态范围收听节目音频的灵活性。动态范围的压缩使得观看者不干扰邻居而观看电视。该控制常常是任选的，并且可在诸如Dolby Digital解码器之类的多数音频解码器中被关闭。动态范围控制还被用于消费者解码器上的常见“午夜模式”特征。

在较低音量下，节目的较轻声的部分(耳语和轻声对话)更加难以听到。然而，如果观看者增大音量，那么较大声的部分(爆炸、屏幕上的争吵、枪击等)变得声音太大以至于听起来不舒服。作为替代方案，在具有高水平的背景噪声的环境中，节目的较安静的部分将被环境噪声淹没。当在解码器内使动态范围配置文件生效时，解码器提高节目的较轻声部分的水平同时降低大声部分的水平，从而允许用户不必连续搜索音量控制而欣赏影片。

动态范围控制典型地由两个参数或“配置文件”构成：RF模式和Line模式。应当注意，这两个参数不改变比特流内的编码的音频的内容。它们被用于调整收听环境内的节目材料的极端状况以解决优选或必须以降低的动态范围收听节目的情况。

RF模式被设计为用于峰值限制情况，在所述峰值限制情况中，意图通过电视上的RF输入(诸如通过机顶盒的天线输出)递送解码的节目。它典型地允许±48.16dB的范围中的动态范围压缩，并且也被称为低速率DRC。

Line模式提供更轻的类型的压缩，并且也允许用户在家庭解码器内调整低水平提升和高水平截断参数。它典型地允许±24.08dB的范围中的动态范围压缩，并且也被称为高速率DRC。提升和截断的面积的调整或“缩放”允许消费者对于他们的特定的收听环境定制音频再现。

下混是允许通过更少的扬声器声道再现多声道节目的诸如DolbyDigital之类的音频编码器内的特征。简言之，下混允许消费者欣赏数字电视广播而无需完整的5.1声道家庭剧场设置。如同有时以单声道方式监视混合以保持兼容性的立体声混合，多声道音频混合要求工程师参照具有更少的扬声器声道的混合，以确信对于下混情况的兼容性。

某些元数据参数帮助实现适当的下混，从而有助于确保声音工程师/内容制作者的意图将跨越这些环境而能被译出。特别地，元数据提供对于某些扬声器信道如何被“折叠”成所得到的下混的控制。虽然声音工程师通常优化多声道混合以用于在理想收听环境中的再现，但是，在选择下混元数据参数时预览下混条件中的混合以确保与不同回放系统的兼容性也是重要的。

如上面概述的那样，元数据可被用于控制解码器中的时变增益要素等，将其用作动态范围控制和/或用于防止破音(clipping)的音频信号的限制手段。与在编码器侧应用压缩相对的，在解码器侧应用压缩的目的在于，以这种方式，终端用户保留对动态范围压缩量的控制。对于深夜观看，终端用户可能会想要使用最大压缩，而具有自己的家庭剧场的“高保真音响爱好者”可能会优选欣赏原剧场混合的全动态范围。

在现代的数字广播链中，在制作、回传和传输阶段中使用几种音频格式。在原音频混合可仍为未压缩的线性PCM格式流的情况下，制作的终端结果常常是Dolby E格式流。使用Dolby E作为内容制作过程中的音频编解码器，制作者至少具有嵌入描述整体节目响度(DialNorm)、要用于产生DRC系数的压缩器配置文件和下混的元数据参数的可能性。

图1图示从制作中心到消费者的家庭的音频编码变换的示例性链100。在制作中心101处，音频流典型地处于诸如Dolby E之类的最适于制作和后处理目的的音频格式。该制作音频流然后被编码变换成诸如Dolby Digital(也称为Dolby D或AC-3)之类的最适于发射目的的格式102。如果需要音频流的传输或广播，那么该发射音频流可能需要编码变换成诸如HE AAC之类的适当的传输或广播格式103。该传输音频流可然后在网络104上被传输到消费者家庭的多个机顶盒105。由于多数的消费者设备106需要诸如Dolby Digital之类的特定的消费者音频格式以正确地呈现音频流的事实，因此，在机顶盒105处需要从传输音频流到消费者音频流的进一步的编码变换。应当注意，制作、发射、传输和消费者音频流格式中的一些可以是相同的。特别地，发射和消费者音频流格式可均为Dolby Digital。

换句话说，Dolby E格式流可被编码变换成更适于在影院、家庭剧场或传统的家庭立体声中呈现内容的音频数据流。这种发射音频数据流的一个例子是Dolby Digital流。音频数据流格式之间的该编码变换即制作音频流和发射音频流之间的编码变换也触发对于元数据编码变换的需要。

如果要求音频流的传输或广播，那么发射音频流例如DolbyDigital流可要求编码变换成诸如对于低比特率链路上的音频传输优化的MPEG HE-AAC音频流之类的传输音频流。并且，对于发射音频流和传输音频流之间的这种编码变换，相关联的元数据也需要被编码变换。

在传输之后，音频数据流通常在接收机处被解码，在消费者的前提下该接收机可以是机顶盒(STB)。特别地，如果音频数据流是诸如环绕声音音频流之类的多声道音频流，那么将传输音频流编码变换成诸如Dolby Digital之类的消费者音频流会是有益的。通过这样，多声道信号可经由光学或同轴S/P DIF链路被转发到消费者的家庭剧场或电视机中的多声道接收机。并且，传输音频流和消费者音频流之间的该编码变换需要相关联的元数据之间的编码变换。

当一种格式的音频数据流被编码变换成另一格式的音频数据流时，元数据也需要与其一起行进。DialNorm元数据的编码变换典型地不表现出可观的问题，原因是它通常仅在节目边界处改变，否则基本上保持恒定。但是，由于DRC控制信号在不同的音频格式中具有不同的成帧方式，因此DRC元数据的编码变换不是无关痛痒的。表1列出示例性的音频格式和编解码器的帧长度。

编解码器	视频帧速率(fps)	采样的帧长度
			AAC	N/A	128/1024
HE AAC	N/A	256/2048
			LD AAC	N/A	120/960
LD HE AAC	N/A	240/1920
			Dolby D/AC-3	N/A	256/1536
Dolby E	25	1920
			Dolby E	50	960
Dolby E	30	1600
			Dolby E	60	800

表1

对于基于AAC的格式，“帧长度”栏中的左边的数指的是短块/帧的长度，右边的数指的是长块/帧分辨率。对于Dolby Digital/AC-3格式，“帧长度”栏中的左边的数指的是高速率DRC字的分辨率即Line模式的帧尺寸，右边的数指的是低速率DRC字的分辨率即RF模式的帧尺寸。

可以看出，取决于配置，DRC元数据的编码变换可从高速率的元数据变为低速率，也可从低速率的元数据变为高速率。要使事项更加复杂，基于AAC的格式可在运行中(on the fly)改变时间分辨率即帧长度，使得可在同一流中以及在同一编码变换操作期间发生这两种情况，即从较高速率向较低速率的编码变换以及从较低速率向较高速率的编码变换。此外，基于AAC的格式可在逐帧的基础上表示元数据的存在与否。典型地，解码语义学定义一种采样和保持行为，即，解码器被指示为总是使用最近接收的增益控制信号，直到新的数据到达。作为结果，在AAC帧中不存在元数据向解码器表明应该应用最近的增益控制信号，直到进一步的通知。

可由被急剧“攻击”中断的长的准稳态部分来表征由压缩器施加的增益，在该急剧“攻击”处，增益迅速降低。这些“攻击”典型地被应用以柔化诸如电影中的爆炸之类的声音强度的突然增大。压缩器增益从这些下降以长的时间常数恢复，被称为“释放”。换句话说，声音强度的突然增大遭遇急剧的增益“攻击”，在该增益“攻击”处，增益值在非常短的时间段中强烈下降，而在增益“释放”时段期间典型地平滑地执行增益增大。

虽然在施加DRC增益时音频信号的调制畸变的某种量在攻击时是不可避免的，但是，这种攻击的衰减时间常数被选择，使得调制畸变是不可听的。在设计适当的DRC元数据时，对于增益攻击选择适当的衰减时间是声音工程师的关键任务，并且，在将DRC元数据从制作音频格式向发射音频格式并进一步向诸如AAC之类的传输音频格式进行编码变换时，必须在元数据编码变换期间加以小心以不破坏这种性质。

此外，压缩器也可与限制器耦合，该限制器在任意一个时间处限制最大压缩器增益，以决不产生经过0dBFS的信号。这样的限制器典型地被用于防止破音。并且，在编码变换元数据时，也需要考虑这种限制器功能性。

诸如AAC、HE AAC和Dolby Digital/AC-3之类的音频编解码器典型地是基于诸如MDCT即变型的离散余弦变换之类的Princen-Bradley时域混杂消除(TDAC)技术使用频率线性的临界采样的滤波器组的基于自适应变换的编解码器。为了通过使得MDCT和反MDCT函数在滤波器边界点处平滑地到达零而避免变换边界处的不连续性，MDCT变换常常与附加的窗函数耦合。

在图示了音频编码器200和音频解码器210的图2中示意性地示出这一点。图2示出如在诸如AAC和Dolby Digital/AC-3之类的音频编码方案中使用的基于变换的编码器201和基于变换的解码器211。如上面概述的那样，这种编码方案包含编码侧的TDAC变换滤波器组204和解码侧的逆TDAC变换滤波器组214。此外，分别处于编码和解码侧的窗函数203和213去除滤波器边界处的TDAC变换204、214的不连续性。另外，基于变换的编码器201和解码器211包含分别由点205和215表示的诸如瞬变检测器、量化装置、比特分配装置等的附加的部件。

为了进一步降低传输数据速率，诸如HE AAC的某些音频编解码器使用称为谱带复制(SBR)的技术。SBR的基本原理是如下的事实：音频信号的较高频率部分的心理声学的重要性相对较低。因此，使用SBR的音频编解码器仅使用如上所述的基于变换的编码器编码信号谱的较低的半段。信号谱的较高的半段由SBR解码器或合成来产生，这主要是跟随在常规的基于变换的解码器之后的后处理。作为传输高频谱的替代，SBR基于对基本的编码器中传输的低频的分析而在解码器中重构较高频率。为了确保精确的重构，以非常低的数据速率在编码的比特流中传输一些引导信息(guidance information)。这种在编码侧使用QMF(正交镜像滤波器)分析的SBR分析在图2中被图示为块202。典型地，这种QMF分析通过分析例如64信号子带来确定必要的谱信号信息。在解码侧，在使用包含64子带的QMF合成滤波器组的SBR合成212内使用信号信息。

以上概述的基于变换的编码方案的主要优点在于，信号分量和相应的量化噪声分量(意图被掩蔽)被保持在临界带宽内，从而从人耳的掩蔽特性得到最大益处，并且使感知上无噪声的编码所需要的所得数据速率最小化。

在转向DRC元数据的编码变换之前，将提供对在音频解码器处使用这种DRC元数据的简短概述。对于每一个帧或块，音频解码器将分析表示是否对于特定的帧传输了新的增益值的接收的比特流。如果未提供新的增益值，那么解码器将使用最近传输的增益值。另一方面，如果接收了新的增益值，那么将读入并应用该新的增益值。

对于诸如AAC和AC-3之类的某组音频编解码器，新接收的增益值将被用于放大或衰减从帧中被解码出的谱音频数据。换句话说，在施加逆TDAC变换之前，增益被应用于谱音频子带。由于该变换的施加和典型地与该变换相关地施加的采样重叠并且由于相关联的加窗，因此，将在连续的帧之间有效地内插增益值。在本语境中，内插函数可被视为加权函数。在图3中图示这种经内插的增益曲线，其中，示出AAC编解码器的S形内插函数301。典型的内插函数被示出为图4a中的绘图401。在图4b中示出相应的窗函数402。另外，应当注意，也可使用非对称的窗函数和相关联的内插函数。例如当窗函数从一个信号块改变到下一个信号块时，会发生这种非对称的窗函数。在图4c中，图示这种非对称的窗函数411和412以及它们的相关联的内插函数421和422。

此外，图5示出对于三个接连的块或帧的经内插的增益曲线。可以看出，通过产生典型的S形内插曲线501的AAC窗函数，内插从零块到第一块的6dB到0dB的增益过渡。从第一块到第二块，增益值在0dB保持不变，使得增益曲线502保持平坦。然后，在第三块中发生向-3.5dB的另一增益过渡，这再次导致典型的S形内插曲线502。

对于诸如HE AAC编解码器之类的另一组音频编解码器，将不对MDCT谱施加增益。作为替代，将在典型地跟随在逆MDCT变换之后的QMF(正交镜像滤波器)分析之前施加它。缺省情况下，增益值如图3所示在相邻的帧或时隙之间被线性内插作为内插曲线302。另外，HE AAC比特流语法多保留3个比特以选择8个不同的内插曲线303中的一个。这些方案基本上不内插，但在预定的过渡曲线之后“突兀地”跳到新增益之前以不同的时间量保持旧的增益值。图3示出跨帧宽度分布的一组过渡曲线303。这种突兀的增益过渡曲线更好地匹配诸如增益攻击之类的希望突然的增益变化时的情况。并且，对于HEAAC编码方案，一系列的增益值被有效内插以形成如图3所示的增益曲线302和303。该内插与QMF合成的冲击响应有关。

为了便于讲解，可以假定也将被称为增益曲线的增益控制信号具有无限高的分辨率，而在实际中，增益值仅在离散的网格上被采样。为了从一种表示变为另一种表示，可以假定将采样的增益值内插到时间连续的增益值的内插级。该级典型地遵守以上规划的解码器的采样和保持语义。作为对于每个帧携带增益控制系数的替代，诸如Dolby E之类的一些音频数据格式允许所选择的元数据配置文件特别是压缩器配置文件的信号传送。出于编码变换目的，这样的压缩器配置文件可被视为增益控制信号。事实上，压缩器配置文件隐含地向每个音频信号采样分配特定的增益值。因此，压缩器配置文件实际上定义增益控制信号。使用内插级，这些增益控制信号也具有时间连续信号表示。

以下，将进一步分析对元数据进行编码变换的问题。在这种语境中，参照W.Schildbach等人的“Transcoding of dynamic range controlcoefficients and other Metadata into MPEG-4 HE AAC”，AudioEngineering Society，123.Convention，Oct.5-8，2007，New York，NY，以引用方式将其包含在此。

如以上已提及的，编码变换的目标是，经受经编码变换的元数据的、特别是经受经编码变换的增益值的音频信号与施加有原增益的音频信号听起来相同或尽可能地相似。从该规定的目标，可以制订对编码变换算法的一定数量的约束：

●在呈递给原增益值的信号未破音的情况下，呈递给经编码变换的增益值的信号也不应破音。即，信号必须保留破音保护。可通过挑选增益采样使得对经编码变换的信号施加的增益决不超过进入的增益来实现这一点。

●对于静态增益曲线，经编码变换的增益曲线应相同。即，在原增益曲线和经编码变换的增益曲线之间不应存在准静态信号的不匹配。

●当发生动态增益变化时，对经编码变换的信号施加的增益应尽可能接近地模仿进入的增益，即，释放和攻击时间应相似。

考虑这些约束，可以制订出一定数量的编码变换算法。以下将概述这些编码变换算法。初始音频编码格式的增益值将被称为源增益值，并且，相应的音频编码格式将被称为源编码方案的源格式。经编码变换的增益值将被称为目标增益值，并且，相关联的音频编码格式将被称为目标编码方案的目标格式。

应当注意，取决于特定的编码变换情况，可以对约束的不同集合或子集进行不同的强调。在某些情况下，确保目标增益曲线总是小于或等于源增益曲线可能是有益的。如果要避免目标侧的音频信号的破音，那么这会是优选的选项。另一方面，仅在采样点的某种集合处确保目标增益曲线小于或等于源增益曲线可能也是足够的。作为例子，规定只有这些目标增益值小于或等于源增益值可能是足够的。在这样的情况下，可能会发生：由于源侧和/或目标侧的内插，在某些点处，目标增益曲线超过的源增益曲线。但是，这可能以可能可容忍的过调制效果为代价而产生源增益曲线和目标增益曲线的更好的总体匹配。此外，在一些编码变换情况下进一步弱化关于目标增益曲线或目标增益值小于或等于源增益曲线或源增益值的约束可能是合适的。在这样的情况下，可在增益曲线的总体匹配上进行更强的强调。

还应当注意，以下的算法可被用于将增益元数据从源编码方案向目标编码方案渐进地进行编码变换。由于经编码的音频信号的实时特性，因此这是重要的。因此，在典型的编码变换情形中不可能缓冲任意数量的源编码块并且对这些缓冲的源编码块执行总体编码变换操作。因此，适当的编码变换算法需要在逐块的基础上执行渐进的编码变换。可以用以下的编码变换算法实现这种渐进的块方式编码变换。

此外，应当注意，以下的算法适用于不相称的(noncommensurate)成帧。这意味着，关于帧尺寸即每个帧的采样数量或每个帧包含的音频信号的长度以及关于帧的同步化即它们各自的开始和完成时间这两者，源编码方案的成帧和目标编码方案的成帧可以任意地不同。事实上，甚至是源编码方案和目标编码方案的采样速率也可不同。

此外，可以说，以下的算法不仅限于音频增益数据的编码变换，而且还可应用于将信号从一种经压缩的比特流格式向格式的成帧不兼容的另一种格式进行编码变换的任何装置。关于音频编码的一些例子是Dolby E向/从HE AAC编码变换器或Dolby Digital向/从HE AAC编码变换器。作为例子，即使Dolby Digital比特流对于元数据分配空间，由于AAC/HE-AAC和Dolby Digital比特流具有不同的成帧这一事实，因此也不可能将元数据从AAC/HE-AAC比特流向Dolby Digital比特流进行直接映射。因此，为了保留在AAC/HE-AAC比特流中携带的元数据，需要用于执行元数据变换的如以下描述的方法和算法那样的方法和算法。

算法1：排序滤波器(rank-order filter)

满足或近似上面提及的约束的一种可能是向源增益值应用排序滤波器。令g′_i，i＝0，...，N-1为N个帧的目标格式的目标增益值，并且，令g_j，j＝1，...，M-1为M个帧的源格式的源增益值。此外，令t′_i为要施加相关联的目标增益值g′_i的时刻，并且，令t_j为要施加源增益值g_j的时刻。

由于在源格式的解码器中采用的滤波器组的内插函数和/或窗函数，源增益值g_j限定被称为G(t)的连续的源增益曲线，其由两个相邻的源增益值g_j和g_j+1之间的曲线段G_j(t)的级联构成。如果W(t)是两个源增益值之间的内插或加权函数，那么曲线段G_j(t)可被写为：

G_j(t)＝g_j(1-W(t-t_j))+g_j+1W(t-t_j). (1)

图6图示这种经内插的源增益曲线G(t)601，其由曲线段G_j(t)，j＝0，...，7的级联构成。换句话说，源增益曲线G(t)601基于时刻t_j，j＝0，...，8处的9个源增益值g_j，j＝0，...，8。在图示的例子中，基本源编码方案是对其选择了线性内插方法的HE AAC。该线性内插方法解释了相邻的源增益值g_j之间的线性过渡。应当注意，其它的编码方案提供类似的经内插的源增益曲线。

可以论证，当通过下式选择时刻t′_i处的目标增益值g′_i时

g′_i＝min{g_j||t′_i-t_j|≤β}， (2)

则可以在一定的辅助条件下满足上述的编码变换约束。一般地，可以说，如果选择β使得

β≥max{(t′_i+1-t′_i)，(t_j+1-t_j)} (3)

那么经内插的目标增益曲线将总是保持在经内插的源增益曲线下方。特别地，当基本编码方案使用线性内插方案时，这是适用的。

在图7a和图7b中示意性地示出这一点。图7a图示(t′_i+1-t′_i)≤(t_j+1-t_j)，即目标编码格式的帧尺寸小于或等于源编码格式的帧尺寸的情况。作为例子，在将元数据从HE AAC长帧分辨率向Dolby Digital进行编码变换时，可能会发生这样的情况。源增益曲线701由圆圈所表示的在时刻t₀、t₁、t₂和t₃处的源增益值g_j限定。出于简化的原因，应用了从HE AAC获知的线性内插。从图7a可以看出，如果β被选择为大于或等于(t_j+1-t_j)，那么可使用式(2)确定时刻t′₀直到t′₁₈处的一系列的目标增益值g′_i。这些目标增益值g′_i在图7a中被表示为叉子，并且产生总是在源增益曲线701下方的目标增益曲线702。利用指示出将(t_j+1-t_j)时刻向后和向前延伸的时刻t′₈周围的时间间隔的双箭头703，可以看出g′_i的式子的运算的模式。换句话说，β等于(t_j+1-t_j)。在该时间间隔内，选择具有以下关系的最小源增益值g_j作为目标增益值g′_i。

在时刻t′₈处，目标增益值g′₈被确定为时刻t₂处的源增益值g₂。

图7b图示(t′_i+1-t′_i)≥(t_j+1-t_j)即目标编码格式的帧尺寸大于或等于源编码格式的帧尺寸的情况。作为例子，在从Dolby Digital向HE AAC长帧分辨率进行编码变换时，可能发生这种情况。时刻t₀直到t₁₈处的源增益值g_j由圆圈表示，并且得到源增益曲线G(t)711。当选择β使其大于或等于(t′_i+1-t′_i)时，可使用式(2)确定时刻t′₀直到t′₃处的一系列的目标增益值g′_i。这些目标增益值在图7b中被表示为叉子。可以看出，这些目标增益值g′_I得到总是在源增益曲线G(t)711下方的目标增益曲线712。与图7a类似，双箭头713指示出对于β＝(t′_i+1-t′_i)的时刻t′₁周围的时间间隔。

现在关注图6，在图6中，对于(t′_i+1-t′_i)＝(t_j+1-t_j)的情况图示编码变换例子。可以看出，如果β＝(t′_i+1-t′_i)，那么获得虚线的目标增益曲线602。此外，由双箭头604图示时刻t′＝4周围的相关联的时间间隔。应当注意，与源增益曲线601的压缩器释放相比，目标增益曲线的压缩器释放被延迟。确切地说，源增益曲线的压缩器释放开始于时刻t＝3，而目标增益曲线的压缩器释放仅开始于时刻t′＝4。另一方面，可以看出，与源增益曲线的攻击相比，目标增益曲线的攻击被提前。确切地说，源增益曲线的压缩器攻击开始于时刻t＝2，而目标增益曲线的压缩器攻击在时刻t′＝1已开始。

图6还示出第二目标增益曲线603，该第二目标增益曲线603是通过选择参数β＝0.5＊(t′_i+1-t′_i)、即在式(3)中规定的极限下方的参数值获得的。当选择满足下式的参数β时，不再能确保目标增益曲线总是在源增益曲线下方。

β＜max{(t′_i+1-t′_i)，(t_j+1-t_j)}， (5)

但是，参数β的变化给出对于压缩器释放的延迟量和/或压缩器攻击的提前量的控制。图6中的目标增益曲线603示出：当选择β＝0.5＊(t′_i+1-t′_i)时，压缩器攻击和释放曲线可移动为与目标增益曲线602相比更接近源增益曲线601。用于确定目标增益值的相关时间间隔的尺寸作为在时刻t′＝4处的双箭头605而被示出。但是，应当注意，由于太低的β值会导致显著超过源增益曲线的目标增益，因此，应小心挑选使得β＜max{(t′_i+1-t′_i)，(t_j+1-t_j)}的参数β。这种过度的增益上冲(overshoot)会导致诸如破音之类的可听的音频缺陷。因此，适当的参数β的选择是元数据编码变换器的设计人员在考虑多个不同的方面的情况下做出的折衷。作为例子，这样的方面可包括应用的音频编码格式、经编码的内容、从源编码方案向目标编码方案的编码变换的方向以及其他方面。

应当注意，可以以低的计算复杂度实现该算法，特别是在与不同的时刻t_j相关联的元数据以预先排序的方式到来的情况下。这是由于用于目标增益值g′_i的计算的源增益值g_j的数量少这一事实。典型地，仅需要用于确定最小值的非常少的比较运算。此外，应当注意，为了确定目标增益值g′_i，所提出的排序滤波器算法仅利用源增益值g_j及其相关联的时刻t_j。该数据可容易地从编码变换单元处的元数据比特流直接获得，并且不需要任何附加的处理。该性质增进所提出的排序滤波器算法的低计算复杂度。

图8图示使用上述的排序滤波器算法对源增益曲线801进行编码变换的另一例子。在图示的例子中，源编码格式的帧尺寸是256采样，而目标编码格式的帧尺寸是2048采样。参数β被选择为β＝max{(t′_i+1-t′_i)，(t_j+1-t_j)}。当诸如Dolby Digital之类的编码方案被编码变换成具有限定相对较长帧尺寸的可能的HE AAC以便为较低带宽传输做准备时，可能会发生这种编码变换情况。图8还示出经编码变换的目标增益曲线802，并且，可以看出，与对参数β的规定的条件一致，经编码变换的增益曲线802在源增益曲线801下方。此外，可以观察到，攻击被提前，而压缩器释放被延迟。通过选择参数β使得β＜max{(t′_i+1-t′_i)，(t_j+1-t_j)}，可以减少这种效应。但是，这是以目标增益曲线的与源增益曲线相比的可能的过冲为代价的。

此外，应当注意，当选择β＜max{(t′_i+1-t′_i)，(t_j+1-t_j)}时，特别是在(t′_i+1-t′_i)≤(t_j+1-t_j)即目标编码格式的帧尺寸小于或等于源编码格式的帧尺寸的情况下，可能发生不能在时刻t′_i周围的间隔[t′_i-β，t′_i+β]中识别源增益值g_j的情况。在这样的情况下，式子g′_i＝min{g_j||t′_i-t_j|≤β}将不能产生用于目标增益值g′_i的值。因此，利用解码器的采样和保持行为并且假定目标增益值g′_i保持不变直到使用上述的式(2)识别了新值目标增益值会是有益的。换句话说，目标增益值式可被写为

{g^{'}}_{i} = \{\begin{matrix} \min {g_{i} | | {t^{'}}_{i} - t_{j} | \leq β}, t_{j} &Element; [{t^{'}}_{i} - β, {t^{'}}_{i} + β] \\ {g^{'}}_{i - 1}, t_{j} &NotElement; [{t^{'}}_{i} - β, {t^{'}}_{i} + β] \end{matrix} - - - (6)

作为替代方案，也可对于源编码方案利用解码器的采样和保持行为。这意味着，如果不能在时刻t′_i周围的间隔[t′_i-β，t′_i+β]中识别更新的源增益值g_j，那么最后检测的源增益值被假定为当前源增益值g_j。用于确定目标增益值g′_i的式子于是可被重写为：

{g^{'}}_{i} = \{\begin{matrix} \min {g_{j} | | {t^{'}}_{i} - t_{j} | \leq β}, t_{j} &Element; [{t^{'}}_{i} - β, {t^{'}}_{i} + β] \\ g_{j}, j | (t_{j} \leq {t^{'}}_{j})^\min ({t^{'}}_{i} - t_{j}), t_{j} &NotElement; [{t^{'}}_{i} - β, {t^{'}}_{i} + β] \end{matrix} - - - (7)

两种“采样和保持”途径的优点在于，仅基于源增益值g_j而确定目标增益值g′_i。如上面概述的那样，排序滤波器算法的该性质有助于其低计算复杂度。

作为替代方案，进一步考虑源增益曲线G(t)的确切过程并且使用变型的下式确定目标增益值g′_i会是有益的。

g′_i＝min{G(t)||t′_i-t|≤β} (8)

在(t′_i+1-t′_i)≤(t_j+1-t_j)即目标编码格式的帧尺寸小于或等于源编码格式的帧尺寸的情况下，这会是特别有益的，这是因为用于选择目标增益值g′_i的适当的源增益值的集合将决不会为空。相关联的算法将被称为一般化的排序滤波器算法(generalized rank-order filteralgorithm)。

另一方面，应当注意，该变型的选择式需要元数据编码变换器处的源增益曲线的知识。特别地，元数据编码变换器需要具有由源编码方案使用的内插函数W(t)的知识或者甚至可能是内插函数的集合。基于这些内插函数W(t)和源增益值g_j，可确定源增益曲线段G_j(t)以及由此确定源增益曲线G(t)。总的来说预期：通过使用变型的选择式，与仅使用源增益值g_j的排序滤波器算法版本相比，编码变换算法的计算复杂度将会增大。

还应当注意，可通过仅考虑源增益曲线G(t)的采样的集合来对上述的式(8)进行变型。作为例子，仅考虑目标增益值的时刻t′_i处和/或源增益值的时刻t_j处的源增益曲线的值会是有益的。该式子于是可被重写为

g′_i＝min{G(t)||t′_i-t|≤β}，with t∈{t′_i，t_j} (9)

将源增益曲线G(t)限于采样值的集合可减少一般化的排序滤波器算法的计算复杂度。此外，应当注意，可通过两个相邻的源增益值g_j、g_j+1和内插加权函数W(t)来描述源增益曲线G(t)的一段。因此，如果仅需要源增益曲线G(t)的采样的集合，那么可从源增益值g_j和内插函数W(t)的采样的有限集合确定采样的该完整集合。内插函数W(t)的采样的有限集合可例如被存储于元数据编码变换器的存储器中。

还可设想使用两个选择式的组合，即排序滤波器算法和一般化的排序滤波器算法的组合。作为例子，以下会是有益的：对于目标块尺寸大于或等于源块尺寸的情况使用仅利用源增益值g_j的低复杂度排序滤波器算法，而对于目标块尺寸小于源块尺寸的情况，使用利用源增益曲线G(t)或者其采样的集合的较高复杂度的一般化的排序滤波器算法。

算法2：“最佳匹配”增益

为了确定满足或至少近似上述的对于编码变换的约束的第二算法，将比较源增益曲线G(t)和目标增益曲线G′(t)。令W′(t)为目标解码方案的内插函数。作为例子，用于AAC编解码器的内插函数可以以窗尺寸的一半为单位被写为W′(t)＝(sin(tπ/2))²。该内插或加权函数典型地是窗函数的平方。应当注意，一些编解码器还预见窗切换使得内插函数W′(t)可从一个编码块变为另一个的可能性。此外，编解码器的块尺寸可改变，这也导致窗函数的变化。可通过对于各增益曲线段选择适当的内插函数W′(t)来考虑这些效应和情况。

使用目标解码方案的内插函数W′(t)，两个目标增益值g′_i和g′_i+1之间的经内插的目标增益曲线G′(t)可被写为

G′_i(t)＝g′_i(1-W′(t-t′_i))+g′_i+1W′(t-t′_i) (10)

可通过将相邻的目标增益曲线段G′_i(t)进行级联而获得总体目标增益曲线G′(t)。

令g_j，i表示使得t′_i＜t_j，i＜t′_i+1的时刻t_j，I处的所有源增益，即两个接连的目标增益值g′_i和g′_i+1之间的时间间隔内的源增益值的组。应当注意，由于源编码方案上以及目标编码方案上两者的帧尺寸的“运行中”变化，因此，该时间间隔内的源增益值的组及其时间间隔的长度会根据特殊情况而随时改变(change on a ad hoc basis)。因此，t_j，i中的i和j的可能的组合也会在逐块的基础上而改变。

选择目标增益值g′_i、更精确地说小于或等于时间间隔[t′_i，t′_i+1]内的一系列的源增益值g_j，i的目标增益曲线段G′_i(t)的条件可被写为

G′_i(t_j，i)≤g_j，i (11)

换句话说，时刻t_j，i处的目标增益曲线G′(t)需要小于或等于时刻t_j，i处的源增益值。

将时刻(t_j，i-t′_i)处的目标解码方案的内插函数定义为采取W′_j，i＝W′(t_j，i-t′_i)的值并且考虑用于目标增益曲线段G′_i(t)的式子，该条件可被写为

g′_i(1-W′_j，i)+g′_i+1W′_j，i≤g_j，i，

该式可被重写为

{g^{'}}_{i + 1} \leq \frac{1}{{W^{'}}_{j, i}} g_{j, i} - \frac{1 - {W^{'}}_{j, i}}{{W^{'}}_{j, i}} {g^{'}}_{i}

该联立的不等式组需要对于所有的目标增益值g′_i，

i有效。此外，所有的目标增益值g′_i需要大于或等于零，即，g′_i≥0，

i。对于归一化的内插函数，即，对于|W′(t)|≤1的内插函数，这也导致对

的观察，因此，不等式可被重写为

0 \leq {g^{'}}_{i + 1} \leq \frac{1}{{W^{'}}_{j, i}} g_{j, i} - \frac{1 - {W^{'}}_{j, i}}{{W^{'}}_{j, i}} {g^{'}}_{i} \leq \frac{1}{{W^{'}}_{j, i}} g_{j, i} . - - - (12)

以类似的方式，用于目标增益曲线段G′_i(t)之后的相邻的目标增益曲线段G′_i+1(t)的不等式可被写为：

G′_i+1(t)＝g′_i+1(1-W′_j，i+1)+g′_i+2W′_j，i+1≤g_j，i+1， (13)

其中，W′_j，i+1＝W′(t_j，i+1-t′_i+1)，其中t′_i+1＜t_j，i+1≤t′_i+2。由于g′_i≥0，i并且内插函数W′(t)被归一化即W′_j，i≤1，i，j的事实，因此，该不等式提供g′_i+1的另一条件，即

{g^{'}}_{i + 1} \leq \frac{1}{(1 - {W^{'}}_{j, i + 1})} g_{j, i + 1} - \frac{{W^{'}}_{j, i + 1}}{(1 - {W^{'}}_{j, i + 1})} {g^{'}}_{i + 2} \leq \frac{1}{(1 - {W^{'}}_{j, i + 1})} g_{j, i + 1}, - - - (14)

如以上已提及的，由源编码方案的块尺寸和目标编码方案的块尺寸之间的当前关系给出i和j的可能的组合。这些可能的组合可在逐块的基础上发展以及不同。

设定g′₀＝0，可从由所述不等式组提供的范围选择剩余的g′_i，i＞0。

对于目标编码方案[t′_i，t′_i+1]的时间间隔大于或等于源编码方案[t_j，t_j+1]的时间间隔的例子，在图9a中图示选择的过程。图9a示出通过分别在时刻t₀直到t₁₈处的源增益值g₀直到g₁₈的内插获得的源增益曲线901。对于该源增益曲线901，要确定经编码变换的目标增益曲线G′(t)。在图示的例子中，该目标增益曲线包含在图9中分别被示为绘图段902、903和904的三个目标增益曲线段G′₀(t)、G′₁(t)和G′₂(t)。对于G′₀(t)并且对于G′₁(t)和G′₂(t)以类似的方式，在时间间隔[t′_i，t′_i+1]内G′_i(t_j，i)≤g_j，i的条件对于图示的例子可被写为

G′₀(t₀)≤g₀，G′₀(t₁)≤g₁，G′₀(t₂)≤g₂，G′₀(t₃)≤g₃，G′₀(t₄)≤g₄，G′₀(t₅)≤g₅，G′₀(t₆)≤g₆

当使用目标解码器W′(t)的内插函数时，可以计算对于j＝0，...，6的值W′_j，0＝W′(t_j，0-t′₀)。通过在以上提供的等式中使用这些内插值，可以获得作为先前选择的目标增益值g′₀的函数的目标增益值g′₁的不等式组。使目标增益曲线段G′₀(t)即绘图902与间隔[t′₀，t′₁]中的源增益曲线901匹配的一种优选方式是选择使得同时满足所有不等式的最大目标增益值g′₁。

应当注意，需要小心地从导出的不等式所允许的范围挑选目标增益值g′_i。如果目标增益值g′_i的局部最佳值被选择，那么以上的不等式会显著限制之后的目标增益值g′_i+1的可能的值的选择。这会最终导致典型地不希望的振荡的目标增益曲线G′(t)。当选择g′₀＝0时，可以看到这种振荡行为的一个例子，其将为根据上述的式(12)和(14)对g′₁选择最佳和最大值留下大的自由度。但是，由于大的校正部分

因此这会需要选择小的或甚至为零的g′₂。在下一步骤中，可根据不等式组自由地使下一目标增益值g′₃最大化。可以看出，一次仅应对一个目标增益值g′_i的这种局部化的优化和选择过程会导致目标增益曲线G′(t)中的不希望的振荡。

因此，在更全局的优化过程内选择目标增益值而不对于数据局部地过拟合(over fitting)会是有益的。作为例子，可通过将目标增益值g′_i呈递给附加的约束，诸如通过将目标增益值限制为大于或等于根据上面概述的排序滤波器算法确定的目标增益值g′_i，避免振荡。于是，除了在上下文中用最佳匹配增益算法概述的不等式之外，还要满足这些条件。

此外，应当注意，在不存在源增益值g_j，i的目标时间间隔[t′_i，t′_i+1]其中t′_i＜t_j，i≤t′_i+1的情况下，以上的算法将不提供不等式G′_i(t_j，i)≤g_j，i。因此，不存在限制相应的目标增益值g′_i的选择的条件。当目标编码方案的块/帧尺寸小于源编码方案的块尺寸时，会发生这样的情况。可例如通过应用音频解码器的采样和保持行为来克服该问题。作为例子，在这样的情况下，g_j，i可被选择为最后知晓的源增益值g_j。

作为替代方案，在“最佳匹配”增益算法不提供任何条件的这样的情况下，根据上面概述的排序滤波器算法选择目标增益值g′_i也会是有益的。此外，在另一实施例中，从间隔[t′_i-β，t′_i+β]选择可能的源增益值g_j也会是有益的，其中，可根据在排序滤波器算法的上下文中概述的式子来选择参数β。使用这些可能的源增益值g_j，可以制定根据概述的“最佳匹配”增益算法的不等式，从而可以确定适当的目标增益值。

所描述的“最佳匹配”增益算法基于源增益值g_j选择适当的目标增益值g′_i。另外，其考虑根据上面指示的式子用内插函数W′(t)内插目标增益值g′_i得到的目标增益曲线G′(t)的过程。这种元数据编码变换器不需要获知在源编码方案中使用的内插方案，而是单纯依赖于可很容易地在元数据比特流内得到的源增益值。因此，可以以低计算复杂度实现“最佳匹配”增益算法。此外，应当注意，元数据编码变换器不需要具有目标编码方案的内插函数W′(t)的确切知识。事实上，元数据编码变换器只需要知晓该内插函数的特定的采样W′_j，i。这些采样可作为表而被存储于元数据编码变换器的存储器中。

还应当注意，与排序滤波器算法类似，“最佳匹配”增益算法可被一般化，使得为了编码变换的目的不仅考虑源增益值而且考虑源增益曲线。“最佳匹配”增益算法假设：在源增益值的时刻处，目标增益曲线应小于或等于源增益值，即G′_i(t_j，i)≤g_j，i。如果元数据编码变换器知晓源增益曲线，那么该条件可被重新制订为声明：在源增益值的时刻处，目标增益曲线应小于或等于源增益曲线，即G′_i(t_j，i)≤G_j(t_j，i)，其中t′_i＜t_j，i≤t′_i+1并且t_j＜t_j，i≤t_j+1。使用以上提供的目标增益段G′_i(t)和源增益段G_j(t)的内插曲线，该不等式可被写为：

g′_i(1-W′(t_j，i-t′_i))+g′_i+1W′(t_j，i-t′_i)≤g_j(1-W(t_j，i-t_j))+g_j+1W(t_j，i-t_j). (15)

将W′_j，i＝W′(t_j，i-t′_i)定义为时刻t_j，i即处于目标增益曲线的第i个曲线段中且处于源增益曲线的第j个曲线段中的时刻处的目标编码方案的内插函数的值。以类似的方式，可以定义W_j，i＝W(t_j，i-t_j)。使用源编码方案的和目标编码方案的内插函数的这些采样值，以上的不等式可被写为：

{g^{'}}_{i + 1} \leq \frac{1}{{W^{'}}_{j, i}} [g_{j} (1 - W_{j, i}) + g_{j + 1} W_{j, i} - (1 - {W^{'}}_{j, i}) {g^{'}}_{i}] . - - - (16)

与对于仅使用源增益值的“最佳匹配”增益算法提供的式子类似，该式子提供用于基于先前的目标增益值g′_i计算目标增益值g′_i+1的递归方法。得到的算法被称为一般化的“最佳匹配”增益算法。这对于(t′_i+1-t′_i)≤(t_j+1-t_j)的情况、即两个相邻的源增益值之间的时间间隔大于或等于两个相邻的目标增益值之间的时间间隔的情况是特别有益的。如上面概述的那样，对于这些情况，可能发生不存在能满足条件t′_i＜t_j，i≤t′_i+1的源增益值g_j，i的情况。在这样的情况下，一般化的“最佳匹配”增益算法会在源增益曲线上提供适当的经内插的增益，并且允许基于其先前的目标增益值g′_i和经内插的源增益值来确定目标增益值g _i+1。

在图9b中可以看到用于(t′_i+1-t′_i)＜(t_j+1-t_j)的情况的一般化的“最佳匹配”增益算法的功能性，其中，经线性内插的增益曲线921被编码变换成经S曲线内插的增益曲线922。当将HE-AAC增益元数据编码变换成AAC或AC-3增益元数据时，会发生这样的情况。

在该特定的例子中，源编码方案的块尺寸正好为目标编码方案的块尺寸的6倍，此外，块边界正好重叠，即，第一目标编码块t′₀的时刻与第一源编码块t₀的时刻一致，t′₆与t₁一致，等等。对于图9b所图示的特定的情况，W′_j，i＝1并且上述的递归式变为g′_i+1≤|g_j(1-W_j，i)+g_j+1 W_j，i|。选择在这种情况下与时刻t′_i+1处的源增益曲线的值对应的最大可能的目标增益值是优选的选项。在图9b中示出这一点，其中，时刻t′₁₀处的目标增益值g′₁₀被示为叉子931。总的来说，可以看出，目标增益曲线922相当好地与源增益曲线921匹配。还可看出，如式(15)要求的那样，在时刻t_j，i处，目标增益曲线922小于或等于源增益曲线921。另一方面，由于目标编码方案的S曲线内插，因此，目标增益曲线有时大于源增益曲线。如上面强调的那样，在某些编码变换情况下，特别是当对两个增益曲线的总体匹配进行更强的强调时，对于使得目标增益曲线应总是小于或等于源增益曲线的一般约束的这种弱化会是有益的。

应当注意，使用“最佳匹配”增益算法和一般化的“最佳匹配”增益算法的组合会是有益的。作为例子，对于目标编码方案的块尺寸大于或等于源编码方案的块尺寸的情况，即，用于从AC-3向HE AAC进行编码变换的情况等，可使用“最佳匹配”增益算法。另一方面，对于目标编码方案的块尺寸比源编码方案的块尺寸小的情况，即，用于从HE AAC向AC-3进行编码变换的情况等，可使用一般化的“最佳匹配”增益算法。通过组合这些算法，可以进行计算复杂度和匹配性能之间的折衷。

算法3：内插挑选

另一种算法利用作为所谓的增益内插方案的MPEG-4 HE AAC所提供的附加的DRC增益控制功能。如上面概述的那样，HE AAC允许选择不同的内插方案，并且允许从两个相邻的增益值之间的线性内插或两个相邻的编码块之间的八个时刻中的一个处的突兀的“攻击”状内插进行选择。因此，增益内插方案使得能够控制两个增益控制点或增益值之间的增益内插曲线的形状。已用图3的绘图302和303在上下文中描述了这一点。可以看出，慢的内插302很好地适于对平滑的指数增益释放进行建模，而内插方案303可对急剧的增益攻击进行建模。

对于诸如HE AAC之类的其中目标编码方案允许选择不同的内插方案或不同的内插曲线图案的情况，该观察引发用于将源增益曲线编码变换成目标增益曲线的以下的算法。目标编码方案应至少允许选择可能平滑的“释放”内插曲线图案和可能的突兀的“攻击”内插曲线图案。该算法由以下的步骤组成：

1.估计源增益曲线的斜率。这可例如通过分析其一阶导数或通过计算适当的相邻的源增益值之间的差值来进行。如果负斜率超过一定的阈值，那么将当前帧归类为“攻击”(A)，否则，将当前帧归类为“释放”(R)。

2.如果当前帧被归类为(R)，那么根据以上概述的排序滤波器算法确定下一目标增益值。此外，选择目标编码方案的平滑或“释放”内插曲线。

3.如果当前帧被被归类为(A)，那么根据以上概述的排序滤波器算法确定下一目标增益值。如果源编码方案是诸如AAC或AC-3之类的基于变换的编解码器，那么下一目标增益值也可被选择为以AAC窗中心为中心的目标增益的最小值。在确定适当的下一目标增益值之后，选择目标编码方案的“攻击”内插曲线图案。此外，如果目标编码方案允许选择不同的时刻处的多个“攻击”内插曲线图案中的一个，那么选择斜率与源增益曲线的一阶导数的绝对值最高的点即斜率最陡的点最接近的“攻击”内插曲线图案。取决于源编码方案，可通过不同的手段确定源增益曲线上的该点。作为例子，对于AAC的S形内插曲线，两个相邻的源增益值之间的最陡的斜率的点是这两个源增益值之间的中点。

图10图示将增益元数据从诸如AAC或AC-3之类的基于变换的编码方案向HE AAC进行编码变换的仿真结果。绘图1001示出源增益曲线，绘图1002示出目标增益曲线。可以看出，当使用所描述的内插挑选算法时，可以实现非常好的增益匹配结果。事实上，观察到的结果比用所描述的排序滤波器算法获得的结果更好。原因之一是，这是由于内插挑选算法另外使用目标编码方案的功能以在不同的内插曲线之间进行选择的事实。基于“攻击”段和“释放”段中的源增益曲线的分类来执行该选择。换句话说，该内插挑选算法不仅考虑源增益值和目标编码系统的窗和/或内插函数，而且，它还分析源增益曲线的过程，以便确定适当的目标增益值并最终确定适当的目标增益曲线图案。在更一般的方面，可以说，该内插挑选算法考虑源增益值和源解码器的窗和/或内插函数以及目标增益值和目标解码器的窗和/或内插函数。

本文件提供用于在源编码方案和目标编码方案之间对增益元数据进行编码变换的几种算法。在音频流的制作中心和音频流的最终发射点之间，需要在几种场合下执行增益元数据的这种编码变换。所描述的算法允许在具有不同的编码块或帧长度以及相邻的增益值之间的不同的时间间隔的不同编码方案之间进行灵活的编码变换。此外，编码块的这些长度可在任何时间改变，并且，相邻的增益值之间的时间间隔也可在音频流内的任何时间改变。所描述的算法考虑源和目标编码方案的这种灵活性，并且允许在变化的块长度和变化的时间间隔的编码方案之间进行灵活的编码变换。另外，所描述的算法在源增益曲线和目标增益曲线之间产生最佳的匹配，并且，可考虑目标增益曲线应保持在源增益曲线下方的这种约束，以便避免诸如破音之类的不希望的效果。

最后，应当注意，已描述了多个算法，所述多个算法满足关于在元数据编码变换器内处理的计算复杂度和数据量的不同的要求。纯粹基于可在元数据比特流内得到的源增益值来执行元数据编码变换可能是有益的。这将用减少的处理器和存储器要求来提供非常低的复杂度的编码变换算法。这是例如排序滤波器算法的情况。当另外考虑目标编码方案的内插方案和窗函数时，可以改善编码变换性能。这是例如“最佳匹配”增益算法和内插挑选算法的情况。在这种情况下也是同样，元数据编码变换器可直接基于可从元数据比特流得到的信息执行编码变换。事实上，不会在元数据编码变换器处需要关于源编码方案的详细的知识。最终，如果也考虑源编码方案的内插方案和窗函数，那么可进一步改善元数据编码变换。这是一般化的排序滤波器算法和一般化的“最佳匹配”增益算法的情况。但是，这些算法在元数据编码变换器处要求关于源编码方案的附加信息。这种数据可例如被存储在元数据编码变换器的存储器中，并且可被限于窗函数的选择的采样。例如，如果在消费者机顶盒内执行元数据编码变换，那么这种数据可被存储在机顶盒的存储器中。

应当注意，可以以多种方式组合上述的算法。作为例子，对于特定的编码变换情况使用一种算法并且如果编码变换情况改变则换到另一算法可能是有益的。当编码方案的块尺寸例如从长块变为短块时，可能发生这种改变编码变换情况。此外，当应用不同的窗函数时，内插条件可能改变。因此，应当理解，所描述的算法的各种组合被视为本发明的一部分。除了对于特定的编码变换情况选择适当的编码变换算法以外，将诸如排序滤波器算法的参数β之类的可用的参数调整为适于特定的编码变换情况也可能是有益的。作为例子，如果在源编码方案或目标编码方案上编码块的长度从长帧变为短帧，那么修改在排序算法中应用的时间间隔可能是合适的。

一般而言，应当理解，可以以任何的组合应用并且可以在逐块的基础上“在运行中”改变在本文件中描述的算法以及它们的相关联的参数，以便适于当前和连续改变的编码变换情况。

Claims

1.一种用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法，其中

所述第一和第二音频编码方案使用编码块；以及

每个编码块具有至少一个相关联的增益值；以及

其中，该方法包括以下步骤：

基于第一增益元数据的增益值选择第二增益元数据的增益值，使得在与该第二增益元数据的增益值相关联的时刻周围的时间间隔内，选择第一增益元数据的最小增益值；

如果没有第一增益元数据的增益值落入与该第二增益元数据的增益值相关联的时刻周围的所述时间间隔内，那么将该第二增益元数据的增益值选择为

与和该第二增益元数据的增益值相关联的编码块之前的编码块相关联的第二增益元数据的增益值；或者

紧接在所述时间间隔之前的第一增益元数据的增益值。

2.根据权利要求1的方法，其中，所述第一和第二音频编码方案的编码块覆盖已编码的音频信号的不同的时间长度。

3.根据权利要求1的方法，其中，所述时间间隔的上限和下限由分别被加到与该第二增益元数据的增益值相关联的时刻和被从与该第二增益元数据的增益值相关联的时刻减去的时间常数来确定。

4.根据权利要求3的方法，其中，所述第一和第二音频编码方案的编码块覆盖已编码的音频信号的某些时间长度，并且，所述时间常数大于或等于以下中的最大值：

第一音频编码方案的编码块的时间长度；和

第二音频编码方案的编码块的时间长度。

5.根据权利要求3的方法，其中，所述第一和第二音频编码方案的编码块覆盖已编码的音频信号的某些时间长度，并且，所述时间常数小于以下中的最大值：

第一音频编码方案的编码块的时间长度；和

第二音频编码方案的编码块的时间长度。

6.根据权利要求1的方法，其中，所述第二音频编码方案允许选择内插第二增益元数据的相邻增益值以形成第二增益曲线的不同的内插曲线；并且，该方法还包括以下步骤：

基于第一增益元数据的增益值，选择第二增益元数据的两个相邻增益值之间的适当的内插曲线。

7.根据权利要求6的方法，其中，基于第一增益元数据的两个相邻增益值之间的差值来选择所述适当的内插曲线。

8.根据权利要求6的方法，其中

第一增益曲线与第一增益元数据的增益值相关联；以及

通过内插第一增益元数据的相邻增益值来获得所述第一增益曲线；以及

该方法还包括以下步骤：基于第一增益曲线的斜率来选择第二增益元数据的两个相邻增益值之间的所述适当的内插曲线。

9.根据权利要求8的方法，还包括以下步骤：

如果第一增益曲线的负斜率高于预定义的阈值，那么检测增益攻击；

如果第一增益曲线的负斜率低于预定义的阈值，那么检测增益释放；以及

基于检测到的第一增益曲线的增益攻击或增益释放来选择第二增益元数据的两个相邻增益值之间的所述适当的内插曲线。

10.根据权利要求9的方法，其中，该方法还包括以下步骤：

基于第一增益曲线的斜率的绝对值最大的位置来选择第二增益元数据的两个相邻增益值之间的所述适当的内插曲线。

11.一种用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的方法，其中

所述第一和第二音频编码方案使用编码块；

每个编码块具有至少一个相关联的增益值；以及

第一增益曲线与第一增益元数据的增益值相关联；以及

其中，该方法包括以下步骤：

将与第二增益元数据的增益值相关联的时刻周围的时间间隔内的第一增益曲线的最小值选择作为该第二增益元数据的增益值。

12.根据权利要求11的方法，其中

选择第一增益曲线的最小值的步骤包含选择所述时间间隔内的第一增益曲线的一组采样的最小值。

13.根据权利要求12的方法，其中

第一增益曲线的所述一组采样对应于与落入所述时间间隔内的第二增益值的编码块相关联的时刻处的第一增益曲线的采样。

14.一种用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的编码变换系统，其中

所述第一和第二音频编码方案使用编码块；以及

每个编码块具有至少一个相关联的增益值；以及

其中，该编码变换系统包括

选择装置，用于基于第一增益元数据的增益值选择第二增益元数据的增益值，使得在与该第二增益元数据的增益值相关联的时刻周围的时间间隔内，选择第一增益元数据的最小增益值；以及如果没有第一增益元数据的增益值落入与该第二增益元数据的增益值相关联的时刻周围的所述时间间隔内，那么将该第二增益元数据的增益值选择为

紧接在所述时间间隔之前的第一增益元数据的增益值。

15.一种用于将与动态范围控制有关的音频增益元数据从第一音频编码方案的第一增益元数据编码变换成第二音频编码方案的第二增益元数据的编码变换系统，其中

所述第一和第二音频编码方案使用编码块；以及

每个编码块具有至少一个相关联的增益值；

第一增益曲线与第一增益元数据的增益值相关联；以及

其中，该编码变换系统包括

选择装置，用于将与第二增益元数据的增益值相关联的时刻周围的时间间隔内的第一增益曲线的最小值选择作为该第二增益元数据的增益值。

16.一种用于对接收的多媒体信号进行解码的机顶盒，该机顶盒包含：

接收机，用于接收第一编码方案的多媒体信号；

编码变换单元，用于将第一编码方案的多媒体信号编码变换成第二编码方案的多媒体信号；以及

发射机，用于传输经编码变换的多媒体信号；

其中，所述编码变换单元将与动态范围控制有关的音频增益元数据从第一编码方案的第一增益元数据编码变换成第二编码方案的第二增益元数据，其中

所述第一和第二音频编码方案使用编码块；以及

每个编码块具有至少一个相关联的增益值；以及

其中，所述编码变换单元基于第一增益元数据的增益值选择第二增益元数据的增益值，使得在与该第二增益元数据的增益值相关联的时刻周围的时间间隔内，选择第一增益元数据的最小增益值；以及如果没有第一增益元数据的增益值落入与该第二增益元数据的增益值相关联的时刻周围的所述时间间隔内，那么将该第二增益元数据的增益值选择为

紧接在所述时间间隔之前的第一增益元数据的增益值。

17.一种用于对接收的多媒体信号进行解码的机顶盒，该机顶盒包含：

接收机，用于接收第一编码方案的多媒体信号；

发射机，用于传输经编码变换的多媒体信号；

所述第一和第二音频编码方案使用编码块；以及

每个编码块具有至少一个相关联的增益值；

第一增益曲线与第一增益元数据的增益值相关联；以及

其中，该编码变换单元将与第二增益元数据的增益值相关联的时刻周围的时间间隔内的第一增益曲线的最小值选择作为该第二增益元数据的增益值。

18.根据权利要求1～13中的任一项的方法，其中，所述第一和第二音频编码方案是以下中的一种：Dolby E、Dolby Digital、AAC、HE AAC。