CN107851440A

CN107851440A - 经编码音频扩展的基于元数据的动态范围控制

Info

Publication number: CN107851440A
Application number: CN201680043824.4A
Authority: CN
Inventors: F·鲍姆加特
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2015-07-31
Filing date: 2016-07-25
Publication date: 2018-03-27
Anticipated expiration: 2036-07-25
Also published as: WO2017023601A1; JP6778781B2; KR20180019715A; JP2018522286A; JP6574046B2; US20170032793A1; JP2019148807A; KR102122137B1; EP3329487A1; ES2777600T3; US10276173B2; US20180218742A1; EP3329487B1; CN107851440B; US9837086B2

Abstract

本发明提供了一种音频编码器，该音频编码器对具有多个音频信道或音频对象的数字音频录音进行编码。动态范围控制(DRC)处理器通过将多个DRC特征中所选择的一个特征应用于所述音频信道或音频对象中的一组一个或多个音频信道或音频对象来产生编码器DRC增益值序列。所述编码器DRC增益值将在将它们从所述经编码数字音频录音进行解码时被应用于调整所述音频信道组或音频对象组。比特流复用器将a)所述经编码数字音频录音与b)所述编码器DRC增益值序列、所选择的所述DRC特征的指示以及另选DRC特征的指示组合，后者作为与所述经编码数字音频录音相关联的元数据。还描述了包括用于对所述经编码音频录音进行解码并对其执行DRC调整的系统的其他实施方案。

Description

经编码音频扩展的基于元数据的动态范围控制

本专利申请要求于2015年7月31日提交的美国临时专利申请No.62/199,819的较早提交日期的权益。

技术领域

本发明的实施方案总体涉及音频信号的编码和解码，以及在经解码信号的回放期间与经编码信号相关联的元数据的用途，以改善各种类型的消费电子终端用户设备中的回放质量。还描述了其他实施方案。

背景技术

数字音频内容在许多情况下出现，包括例如音乐和电影文件。在大多数情况下，出于降低数据速率或格式转换的目的而对音频信号进行编码，使得媒体文件或媒体流的传输或递送更实际，消耗更少的带宽并且/或者更快，从而允许许多其他传输同时发生。可在不同类型的终端用户设备中接收媒体文件或媒体流，其中经编码的音频信号在通过内置或可拆卸扬声器呈现给消费者之前被解码。这有助于迎合消费者在互联网上获得数字媒体的喜好。数字音频内容(节目)的创建者和发布者可使用多种方法对音频内容进行编码和解码。这些方法包括由先进电视系统委员会于2005年6月14日出版的数字音频压缩标准(AC-3,E-AC-3)(“ATSC标准”)的修订版B，文档A/52B，欧洲电信标准协会基于ISO/IEC 13818-7中的MPEG-2传输流的ETSI TS 101 154数字视频广播(DVB)，高级音频编码(AAC)(“MPEG-2AAC标准”)以及由国际标准组织(ISO)出版的ISO/IEC 14496-3(“MPEG-4音频”)。

音频内容可被解码，然后以不同于其最初所掌握的形式进行处理(呈现)。例如，母带工程师可录制管弦乐或音乐会，使得在回放时(收听者)听起来好像其坐在音乐会的观众席上，即坐在乐队或管弦乐队前面，并且有掌声从后方传来。母带工程师可另选地对同一场音乐会进行不同的渲染，使得例如在回放时，收听者就好像置身于舞台之上来听音乐会(他可以在其中听到乐器“在他周围”奏响，掌声“在他面前”拍响)。这也被称在回放室中为收听者创建不同的角度，或者为不同的“收听位置”或不同的回放室呈现音频内容。

音频内容也可以针对不同的声学环境呈现，例如通过头戴式耳机、智能电话免提或平板电脑、膝上型计算机或台式计算机的内置扬声器回放。具体地讲，现在可实现的是基于对象的音频回放技术，其中个人数字音频对象可以在给定声学环境中的任何一个或多个扬声器信道上以不同方式播放，该个人数字音频对象是例如一个人说话、爆炸、掌声或背景声音的数字音频音频录音。

背景音频回放的动态范围是指根据数字音频内容计算出的最响亮和最柔和的声音(响度水平)之间的比率。可使用任何合适的数学模型来计算响度水平，该数学模型估计人类如何感知(或听到)声音。动态范围控制(DRC)是指控制动态范围的方法，例如对其进行压缩或扩展，以便在回放期间改变所听到的音频内容的响亮部分和柔和部分。音频工程师将DRC应用于数字音频信号，以优化针对特定声学环境或特定收听者角度的特定音频录音。例如，现代流行音乐的作品可以将其动态范围压缩，以使其可以在更响亮的水平进行回放(无需剪辑)，而古典音乐作品通常以更大的动态范围来录制。

发明内容

本发明的实施方案是产生或分配系统(例如，服务器系统)，该系统产生作为经编码的数字音频内容(或音频录音)文件的元数据的一部分的DRC增益值。例如，DRC增益值可以为正(增强)或负(减弱)，并且将在回放期间被应用于音频录音(例如，在音频录音已经由解码器从经编码的文件中提取之后)，以便在回放期间调整录音的响亮部分和/或柔和部分。例如，可在数字音频信号的每一帧中更新DRC调整。DRC调整可帮助特定类型的音频录音与特定的回放声学环境或收听角度更相配。这使得能够回放DRC-调整的音频内容，其中DRC调整是在编码阶段指定的。音频内容文件可以是例如电影文件，例如MPEG电影文件、纯音频文件，例如AAC文件或具有任何合适的多媒体格式的文件。

在一个实施方案中，动态范围控制(DRC)处理器通过将多个DRC特征中所选择的一个特征应用于音频信道或音频对象中的一组一个或多个音频信道或音频对象来产生编码器DRC增益值序列。编码器DRC增益值将在将它们从经编码数字音频录音进行解码时由解码系统应用于调整音频信道或音频对象组。比特流复用器将a)经编码数字音频录音与b)编码器DRC增益值序列、所选择的DRC特征的指示以及从多个DRC特征中选择的另选DRC特征的指示组合，后者作为与所述经编码数字音频录音相关联的元数据。这使得编码系统能够作为或者允许其作为解码器选项，(可在回放期间应用于经解码的录音)的另选DRC。

除了识别另选DRC特征(而不是同样在编码系统处选择的“默认”DRC特征)应当被应用的场景之外，上述构造使得编码器能够提供具有已经应用了另选DRC特征的效果的响度信息。由于可基于在元数据中接收到的单个DRC增益序列由解码系统得出另选DRC的增益值，可实现显著的比特率节省。这避免了编码系统为每个压缩场景发送单独的DRC增益序列的需要。DRC增益序列，尤其是当其以每帧为基础改变时，可被认为是元数据的最大比特率消耗部分。

在另一个实施方案中，元数据被定义为具有其中编码器DRC增益值的两个或更多个序列可被产生或分配系统(编码系统)包括的格式。此外，元数据被定义为允许指令被包括在其中，所述指令是从编码系统到解码系统的指令，其中元数据可包括执行以下操作的指令，其中编码系统可指定编码器DRC增益值序列中的任何一个序列(存在于所述元数据中)可被应用于DRC-调整经解码数字音频录音的任何子带。例如，元数据可指定(在元数据中)的每个编码器DRC增益值序列将被应用于经解码数字音频录音的不同子带。换句话讲，元数据可允许可被包括在元数据内的两个或更多个DRC增益序列被任意分配到由解码系统基于子带执行压缩的任意选择的子带。再一次，由于例如解码系统可使用相同的DRC增益序列来压缩多个子带，可实现比特率节省。

在又一个实施方案中，除了任意地将单个DRC增益序列分配给两个或更多个子带的能力之外，元数据还支持允许格式化，该格式化允许产生或分配系统在元数据中指定通过根据一个缩放系数缩放一个DRC增益序列来调整第一子带，同时根据另一个缩放系数缩放DRC增益序列，并将后者应用于不同的子带。这导致解码系统根据元数据中的指令按照第一缩放系数缩放DRC增益序列中指定的一个序列(在将经缩放的序列应用于第一子带之前)，并且按照第二缩放系数缩放指定的DRC增益序列(在将经缩放的序列应用于不同的子带之前)，全部如元数据中所指定的。

以上概述不包括本发明的所有方面的详尽列表。可预期的是，本发明包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合来实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。

附图说明

本发明的实施方案以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，本公开中提到的本发明的“一个”(“an”或“one”)实施方案未必是同一实施方案，并且它们表示至少一个实施方案。另外，为了简洁以及减少附图的总数，可使用给定的附图示出本发明的不止一个实施方案的特征，并且对于给定的实施方案，可能并非需要该附图中所示出的所有元件。

图1是用于示出数字音频编码系统的各个方面的框图。

图2示出了若干示例动态范围控制(DRC)特征。

图3是用于示出数字音频解码系统的各个方面，尤其是在经解码的音频信号的回放期间执行数据处理的数字音频解码系统的框图。

图4是描述示例多频带、频域DRC应用程序块的各个方面的框图。

图5用于示出在时域中执行的作为音频解码器的一部分的多频带DRC的示例。

图6示出了与DRC相关的元数据中的一些示例字段。

具体实施方式

在本文的附图中描述和示出了本发明的各种实施方案，包括用于产生经编码数字音频录音的系统的相关组件的示例，以及用于在回放期间应用DRC来调整经解码的录音的解码器系统。应当指出的是，存在许多关于元数据的细节，包括它们的格式及其在解码器系统中的使用，其中一些细节在实现本发明的某些实施方案时可能不是必需的。许多细节被认为是下文的权利要求中使用的语言的示例。

在某些情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。例如，本文在根据MPEG标准进行比特率降低的编码的背景下描述了某些细节；然而，用于将DRC增益值和相关信息嵌入到经编码的音频内容文件的元数据中的方法也适用于包括无损数据压缩的其他形式的音频编码和解码，诸如苹果无损音频编解码器(ALAC)。

图1是用于示出数字音频编码系统的各个方面的框图。图1中的原始音频录音或音频信号可以是一段声音节目内容的比特流或文件(此处的这些术语可互换使用)的形式，诸如音乐作品或视听作品，例如，具有多个音频信道的电影的声带；另选地或者除了音频信道之外，录音可包括多个音频对象，例如，各个乐器的声音节目内容、声音、音效。编码器阶段处理可由例如声音节目内容制作者或发布者，诸如音乐表演或电影的制作者的计算机(或计算机网络)执行；解码阶段的处理(见下文图3)可由例如消费者的计算机(或计算机网络)执行，例如，家用音频系统、扬声器底座、车辆中的音频系统。该框图不仅用于描述数字音频编码器装置，而且还用于描述用于对音频信号进行编码的方法。

该编码系统具有编码器2，该编码器将具有多个原始音频信道或音频对象(在附图中由表示信号流的跨线正斜线指示)的数字音频录音(或者在本文中也被称为数字音频信号)编码成不同的数字格式。新格式可能更适用于经编码的文件的存储(例如，存储在便携式数据存储设备上，诸如光盘或数字视频光盘)，或者更适用于将比特流(例如，通过互联网)发送到消费者的计算机。编码器2还可例如根据MPEG标准或诸如苹果无损音频编解码器(ALAC)的无损数据压缩对原始音频信道或音频对象执行有损或无损比特率降低(数据压缩)。

编码阶段处理还可具有复用器(mux)8，该复用器将经编码数字音频录音与DRC增益值的一个或多个序列组合或汇集，后者作为与经编码数字音频录音相关联的元数据。组合的结果可以是包括经编码的录音及其相关元数据的比特流或经编码的文件(从此处开始一般称为“比特流”)。应该指出的是，元数据可与经编码的录音一起嵌入到比特流中，或者其可存在于单独的文件或侧信道中，这里一般称为辅助数据信道7(与经编码的录音相关联)。与经编码的数字音频录音相关联的元数据可被携带在ISO/IEC23003-4:2015-信息技术-MPEG音频技术-第4部分：动态范围控制(“MPEG-D DRC”)的多个扩展字段中。

编码阶段还具有产生编码器DRC增益值序列的DRC处理器4。默认DRC增益序列是通过将多个DRC特征或配置文件(其中在DRC处理器4中至少可存储两个或N个特征或配置文件)中所选择的一个特征或配置文件应用于一组一个或多个音频信道或音频对象产生的，该音频信道或音频对象是数字音频信号的一部分。以上操作可重复执行以产生与多组音频信道或对象相对应的多个DRC增益序列。DRC特征或配置文件可作为DRC处理器4的一部分并且也可作为解码系统中的DRC_1处理器12的一部分存储在存储器中-参见图3。DRC特征的示例在图2中给出，其中沿着x轴的输入水平是指短期响度值(在本文中也被称为DRC输入水平)，而DRC增益值的范围是沿着y轴给出的。

默认DRC特征可由用户通过用户输入(例如，通过图形用户界面)来选择。用户可以是混音或音响工程师，其评估相关信道或对象中的内容的类型，包括例如通过回放装置(未示出)收听信道或对象，并基于经验，做出类型内容以及当其声学设置或特定回放设备场景(例如，耳机与膝上型电脑的内置扬声器或者台式计算机与独立式扬声器)中的动态范围已(根据默认特征)被修改时，信道或对象将如何发声的选择。执行上述操作以便修改将通过音频系统回放的电影声带，该音频系统可具有比公共电影院的音频系统更小的动态范围。

对于给定的DRC输入水平，该特征通过DRC应用程序块3-参见图1产生对应的增益值，该增益值可为正(膨胀效果)或负(压缩效果)并且将被应用于输入音频信号。换句话讲，DRC块3被配置为具有所选择的DRC特征，使得其从输入音频信号计算任何需要的输入水平，通过将输入水平应用于该特征来获得输出增益，以及将输出增益应用于输入音频信号来执行动态范围调整。图2的曲线图中的增益值在本文中也被称为DRC增益值，在这个特定的示例中以对数格式(dB)给出。可在输入音频信号的预先确定的时间间隔(在本文中也被称为帧，例如大约小于5毫秒，例如小于1毫秒)内计算应用于该特征(DRC输入水平)的输入音频信号的水平。因此，DRC增益序列可基于这种每帧提供更新的DRC增益值。需注意，正被编码的数字音频信号可以是脉冲编码调制(PCM)格式，或者是基于数据包的格式，其中音频信号的帧或数据块依次变得可用，其中每个帧或数据块的长度可在20至100毫秒之间，以便依次将若干DRC增益值应用于每个音频帧或数据块。这些数字当然仅是示例，应当理解，这里应用的概念不限于为DRC增益序列中的每个增益值定义的帧长度或者为数字处理音频信号定义的帧长度。

当(在解码系统中)从经编码数字音频录音对信道或音频对象进行解码时，通过将输入音频信号(通过编码系统中的DRC处理器4)应用于所选择的默认DRC特征而产生的增益值应当被应用于调整一组一个或多个信道或音频对象。这可以是在回放期间进行处理的一部分，如将在下文的图3中进一步描述的。为了实现这个目标，编码阶段还具有一些用于将编码器DRC增益值作为与经编码数字音频录音相关联的元数据提供给解码系统的装置。这些装置上文已有描述，例如复用器8本身，或者复用器与辅助数据信道7结合。

在一个实施方案中，元数据还包括默认DRC特征的指示以及从可用的DRC特征0,1,…N中选择的另选DRC特征的指示。如下所述，这使得在解码系统中应用的动态范围控制的压缩强度能够如在编码阶段中由用户输入所指示的那样被修改。能够实现这一点的技术是比特率高效的，因为新的动态范围控制选项被提供给解码系统，而元数据无需承载附加的DRC增益序列(超过单个默认的DRC增益序列)。因此，解码系统可使用相对普遍的修改，以使用已经在元数据中指定的另选DRC特征的知识来执行默认DRC增益序列的增益映射。例如，除了识别其中解码系统将要根据另选DRC特征(而非默认DRC特征)应用动态范围控制的特定场景或条件之外，现在通过定义其中可指示另选DRC特征的附加字段来增强元数据。默认DRC增益序列的增益映射在下文结合图3进行描述。

仍然参考图1，在一个实施方案中，可通过DRC处理器4并且具体地讲通过响度测量块6(响度计算器)来计算响度参数，或者在本文中也被称为响度信息，并且其中这些也可被包括在元数据中。这些响度参数给出了数字音频录音的另选DRC-调整版本的响度的测量值，这对于解码系统在给出关于是否应用DRC的选择(如在默认和另选DRC之间)时进行评估是有用的。音频测量块6的输入接收由DRC应用程序块3提供的输入音频信号的另选DRC-调整版本，其中后者已经根据另选DRC特征(已经通过用户输入进行选择)进行了配置。

可以采取若干种方法中的任何一种来提供默认或另选DRC特征的“指示”(在元数据内)。如图1所示，这里的具体示例使用到输入水平或响度对输出DRC增益的预先确定的曲线或曲线图的索引，其可以是引用或指针。在DRC_1_处理器12的存储器中，曲线或曲线图可在解码系统中存储为DRC_特征_0,1,…N。解码系统然后将检索由在元数据中接收到的索引指定的DRC特征。另选地，元数据可通过包括多个常数或参数或系数来指示DRC特征，当由解码系统插入到预定义的数学函数中时，所述常数或参数或系数产生特定响度对DRC增益曲线。在另一个实施方案中，DRC特征的指示可以是所有输入水平或响度值以及定义DRC增益曲线的对应的DRC增益值的查找表。最后，DRC特征的指示可以是响度值减少的数量和解码系统从中内插DRC增益曲线的对应的DRC增益值或未指定的输入响度水平的特定DRC增益值(在元数据中未指定)。对于比特率效率，DRC特征的指示应当仅索引到(存储在解码系统中的)预先确定的响度对DRC增益曲线或曲线图。

已经描述了如何在编码系统中填充元数据，现在使用图3的示例来描述在处理回放时对元数据的使用。图3是用于示出解码系统的方面，尤其是在经解码的音频信号的回放期间执行数据处理的解码系统的框图。这是一种用于产生经解码的数字音频录音的系统，其中接收到数字音频录音已被编码的比特流(参见图1)。图3中示出的用于本文所描述的数字信号处理操作的部件可通过专用硬件(电路)来实现，或者它们可通过硬件电路和一个或多个经编程的处理器的组合来实现，其中存储器存储指令，当由一个或多个处理器(这里一般称为“处理器”)执行时，执行本文所述的操作。具体地讲，解复用器(解复合器)13接收经编码的音频比特流，并提取馈送到解码器10的经编码的多信道或多对象音频，同时将所提取的元数据提供给DRC_1处理器12。在一个实施方案中，元数据包括编码器DRC增益值序列(DRC增益，如图3所示)，其可以是在上文的图1中提到的默认DRC增益值。元数据还包括所选择的DRC特征(默认DRC特征)的指示，其可由编码器系统用于得出默认DRC增益值序列(当将原始数字音频录音应用于所选择的或默认DRC特征时)。此外，在元数据中还接收到另选DRC特征的指示。应当理解，元数据中的一些或全部可存在于与经编码的音频比特流不同的信道中，例如，辅助数据信道7-参见图1。

解码器10将对数字音频录音进行解码(例如，撤销或执行由图1的编码器2执行的操作的逆操作)，然后从乘法器块11开始执行经解码录音的回放，该乘法器块将默认DRC增益值应用于经解码的音频信号或重新映射的DRC增益集以产生动态范围-经调整(DRC-调整)的音频录音。在(通过数模转换器DAC 18)被转换为模拟形式之前，DRC-调整的音频信号可经受进一步的音频处理16(例如，降混)，然后被馈送到电声换能器19的扬声器驱动器输入端。

DRC增益值的另选序列可由执行以下处理的DRC_1处理器12计算，该另选序列在图3中也被称为重新映射的DRC增益。首先，使用在元数据中接收到的默认DRC特征的指示产生默认DRC特征的逆。例如，元数据可包括默认DRC特征的索引。该索引可用于查找可被存储在DRC_1处理器12中的默认DRC特征(如DRC_特征_0,1,…N之一所示)。例如，可通过例如调换表示DRC特征的数学函数(DRC增益曲线)的输入和输出变量来获得该逆，并且将在元数据中接收的经编码的DRC增益值序列应用于数学函数的“输出”(或者作为数学函数计算的逆的输入)在每DRC帧的基础上产生对应的响度值序列。

该过程继续使用在元数据中接收到的指示来获得另选DRC特征。例如，DRC_特征_3可以是默认值，而另选特征被指示为DRC_特征_5。使用默认特征DRC_特征_3的逆计算的响度值序列现在被用作另选特征DRC_特征_5的输入以产生在图3中被称为重新映射的DRC增益或“另选DRC增益”的DRC增益值序列。然后，乘法器块11将重新映射的DRC增益应用于(来自解码器10的输出端的)经解码数字音频录音，以产生经解码音频录音的另选DRC-调整版本。

图3中的解码系统因此可选择将在元数据中接收到的默认DRC增益值应用于(解码器10的输出端)，或者使用上述基于另选DRC特征的指示的程序产生(然后应用)重新映射的增益(其中该指示是在元数据中接收到的)。在一个实施方案中，这两个动态范围控制调整之间的选择可根据在元数据中接收到的指令。另选地，基于用户输入和/或正被用于回放的换能器19的动态范围的预先确定的知识，该选择可仅由解码系统作出。更一般地，当在默认或另选DRC之间作出决定时，也可考虑包括在进一步的音频处理16期间应用的任何增益的回放系统的灵敏度以及数模转换器(DAC)18的灵敏度。

在图3中还示出了其他实施方案，其中也可能存在混合器14，该混合器用于组合来自其他音频源的音频信号，这些音频信号可能已经执行了单独或独立的动态范围控制调整(如由单独的DRC应用程序块3所示)。

如上所述的图1和图3示出了本发明的实施方案，其中通过在元数据中嵌入默认和另选DRC特征(连同与另选DRC相关的可选响度参数)的索引来使用元数据实现更有用的DRC增益映射特征。图1和图3还示出了本发明的其他实施方案，其中可以在经解码的音频信号上(通过解码器10的某些内部元件的乘法器块11)执行多频带DRC，如(由编码系统)在元数据中指定的那样。首先，通过指定单个、每个子带，(通过编码系统和通过元数据中的指令)缩放默认DRC增益值，能够修改默认DRC增益值。解码系统现在可重复使用相同的默认DRC增益序列，并将其应用于多个子带。因此，重新参考图1，除了默认DRC增益序列之外，DRC处理器4现在还产生子带定义以及DRC增益序列-至-子带分配。子带定义可以是完全常规的，例如，为整个音频频谱内的至少两个子带定义若干交叉频率。此外，元数据现在指定在元数据中的编码器DRC增益值的多个序列中的一个序列(例如，默认DRC增益序列)将被应用于动态范围-调整将(从由编码器2产生的经编码数字音频录音)解码的音频信道或音频对象的两个或更多个子带。元数据可进一步指定1)第一缩放值，在将经缩放的序列应用于经解码的音频信道或音频对象的第一子带之前，第一缩放值将被应用于缩放DRC增益值序列中的指定的一个序列，以及2)不同的第二缩放值，在将经缩放的序列应用于经解码的音频信道或音频对象的第二子带之前，第二缩放值将被应用于缩放编码器DRC增益值序列中的指定的一个序列。如图6所示，示出了与多频带DRC相关的元数据中的一些示例字段。具体地讲，被称为交叉频率索引的数据结构可定义两个或更多个子带的交叉频率。交叉频率与数据结构频带数一起指示，其指示子带的数量。其他数据结构，多频带DRC缩放(p、频带1、频带2……标量1、标量2……)指定多个DRC增益序列中的哪一个(p＝1、2……K)(K>＝2)将被应用于调整两个或更多个已被定义的子带频带1、频带2……(对解码系统是已知的)并且在将经缩放的DRC序列分别应用于两个或更多个子带之前，不同的缩放值标量1、标量2……(减弱或放大缩放)将被应用于相同的DRC增益序列p。

在图6的示例中，还示出了元数据包括经编码的DRC增益集的实施方案，该经编码的DRC增益集是具有一个或多个DRC增益序列(或编码器DRC增益值序列)的数据结构，并且在元数据中可具有多个增益集(如GainSetCount数据结构所示)。

在一个实施方案中，元数据指定(元数据中的)DRC增益序列之一被应用于调整(已经从经编码数字音频录音解码的)音频信道或音频对象的指定的两个或更多个子带。元数据可另选地指定将编码器DRC增益值序列应用于经解码的音频信道或对象的所有子带。在一些实施方案中，当在经解码音频录音上执行多频带DRC时，元数据不涉及任何信道或对象的分组，使得解码系统中的处理器不对经解码音频录音的音频信道或音频对象执行任何分组。例如，可能只有两个音频信道被解码，并且相同的子带DRC应当被应用于所述两个信道，除非在元数据中为不同子带指定不同的缩放值。

将DRC增益值应用于经解码的音频信号(通过解码系统中的经编程的处理器或经编程的处理器和固定线路逻辑的组合)可以在频域或时域中实现。图4示出了频域实现的示例，其中多频带交叉滤波器17接收经解码的单个音频信道或对象作为输入。滤波器17将它的输入信号分成两个或更多个组成频带。滤波器17可被编程为定义如在元数据中指定的频带或交叉频率。然后将所得到的子带信号a、b……n分别并行地提供给数字乘法器11a、11b……11n，其用于分别根据其相关联的DRC增益来衰减或放大子带信号。后者可以是元数据中指定的默认值(由编码系统选择)或者也可以是“修改”值。修改的DRC增益值可以是如元数据中所指定的那样缩放的默认DRC增益，或者可以是根据上述程序通过另选DRC特征映射默认DRC增益的结果。乘法器11a、11b……的输出然后由求和单元20求和以产生DRC调整的单个音频信道或对象，然后将其馈送到混音器14。

图5示出了DRC增益值的应用的时域实现的示例。当解码器10(参见图3)已经具有子带形式的经解码的音频信道或目标时(其中编码系统也知道这些频带的定义，因此可以在元数据中指定它们)，这种方法可能是特别理想的。解码器10还可具有合成滤波器组，该合成滤波器组用于将经解码的音频信号的子带形式组合成单个脉冲码编码调制的比特流或时间采样序列。该滤波器组通过向其n个标量输入提供n个DRC增益而具有DRC调整的双重目的(以线性形式而不是对数或分贝形式)。合成滤波器组将其n个标量输入处的增益值分别应用于n个子带信号，然后将它们组合成单个时域序列。如在频域解决方案中那样，DRC增益可以是由编码系统选择的元数据中的默认值，或者可以是上文讨论的修改值。

应当理解，本文所述的实施方案仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。例如，虽然每个编码和解码阶段可在一个实施方案中被描述为例如在通过因特网进行通信的音频内容制作者机器和音频内容消费者机器中独立操作，但编码和解码也可在同一台机器内执行(例如，作为转码过程的一部分)。因此，该描述应当被认为是例示性的而非限制性的。

Claims

1.一种用于产生具有多个音频信道或音频对象的经编码数字音频录音的系统，所述系统包括：

音频编码器，所述音频编码器对具有多个音频信道或音频对象的数字音频录音进行编码；

动态范围控制(DRC)处理器，所述动态范围控制处理器通过将多个DRC特征中所选择的一个特征应用于所述多个音频信道或音频对象中的一组一个或多个音频信道或音频对象来产生编码器DRC增益值序列，其中在从所述经编码数字音频录音解码出音频信道组或音频对象组时，所述编码器DRC增益值将被应用于调整该音频信道组或音频对象组；以及

装置，所述装置用于将i)所述编码器DRC增益值序列、ii)所选择的所述DRC特征的指示以及iii)从所述多个DRC特征中选择的另选DRC特征的指示提供作为与所述经编码数字音频录音相关联的元数据。

2.根据权利要求1所述的系统，其中所述元数据指定其中解码系统将

根据所述另选DRC特征而不是所选择的所述DRC特征应用DRC的场景或条件。

3.根据权利要求1所述的系统，其中与所述经编码数字音频录音相关联的所述元数据被携带在MPEG-D DRC的多个扩展字段中。

4.根据权利要求1所述的系统，其中所述DRC处理器将数字音频录音接收为输入，并且将所述输入应用于已经根据所述另选DRC特征进行配置的DRC应用程序块，以产生所述数字音频录音的另选DRC-调整版本，

其中所述系统还包括计算响度信息的响度计算器，所述响度信息给出了所述数字音频录音的所述另选DRC-调整版本的响度的测量值，

并且其中用于提供作为与所述经编码数字音频录音相关联的元数据的所述装置包括提供所述另选DRC-调整版本的响度信息作为所述元数据的一部分。

5.根据权利要求1所述的系统，其中在所述元数据中，所述另选DRC特征的所述指示包括以下各项之一：

a)对存储在解码系统中的预先确定的响度对DRC增益曲线或曲线图的索引或参考，

b)当被所述解码系统插入预定义的数学函数中时，定义响度对DRC增益曲线的多个常数或参数，

c)响度和对应的DRC增益值的查找表，或者

d)多个响度和对应的DRC增益值，所述解码系统从中内插用于输入响度水平的DRC增益值。

6.根据权利要求1所述的系统，其中所述DRC处理器将产生具有多个编码器DRC增益值序列的编码器DRC增益集，

并且其中用于提供作为与所述经编码数字音频录音相关联的元数据的所述装置还包括经编码DRC增益集作为所述元数据的一部分，

并且其中所述元数据指定所述多个编码器DRC增益值序列中的一个序列将被应用于已从所述经编码数字音频录音解码的调整音频信道或音频对象的多个子带。

7.根据权利要求6所述的系统，其中所述元数据指定所述编码器DRC增益值序列中的所述一个序列将被应用于所述经解码数字音频录音的所有子带。

8.根据权利要求6所述的系统，其中所述元数据指定：1)所述经解码数字音频录音的第一子带将由编码器DRC增益值序列中的一个序列进行DRC调整；以及2)第二子带将由所述多个编码器DRC增益值序列中的另一个序列进行DRC调整。

9.根据权利要求6所述的系统，其中所述元数据指定1)第一缩放值，所述第一缩放值将被应用于缩放DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于所述经解码的音频信道或音频对象的第一子带，以及2)不同的第二缩放值，所述第二缩放值将被应用于缩放所述编码器DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于所述经解码的音频信道或音频对象的第二子带。

10.一种用于产生经解码数字音频录音的系统，所述系统包括：

处理器；以及

存储器，其中存储有指令，所述指令在由所述处理器执行时使得所述处理器：

接收其中数字音频录音已被编码的比特流以及与所述数字音频录音相关联的元数据，其中所述元数据包括编码器DRC增益值序列、所选择的DRC特征的指示以及另选DRC特征的指示，其中所述编码器DRC增益值的序列是基于将所述数字音频录音应用于所选择的所述DRC特征而得出的，

对所述数字音频录音进行解码，以及

通过执行以下操作产生用于回放的另选DRC调整音频录音，执行所述经解码录音的回放：

a)使用在所述元数据中接收到的所选择的所述DRC特征的所述指示来产生所选择的所述DRC特征的逆，并且将在所述元数据中接收到的所述编码器DRC增益值序列作为输入应用于所述逆以产生响度值序列，

b)使用在所述元数据中接收到的所述另选DRC特征的所述指示以获得所述另选DRC特征，并且将所述响度值序列作为输入应用于所述另选DRC特征以产生DRC增益值的另选序列，以及

c)将所述DRC增益值的另选序列应用于所述经解码数字音频录音以产生所述数字音频录音的另选DRC-调整版本。

11.根据权利要求10所述的系统，其中所述元数据包括编码器DRC增益集，所述编码器DRC增益集具有多个编码器DRC增益值序列，

并且其中所述元数据包括指令，其中编码系统可指定所述多个编码器DRC增益值序列中的任何一个序列可被应用于所述经解码数字音频录音的任何子带。

12.根据权利要求10所述的系统，其中所述元数据包括编码器DRC增益集，所述编码器DRC增益集具有多个编码器DRC增益值序列，

并且其中所述元数据包括使所述处理器执行以下操作的指令：当执行多频带DRC时，将所述编码器DRC增益值序列中指定的一个序列应用于所述经解码数字音频录音的多个子带。

13.根据权利要求10所述的系统，其中所述元数据具有使所述处理器执行以下操作的指令：1)根据在所述元数据中指定的第一缩放值来缩放所述DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于所述经解码数字音频录音的第一子带，以及2)根据在所述元数据中指定的不同的第二缩放值来缩放所述DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于所述经解码数字音频录音的第二子带。

14.一种用于产生经解码数字音频录音的系统，所述系统包括：

处理器；

接收其中数字音频录音已被编码的比特流，其中该经编码数字音频录音与包括具有多个编码器DRC增益值序列的编码器DRC增益集的元数据相关联，

对所述数字音频录音进行解码，以及

在所述经解码数字音频录音上执行多频带DRC，其中所述元数据包括将所述元数据中的所述多个编码器DRC增益值序列中指定的一个序列应用于所述经解码数字音频录音的多个不同子带的指令，其中在所述元数据中也指定了所述子带。

15.根据权利要求14所述的系统，其中当在所述经解码音频录音上执行多频带DRC时，所述处理器不对所述经解码音频录音的音频信道或音频对象执行任何分组。

16.根据权利要求14所述的系统，其中所述元数据指定所述编码器DRC增益值序列中的所述一个序列将被应用于所述经解码数字音频录音的所有子带。

17.根据权利要求14所述的系统，其中所述元数据包括使所述处理器执行以下操作的指令：1)通过第一缩放值缩放所述DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于第一子带，以及2)通过第二缩放值缩放所述DRC增益值序列中的所述指定的一个序列，这先于将该经缩放的序列应用于第二子带，其中在所述元数据中指定所述第一缩放值和所述第二缩放值以及所述第一子带和所述第二子带。

18.一种用于产生经编码数字音频录音的方法，所述方法包括：

对具有多个音频信道或音频对象的数字音频录音进行编码；

通过将多个DRC特征中所选择的一个特征应用于所述音频信道或音频对象中的一组一个或多个音频信道或音频对象来产生编码器DRC增益值序列，其中在从所述经编码数字音频录音解码出音频信道组或音频对象组时，所述编码器DRC增益值将被应用于调整该音频信道组或音频对象组；以及

将(i)所述编码器DRC增益值序列、(ii)所选择的所述DRC特征的指示以及(iii)从多个DRC特征中选择的另选DRC特征的指示提供作为与所述经编码数字音频录音相关联的元数据。

19.根据权利要求18所述的方法，还包括：

根据所述另选DRC特征产生所述数字音频录音的另选DRC-调整版本；

计算响度信息，所述响度信息给出了所述数字音频录音的所述另选DRC-调整版本的响度的测量值；以及

提供所述另选DRC-调整版本的所述响度信息作为与所述经编码数字音频录音相关联的所述元数据的一部分。

20.根据权利要求18或19所述的方法，还包括

提供如下指令作为与所述经编码数字音频录音相关联的所述元数据的一部分：编码器DRC增益值的相同序列将由解码系统应用以调整已从所述经编码数字音频录音解码的音频信道或音频对象的多个子带。

21.根据权利要求20所述的方法，还包括：

将1)第一缩放值和以下指令：应用所述第一缩放值来缩放所述DRC增益值序列中的所述指定的一个序列，这先于将所述经缩放的序列应用于所述经解码的音频信道或音频对象的第一子带，以及2)不同的第二缩放值和以下指令：应用所述第二缩放值来缩放所述编码器DRC增益值序列中的所述指定的一个序列，这先于将所述经缩放的序列应用于所述经解码的音频信道或音频对象的第二子带，提供作为与所述经编码数字音频录音相关联的所述元数据的一部分。