CN111370007B

CN111370007B - 用于响度和动态范围控制的元数据

Info

Publication number: CN111370007B
Application number: CN202010164205.9A
Authority: CN
Inventors: F·鲍姆加特; E·A·阿拉曼彻; S·K·O·斯特罗默尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2013-03-29
Filing date: 2014-03-27
Publication date: 2023-10-27
Anticipated expiration: 2034-03-27
Also published as: EP3540733B1; AU2014241222A1; KR101761041B1; WO2014160849A2; EP3540733A1; US9559651B2; TWI562138B; ES2994484T3; CN105103222B; CN117275493A; US11563411B2; WO2014160849A3; US20210351754A1; TW201443886A; US20170201219A1; US10644666B2; KR20150122760A; CN111370007A; EP2956936A2; AU2014241222B2

Abstract

本申请涉及用于响度和动态范围控制的元数据。向音频信号应用音频归一化增益值以产生归一化信号。处理该归一化信号以根据若干个预定义的DRC特性中的所选择的一个预定义的DRC特性来计算动态范围控制(DRC)增益值。对音频信号进行编码，并且提供DRC增益值作为与经编码的音频信号相关联的元数据。还描述了若干个其它实施例并要求对其进行保护。

Description

用于响度和动态范围控制的元数据

本申请是申请号为201480018634.8、申请日为2014年3月27日、名称为“用于响度和动态范围控制的元数据”的发明专利申请的分案申请

本非临时专利申请要求于2013年3月29日提交的美国临时专利申请61/806,570的较早提交日期的权益。

本发明的实施例总体上涉及音频信号的编码和解码以及使用与经编码的信号相关联的元数据来改善消费电子最终用户设备中的经解码的信号的回放质量。还描述了其他实施例。

背景技术

数字音频内容出现在很多不同情况中，例如包括音乐和电影文件。在大部分情况下，对音频信号进行编码以用于降低数据速率的目的，使得媒体文件或流的传输或递送消耗更小的带宽并且更快，由此允许同时进行许多其他传输。可在不同类型的最终用户设备中接收媒体文件或流，其中在通过内置或可拆卸扬声器向消费者进行呈现之前，对经编码的音频信号进行解码。这样有助于满足消费者通过因特网获得数字媒体的需求。数字音频节目的创建者和分销者有几种行业标准可用，可将其用于对音频内容进行编码和解码。这包括由高级电视系统协会于2005年6月14日发布的数字音频压缩标准(AC-3，E-AC-3)，版本B，文档A/52B(“ATSC标准”)、欧洲电信标准协会基于ISO/IEC 13818-7中的MPEG-2传输流的ETSI TS 101 154数字视频广播(DVB)、由国际标准化组织(ISO)发布的高级音频编码(AAC)(“MPEG-2AAC标准”)以及ISO/IEC 14496-3(“MPEG-4音频”)。

越来越多的最终用户设备用于回放数字音频，包括台式计算机、膝上型计算机、便携式手持设备(例如，智能电话)、家用电视和车载媒体系统。这些设备具有不同的模拟信号路径、扬声器和声学环境。而且，音频信号的动态范围在不同节目之间有变化。此外，数字音频节目的生产者(包括创建者，有时甚至包括分销者)常常希望通过以数字方式修改音频信号来提高其节目的平均响度，使其平均响度高若干个dB。然而，这样做还需要降低所得音频信号的峰值水平，以便避免剪辑(这会导致不期望的听觉失真)。这是使用动态范围控制(DRC)来实现的，其压缩音频信号的高低水平，使得所得音频信号能够匹配在更窄的包络(由此避免剪辑)内。不过，所有这些因素都带来一个问题：由最终用户感知到的响度可能会在不同最终用户设备之间以及在同一设备上的连续节目之间都有显著变化，从而导致回放期间的不愉快的用户体验。

软件工具诸如Apple Inc.的SoundCheck^TM程序自动调节歌曲的回放音量以希望获得相同的感知响度，因此例如与1970年代的老歌相比，动态范围更小但平均响度更大的近期流行唱片会被调低。而且，音频节目可包括与经编码的音频信号相关联并且描述相关联的音频信号的元数据部分。元数据可包括由最终用户设备中的软件用于控制例如对话水平、DRC和经解码的音频信号的任何下混频的信息，以便改变消费者在回放期间的体验。

发明内容

希望有一种系统性但仍然灵活的方式来使用任何常规编码/解码(编解码)和相关联的元数据构造来控制向消费者递送的音频质量。在下文中更详细地描述了本发明的至少如下实施例。

在一个实施例中，一种用于对音频信号编码的方法包括向音频信号应用音频归一化增益值，以便产生归一化信号。处理归一化信号以针对归一化信号来计算多个动态范围控制(DRC)增益值。根据若干个预定义的DRC特性中的所选择的一个预定义的DRC特性来计算DRC增益值。对音频信号进行编码，并且提供增益值作为与经编码的信号相关联的元数据。然后可在回放处理的解码级中将所提供的DRC增益值应用于经解码的音频信号，以在回放期间调节经解码的音频信号的动态范围。

在另一个实施例中，几个预定义的DRC特性对于编码器和解码器设备是“已知”的。将在编码设备中使用的DRC特性索引传送到解码器设备。这使得最终用户设备的解码器设备能够根据本地参数来修改所提供的DRC增益值(用于压缩经解码的音频信号)，该本地参数例如用户输入(包括回放音量和/或响度归一化开关设置)、用户上下文(或使用最终用户设备的条件，例如深夜、车中等)和待用于回放经解码的音频信号的数模转换器和扬声器的动态范围。

在另一个实施例中，可在编码设备中计算关于例如多声道音频信号的DRC压缩版本或下混频版本的响度信息或响度参数。然后可提供响度信息作为与经编码的多声道音频信号相关联的元数据。在一个实施例中，在编码设备处，测量输入多声道音频信号的下混频版本的响度参数，并且其中可能在先前向输入信号应用或未应用DRC的情况下已获得下混频信号。

各种响度参数可由编码级与例如用于在编码级中产生下混频信号的下混频增益一起提供，作为与输入信号的经编码的版本相关联的元数据。包含在元数据中的响度信息可包括以下各项中的一者或多者：节目响度(如整个音频节目的主观响度度量中那样，例如根据ITU BS.1770所计算的)、真峰值(诸如根据ITU BS.1770所测量得)、锚定响度、响度范围、响度范围上限、最大瞬时响度和短期响度。这种元数据还可包括已选择以为输入音频信号生成DRC增益值的DRC特性的索引，该DRC增益值也可包括在元数据中。

在解码设备中，DRC处理器能够基于1)在元数据中获得的DRC特性的索引，2)在元数据中获得的DRC增益值，和3)本地参数例如包括用户输入诸如音量设置和响度归一化开/关设置来为DRC调节或生成不同的增益值。于是，在回放处理期间可实时实现动态范围控制，而无需解码设备计算经解码的音频信号的每帧响度值(或DRC输入水平)。在一个实施例中，在对音频文件或流进行解码时，与音频文件或流相关联的元数据由运行于解码器设备中的媒体播放器读取，并用于(在数模转换之前)自动(即，无需用户输入并且对于用户而言是透明的)调节经解码的数字音频内容的响度。取决于用户输入和用户所选择的回放模式的动态范围(例如，线外扬声器相对于内置扬声器)，可这样做来改善用户回放音频文件或流中的内容的体验。

在另一个实施例中，根据由用户设置的回放音量和/或由编码设备测量并经由元数据提供的真峰值和/或基于目标净空(数字音频信号的峰值水平及其剪辑水平之间的差异)来控制解码设备中所应用的DRC压缩量，目标净空值可在解码设备中基于用户回放音量设置和可从用于回放的数模转换和扬声器设备获得的动态范围来计算。

在又一个实施例中，可在解码级中限定目标DRC特性，并且可通过i)找出使用哪个编码级DRC特性，以及ii)比较两个DRC特性以确定如何修改所接收的DRC增益值来实现这个目标。于是，在解码器处基于从元数据所提取的DRC特性索引(指向由编码器使用的DRC特性)、在编码级处设置的所提取的DRC增益值，并基于表示采用不同目标DRC特性索引的特定本地条件来实时修改动态范围调节。

在另一个实施例中，产生关于DRC压缩音频内容信号的响度信息和/或混频音频内容信号，并作为元数据嵌入经编码的多声道数字音频文件或流中。然后，在解码(在解码级中)之后使用这一特定元数据，以通过定制经解码的多声道音频内容的下混频来改善用户体验。

在又一个实施例中，改变解码级中(在驱动扬声器之前向经解码的音频内容信号)应用的DRC压缩量，以便避免扬声器的输入处的剪辑。DRC压缩的这种变化可以是以下各项的函数：a)由用户设置的回放音量，b)(从经编码的音频文件或流提取的)真峰值和/或c)(在应用DRC压缩之后)数模转换器(DAC)的输入处的目标净空。例如，在低回放音量下存在更多净空，使得可应用更小的DRC压缩，这继而将允许经解码的音频信号中更高的峰值被传送到扬声器。

以上发明内容不包括本发明的所有方面的详尽列表。可以预期的是，本发明包括可根据上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求中特别指出的各种方面的所有的合适组合来实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。

附图说明

本发明的实施例以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出，本公开中提到“一”或“一个”实施例未必是同一实施例，并且它们表示至少一个实施例。而且，可使用给定数字示出本发明多于一个实施例的特征，并且对于给定实施例而言可不需要所有元件。

图1是数字音频编码级或编码设备的相关部件的框图。

图2示出了可用于编码级中的几个示例性DRC特性。

图3是解码器级或解码器设备的相关部件的框图，尤其是在回放经解码的音频信号期间执行的解码器级或解码器设备。

图4示出了可用于解码级中以产生新的DRC增益值的几个示例性DRC特性。

图5是解码级中的部件的框图，该部件具有接收经解码的多声道音频信号的下混频处理器。

图6示出了适用于解码级中以产生新的增益值的几个示例性DRC特性。

图7是适于特定下混频情形的数字音频编码级或编码设备的相关部件的框图。

具体实施方式

本文中将本发明的若干个实施例描述为数字音频编码和解码中的元数据增强，以用于在回放经编码的音频文件或具有指定元数据的经编码的音频流期间进行响度归一化和动态范围控制(DRC)。虽然阐述了许多细节，但应当理解，本发明的一些实施例可在没有这些细节的情况下实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对本具体实施方式的理解。例如，本文在根据MPEG标准实现比特率减小而编码的上下文中描述了特定细节，但本发明的实施例还适用于其他形式的音频编码和解码，包括无损数据压缩诸如苹果无损音频编解码(ALAC)。

参考图1，其示出了根据本发明实施例的编码器级或编码器设备的框图。可使用这一框图来不仅描述数字音频编码器设备，而且描述一种用于对音频信号进行编码的方法。数字音频信号是由编码器2来编码的，然后可使用复用器(mux)8与元数据组装在一起。所得的经编码的音频或经编码的音频比特流包含嵌入式元数据，该嵌入式元数据包括数字音频每帧的动态范围控制(DRC)增益值。尽管未示出，但在经编码的信号中嵌入元数据的替代方式是通过图1中称为辅助数据声道7的独立元数据声道提供元数据(在这种情况下包括每帧的DRC增益值)。对音频信号进行编码可涉及有损数据速率减小编码，或者其可涉及无损数据压缩。而且，音频信号可以是脉冲代码调制(PCM)的数字音频序列或其他经采样的单声道或多声道音频信号(这里也称为音频节目)，其可包括多个声道的音频，例如六声道5.1环绕、2声道立体声等。

元数据包括由DRC处理器4所计算的(每帧)DRC增益值。由如图所示的乘法器符号所代表的归一化器或调节器向输入数字音频信号应用音频归一化增益值(例如G_LN)以产生归一化信号。(由DRC处理器4)处理归一化信号以根据若干个预定义的DRC特性中的所选择的一个预定义的DRC特性来计算若干个DRC增益值。DRC特性可存储在编码设备内的作为DRC处理器4的一部分的存储器内。图2中给出了DRC特性的实例，其中沿x轴的DRC输入水平是指短期响度值(这里也称为DRC输入水平)，并且待应用沿y轴的增益值范围来实现对输入音频信号的压缩或膨胀效应。图2中的增益值这里也称为DRC增益值。

音频归一化是向音频记录(也称为音频节目或音频信号)应用恒定量的增益以使音频信号的平均值或峰值达到目标水平(归一化值)。当在整个信号或音频节目间应用相同量的增益时，信号的信噪比和相对动态行为在很大程度上是不变的。归一化与动态范围压缩或动态范围控制(DRC)不同，其向输入的音频信号应用时变的增益水平，以在最小范围到最大范围内匹配结果。实例包括峰值归一化，其中改变增益以使最高数字样本值(例如，脉冲代码调制的PCM值)或模拟信号峰值达到给定水平。

另一种类型的音频归一化基于节目响度的度量。这里，改变所应用的增益(在图1中被具体示出为节目响度归一化增益或G_LN)以使例如整个音频节目期间的平均响度达到目标水平。节目响度的实例包括平均功率的度量，例如RMS值，或人所感知的响度的度量，例如由国际电信联盟(ITU)建议BS.1770“Algorithms to measure programme loudness andtrue-peak audio level”所提供的。根据输入信号的动态范围和目标水平，节目响度归一化可能导致峰值高于给定记录或传输或回放介质的极限。在此类情况下，可使用DRC来防止这种情况下的剪辑，这继而可能改变音频信号的信噪比和相对动态行为。

DRC能够通过缩窄或“压缩”音频信号的动态范围来减小响亮声音的音量或放大安静的声音。压缩通常用于声音记录、再现和广播中。用于应用压缩的电子硬件单元或音频软件有时被称为压缩器。压缩器常常具有若干个控件，例如包括阈值(例如，单位为dB)、增益减小的比例或量(增益值)、改变应用压缩的速率并使该效果顺利实现的攻击和释放控件以及硬/软膝盖控件。

DRC特性(如本文中使用的短语)给出了输入音频信号的短期响度度量(这里也称为图4中的“响度[dB]”或图2中的DRC输入水平)和能够应用于该输入音频信号的增益值之间的关系，该短期度量是在一个时间段内计算的，该时间段可以是数字音频信号的帧或分组的量级，例如5毫秒-100毫秒之间的时段。也可将此称为压缩器配置文件(其中，增益值用于压缩或扩展输入音频信号)。图2中示出了可用于编码级中的几个示例性DRC特性，而图4和图6示出了可用于解码级中的示例性DRC特性(在下文中描述)。

可使用任何适当的过程来选择编码级中的当前DRC特性。响应于接收到选择，DRC处理器4访问所存储的DRC特性并向输入信号应用被访问的配置文件(在这种情况下为增益归一化数字音频信号)，由此产生每帧的DRC增益值。DRC处理器4可如下生成DRC增益值。处理归一化音频信号，以便计算响度的短期度量，例如针对该输入音频信号的大约一帧的量级进行计算。然后使用响度的所计算的短期度量作为查找表的输入，该查找表反映DRC特性中的一个DRC特性诸如图2所示的那些DRC特性或任何其他适当的DRC特性，以获得DRC增益值。例如，如果音频帧是柔和的，则可能会获得更正性的DRC增益，如果音频帧是响亮的，则可能是更负性的DRC增益值。在一个实施例中，可使输入数字音频的每个帧与独立产生的DRC增益值相关联。然后提供DRC增益值作为与经编码的音频信号相关联的元数据，例如嵌入相同的比特流内。此类编码设备可以是媒体服务器的一部分，该媒体服务器响应于来自例如运行于最终用户设备中的客户端程序的请求通过因特网向该请求最终用户设备传输音频节目(例如，作为音乐文件或电影文件的一部分)。或者，可提供经编码的音频比特流以用于存储任何形式的适当的记录介质。

在一个实施例中，可将DRC处理器4视为与编码器2并行操作，除了DRC处理器4的输入是输入到编码器2中的音频信号的归一化版本之外。在图1的实例中，归一化值G_LN可以是标量，对于整个音频节目都是固定的，并且乘以数字音频信号的信号样本。可在通过DRC处理器4来传送(归一化)音频信号“之前”计算归一化增益值G_LN。可基于先前由音频测量模块6计算的响度参数例如节目响度(由图1中标记为G_LN的框)来计算归一化增益。这可由音频测量模块6在第一次通过输入音频信号时在DRC处理器4执行第二次通过(通过输入音频信号的归一化版本)之前完成。然后基于例如(i)初始数字音频节目的实测响度(例如，为整个初始音频节目计算的节目响度)和(ii)目标或期望响度之间的比率来进行G_LN的计算。参见下文了解如何计算示例性G_LN的更多详情。

在另一个实施例中，可响应于输入音频信号中的音频内容的类型基于分别与若干个不同类型的音频内容相关联的若干个预先确定的目标响度值来自动选择音频归一化增益值。例如，如果音频节目为经典音乐，则在目标节目为流行音乐或对话或脱口秀或惊险动作运动图片的情况下选择不同的目标响度值。

图1示出了穿过以下三个信号处理块的音频测量模块6的输入信号：乘法器(用于动态范围调节)、下混频处理器20(以实现多声道音频信号的下混频)以及预调节滤波器9。不过，这仅仅是图1所示的一个实施例。在其他实施例中，可省略那三个信号处理块中的一个或多个信号处理块。例如，如果未对音频信号(音频节目)指示进行下混频，则可从编码级省去下混频处理器20，使得音频信号仅进行动态范围调节和预调节(在由音频测量模块6处理之前)。作为另一个实例，可省略预调节滤波器9，同时仍然指示进行下混频和动态范围调节，在这种情况下，音频信号将仅进行动态范围调节和下混频(在由音频测量模块6处理之前)。

仍然参考图1，除了作为元数据的DRC增益之外，编码设备还可以在新的元数据传输字段中提供所选择的DRC特性的索引作为另一个元数据(与经编码的音频信号相关联)。在图1的实例中，使用辅助数据声道7来提供索引，而DRC增益与经编码的音频信号嵌在一起。辅助声道与递送编码音频的主要数据声道分开。存在若干种手段可用于提供与经编码的音频信号相关联的元数据。图1仅示出了一种机制，其中已(由复用器)将DRC增益值与经编码的音频一起嵌入同一比特流(“主要”数据声道)中，而通过辅助数据声道处理器7来供应响度参数。在另一种手段中，组装器或格式化器将DRC增益值与经编码的音频信号一起布置到例如单个文件内的帧或分组中。在又一种手段中，可增加压缩器，当在同一文件或比特流中与音频信号一起被嵌入时，压缩器减小DRC增益值的比特率。在又一种手段中，辅助数据声道处理器7将DRC增益值布置到辅助数据声道中(除了其他元数据之外)。

除了当前DRC特性的索引之外，元数据还可包括由编码级中的音频测量模块6所计算的节目响度值，以及还任选包括真峰值。可根据任何适当的已知的技术例如根据ITU-BS.1770-3基于输入音频信号来执行音频测量以计算节目响度和真峰值。在另一个实施例中，如图1中所示，该音频测量可使用由DRC处理器4所计算的DRC增益值，以便计算响度参数(例如，节目响度和真峰值)，然后将其提供作为其他元数据。换言之，可基于输入音频信号的DRC调节或压缩版本为音频节目计算节目响度值和真峰值(无G_LN归一化)。如图1中所示，这里要指出的是经压缩的音频信号可以是由下混频处理器20处理的多声道音频信号，这导致产生特定的下混频音频信号并被馈送到音频测量模块6的输入。在这里，下混频处理是任选的，因为可省略或跳过下混频处理器20，从而对经压缩的音频信号执行音频测量而无需下混频。

在另一个实施例中，为了(在音频测量模块6中)执行音频测量，使用了任选的预调节滤波器9，已基于1)输入音频信号的特征或特性和/或2)预期将接收并执行经编码的音频比特流的回放的最终用户设备的特性来配置该预调节滤波器。在图1中可以看出，可在输入到模块6中之前，由滤波器9对输入音频信号进行预调节，在模块6中将对其执行响度计算。预调节滤波器9例如可以是高通滤波器、带通滤波器或其组合，它们对特定回放设备的数字模拟转换和扬声器(换能器)级的频率响应或传递函数建模，该回放设备例如是消费电子设备诸如台式计算机、膝上型计算机、平板电脑、智能电话或被设计成通过因特网接收数字内容并通过附带的显示监视器进行回放的数字媒体播放器。

现在转向图3，其为解码级或解码设备的相关部件的框图。图3中的框图不仅为数字音频解码器设备或解码级提供支持，还提供了用于对音频进行解码的方法，如下文所述的。所示的解码器设备具有解码器10，其接收由解复用器13从经解码的音频比特流提取的经编码的音频信号。该比特流可包括嵌入式元数据，例如，DRC增益值、DRC特性的索引(在编码级中使用)以及响度参数。如上文结合编码设备所示的，替代方式是在独立的辅助数据声道7(参见图1)中包括一些或全部元数据。在两种情况下，提供经编码的音频信号作为解码器10的输入，作为响应，解码器10产生经解码的音频信号。解码器10可与图1的编码器2互补，从而能够恢复基本类似于编码级的初始输入音频信号的信号。经解码的音频信号通过任选的信号处理块14,16传送，直到其到达数模转换器(DAC)18和功率放大器(未示出)，在此将其转换成模拟形式并用于驱动换能器(扬声器)19。

解码设备还具有接收与编码音频信号相关联的元数据的DRC_1处理器12，其中元数据包括在编码级中所计算的DRC增益值。DRC_1处理器12可修改那些增益值以产生新的或经修改的增益值。这种修改可基于局部参数，该局部参数包括用于回放经解码的音频信号的换能器19(例如，内置扬声器或外部扬声器、无线附接的扬声器或有线附接的扬声器)、功率放大器(未示出)和模数转换器(DAC)19组合的用户输入和/或动态范围。然后将经修改的增益值应用于经解码的信号(这种调节由乘法器符号表示)，之后被馈送到任选的混频和另外的音频处理块(框14,16)，然后到达DAC 18。因此将经修改的DRC增益值应用于经解码的音频信号以产生所谓的经解码级DRC调节的音频信号。后者可由混频器14与来自如图所示的其他音频源的经其他解码级DRC调节的音频信号组合(即，通过其他动态范围调节单元15)，之后被馈送到DAC 18。

在一个实施例中，在解码级中所接收的元数据包括先前选择的或当前的DRC特性的索引(如图1中所示，在编码级中根据其所计算的DRC增益值)。在一个实例中，可在DRC_1处理器12中存储所选择的DRC特性或当前DRC特性的副本并与此类索引相关联。这被称为编码级DRC特性。相反，DRC_1处理器12还可包含如图所示的若干个所谓的解码级DRC特性。后者中的一者用于如下所述产生新的或经修改的增益值。

在一个实施例中，DRC_1处理器12“反转”由编码级的DRC处理器4执行的操作，以便通过向当前DRC特性应用(来自所接收的元数据)所接收的DRC增益值来获得从存储在处理器12中的所选择的或当前DRC特性开始的短期响度或DRC输入水平(例如单位为dB)。然后使用该恢复的短期响度值作为解码级DRC特性中的所选择的一个解码级DRC特性的输入，以便获得新的或经修改的增益值。后者在这里被称为解码级或解码器DRC增益值。解码级和编码级DRC特性中的每一者都可以查找表格的方式存储。

对解码级DRC特性的选择可根据以下各项中的一者或多者：用户上下文(包括深夜、步行、跑步、在车中以及手机和内置扬声器)以及扬声器信号路径动态范围。在那种情况下的图3的解码设备可嵌入最终用户设备内，诸如常常处于相当不同的用户上下文中的移动电话、膝上型计算机或平板电脑。这样的上下文可被熟知的电子传感器硬件和软件检测到，包括环境光和位置、取向或运动传感器。可由最终用户设备的制造商预先确定换能器信号路径动态范围，并可存储或通过其他方式提供给DRC_1处理器12，以用于在解码过程期间使用。换能器动态范围可包括DAC 18的动态范围。在存在更大动态范围的情况下，DRC_1处理器12可选择允许在经解码的音频信号的短期响度的预期范围内保持更大动态范围的解码级DRC特性。

在另一个实施例中，也如在图3中所示的，解码级中的所接收的元数据还可包括若干个响度参数，其可以是以下各项中的一者或多者：节目响度、真峰值、响度范围、最大瞬时响度和短期响度。在产生经修改的或新的DRC增益值(基于每个帧)时，可由DRC_1处理器12使用一个或多个此类值。

如上所述，解码级中的DRC_1处理器12(也称为解码器DRC处理器)可使用所选择的解码级DRC特性来生成其经修改的DRC增益值。上文指出，后者可以是处理器12中所存储得并且可根据用户输入或用户上下文来控制信号访问的若干个预定义的DRC特性中的一个预定义的DRC特性。图4示出了可使用的解码级DRC特性的若干个实例。这些解码级DRC特性包括用于深夜用途的一种解码级DRC特性、用于汽车内或车辆内用途的另一种解码级DRC特性以及用于具有有限动态范围的扬声器或换能器19的另一种解码级DRC特性。

根据本发明的另一个实施例，图1和图3的部件组合可获得用于对音频信号进行编码和解码的系统。在编码级中存储了若干编码器动态范围控制(DRC)特性。这些特性中的每个特性都使DRC增益值与短期响度值相关，其中每个响度值都可指音频信号在预先确定的时段内的平均功率，例如在数字音频的大约一帧的量级内，例如在5毫秒长和100毫秒长之间。选择解码器DRC特性中的一个解码器DRC特性，然后用于产生编码器级增益值。然后提供这些编码器级增益值作为与经编码的音频信号相关联的元数据。上文给出了并结合图1描述了这种编码器级的几个实例。

编码器级具有不仅存储编码器DRC特性还存储若干个解码器DRC特性的处理器。后者中的每一者都使DRC增益值与短期响度值相关，该短期响度值可类似于在编码器级所计算的那些短期响度值，以用于确定编码器DRC增益值。解码器级中的处理器使用来自编码器级的编码器级增益值来计算解码器级增益值。在特定情况下，解码器级中的处理器使用所选择的编码器DRC特性的索引和基于元数据的编码器级增益值，以便计算其解码器级增益值。上文给出了并结合图3描述了这种情况的实例。解码器级最终可(在用作例如最终用户设备中的回放处理的一部分时)对经编码的音频信号进行解码，然后应用解码器级增益值以(在经解码的音频信号上)实现期望的动态范围调节。

根据本发明的又一个实施例，一种用于提供经编码的音频和关联的元数据的方法涉及对多声道音频信号进行下混频。如图1中所示，由音频测量模块6基于通过下混频处理器20传送的多声道数字音频信号来计算一组响度参数，其中这些参数描述多声道音频信号的下混频的响度配置文件。例如，可由下混频处理器20来将六或七声道音频信号处理成两声道或立体声信号；更一般地，下混频是将N个声道的音频信号转换成具有M个声道的音频信号，其中N大于M。

对多声道音频信号进行编码，并且将经编码的信号与和其相关联的元数据一起提供，其中在这种情况下元数据包括描述下混频的响度配置文件的所计算的一组响度参数。元数据还可包括多声道音频信号的基础声道布局。例如，基础声道布局可通过识别六个声道的每个声道给出5.1环绕多声道音频信号的详情，六个声道例如是前中、右前、左前、环绕左、环绕右和重低音。然后可由解码级来接收经编码的多声道音频信号及其相关联的元数据，例如参见下文描述的图5，其中对经编码的音频信号进行解码并进行处理，以便根据包括在元数据中的一组响度参数和基础声道布局来产生下混频。元数据还可包括下混频增益，在编码级中将其用于计算包括在元数据中的响度参数所针对的特定下混频。注意，在此类实施例中，不需要由解码级(在通过本地扬声器回放期间)为动态范围执行任何调节。例如，可通过采用常规方式来实施此类方案，其中如果在解码级中所接收的元数据不包含DRC增益值，则不对经解码的信号执行DRC调节。

图5示出了本发明的另一个实施例，其中除了响度参数诸如与下混频相关的真峰值和节目响度之外，与经编码的多声道音频信号相关联的元数据还可包括DRC增益值。该附图以类似于图3中的一些方式描绘了解码级，即其可包含解复用器13，之后的解码器13，任选地还包含音频处理16以及DAC 18。在此，同样地，与经编码的音频信号相关联的所接收的元数据提供DRC增益值。这些DRC增益值要用于解码级中以在处理经解码的音频信号之前对经解码的音频信号进行动态范围调节，以产生下混频。换言之，经编码的多声道音频信号由解码器10解码，然后由新DRC增益值或由初始DRC增益值(后者是从解复用器13获得的)来对一个或多个经解码的声道进行调节。这发生于下混频模块20产生特定下混频之前。下混频模块20可使用也从元数据提取的下混频增益值(如上所述)。在另一个实施例中，使用新的增益值针对动态范围来调节经解码的音频信号，该新的增益值是由DRC_1处理器12使用例如类似于上文结合图3所述的流程来计算的。这里，可能影响新的增益值的本地参数可以是类似的，并且包括用户音量设置和响度归一化通断开关。这些本地参数可支配对若干个可用的解码级DRC特性的特定一个解码级DRC特性的选择，以用于产生新的DRC增益值。

作为前一段中所述方式的替代，可设计由(解码级中)DRC_1处理器12产生的DRC增益值以应用于下混频模块20的下游。为了示出此类实施例，可以修改图5中的解码级，使得在其中示出的乘法器的输入(其他输入从DRC_1处理器12接收DRC增益值)会被定位在下混频模块20的下游(DAC 18的上游)。在这种情况下，DRC_1处理器12可产生基于通过元数据(从编码级)所接收的初始DRC增益值的经修改的DRC增益值，或者可通过初始DRC增益值向调节器或乘法器块传送。针对这种情况，产生特定形式的初始DRC增益值的对应编码级可如图7中所示。

参考图7，除了至少以下方面之外，其示出了可类似于图1的编码设备的编码设备。在这里，(由DRC处理器4)计算DRC增益，使得然后可直接在解码器设备中将它们应用于下混频。与图1相比，图7的DRC处理器4还对下混频信号进行操作，该下混频信号是由下混频处理器20产生的，该下混频处理器20接收初始多声道输入音频信号，并作为响应，对其他输入接收归一化增益值G_LN的归一化器(或乘法器)进行馈送。编码器2可仍然通过与图1相同的方式处理初始输入音频信号，以产生经编码的信号。

返回到图5，在其中的解码级可从编码级(未示出)接收其经编码的音频信号和元数据，在解码级中，产生输入多声道音频信号的特定下混频。当前DRC增益值是在编码级中使用输入多声道音频信号和/或其特定下混频来计算的，然后作为元数据与多声道音频信号的编码版本一起提供(例如，通过使用例如图1中的复用器8将经编码的音频信号与当前DRC增益值组装在一起作为单个经编码的比特流或文件内的元数据)。也可能有其他手段用于将经编码的音频信号与计算的一组响度参数以及基础声道布局，以及任选的当前DRC参数(其全部是与经编码的音频信号相关联的元数据)一起提供。实例包括：组装器或格式化器，该组装器或格式化器将DRC增益值与音频信号一起布置到单个文件内的帧或分组中；复用器，该复用器产生包含DRC增益值的比特流，该DRC增益值已与经编码的音频信号的帧进行时间复用；压缩器，该压缩器当在同一文件或同一比特流中与经编码的音频信号一起嵌入DRC增益值时，减小其数据速率；和辅助数据声道处理器，该辅助数据声道处理器将DRC增益值布置到与主要数据声道分开的辅助数据声道中(其中，后者包含正递送到图5的解码级的经编码的音频信号)。

注意，如前所述，如果与经编码的多声道音频信号相关联的元数据未指定作出动态范围调节，或者仅仅未包含DRC增益值或DRC参数(例如，未提到DRC特性的有效索引)，则处理经解码的音频信号以产生下混频而不对经解码的音频信号执行任何动态范围调节。这可如图5中所示那样，DRC_1处理器12将提供其所有新的增益值为0dB，从而表示不对经解码的音频信号的动态范围执行任何调节。

如果DRC_1处理器12未接收到DRC参数作为元数据，则可由处理器12根据可从图6所示的实例选择的解码级DRC特性(或其他适当的DRC特性)来产生新的增益值。图6示出了三种不同的DRC特性，其中每个DRC特性都与不同的用户音量设置或水平相关联。可以看出，随着音量增大，在短期响度值增大时，由DRC特性限定的压缩量增加。

可能受益于本文所述的技术的编解码的实例包括MPEG和ATSC提出的标准，例如AAC和AC-3，尽管包含控制经解码的音频信号响度和动态范围的机制的其他标准或方法也可能受益。

可作为元数据存储的示例性音频测量

音频测量模块6可以是待由处理器执行的软件例程或硬连线的数字音频处理逻辑电路的布置，其针对给定的数字音频文件来计算或提供一个或多个响度参数。可将该例程用于一定范围的音频产品例如媒体播放器中以用于音乐内容的响度归一化。可在数字音频编码过程期间在经编码的音频文件中将所计算的音频测量作为元数据进行存储。例如，MPEG当前提供能够存储此类元数据的比特流字段。此类字段的当前用途包括存储参考响度、数字音频的每帧的动态范围控制(DRC)增益以及下混频加权因子。根据本发明的实施例，在MPEG-4音频系统框架的“样本描述扩展”中限定了新的“框”，以存储元数据(如下文进一步所述的)。

节目响度是一种可以是数字音频文件的整个内容的平均响度估计的音频测量。可根据ITU-BS.1770-3来计算该实例。可在编码级中在向音频内容信号应用动态范围压缩之后，计算节目响度，例如参见图1，其中在由滤波器9进行预调节之前针对动态范围来调节未归一化音频信号并馈送到音频测量模块6(同时跳过下混频处理器20)。在另一个实施例中，可由编码级中的音频测量模块6来计算节目响度，以用于对音频内容信号进行下混频，例如参见图1。

真峰值是一种可以是来自音频文件的音频比特流的最大样本大小(例如，以4×过采样速率)的音频测量。可根据ITU-BS.1770-3来计算该实例。

响度范围可以是基于ITU BS.1770或根据欧洲广播协会(EBU)规范的音频测量。其测量针对数字音频给定块的大小(例如400ms块)的响度统计分布，并产生低百分比响度分布和高百分比响度分布的差异以描述动态范围。指示响度范围的其他音频测量是可能的。

元数据增强

本发明的实施例是MPEG-4系统框架的“样本描述扩展”部分中的新“框”，可利用用于每个音轨(音频节目)的静态元数据来填充MPEG-4系统框架，该静态元数据例如节目响度、锚定响度、真峰值和响度范围。MPEG-4样本描述扩展内的新框的另外的每个音轨或每个音频节目内容可包括：诸如在0.4秒窗口上的最大瞬时响度、诸如在0.3秒窗口上的最大短期响度、为包括高度声道和其他声道的回放系统限定声道布局的声道映射、DRC声道映射、DRC特性的索引、下混频系数、立体声下混频的节目响度、立体声下混频的锚定响度和立体声下混频的真峰值。尽管如上所述可能还有其他辅助数据声道用于向回放处理器传送元数据，但这里的特定方式可具有如下优点：静态元数据可用，而不对音频比特流进行解码；增加锚定响度(aka dialnorm)以支持电影/TV内容音量归一化；了解编码器中使用的DRC特性能够帮助预测DRC增益的效果；了解DRC特性可用于修改解码器处的DRC特性；可通过不会过时的方式限定下能够支持大于5.1的多声道音频格式的混频系数；以及对下混频响度和剪辑更好地进行控制。

元数据用途

使用节目响度或锚定响度适于进行响度归一化。锚定响度通常基于所提取的语音片段并可仅适用于电影/电视剧内容。

关于动态范围控制(DRC)，可使得若干个元数据值可用，该若干个元数据值描述所记录的音频内容的动态范围的各方面(参见下表)。动态范围的大小可能在回放期间在调节DRC时是有用的，例如，如果动态范围小或甚至能够关闭DRC，则DRC可较不激进。此外，可根据用户输入、音量设置和DAC动态范围和扬声器动态范围来设置目标动态范围，并选择DRC特性，使得将范围减小到该目标。这也可考虑针对更小空间的合理动态范围限制(收听环境)。真峰值和最大响度值可能在估计净空时是有用的，例如在响度归一化导致正增益[dB]时或在需要净空以避免剪辑下混频时。然后可调节DRC特性以接近净空目标。

描述动态范围的各个方面的示例性元数据

在编码器级中使用DRC处理器以使用预定义的DRC特性中的所选择的一个预定义的DRC特性来生成增益值。可在新的MPEG-4框中传输所选择的DRC特性的索引。可在现有字段中(在轻和/或重压缩期间)传输(每帧)增益值。

例如，如图1中所看出的，在DRC处理器4的输入处应用节目响度归一化增益G_LN以确保相对于所选择的DRC特性来确保适当水平的对准。可基于由音频测量模块6产生的节目响度值L_PL和DRC目标响度值L_CTL[dB]，根据G_LN＝L_CTL–L_PL[dB]计算归一化增益，例如L_CTL＝-31dB。

根据本发明的实施例，在解码级中改变所提取的DRC增益值，以实际实现定制DRC，该定制DRC可适于通过例如改变为(与编码级中使用的)不同的DRC特性而适应各种状况。现在由于能够理解所提取的索引的含义，为回放处的处理赋予在编码级中应用哪个DRC特性的了解。可证明这种变化的局部条件包括：深夜模式；噪声环境(例如，移动车辆内部的噪声)；回放系统限制(例如，膝上型计算机、平板电脑或智能电话的内部扬声器，这与外部扬声器或耳机相反)；用户偏好；和内容的动态范围。例如，参见图4，在这种状况中DRC特性是有用的。

在一个实施例中，对于1kHz处的正弦输入，可用的DRC特性应当基于压缩器的稳态输入/输出水平。这保持了与使用k加权的响度估计的压缩器的兼容性。这里假设将DRC特性应用于响度归一化音频信号。这对于在正确水平(如果适用的话)下具有DRC死区是非常重要的，并针对具有各种响度水平的内容产生更相容的结果，尤其是如果利用打开的响度归一化来回放此类内容时。

下混频

下混频是指操控音频，其中混合若干个不同的音频声道以产生更低数量的声道。这里，如果必要的话，可通过音频节目产生设施来控制下混频。例如，一些内容可能需要在下混频之前对环绕声道进行更大的衰减，以维持智能性。

如果设置了DRC_presentation_mode，则在生成下混频时，当前DVB和MPEG需要使用DRC。这样可能导致下混频中动态范围损失。相反，在适当时候为了维持动态范围，在此本发明的实施例是一种自适应方案，其中在高回放音量期间下混频仅需要DRC压缩，如图5所示。然后调整DRC的应用以仅降低最响片段的水平(例如，参见图6)。此外，现在可在解码级处提取在编码级处由音频测量模块6(参见图1)计算并作为元数据提供的立体声下混频的真峰值，并用于估计需要在下混频之前向经解码的信号应用多少DRC压缩。注意，尽管图5示出了在处理经解码的信号以发往下混频处理器20之前，向经解码的信号应用来自处理器12的DRC增益值的实施例，替代地在这里在下混频之后应用DRC增益值，例如直接指向下混频处理器20的输出。

在使用下混频并且DRC压缩独立活动的情况下，如果必要可修改DRC特性，使得为下混频实现足够大的净空。该方案提供了更大的灵活性。而且，可针对解码级中的响度，例如使用相对于完整刻度(LKFS)值(作为元数据所接收的)的K加权响度对立体声下混频进行归一化。这些LKFS值是在编码级中由音频测量模块6基于初始多声道数字音频信号的下混频版本(参见图1)所计算的响度参数。这样确保了多声道内容和立体声内容将在立体声系统上以相同的水平回放。

发明描述

1)一种用于对音频信号进行编码和解码的系统，包括：在其中存储多个编码器动态范围控制(DRC)特性的编码器级，其中该编码器DRC特性中的每个编码器DRC特性使增益值与响度值相关，该编码器级使用编码器DRC特性中的所选择的一个编码器DRC特性产生编码器级增益值并提供编码器级增益值作为与经编码的音频信号相关联的元数据；和具有处理器的解码器级，该处理器存储a)所述多个编码器DRC特性，以及b)多个解码器DRC特性，其中所述解码器DRC特性中的每个解码器DRC特性使增益值与响度值相关，并使用来自编码器级的编码器级增益值来计算解码器增益值。

2)根据表述1所述的系统，其中所述编码器级提供所选择的编码器DRC特性的索引，并且所述解码器级中的所述处理器使用所述索引和所述编码器级增益值来计算解码器级增益值。

3)根据表述1所述的系统，其中所述解码器级对经编码的音频信号进行解码，然后对经解码的音频信号应用解码器级增益值，以实现动态范围控制。

4)一种用于对音频进行解码的方法，包括：接收经编码的音频信号和与其相关联的元数据，其中所述元数据可包括多组响度参数中的一个一组响应参数，其中所述多组响应参数包括a)描述相应下混频的响度配置文件的一组响应参数，和b)描述基础声道布局的响度配置文件的一组响应参数；对经编码的音频信号进行解码以产生经解码的音频信号；以及根据包括在元数据中的所述一组响度参数来处理经解码的音频信号以产生下混频。

5)根据表述4所述的方法，其中与经编码的音频信号相关联的元数据还包括DRC参数，该方法还包括：在处理经解码的音频信号以产生下混频之前或之后，根据DRC参数对经解码的音频信号进行动态范围调节。

6)根据表述4所述的方法，其中与经编码的音频信号相关联的元数据不指定进行动态范围调节或不包含DRC参数，并且其中处理经解码的音频信号以产生下混频而不在产生下混频之前对经解码的音频信号进行动态范围调节。

7)一种数字音频解码器设备，包括：解码器，所述解码器接收经编码的音频信号并产生经解码的音频信号；和下混频处理器，所述下混频处理器接收经解码的音频信号和与其相关联的元数据，其中所述元数据包括一组响度参数，所述一组响度参数为以下各项中的一者：a)描述相应下混频的响度配置文件的一组响应参数或b)描述基础声道布局的响度配置文件的一组响应参数，其中所述下混频处理器根据包括在元数据中的该组响度参数来产生下混频音频信号。

8)一种用于提供经编码的音频和相关联元数据的方法，包括：基于描述多声道音频信号下混频响度配置文件的多声道音频信号来计算一组响度参数；对多声道音频信号进行编码；并且提供a)经编码的多声道音频信号和b)作为元数据与其相关联的所计算的一组响度参数和多声道音频信号的基础声道布局。

9)根据表述8所述的方法，还包括：产生多声道音频信号的下混频；使用下混频来计算动态范围控制(DRC)增益值；以及将经编码的音频信号与所计算的DRC增益值组装在一起作为与经编码的音频信号相关联的元数据。

10)一种数字音频编码器设备，包括：响度参数计算器，所述响度参数计算器计算描述多声道音频信号的下混频的响度配置文件的一组响度参数；编码器，所述编码器对多声道音频信号进行编码；和与所计算的一组响度参数和多声道音频信号的基础声道布局一起提供经编码的音频信号作为与经编码的音频信号相关联的元数据。

11)一种用于对音频进行解码的方法，包括：接收经编码的音频信号和与其相关联的元数据，其中所述元数据包括一组响度参数；对经编码的音频信号进行解码以产生经解码的音频信号；以及根据以下各项中的一者来处理经解码的音频信号以实现经解码的音频信号的动态范围压缩：a)包括在元数据中的该组响度参数，b)回放音量或c)目标净空。

如上所述，本发明的实施例可为存储有指令的机器可读介质(诸如微电子存储器)，所述指令对一个或多个数据处理部件(一般在此称为“处理器)编程以执行上述数字音频处理操作，该数字音频处理操作包括编码、解码、响度测量、滤波、混合、相加、反转、比较和决策。此类指令可以是媒体播放器应用程序的一部分。在其他实施例中，可通过包含硬连线逻辑部件(例如，专用数字滤波器块、状态机)的特定硬件部件来执行这些操作中的一些操作。可替代地，可通过经编程的数据处理部件和固定硬连线电路部件的任何组合来执行那些操作。

虽然已描述并且在附图中示出了某些实施例，但应当理解，此类实施例仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域普通技术人员而言可想到各种其它修改。例如，尽管在一个实施例中将编码级和解码级中的每一者都描述成例如在通过因特网进行通信的音频内容消费机器以及在音频内容消耗机器中操作，但也可以在同一机器内进行编码和解码例如作为代码转换过程的一部分。因此要将描述视为示例性的而非限制性的。

Claims

1.一种用于在回放处理期间对音频进行解码的方法，包括：

接收经编码的音频信号；

接收与所述经编码的音频信号相关联的元数据，所述元数据包括多个动态范围控制DRC增益值以及先前所选择的DRC特性的索引，其中在生成所述经编码的音频信号时根据所述索引计算所述DRC增益值；

对所述经编码的音频信号进行解码以产生经解码的音频信号；

从多个可用DRC特性当中选择当前DRC特性，其中所选择的当前DRC特性与所述索引相关联；

将来自所述元数据的所述多个DRC增益值应用于所述当前DRC特性以获得多个输入水平，以及

应用所述多个输入水平以在回放处理期间产生经调节的音频信号。

2.根据权利要求1所述的方法，其中所接收的元数据还包括选自由以下各项组成的组的多个值：节目响度、真峰值、响度范围、最大瞬时响度和短期响度值。

3.根据权利要求1所述的方法，其中应用所述多个输入水平以在回放处理期间产生经调节的音频信号基于回放条件是深夜、噪声环境、移动车辆内部、步行、跑步或扬声器动态范围。

4.根据权利要求1所述的方法，还包括

从比特流中提取立体声下混频的真峰值；以及

使用所述真峰值来估计需要多少DRC压缩。

5.一种数字音频解码器设备，包括：

具有解码器、DRC处理器的数字媒体播放器，所述解码器用于接收经编码的音频信号并产生经解码的音频信号；

所述DRC处理器用于接收与所述经编码的音频信号相关联的元数据，其中所述元数据包括多个动态范围控制DRC增益值以及先前所选择的DRC特性的索引，其中在生成所述经编码的音频信号时根据所述索引计算所述DRC增益值，所述DRC处理器用于从多个所存储的DRC特性当中选择与所述索引相关联的当前DRC特性并将来自所述元数据的所述多个DRC增益值应用于所述当前DRC特性以获得多个输入水平；以及

所述数字媒体播放器用于应用所述多个输入水平以产生经调节的音频信号。

6.根据权利要求5所述的设备，其中所述数字媒体播放器是最终用户设备的一部分，所述最终用户设备还包括用于在回放所述经编码的音频信号期间将经调节的音频信号转换成模拟形式的数模转换器DAC。

7.根据权利要求6所述的设备，还包括下混频处理器，所述下混频处理器根据包括在元数据中的一组响度参数来产生下混频音频信号。

8.根据权利要求7所述的设备，其中所述数字媒体播放器用于应用所述多个输入水平以基于作为以下中的一者的回放条件产生所述经调节的音频信号：回放音量设置；包括深夜、步行、跑步或汽车的用户上下文；DAC动态范围；或扬声器动态范围。

9.根据权利要求5所述的设备，其中所述DRC处理器用于从所述元数据中提取所述经编码的音频信号的立体声下混频的真峰值，并且使用所述真峰值来估计在进行下混频转换之前要对经解码的信号应用多少DRC压缩。

10.根据权利要求6所述的设备，其中所述DRC处理器用于从所述多个所存储的DRC特性当中基于以下中的一者或多者选择目标DRC特性：回放音量设置；包括深夜、步行、跑步或汽车的用户上下文；

DAC动态范围，扬声器动态范围。

11.一种音频系统，包括：

处理器；和

其中存储有由在处理器执行时进行以下操作的指令的存储器：

接收与经编码的音频信号相关联的元数据，所述元数据包括多个动态范围控制DRC增益值以及先前所选择的DRC特性的索引，其中根据所述索引计算所述经编码的音频信号的DRC增益值；

从多个可用DRC特性当中选择当前DRC特性，其中所选择的当前DRC特性与所接收的元数据中的所述索引相关联；

应用所述多个输入水平以产生经调节的音频信号。

12.根据权利要求11所述的音频系统，其中所接收的元数据还包括选自由以下各项组成的组的多个值：节目响度、真峰值、响度范围、最大瞬时响度和短期响度值。

13.根据权利要求11所述的音频系统，其中应用所述多个输入水平以在回放处理期间产生经调节的音频信号基于回放条件是深夜、噪声环境、移动车辆内部、步行、跑步或扬声器动态范围。

14.根据权利要求11所述的音频系统，其中所述存储器具有在由处理器执行时进行以下操作的进一步的指令：

从所述元数据中提取立体声下混频的真峰值；以及

使用所述真峰值来估计需要多少DRC压缩。