CN111477253A

CN111477253A - 基于编码音频元数据的均衡

Info

Publication number: CN111477253A
Application number: CN202010311316.8A
Authority: CN
Inventors: F·鲍姆加特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2015-07-31
Filing date: 2016-06-13
Publication date: 2020-07-31
Anticipated expiration: 2036-06-13
Also published as: WO2017023423A1; JP6499374B2; EP3329489A1; CN107851449A; EP4290888A3; US10699726B2; CN111477253B; JP2018528459A; EP3329489B1; KR102124547B1; JP2019091095A; US20170032801A1; KR20200074243A; KR102178231B1; US9934790B2; US11501789B2; US20180218746A1; KR20180020295A; US20200342886A1; EP4290888A2

Abstract

本公开涉及基于编码音频元数据的均衡。提供了用于产生编码数字音频记录的系统，所述系统具有：音频编码器，所述音频编码器对具有多个音频通道或音频对象的数字音频记录进行编码。均衡(EQ)值生成器产生EQ值的序列，所述EQ值的序列定义将在对所述编码数字音频记录进行解码时应用的EQ滤波，其中所述EQ滤波将独立于任何降混而被应用于所述记录的所述音频通道或音频对象中的一个或多个音频通道或音频对象的组。比特流复用器将所述编码数字音频记录与所述EQ值的序列组合，后者作为与所述编码数字音频记录相关联的元数据。还描述了用于对编码音频记录进行解码的系统。

Description

基于编码音频元数据的均衡

本申请是申请日为2016年6月13日、申请号为201680046105.8、题为“基于编码音频元数据的均衡”的发明专利申请的分案申请。

本非临时专利申请要求2015年7月31日提交的临时申请62/199,634的较早提交日期的权益。

技术领域

本发明的实施方案整体涉及音频信号的编码和解码，以及在解码信号回放期间对与编码信号相关联的元数据的使用，以改善各种类型的消费性电子终端用户设备中的回放质量。还描述了其他实施方案。

背景技术

数字音频内容在许多情况下出现，包括例如音乐和电影文件。在大多数情况下，音频信号被编码，其中编码不一定是为了降低数据速率，而可能仅仅是为了格式转换，以便能够存储或传输所得的媒体文件或流，从而允许大量交付或传输同时发生(如果需要的话)。媒体文件或流可以在不同类型的终端用户设备中被接收，在终端用户设备，编码音频信号经过解码，然后通过内置或可拆卸扬声器呈现给消费者。这使消费者有兴趣通过互联网获得数字媒体。数字音频内容(节目)的创建者和发行者可以采用多种行业标准来对音频内容进行编码和解码。这些标准包括由Advanced Television Systems Committee,Inc.在2005年6月14日公布的数字音频压缩标准(AC-3,E-AC-3)修订版B文件A/52B(“ATSC标准”)、欧洲电信标准协会的基于ISO/IEC 13818-7高级音频编码(AAC)中的MPEG-2传输流(“MPEG-2AAC标准”)的ETSI TS 101 154数字视频广播(DVB)，和由国际标准化组织(ISO)公布的ISO/IEC14496-3(“MPEG-4音频”)。

音频内容可以被解码，然后采用与其最初的母带处理不同的方式来处理(呈现)。例如，母带工程师可以记录乐队演奏或音乐会，使得在回放时(收听者)感觉自己好像坐在音乐会的观众席上，即在乐队或管弦乐队前面，掌声从后面传来。母带工程师可以选择对(同一个音乐会)进行另一种呈现，使得例如在回放时，收听者可以听到音乐会，就好像他在舞台上一样(他可以在那里听到乐器“在他周围”，并且掌声在“前面”)。这也被称为为回放室中的收听者创建不同的角度，或者针对不同的“收听位置”或不同的回放室呈现该音频内容。

音频内容也可以针对不同的声学环境来呈现，例如通过头戴式耳机、智能手机免提电话或者平板电脑、膝上型计算机或台式计算机的内置扬声器回放。特别地，现在提供了基于对象的音频回放技术，其中可以在给定声学环境中的任何一个或多个扬声器通道上以不同方式回放各个数字音频对象，数字音频对象是例如单人讲话、爆炸声、掌声或背景声音的数字音频记录。

然而，当先前混合的(某些音频内容的)记录被随后呈现到不同的声学环境中或者从不同的听者角度呈现时，收听者听到的音调平衡会受到影响。为了减轻这种音调不平衡，母带工程师对数字音频信号应用均衡(EQ)或频谱整形，以针对特定声学环境或特定收听者角度来优化音频信号。例如，呈现用于在大型电影院中回放的电影文件可能要求将某种EQ应用(于该电影文件的数字音频轨道)，以防止所得的声音在回放期间太响亮。但是呈现用于通过家庭影院系统回放的文件，例如作为DVD文件或互联网流媒体电影文件，则由于较小的房间尺寸(和其他因素)而要求不同的EQ。

发明内容

在音频的混合和母带处理或制作中，通常应用两个基本工具，即动态范围控制或压缩(DRC)以及均衡(EQ)，来达到所需的水平(例如响度)和音调平衡。但是，以消费者为中心的回放场景在制作过程中是未知的。本发明的一个实施方案是制作或发行系统(例如，服务器系统)，其产生作为编码数字音频内容(或音频记录)文件的元数据的一部分的EQ值。EQ值可以定义在回放期间将将被应用于解码原始音频记录的线性滤波(频谱整形)。EQ的这种应用可以被定义为独立于任何降混。频谱整形是在解码器从编码内容文件中提取音频记录之后应用的；这可以在形成指定的降混之前、在降混已经执行之后，或者在降混之前和之后都进行。由基于元数据的EQ值定义的线性滤波被设计成调节音频记录内的频率分量之间的平衡、增强或减弱特定频带的能量，以更好地适应特定的回放声学环境或收听角度。因此，这使得能够回放经过频谱调整或线性滤波的音频内容，其中滤波在编码级被指定，并且旨在改善特定声学环境(例如，比公共电影院小的起居室)中或者用于特定的声音呈现系统(例如，具有特定的音频放大器增益和扬声器灵敏度)的回放声音。音频内容文件可以是例如电影文件例如MPEG电影文件、纯音频文件例如AAC文件，或具有任何合适的多媒体格式的文件。例如，与编码数字音频记录相关联的元数据可以被携带在MPEG-D DRC的多个扩展字段中。基于元数据的方法实现统一的声音节目内容发行格式，因为只需要单个基本版本的音频记录，其能够针对不同的回放场景提供基本版本的多个呈现版本(如由元数据中的EQ序列支持的)。

各种格式可以用于在音频内容文件的元数据中存储或携带EQ值。例如，元数据可被定义为包含一个或多个EQ值的序列。参见下表了解EQ序列的示例部分。序列的每个元素可以包含值，该值定义要对特定的解码通道或对象执行的频谱整形(滤波)操作的某个方面。已经为编码数字音频内容的特定呈现选择了EQ值。EQ值的序列可以定义将被应用于(解码音频记录中的)一整段声音节目内容的均衡滤波。给定文件的元数据中的每个EQ序列(指代文件中的相同音频内容)可以包括用于对一个或多个通道或对象的相应组进行滤波的指令。(一个或多个EQ序列的)EQ集可以定义在通过头戴式耳机回放歌曲期间应用的EQ滤波，而另一个EQ集可以定义在通过扬声器坞站回放相同歌曲期间将应用的EQ滤波。给定的EQ序列中定义的滤波因此与原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的EQ组相关联，并且可以独立于也将被应用于该EQ组的通道或对象的任何降混。

EQ值(或者EQ指令或有效载荷)可以定义将应用于频率(或子频带)域中的滤波。例如，EQ有效载荷可以具有两个或更多个预定义频带的增益值，类似于图形均衡器设置，例如高音、中音和低音。在这种情况下，EQ滤波操作可以将解码音频内容的频域表示乘以增益值。EQ有效载荷可以另选地或另外定义将在时域中应用的滤波。例如，EQ有效载荷可以包含数字滤波器的抽头系数。在这种情况下，可以根据EQ有效载荷，(在解码器级)合成自适应或可变数字滤波器，在回放期间解码音频内容正在通过所述滤波器。在这种情况下，EQ滤波操作可用于使音频内容的时域表示通过合成数字滤波器，因为后者在回放期间被更新。

如上所述，EQ滤波的应用可以在回放期间改变，例如与音频内容的每一帧一样频繁地改变。但是EQ也可以被设计为在更高的层面上改变。例如，当音频对象进入场景时，可能需要改变应用于选择音频通道的EQ，以更好地适应该音频对象的声音。因此，序列格式可以允许嵌入了元数据的EQ值与编码音频内容同步地随时间改变。这里还描述了(用于EQ元数据的)技术，其可以例如使新的EQ淡入，并使旧的EQ淡出，或者突然打开或关闭EQ(在回放期间)。

以上概述不包括本发明的所有方面的详尽列表。可预期的是，本发明包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合来实施的所有系统和方法。此类组合具有未在上述发明内容中具体阐述的特定优点。

附图说明

本发明的实施方案以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，本公开中提到“一”或“一个”实施方案未必是同一实施方案，并且这意味着至少一个。另外，为了简洁以及减少附图的总数，可使用某个附图示出本发明的不止一个实施方案的特征，并且对于某个实施方案，可能并非需要该附图中的所有元素。

图1是示出构成执行编码级处理的示例性计算机系统以及执行解码级处理的计算机系统的部件的框图。

图2示出了具有EQ、DRC和降混功能的解码级处理的示例。

图3是EQ滤波器模块的示例性数字滤波器级联结构。

具体实施方式

现将参考所附附图描述若干实施方案。虽然阐述了许多细节，但应当理解，本发明的一些实施方案可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

图1示出了构成执行数字音频记录的编码级处理的计算机系统以及执行该数字音频记录的解码级处理的计算机系统的部件的示例。应当理解，虽然图1示出了包括EQ、动态范围控制(DRC)和降混块的示例性处理链(在解码级或回放级)，但并非所有这些都需要在本发明的给定实施方案中或者在回放设备的给定实例中存在。而且，特定音频内容文件的元数据可以指定用于回放而不是DRC并且也不是降混的EQ。

图1中的原始音频记录可以是具有多个音频通道的一段声音节目内容的比特流或文件(这里这些术语可互换地使用)形式，诸如音乐作品或视听作品例如电影；另选地或除了音频通道之外，该记录可以包括多个音频对象，例如各个乐器、主唱、声音效果的声音节目内容。编码级处理可以由例如声音节目内容制作者或发行者的计算机(或计算机网络)执行，诸如演奏会或电影的制作者；解码级处理可以由例如消费者的计算机(或计算机网络)执行。

从编码级处理开始，编码器2将具有多个原始音频通道或音频对象的数字音频记录编码成一种不同的数字格式。该新格式可以更适合于存储编码文件(例如，存储在便携式数据存储设备上，诸如光盘或数字视频盘)，或者更适合于以比特流传送给消费者的计算机(例如，通过互联网)。编码器2还可以例如根据MPEG标准对原始音频通道或音频对象进行有损或无损比特率降低(数据压缩)，或者进行无损数据压缩，诸如Apple无损音频编解码器(ALAC)。

均衡(EQ)值生成器3产生EQ值的序列；这些定义在对编码数字音频记录进行解码时将在如图所示的解码级处理中应用的EQ滤波。EQ值可以定义可以应用于(解码记录的)数字音频信号的固定、随时间不变的线性滤波过程，或者它们可以定义可变线性滤波，这种滤波具有可以根据EQ值而变化的频谱形状，例如根据每个数字音频帧来变化(其中数字音频信号可以按帧或时间块来处理)。EQ滤波可以在降混之前(例如，当两个以上的解码音频通道随后被组合成立体声时)应用、在降混之后应用，或者在降混之前和之后都应用。EQ滤波还可以被指定为仅适用于记录的解码音频通道或音频对象中的一个或多个解码音频通道或音频对象的预定义组-下面将提供这方面的更多内容。下面的表1和2是示出EQ值序列的一些部分的示例。

在一个实施方案中，EQ值生成器3包括图形均衡器，该图形均衡器可由人类用户例如混音工程师操作，并且可配置成多种图形均衡器设置。原始音频通道被输入到图形均衡器，其中图形均衡器随后根据特定图形均衡器设置来对数字音频记录的至少一部分进行滤波。然后可以将这些经过滤波的音频信号发送到回放系统(具有音频功率放大器和扬声器系统-未示出)，以使用户能够评估特定图形均衡器设置的声音(对于一组给定的音频通道或对象的给定部分或片段。)EQ值生成器3可以具有数字滤波器合成器，该数字滤波器合成器为给定的输入记录产生EQ指令或值。这段声音节目内容的不同通道或对象(如分配给给定组)可以被分配它们各自的EQ值的EQ序列。

在一个实施方案中，EQ指令或EQ序列的值定义具有所需的传递函数的线性数字滤波器(基于所发现的针对给定的输入记录所需的图形均衡器设置)。这也被称为时域频谱整形或线性滤波。在另一个实施方案中，线性滤波在频域中使用均衡器增益级别来定义，每个均衡器增益级别用于多个频带中的一个频带，其定义将应用于指示的(原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的)EQ组的子频带滤波。

编码级处理还可以具有比特流复用器4，该比特流复用器将编码数字音频记录与一个或多个EQ值(由EQ值生成器4产生)序列组合，后者作为与该编码数字音频记录相关联的元数据。组合的结果可以是包含该编码记录及其相关联的元数据的比特流或编码文件(从现在开始统称为“比特流6”)。应注意的是，元数据可以与编码记录一起嵌入在比特流6中，或者它可以被提供在(与编码记录相关联的)单独的文件或侧通道中。

仍然参考图1，解码级处理可以具有以下部件，所有这些部件可以例如被实现为计算机例如诸如膝上型计算机、智能电话或平板电脑之类的消费电子设备的编程处理器。比特流6由比特流解复用器8接收，例如通过从本地连接的设备(例如，CD或DVD驱动器、智能电话)读取或通过互联网从远程媒体服务器流式传输。比特流6包含a)编码数字音频记录，其与b)作为元数据的一部分的EQ值的序列组合，该元数据与该编码数字音频记录相关联。EQ序列标识EQ组，EQ组是原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的组，EQ滤波将应用于该EQ组；可以已经在编码级使用EQ值生成器3定义该EQ组，例如，由例如混音工程师选择要在单个组中存在的某些通道或对象。

解复用器8可以具有与复用器4相反的功能，并且能够提取编码音频或声音节目内容并将其提供给解码器9。后者可以具有与编码器2相反的功能，并且因此从编码音频记录中对原始音频通道或音频对象进行解码。解复用器8还能够从元数据中提取EQ值的序列(包括相关联的EQ组定义)。该信息被传送到EQ分组器10，并配置分别分配给K个组的两个或更多个EQ滤波器11_1、11_2、...、11_K。这里的组是指一个或多个音频通道或音频对象；如图所示，可以为每个组提供单独的EQ值的序列。分配到给定组的EQ值定义EQ滤波器11，该EQ滤波器将对该(解码音频通道或对象的)组中的每个通道或对象进行操作。在一个实施方案中，当解码级EQ滤波过程已经启用时，指定组被滤波(根据在每个组的元数据中指定的EQ值)，无论降混处理器16是否也被启用。

仍然参考图1，可以可选地在解码级中启用降混处理器16，以根据也从元数据中提取的降混分组定义来将例如三个或更多个(P>2)输入(经过EQ滤波的通道或对象)组合成两个或更多个(Q<P)输出通道(例如，将5.1环绕声转换成双通道立体声)。然后由呈现系统(例如，消费电子设备的音频功率放大器和扬声器-未示出)将来自降混处理器16的输出通道转换成声音。在一个实施方案中，无论降混处理器16是否存在，都将执行在元数据中指定的EQ滤波。当元数据指定降混处理时，还可以包括用于在降混操作之前应用EQ(在解码级)的预降混EQ值，以及用于在降混操作之后应用EQ的后降混EQ值。下面结合图2给出一个示例。

解码级处理中的另一个可选特性是将DRC应用于所选择的经过EQ滤波的通道或对象，然后再进行降混。为此，可以提供多个DRC块14_1、14_2、...14_L；每个DRC块14_i对分配到其组的一个或多个通道或对象执行动态范围压缩；最多可以有L组(每组由一个或多个通道或对象组成)。根据元数据中包含的DRC组定义(除了上面描述的EQ元数据之外)配置的DRC分组器13执行对解码通道或对象(将对其应用DRC)的这种分组。因此，元数据标识(通道或对象的)DRC组和将应用于该组的通道的相应一组DRC设置(DRC序列)，诸如阈值和比率值，其定义可以在回放期间随时间变化的所需压缩曲线。因此，相同的DRC序列被应用于给定DRC组中的所有通道或对象。元数据可以指定独立于EQ分组的DRC分组。

图2示出了具有EQ、DRC和降混功能的解码级处理的一个更全面的示例。所有解码通道或对象都可以被提供给EQ分组器10。所提取的元数据指定将这些解码通道或对象分组成多个组，以便在回放期间对其应用均衡。这种分组意味着元数据中给定的EQ值序列将通过配置预降混EQ滤波器11_3而被应用于相关联的EQ组(例如第3组)中的所有通道或对象。换句话说，EQ组定义是由比特流解复用器8(参加图2)提供到EQ分组器10的；作为响应，后者将解码通道或对象分组成指定的两个或更多个(K个)组。然后，这K个组中的每一个都被各自的预降混EQ滤波器11滤波，该EQ滤波器已经如在与该组相关联的EQ值序列中定义的那样被配置。EQ滤波器11的基本结构的一个示例在下面的图3中给出。

在一个实施方案中，元数据可以指定不止一个“EQ集”。一个EQ集包含用于或定义原始音频通道或对象的分组的指令，以及将应用于这些分组通道或对象的EQ滤波。换句话说，每个EQ集与原始音频通道或对象的相应分组相关联，并且其中定义的EQ滤波可以在不同的回放场景期间被应用。例如，可以有一个EQ集用于通过大房间内的扬声器来回放解码音频记录，另一个EQ集用于在小房间中回放该记录，而另一个EQ集可用于通过头戴式耳机回放该解码音频记录。

仍然参考图2，如果元数据还包含DRC组定义和DRC设置(每个DRC组)，则可以在编码级处理中做出决定以向DRC分组器13提供来自该元数据的DRC组定义，并且还根据来自该元数据的DRC设置配置L个预降混DRC块14。一旦解码音频通道或对象已经被预降混EQ滤波器滤波，它们就可以被重新分组，然后在由通道/对象取消分组器12取消分组之前由预降混DRC块14进行动态范围压缩，然后作为输入提供给降混处理器16。

如上所述，元数据还可以包含所需的EQ序列和EQ分组定义，以对解码音频记录执行后降混、线性频谱整形(均衡或EQ滤波)。在这种情况下，可以在解码级中提供通道/对象重新分组器17，其将降混处理器16的输出音频通道或对象重新分组成M组(如元数据中所指定的)。还配置M个降混EQ滤波器18(根据它们各自的EQ序列)。经过重新分组的音频通道或对象然后通过降混EQ滤波器18。作为又一方面，还可以在元数据中指定后降混DRC操作；它可以由通道/对象重新分组器19来实现，该通道/对象重新分组器根据包含在元数据中的后降混EQ分组定义将后降混EQ滤波器18的输出处的通道或对象重新分组，以及由后降混DRC块20来实现，该后降混DRC块如元数据中的后降混EQ序列所指定的那样配置，以压缩后降混的EQ滤波音频通道或对象。最后，通道/对象取消分组器22将来自后降混DRC块20的输出信号重新混合成驱动回放系统中的多个音频功率放大器所需的布置。

当发行或制作正片(动画影片)时，上述使用元数据将EQ指令传送到解码级的方法特别有效。典型地，首先产生视听作品的影院主体，其具有优化用于在大房间诸如公共电影院中回放的音轨。特别地，影院主体音频或音轨具有很大的动态范围。然后通过基于为较小房间选择的典型X曲线(目标级别相对于频率)对该音轨应用均衡来创建家用混音(例如，用于DVD版本)，以修改该音轨，使得高音和低音减弱，中音保持不变。此外，修改影院主体以使家用混音具有为较小房间选择的较低动态范围。因此，应用于音频音轨的影院混音以生成家用混音的信号处理通常包括动态范围压缩(DRC)以及均衡(EQ)。

根据本发明的一个实施方案，为了在回放侧(解码级)从剧院混音生成家用混音，将信息嵌入在正片的音频音轨的元数据内，该元数据描述了要在回放设备中执行的用于执行动态范围压缩和线性均衡滤波所需的操作。这种方法的一个优点是它能够实现一种统一的发行格式，其包含该音轨的一个基本版本，因此具有足够的比特率，但是也能够针对不同的回放场景提供该音轨的多个不同呈现版本。

将应用于该音轨的均衡应该考虑回放环境中的扬声器的具体配置，以实现改善的音调平衡。与其说是根据特定的扬声器布局来采用固定均衡曲线，不如说元数据可以包括可以在正片传送的不同实例之间变化的EQ序列。例如，EQ序列可以由动画影片的制作者或发行者定制，以特定于消费者起居室中的特定扬声器布局。EQ序列也可以根据音轨中的特定内容或声音事件来定制。

上述方法也适用于基于对象的音频(其中音轨或音频记录包括音频通道和/或音频对象)。基于对象的音频通过使呈现的音频对象的位置能够被控制而提供在搭建声学场景方面的灵活性。为了实现改善的音调平衡，应用于每个音频对象的均衡滤波应取决于其呈现位置，例如哪个扬声器将要转换该音频对象。因此可以在考虑到这种基于对象的音频特性的情况下选择在元数据中指定的EQ序列。EQ序列的多个EQ集可以被包括在元数据中，以再次基于相同的基本音频对象来传送不同的混音或者呈现。EQ序列集可以例如被定义为用于在收听者的不同虚拟位置处回放(例如，一个EQ序列集可以被设计用于当虚拟收听者被假定为观众中的一员并且坐在乐队正在演奏的舞台“前方”时，而另一个EQ序列可以被设计用于呈现虚拟收听者在舞台上时的情况)。

本发明的一个实施方案是提供一种由音频记录(例如，作为正片的一部分)的制作者或发行者所控制的一致均衡的方法，其中可以使用应用于解码基本版本的均衡化，采用与音频记录的编码基本版本的未修改场景不同的方式呈现“音频场景”，从而改善不同音频场景的音频质量，如元数据中所指定的。这种特定解决方案有益的示例包括编码音频记录(例如影院母带)具有环绕内容但是要由立体声扬声器系统在回放设备中再现的情况。在其他情况下，上述的均衡技术在回放场景不具有能够使其从高处源再现声音的高度扬声器的情况下也是有用的。

正如在上文所述的图2的综合示例中看到的那样，该系统的一个实施方案提供了在解码器处理或解码器级内的若干级应用线性频谱整形滤波(EQ)的选项，包括所述的在降混频之前和降混之后的两个级。如果元数据指定要对解码音频记录应用EQ和DRC两者，则先应用EQ再应用DRC。这也在图2中绘出，其中预降混EQ滤波器11处理(频谱整形)解码音频通道或对象，之后这些信号(被重新分组器13)重新分组，随后由预降混DRC块14处理(并且在后降混级也类似地操作，其中EQ滤波器18处理解码音频通道或对象，然后这些音频通道或对象被后降混DRC块20压缩)。需注意，如上所述，为了向音频通道或对象应用EQ而对其进行分组可以独立于为了应用动态范围压缩而进行的分组(在元数据中指定)。

在EQ值序列中(在元数据内)，可以采用用于定义EQ滤波器11,18的各种方法，这也称为每个EQ滤波器的参数化。例如，除了定义滤波器的频率响应的参数之外，还可以在元数据中指定数字滤波器的结构。例如，每个滤波器11,18可以由各个滤波器元件组成，包括例如有限脉冲响应FIR和/或无限脉冲响应IIR，其并联连接以形成滤波器块，然后几个这样的滤波器块级联。图3描绘了这样的一个结构的示例，其示出了在EQ滤波器11或18中的B(两个或更多个)滤波器块的级联。这也被称为数字滤波器级联，其通过将滤波器块0、1、...B-1级联而形成。每个滤波器块具有两个或更多个如图所示并联连接的FIR元件、IIR元件或两者的组合，使得每个滤波器元件接收相同的单个解码通道或对象作为输入。在这种情况下，存在J个滤波器元件，对应于期望经过频谱整形的音频频谱的J个频带。图3中描绘的布置可以针对给定组的每个单个解码通道或对象而复制。在一个实施方案中，图3所绘出每个滤波器级联具有相同的配置(如针对特定EQ组所定义的)，并且针对该EQ组内包含的每个解码通道或对象而复制。用于所有通道或对象的滤波器元件集(这里是滤波器级联)在这里被称为EQ滤波器集，其中如上面所建议的，元数据可以指定不止一个EQ滤波器集，其中这些EQ滤波器集中的每一个被设计或预期用于(相同的基本音频记录)的不同回放场景。

给定EQ组中的所有通道或对象将并行通过一种滤波器结构，该滤波器结构对于该给定组中的每个通道或对象具有相同线性滤波器级联的单独实例(例如，如图3所示)。换句话说，给定EQ组中的所有通道或对象都以相同的方式被滤波。该级联内的滤波器元件的配置或定义在元数据中通过定义将应用于特定EQ组的滤波的EQ值的序列来指定。

该元数据可指定仅在滤波器级联中使用IIR滤波器，或者可指定IIR滤波器和FIR滤波器的组合。滤波器级联的定义可以包括每个滤波器块的极点和零点，这些极点和零点将在解码级中构造或合成，以用于对经过解码的原始音频通道或音频对象中的一个或多个经过解码的原始音频通道或音频对象的指示EQ组进行时域滤波。极点和零点位置可以在z平面(半径和角度)内，并且可以被认为是IIR滤波器参数。另选地，EQ序列可以通过指定滤波器元件的数字滤波器系数来定义滤波器级联，也用于对原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的指示EQ组进行时域滤波。仍然参考图3，在彼此并联(并且构成滤波器块)的每个滤波器元件的输出处，可以在输出被组合成用于滤波器级联的下一个块的单个输入信号之前应用相应的标量增益，如图所示。

元数据还可以指定是否需要相位校准滤波器，以获得滤波器块内的所有并联连接的滤波器元件(其正在并行处理相同的输入通道或对象)的输出之间的相位匹配，然后将输出组合成用于相同滤波器级联的下一个块的单个输入信号。在图3中，这样的相位校准滤波器被标记为“块的相位校准”，并且被应用于给定滤波器块内的每个滤波器元件的输出(根据需要)。相位校准被设计成帮助避免在组合相同滤波器块内的多个滤波器元件(在多个频率仓中)的输出时产生不希望的相位效应。相位校准滤波器可以(在元数据中)被定义为全通滤波器，其相位响应已经被设计为获得跨所有其输出的相位匹配。

图3所示的相位校准也可以在不同的通道或对象之间执行。换句话说，将在一个EQ组的经过EQ滤波的通道或对象与另一个EQ组的经过EQ滤波的通道或对象之间执行这种相位校准。这是为了避免在组合不同的通道组时(例如通过降混处理器16)或将经过EQ滤波的通道或对象转换成声音时产生不希望的效果。在图3中，这样的相位校准滤波器被指示为“跨级联相位校准”，并被应用到级联的最后一个滤波器块(滤波器块B-1)的输出，使得例如来自EQ滤波器11_1的输出通道或对象与EQ滤波器11_2的输出通道或对象相位匹配。更具体地讲，应该这样做，以获得跨所有EQ滤波通道组的相位匹配(这里，来自EQ滤波器11_1、11_2、...、11_K的输出通道或对象全部都相位匹配)。应注意的是，在某些情况下可能不存在相位校准滤波器。同样地，在一个实施方案中，元数据仅为EQ滤波器集指定那些存在相位校准滤波器(并且也在元数据中指定)的IIR滤波器。相位校准滤波器可以被合成(在解码级)作为时域数字滤波器。

下表是EQ序列(在元数据中)的一部分的示例性定义，示出了EQ值的示例性编码和描述。

如上所述，EQ序列包含EQ值，其定义将应用于指定的EQ组(经过解码的EQ组)的解码音频通道或对象的频谱整形(EQ滤波)。在一个实施方案中，此编码级或制作侧定义的EQ滤波由解码级处理器应用，以降低低于500Hz的经过解码的原始音频通道或对象的增益，无论在元数据中是否还指定了降混(并应用到解码EQ组)。例如，解码级处理器可以将EQ序列解释为与用于回放设备的特殊“深夜”操作模式相关联。该操作模式可以例如由回放设备的用户手动地启用，或者设置为在深夜(基于当前当日时间)自动启用，以便减少低频隆隆声打扰在回放过程中可能会在相邻房间中休息的其他人的机会。如果启用该特殊模式，则解码级处理器应用如EQ序列所定义的EQ滤波，而无论降混处理器16是否存在。这使得音频记录的制作侧能够通过考虑音频记录的内容来确定要将低频带中的增益降低多少，来防止增益下降太多，由此提供更好的用户体验，而无论是否执行任何降混来用于回放。

在另一个实施方案中，元数据进一步指定原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的EQ组的EQ滤波版本的响度信息，其中该响度信息可能已经在编码级被估计。

还应当理解，上述实施方案仅用于说明广义的发明而非对其进行限制，并且本发明并不限于所示和所述的特定构造和布置，因为对于本领域的普通技术人员而言可想到各种其他修改。例如，尽管编码级和解码级中的每一个可以在一个实施方案中被描述为分开操作，例如编码级在音频内容制作者机器中并且解码级在音频内容消费者机器中，其中这些级可以通过互联网彼此通信，编码和解码也可以在同一台机器上执行(例如，作为转码过程的一部分)。因此，该描述应该被认为是例示性而不是限制性的。

Claims

1.一种用于产生具有多个音频通道或音频对象的编码数字音频记录的系统，包括：

编码器，所述编码器用于将具有原始多个音频通道或音频对象的数字音频记录编码，以产生编码数字音频记录；

均衡(EQ)值生成器，所述EQ值生成器用于产生EQ值的序列，所述EQ值的序列定义EQ滤波，所述EQ滤波将独立于降混并且在对所述编码数字音频记录进行解码时应用于原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的指定EQ组；和

比特流复用器，所述比特流复用器将a)所述编码数字音频记录与b)包括对所述EQ组的指示的所述EQ值的序列组合，后者作为与所述编码数字音频记录相关联的元数据。

2.根据权利要求1所述的系统，其中所述EQ值的序列定义如下EQ滤波，该EQ滤波将在对所述EQ组进行解码时应用于降低500Hz以下的增益，而不论降混是否应用于所述解码EQ组。

3.根据权利要求1所述的系统，其中所述EQ值的序列定义如下EQ滤波，该EQ滤波将在对所述EQ组进行解码时应用作为能够在所述解码数字音频记录回放期间启用的深夜模式，所述启用由解码器自动进行或由用户手动进行。

4.根据权利要求1所述的系统，其中所述EQ值包括均衡器增益级别，每个均衡器增益级别用于多个频带中的一个频带，以用于对所述原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的所述EQ组进行子频带域滤波。

5.根据权利要求1所述的系统，其中所述EQ值生成器包括：

图形均衡器，所述图形均衡器能够由人类用户操作，并且能够被配置为多种图形均衡器设置；和

数字滤波器合成器，所述数字滤波器合成器基于特定图形均衡器设置产生所述EQ值。

6.根据权利要求1所述的系统，其中所述元数据将指定降混、用于在解码级的降混操作之前在解码级应用EQ的预降混EQ值、以及后降混EQ值。

7.根据权利要求1所述的系统，其中与所述编码数字音频记录相关联的所述元数据将被携带在MPEG-D DRC的多个扩展字段中。

8.根据权利要求1所述的系统，其中所述元数据将指定多个不同的EQ序列，

其中所述EQ序列中的每一个都与对所述原始音频通道或音频对象中的所述一个或多个原始音频通道或音频对象的相应指定分组相关联，将独立于降混并且在对所述编码数字音频记录进行解码时对所述原始音频通道或音频对象应用如由所述序列定义的EQ滤波，

其中所述EQ序列中的每一个及其的所述原始音频通道或音频对象的相应指定分组针对不同的回放场景。

9.根据权利要求1所述的系统，其中所述元数据将进一步指定所述原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的所述EQ组的EQ滤波版本的响度信息。

10.根据权利要求1所述的系统，其中所述EQ值的序列表示随时间变化的均衡滤波，所述随时间变化的均衡滤波将独立于降混并且在对所述编码数字音频记录进行解码时应用于所述原始音频通道或音频对象中的一个或多个原始音频通道或音频对象的所述EQ组，其中所述随时间变化的均衡滤波在所述解码音频记录回放期间改变。