CN110648677B

CN110648677B - 用于下混合音频内容的响度调整

Info

Publication number: CN110648677B
Application number: CN201911020105.2A
Authority: CN
Inventors: M·沃德; J·瑞德米勒; S·G·诺克罗斯; A·格罗舍尔
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-09-12
Filing date: 2014-09-09
Publication date: 2024-03-08
Anticipated expiration: 2034-09-09
Also published as: JP2020173486A; US20160219391A1; US20200359152A1; JP2016534669A; JP6506764B2; CN110648677A; JP2020038398A; US20160219390A1; US10993062B2; US10368181B2; JP2019097219A; US10674302B2; US10070243B2; CN110675883A; US20170311107A1; JP6812599B2; EP3044786B1; JP2022168027A; JP7038788B2; US20210321210A1

Abstract

本公开涉及用于下混合音频内容的响度调整。对基准扬声器配置编码的音频内容下混合到对特定扬声器配置编码的下混合音频内容。在对特定扬声器配置编码的下混合音频内容的各单个部分上执行一个或更多个增益调整。然后在下混合音频内容的各单个部分上执行响度测量。产生包含对基准扬声器配置编码的音频内容和下混合响度元数据的音频内容。下混合响度元数据至少部分地基于下混合音频内容的各单个部分上的响度测量被创建。

Description

用于下混合音频内容的响度调整

本申请是申请号为201480050050.9、申请日为2014年9月9日、发明名称为“用于下混合音频内容的响度调整”的发明专利申请的分案申请。

(对相关申请的交叉引用)

本申请要求在2013年9月12日提交的美国临时专利申请No.61/877230、在2013年10月15日提交的美国临时专利申请No.61/891324、在2014年2月10日提交的美国临时专利申请No.61/938043和在2013年10月17日提交的美国临时专利申请No.61/892313作为优先权，在这里加入它们的全部内容作为参考。

技术领域

本发明总体涉及处理音频信号，更特别地，涉及可被用于在各种回放环境中的任一种中向音频信号施加动态范围控制和其它类型的音频处理动作的技术。

背景技术

媒体消费者装置的日益普及对用于在这些装置处回放的媒体内容的创建者和分配者以及装置的设计人员和制造商提出新的机会和挑战。许多消费者装置能够回放广泛的媒体内容类型和格式，包括常常与用于HDTV、Blu-ray或DVD的高质量、宽带宽和宽动态范围音频内容相关的那些。媒体处理装置可被用于任意地在它们自身的内部声学换能器或诸如耳机的外部换能器上回放这种类型的音频内容；但是，它们一般不能跨着各种媒体格式和内容类型用一致的响度和清晰度(intelligibility)再现该内容。

在本部分中描述的方法是可追寻的方法，但未必是以前构想或追寻的方法。因此，除非另外指示，否则，不应仅通过包含于本部分中而假定在本部分中描述的方法中的任一个为现有技术。类似地，除非另外指示，否则，关于一个或更多个方法识别的问题不应基于本部分而假定在任何现有技术中已被识别。

附图说明

在附图中作为例子而不是限制示出本发明，并且，在这些附图中，类似的附图标记指的是类似的要素，其中，

图1A和图1B分别示出示例性音频解码器和示例性音频编码器；

图2A和图2B示出示例性动态范围压缩曲线；

图3示出组合DRC和限制增益的确定/计算的示例性处理逻辑；

图4示出增益的示例性差分编码；

图5示出包含音频编码器和音频解码器的示例性编解码器系统；

图6A～6D示出示例性处理流程；以及

图7示出可在上面实现这里描述的计算机或计算装置的示例性硬件平台。

具体实施方式

这里描述涉及在各种回放环境中的任一种向音频信号施加动态范围控制处理和其它类型的音频处理动作的示例性实施例。在以下的描述中，出于解释的目的，为了使得能够彻底地理解本发明，阐述了大量的详细细节。但是，显然可以在没有这些特定细节的情况下实现本发明。在其它情况下，为了避免不必要地混淆、掩盖本发明或者使其变模糊，不以详尽的细节描述公知的结构和装置。

这里根据以下的提纲描述示例性实施例：

1.一般概要

2.动态范围控制

3.音频解码器

4.音频编码器

5.动态范围压缩曲线

6.DRC增益、增益限制和增益平滑化

7.输入平滑化和增益平滑化

8.多个频带上的DRC

9.响度域中的音量调整

10.下混合响度调整

11.与增益有关的附加动作

12.特定和广带(或宽带)响度水平

13.用于信道的各单个子集的各单个增益

14.听觉场景分析

15.响度水平过渡

16.复位

17.编码器提供的增益

18.示例性系统和处理流程

19.实现机构－硬件概要

20.等同物、扩展、替代和杂项

1.一般概要

本概要给出本发明的实施例的一些方面的基本描述。应当注意，本概要不是实施例的各方面的广延或详尽的总结。并且，应当注意，本概要不应被理解为识别实施例的任何特别重要的方面或要素，也不应被理解为特别界定实施例的任何范围，也不应被理解为一般地界定本发明。本概要仅以概括或简化的形式给出与示例性实施例有关的一些概念，并且应被理解为以下给出的示例性实施例的更详细描述的概念性序言。注意，虽然这里讨论各单独的实施例，但是这里讨论的实施例和/或部分实施例的任意组合可被组合以形成其它的实施例。

在一些方法中，编码器假定音频内容是出于动态范围控制的目的对特定环境编码的，并且对特定环境确定诸如用于动态范围控制等的增益的音频处理参数。根据这些方法由编码器确定的增益一般在一些时间间隔等上通过一些时间常数(例如，在指数衰减的函数等中)被平滑化。另外，对确保响度水平不大于假定环境的修剪水平的增益限制，可能已加入根据这些方法由编码器确定的增益。因此，根据这些方法通过编码器用音频信息编码成音频信号的增益是许多不同影响的结果并且是不可逆的。根据这些方法接收增益的解码器可能不能区分增益的哪个部分用于动态范围控制、增益的哪个部分用于增益平滑化、增益的哪个部分用于增益限制，等等。

根据这里描述的技术，音频编码器不假定只需要支持音频解码器处的特定回放环境。在实施例中，音频编码器传送具有音频内容的编码音频信号，从该编码音频信号可确定正确的响度水平(例如，没有修剪等)。音频编码器也向音频解码器传送一个或更多个动态范围压缩曲线。一个或更多个动态范围压缩曲线中的任一个可以是基于标准的、专有的、定制的、内容提供商特有的，等等。基准响度水平、起音时间(attack time)、释音时间(release time)等可作为一个或更多个动态范围压缩曲线的一部分或者与其结合被音频编码器传送。基准响度水平、起音时间、释音时间等中的任一个可以是基于标准的、专有的、定制的、内容提供商特有的，等等。

在一些实施例中，音频编码器实现听觉场景分析(ASA)技术，并且使用ASA技术以检测音频内容中的听觉事件，并且，向音频解码器传送描述检测的听觉事件的一个或更多个ASA参数。

在一些实施例中，音频编码器可也被配置为检测音频内容中的复位事件，并且以与音频内容时间同步的方式向诸如音频解码器等的下游装置传送复位事件的指示。

在一些实施例中，音频编码器可被配置为计算音频内容的各单个部分(例如，音频数据块、音频数据帧等)的一组或更多组增益(例如，DRC增益等)，并且，用音频内容的各单个部分将多组增益编码到编码的音频信号中。在一些实施例中，由音频编码器产生的多组增益与一个或更多个不同增益简档对应。在一些实施例中，可以使用Huffman编码、差分编码等以将多组增益编码成音频数据帧的成分、分支等或者从中读取多组增益。这些成分、分支等可被称为音频数据帧中的子帧。不同组的增益可与不同组的子帧对应。各组增益或者各组子帧可包含两个或更多个时间成分(例如，子帧等)。在一些实施例中，这里描述的音频编码器中的位流格式化器(formatter)可用一个或更多个for循环将一组或更多组增益一起作为差分数据代码写入到音频数据帧中的一组或更多组子帧中；相应地，这里描述的音频解码器中的位流剖析器可从音频数据帧中的一组或更多组子帧读取被编码为差分数据代码的一组或更多组增益中的任一个。

在一些实施例中，音频编码器确定要被编码成编码音频信号的音频内容中的对话响度水平，并且，用音频内容向音频编码器传送对话响度水平。

在一些实施例中，对于包含与大量的音频解码器(例如，移动电话、平板计算机等)动作的那些(例如，二信道耳机配置等)相比包含更多的音频信道或扬声器的基准扬声器配置(环绕声配置、5.1扬声器配置等)，在编码音频信号中编码音频内容。对音频内容的相同的各单个部分，即使在两个扬声器配置中进行相同的增益调整，在基准扬声器配置中对音频内容的各单个部分测量的响度水平也可能与在诸如二信道配置等的特定扬声器配置中测量的响度水平不同。

在一些实施例中，这里描述的音频编码器被配置为向下游音频解码器提供下混合相关元数据(例如，包含一个或更多个下混合响度参数等)。出于在下混合声音输出中产生相对精确目标响度水平的目的，下游音频解码器可以使用来自音频编码器(150)的下混合相关元数据，以有效和一致地执行(实时、接近实时等)附加的下混合相关增益调整动作。下游音频解码器可以使用附加的下混合相关增益调整动作，以防止基准扬声器配置与解码器的特定扬声器配置之间的测量响度水平的不一致性。

当假定在假设的音频解码器处的假设的回放环境、情形等时，这里描述的技术不要求音频解码器锁定(例如，不可逆等)可通过诸如音频编码器等的上游装置执行的音频处理中。例如，为了区分存在于音频内容中的不同响度水平、最小化边界响度水平(例如，最小或最大响度水平等)处或附近的音频感觉质量的损失、保持信道或信道的子集之间的空间平衡等，这里描述的解码器可被配置为基于特定的回放情形定制音频处理动作。

接收具有动态范围压缩曲线、基准响度水平、起音时间、释放时间等的编码音频信号的音频解码器可确定在解码器处使用的特定回放环境，并且选择具有与特定回放环境对应的相应基准响度水平的特定压缩曲线。

解码器可计算/确定从编码音频信号提取的音频内容的各单个部分(例如，音频数据块、音频数据帧等)中的响度水平，或者如果音频编码器计算和提供了编码音频信号中的响度水平则获得音频内容的各单个部分中的响度水平。基于音频内容的各单个部分中的响度水平、音频内容的前面部分中的响度水平、可用的情况下的音频内容的随后部分中的响度水平、特定压缩曲线、与特定回放环境或情形相关的特定简档等中的一个或更多个，解码器确定音频处理参数，诸如用于动态范围控制的增益(或DRC增益)、起音时间、释放时间等。音频处理参数还可包含用于对准对话响度水平与特定回放环境的特定基准响度水平(可以是用户可调整的)的调整。

解码器根据音频处理参数施加包含(例如，多信道、多带等)动态范围控制、对话水平调整等的音频处理动作。由解码器执行的音频处理动作还可包含但不仅限于：基于作为选择的动态范围压缩曲线的一部分或者与其结合提供的起音和释放时间的增益平滑化、用于防止修剪的增益限制等。可通过不同(例如，可调整、阈值依赖、可控等)时间常数执行不同的音频处理动作。例如，通过相对短的时间常数(例如，瞬时、约5.3毫秒等)，用于防止修剪的增益限制可被应用于各单个音频数据块、各单个音频数据帧等。

在一些实施例中，解码器可被配置为从编码音频信号中的元数据提取ASA参数(例如，听觉事件边界的时间位置、事件确信性测量的时间依赖值等)并且基于提取的ASA参数控制听觉事件中的增益平滑化的速度(例如，使用用于在听觉事件边界处起音的短时间常数、使用长时间常数以在听觉事件内减慢增益平滑化等)。

在一些实施例中，解码器还保持用于某个时间间隔或窗口的瞬时响度水平的直方图，并且，例如，通过修改时常常数，使用直方图以控制程序之间、程序与商业等之间的响度水平过渡的增益变化速度。

在一些实施例中，解码器支持多于一个的扬声器配置(例如，具有扬声器的便携式模式、具有耳机的便携式模式、立体声模式、多信道模式等)。解码器可被配置为，例如，当回放同一音频内容时，在两个不同扬声器配置之间(例如，在立体声模式与多信道模式等之间)保持相同的响度水平。音频解码器可使用一个或更多个下混式，以对多信道音频内容被编码为音频解码器处的特定扬声器配置的基准扬声器配置下混从编码音频信号接收的多信道音频内容。

在一些实施例中，自动增益控制(AGC)可在这里描述的音频解码器中被禁用。

在一些实施例中，在这里描述的机制形成媒体处理系统的一部分，包含但不限于：视听装置、平板TV、手持装置、游戏机、电视、家庭剧院系统、平板、移动装置、膝上型计算机、笔记本计算机、蜂窝无线电电话、电子书阅读器、销售终端、台式计算机、计算机工作站、计算机亭、各种其它类型的终端和媒体处理单元等。

对于本领域技术人员来说，这里描述的优选实施例和一般原理和特征的各种修改是容易理解的。因此，公开不是要限于所示出的实施例，而要被赋予与这里描述的原理和特征一致的最宽范围。

2.动态范围控制

在没有定制的动态范围控制的情况下，由于回放装置的特定回放环境可能与已在编码装置处编码编码音频内容的目标回放环境不同，因此，常在回放装置处以不适于回放装置的特定回放环境(例如，包含装置的物理和/或机械回放限制)的响度水平再现输入音频信息(例如，PCM采样、QMF矩阵中的时间频率采样等)。

这里描述的技术可被用于支持对各种回放环境中的任一种定制的各种音频内容的动态范围控制，同时保持音频内容的感觉质量。

动态范围控制(DRC)指的是将音频内容中的响度水平的输入动态范围修改(例如，压缩、切割、扩展、升高等)到与输入动态范围不同的输出动态范围中的时间依赖音频处理动作。例如，在动态范围控制方案中，柔声可被映射(例如，升高等)到更高的响度水平，并且，响的声音可被映射(例如，切割等)到低的响度值。作为结果，在响度域中，响度水平的输出范围在本例子中变得比响度水平的输入范围小。但是，在一些实施例中，动态范围控制可能是可逆的，使得原始范围被恢复。例如，只要从原始响度水平映射的输出动态范围中的映射响度水平处于修剪水平或者低于它、各唯一原始响度水平被映射到唯一输出响度水平，等等，就可执行扩展动作以恢复原始范围。

可以使用这里描述的DRC技术以在某些回放环境或情况下提供更好的收听体验。例如，噪声环境中的柔声会被噪声掩盖，这使得柔声不可听。相反，例如，在一些情况下，为了不影响邻居，不希望大的声音。一般具有小的形状因子的扬声器的许多装置不能以高的输出水平再现声音。在一些情况下，低的信号水平可能在人听力阈值之下被再现。DRC技术可基于用动态范围压缩曲线观看的DRC增益(例如，缩放音频振幅、升压比、切割比等的缩放因子)执行输入响度水平到输出响度水平的映射。

动态范围压缩曲线指的是将从各单个音频数据帧确定的各单个输入响度水平(例如，对话以外的声音等的)映射到各单个增益或用于动态范围控制的增益的函数(例如，查找表、曲线、多段分段线等)。各单个增益中的每一个指示施加到相应的单个输入响度水平的增益量。施加各单个增益之后的输出响度水平代表特定回放环境中的各单个音频数据帧中的音频内容的目标响度水平。

除了规定增益与响度水平之间的映射以外，动态范围压缩曲线可在施加增益时包含或者具有特定的释放时间和起音时间。起音指的是连续时间采样之间的信号能量(或响度)的增加，而释放指的是连续时间采样之间的能量(或响度)的减小。起音时间(例如，10毫秒、20毫秒等)指的是当相应信号处于起音模式中时在平滑化DRC增益中使用的时间常数。释放时间(例如，80毫秒、100毫秒等)指的是当相应信号处于释放模式中时在平滑化DRC增益中使用的时间常数。在一些实施例中，另外、任选地或者作为替代方案，在确定DRC增益之前对信号能量(或响度)的平滑化使用时间常数。

不同的动态范围压缩曲线可与不同的回放环境对应。例如，用于平板TV的回放环境的动态范围压缩曲线可与用于便携式装置的回放环境的动态范围压缩曲线不同。在一些实施例中，回放装置可具有两个或更多个回放环境。例如，具有扬声器的便携式装置的第一回放环境的第一动态范围压缩曲线可与具有耳机的同一便携式装置的第二回放环境的第二动态范围压缩曲线不同。

3.音频解码器

图1A示出包括数据提取器104、动态范围控制器106、音频呈现器108等的示例性音频解码器100。

在一些实施例中，数据提取器(104)被配置为接收编码输入信号102。这里描述的编码输入信号可以是包含编码(例如，压缩等)输入音频数据帧和元数据的位流。数据提取器(104)被配置为从编码输入信号(102)提取/解码输入音频数据帧和元数据。输入音频数据帧中的每一个包含多个编码音频数据块，每个编码音频数据块代表多个音频采样。各帧代表包含一定数量的音频采样的(例如，恒定的)时间间隔。帧尺寸可随采样率和编码数据率改变。音频采样可以是代表一个、两个或更多个(音频)频带或频率范围中的频谱内容的量化的音频数据要素(例如，输入PCM采样、QMF矩阵中的输入时间频率采样等)。输入音频数据帧中的量化的音频数据要素可代表数字(量化)域中的压力波。量化的音频数据要素可覆盖处于最大可能值处或低于它的有限范围的响度水平(例如，修剪水平、最大响度水平等)。

元数据可被各种受体解码器使用以处理输入音频数据帧。元数据可包含与由解码器(100)执行的一个或更多个动作有关的各种动作参数、一个或更多个动态范围压缩曲线、与在输入音频数据帧中代表的对话响度水平有关的归一化参数等。对话响度水平可指的整个节目(例如，电影、TV节目、无线电广播等)、节目的一部分、节目的对话中的对话响度、节目响度、平均对话响度等的(心理声学、感觉等)水平。

解码器(104)或模块中的一些或全部(例如，数据提取器104、动态范围控制器106等)的动作和功能可响应从编码输入信号(102)提取的元数据被适应性调整。例如，元数据－包含但不限于动态范围压缩曲线、对话响度水平等－可被解码器(100)使用以在数字域中生成输出音频数据要素(例如，输出PCM采样、QMF矩阵中的输出时间频率采样等)。输出数据要素然后可被用于驱动音频信道或扬声器以在特定回放环境中的回放期间实现规定响度或基准再现水平。

在一些实施例中，动态范围控制器(106)被配置为接收输入音频数据帧和元数据中的音频数据要素中的一些或全部、至少部分地基于从编码音频信号(102)提取的元数据在输入音频数据帧中的音频数据要素上执行音频处理动作(例如，动态范围控制动作、增益平滑化动作、增益限制动作等)。

在一些实施例中，动态范围控制器(106)可包含选择器110、响度计算器112、DRC增益单元114等。选择器(110)可被配置为确定与解码器(100)处的特定回放环境有关的扬声器配置(例如，平面模式、具有扬声器的便携式装置、具有耳机的便携式装置、5.1扬声器配置、7.1扬声器配置等)、从由编码输入信号(102)提取的动态范围压缩曲线选择特定的动态范围压缩曲线等。

响度计算器(112)可被配置为计算由输入音频数据帧中的音频数据要素代表的一种或更多种类型的响度水平。响度水平的类型的例子包括但不仅限于：各单个时间间隔上的各单个信道中的各单个频带上的各单个响度水平、各单个信道中的广(或宽)频率范围上的广带(或宽带)响度水平、从音频数据块或帧确定或在其上面平滑化的响度水平、从多于一个的音频数据块或帧确定或在其上面平滑化的响度水平、在一个或更多个时间间隔上平滑化的响度水平等中的任一个。出于通过解码器(100)的动态范围控制的目的，可以修改这些响度水平中的零个、一个或更多个。

为了确定响度水平，响度计算器(112)可确定由输入音频数据帧中的音频数据要素代表的一个或更多个时间依赖物理声波性能，诸如特定音频频率处的空间压力水平等。响度计算器(112)可使用一个或更多个时间改变的物理波性能，以基于模型化人响度感觉的一个或更多个心理声学函数导出一种或更多种类型的响度水平。心理声学函数可以是基于人听觉系统的模型构建的非线性函数，该非线性函数将特定音频频率处的特定空间压力水平转换/映射到特定音频频率的特定响度等。

可通过多个(音频)频率或多个频带上的特定响度水平的积分导出多个(音频)频率或多个频带上的(例如广带、宽带等)响度水平。可通过使用实现为解码器(100)中的音频处理动作的一部分的一个或更多个平滑化滤波器，获得一个或更多个时间间隔(例如，比由音频数据块或帧中的音频数据要素代表的时间间隔长)上的时间平均、平滑化等的响度水平。

在示例性实施例中，可对一定(例如，256等)采样的每个音频数据块计算不同频带的特定响度水平。可以使用预滤波器以在将特定的响度水平集成到广带(或宽带)响度水平中时向特定响度水平施加频率加权(例如，与IEC B加权等类似)。可以执行两个或更多个信道(例如，左前、右前、中心、左环绕、右环绕等)上的宽响度水平的加算，以提供两个或更多个信道上的总响度水平。

在一些实施例中，总响度水平可指的是扬声器配置的单个信道(例如，中心等)中的广带(宽带)响度水平。在一些实施例中，总响度水平可指的是多个信道中的广带(或宽带)响度水平。多个信道可以是扬声器配置中的所有信道。另外、任选地或者作为替代方案，多个信道可包括扬声器配置中的信道的子集(例如，包含左前、右前和低频效果(LFE)的信道的子集、包含左环绕和右环绕的信道的子集、等等)。

(例如，广带、宽带、总体、特有等)响度水平可被用作输入以从选择的动态范围压缩曲线查找相应的(例如，静止、预平滑化、预限制等)DRC增益。用作输入以查找DRC增益的响度水平可首先关于来自从编码音频信号(102)提取的元数据的对话响度水平被调整或归一化。

在一些实施例中，DRC增益单元(114)可配有DRC算法，以生成增益(例如，用于动态范围控制、用于增益限制、用于增益平滑化等)、向由输入音频数据帧中的音频数据要素代表的一种或更多种类型的响度水平中的一个或更多个响度水平施加增益以实现特定回放环境的目标响度水平，等等。这里描述的增益(例如，DRC增益等)的施加可以但不需要在响度域中发生。在一些实施例中，可基于直接对输入信号平滑化和施加的响度计算(可以是Sone或者仅仅是对对话响度水平补偿的SPL值，例如，没有转换)生成增益。在一些实施例中，这里描述的技术可向响度域中的信号施加增益，并然后将信号从响度域转换回(线性)SPL域并且通过评价向响度域中的信号施加增益之前和之后的信号计算要施加到信号的相应增益。比率(或在对数dB代表中代表时的差值)然后确定信号的相应增益。

在一些实施例中，DRC算法通过多个DRC参数运算。DRC参数包含已通过上游编码器(例如，150等)计算并且嵌入到编码音频信号(102)中的对话响度水平，并且，可通过解码器(100)从编码音频信号(102)中的元数据获得。来自上游编码器的对话响度水平指示平均对话响度水平(例如，每个程序地，相对于全尺度1kHz正弦波的能量，相对于基准矩形波的能量，等)。在一些实施例中，从编码音频信号(102)提取的对话响度水平可被用于减少程序间响度水平差。在实施例中，在解码器(100)处的同一特定回放环境中的不同程序之间，基准对话响度水平可被设定为同一值。基于来自元数据的对话响度水平，DRC增益单元(114)可向程序中的各音频数据块施加对话响度有关增益，使得在程序的多个音频数据块上平均化的输出对话响度水平上升/下降到程序的(例如，预配置的、系统缺省的、用户可配置的、简档依赖的、等)基准对话响度水平。

在一些实施例中，DRC增益可被用于通过根据选择的动态范围压缩曲线升高或切割柔声和/或大声中的输入响度水平解决程序内响度水平差。可基于选择的动态范围压缩曲线和从相应的音频数据块、音频数据帧等中的一个或更多个确定的(例如，广带、宽带、总体、特有等)响度水平，通过DRC算法计算/确定这些DRC增益中的一个或更多个。

可在短的间隔(例如，约5.3毫秒等)上计算用于通过查找选择的动态范围压缩曲线确定(静止、预平滑化、预增益限制等)DRC增益的响度水平。人听觉系统的集成时间可能长得多(例如，约200毫秒等)。从选择的动态范围压缩曲线获得的DRC增益可通过时间常数被平滑化以考虑人听觉系统的长的集成时间。为了实行响度水平中的快变化速率(增加或减小)，可以使用短的时间常数以在与短时间常数对应的短时间间隔中导致响度水平的变化。相反，为了实行响度水平中的慢变化速率(增加或减小)，可以使用长的时间常数以在与长时间常数对应的长时间间隔中导致响度水平的变化。

人听觉系统能够以不同的集成时间对增加的响度水平和减小的响度水平起反应。在一些实施例中，根据响度水平将增加还是减小，可对平滑化从选择的动态范围压缩曲线查找的静止DRC增益使用不同的时间常数。例如，与人听觉系统的特性对应，用相对短的时间常数(例如，起音时间等)平滑化起音(响度水平增加)，而用相对长的时间常数(例如，释放时间等)平滑化释放(响度水平减小)。

可通过使用从音频内容的一部分确定的响度水平计算音频内容的一部分(例如，音频数据块、音频数据帧等中的一个或更多个)的DRC增益。用于查找选择的动态范围压缩曲线的响度水平可首先关于(例如，相对于等)从编码音频信号(102)提取的元数据中的对话响度水平(例如，在音频内容是一部分的程序等中)被调整。

可对解码器(100)处的特定回放环境规定或建立基准对话响度水平(例如，“Line”模式中的-31dB_FS、“RF”模式中的-20dB_FS等)。另外、作为替代方案或者任选地，在一些实施例中，用户可控制解码器(100)处的基准对话响度水平的设定或改变。

DRC增益单元(114)可被配置为对音频内容确定对话响度有关增益，以导致从对于基准对话响度水平的输入对话响度水平变为输出对话响度水平。

在一些实施例中，DRC增益单元(114)可被配置为操作解码器(100)处的特定回放环境中的峰值水平并且调整DRC增益以防止修剪。在一些实施例中，根据第一方法，如果从编码音频信号(102)提取的音频内容包含具有比解码器(100)处的特定扬声器配置的信道多的信道的基准多信道配置的音频数据要素，那么从基准多信道配置到特定扬声器配置的下混合可在确定之前被执行并且出于修剪防止的目的操作峰值水平。另外、任选地或者作为替代方案，在一些实施例中，根据第二方法，如果从编码音频信号(102)提取的音频内容包含具有比解码器(100)处的特定扬声器配置的信道多的信道的基准多信道配置的音频数据要素，那么可以使用下混合式(例如，ITU立体声下混合、矩阵环绕可兼容下混合等)以获得解码器(100)处的特定扬声器配置的峰值水平。峰值水平可被调整以反映从输入对话响度水平变为作为输出对话响度水平的基准对话响度水平。可至少部分地基于峰值水平的逆转(例如，乘以-1等)，确定不导致修剪(例如，对于音频数据块、对于音频数据帧等)的最大允许增益。因此，根据这里描述的技术的音频解码器可被配置为精确地确定峰值水平并且专门对解码器侧的回放配置施加修剪防止；音频解码器和音频编码器均不需要进行关于假设解码器处的任何最坏情况情形的假设假定。特别地，上述的第一方法中的解码器可精确地确定峰值水平，并且在不使用会在上述的第二方法中使用的下混合式、下混合信道增益等的情况下在下混合之后施加修剪防止。

在一些实施例中，对话响度水平和DRC增益的组合调整在峰值水平上防止修剪，甚至可能在最坏情况下混合(例如，在下混合之后生成最大峰值水平、生成最大下混合信道增益等)中。但是，在一些其它的实施例中，对话响度水平和DRC增益的组合调整仍然可能不足以在峰值水平下防止修剪。在这些实施例中，DRC增益可被确实防止峰值水平中的修剪的最高增益替代(例如，封盖(capped))。

在一些实施例中，DRC增益单元(114)被配置为从从编码音频信号(102)提取的元数据得到时间常数(例如，起音时间、释放时间等)。DRC增益、时间常数、最大允许增益等可被DRC增益单元(114)使用以执行DRC、增益平滑化、增益限制等。

例如，DRC增益的施加可通过由时间常数控制的滤波器被平滑化。增益限制动作可由对增益取要施加的增益和最大允许增益中的较小者的min()函数实现，这样，(例如，预限制、DRC等)增益可在相对短时间间隔等上立即被最大允许增益替代，由此防止修剪。

在一些实施例中，音频呈现器(108)被配置为在向从编码音频信号(102)提取的输入音频数据施加基于DRC、增益限制、增益平滑化等确定的增益之后生成特定扬声器配置的(例如，多信道等)信道特定音频数据(116)。信道特定音频数据(118)可被用于驱动在扬声器配置中代表的扬声器、耳机等。

另外，并且/或者，任选地，在一些实施例中，解码器(100)可被配置为执行与预处理、后处理、呈现等有关的一个或更多个其它动作，这些动作与输入音频数据有关。

在这里描述的技术可与与各种环绕声配置(例如，2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10～60扬声器配置、60+扬声器配置等)对应的各种扬声器配置和各种不同呈现环境配置(例如，电影院、停车场、歌剧院、演奏厅、酒吧、家、会堂)一起使用。

4.音频编码器

图1B示出示例性编码器150。编码器(150)可包含音频内容接口152、对话响度分析器154、DRC基准库156、音频信号编码器158等。编码器150可以是广播系统、基于因特网的内容服务器、空中网络操作器系统、电影制作系统等的一部分。

在一些实施例中，音频内容接口(152)被配置为接收音频内容160、音频内容控制输入162等，至少部分地基于音频内容(160)、音频内容控制输入(162)等中的一些或全部生成编码音频信号(例如，102)。例如，音频内容接口(152)可被用于从内容创建器、内容提供方等接收音频内容(160)、音频内容控制输入(162)。

音频内容(160)可构成仅包含音频视听等的总媒体数据中的一些或全部。音频内容(160)可包含节目的多个部分、节目、几个节目、一个或更多个商业广告等中的一个或更多个。

在一些实施例中，对话响度分析器(154)被配置为确定/建立音频内容(152)的一个或更多个部分(例如，一个或更多个节目、一个或更多个商业广告等)的一个或更多个对话响度水平。在一些实施例中，音频内容由一组或更多组的音频轨道代表。在一些实施例中，音频内容的对话音频内容处于单独的音频轨道中。在一些实施例中，音频内容的对话音频内容的至少一部分处于包含非对话音频内容的音频轨道中。

音频内容控制输入(162)可包含用户控制输入、由编码器(510)外部的系统/装置提供的控制输入、来自内容创建者的控制输入、来自内容提供方的控制输入等中的一些或全部。例如，诸如混合工程师等的用户可提供/规定一个或更多个动态范围压缩曲线标识符；标识符可被用于从诸如DRC基准库(156)等的数据库检索最佳地拟合音频内容(160)的一个或更多个动态范围压缩曲线。

在一些实施例中，DRC基准库(156)被配置为存储DRC基准参数组等。DRC基准参数组可包含一个或更多个动态范围压缩曲线的定义数据等。在一些实施例中，编码器(150)可(例如，同时等)将多于一个的动态范围压缩曲线编码到编码的音频信号中(102)。动态范围压缩曲线中的零个、一个或更多个可以是基于标准的、专有的、定制的、解码器可修改的，等等。在示例性实施例中，图2A和图2B的两个动态范围压缩曲线均可被(例如，同时等)嵌入到编码的音频信号(102)中。

在一些实施例中，音频信号编码器(158)可被配置为从音频内容接口(152)接收音频内容、从对话响度分析器(154)等接收对话响度水平、从DRC基准库(156)检索一个或更多个DRC基准参数组、将音频内容格式化为音频数据块/帧、将对话响度水平、DRC基准参数组等格式化为元数据(例如，元数据容器、元数据栏、元数据结构等)、将音频数据块/帧和元数据编码到编码的音频信号中(102)，等等。

可通过各种方式中的一种或更多种、诸如以无线的方式、通过有线连接、通过文件、通过因特网下载等，在各种源音频格式中的一个或更多个中接收这里描述的要被编码成编码的音频信号的音频内容。

这里描述的编码音频信号可以是总媒体数据位流的一部分(例如，用于音频广播、音频节目、视听节目、视听广播等)。可从服务器、计算机、媒体存储装置、媒体数据库、媒体文件等访问媒体数据位流。可通过一个或更多个无线或有线网络链接广播、传送或接收媒体数据位流。也可通过诸如网络连接、USB连接、广域网络、局域网络、无线连接、光学连接、总线、交叉开关矩阵(crossbar)连接、串行连接等中的一个或更多个的中介传送媒体数据位流。

示出的部件中的任一个(例如，图1A、图1B等)可在硬件、软件或硬件和软件的组合中实现为一个或更多个处理和/或一个或更多个IC电路(例如，ASIC、FPGA等)。

5.动态范围压缩曲线

图2A和图2B示出可被解码器(100)中的DRC增益单元(104)使用以从输入响度水平导出DRC增益的示例性动态范围压缩曲线。如图所示，为了提供适于特定回放环境的总增益，动态范围压缩曲线可以以节目中的基准响度水平为中心。在下表中示出动态范围压缩曲线(例如，包含但不仅限于升压比、切割比、起音时间、释放时间等中的任一个)的示例性定义数据(例如，在编码音频信号102等的元数据中)，这里，多个简档(例如，电影标准、电影光、音乐标准、音乐光、语音等)中的各简档代表特定回放环境(例如，在解码器100等处)。

表1

一些实施例可接收以dB_SPL或dB_FS的响度水平和与dB_SPL相关的dB的增益描述的一个或更多个压缩曲线，其中，在与dB_SPL响度水平具有非线性关系的不同响度代表(例如，Sone)中执行DRC增益计算。在DRC增益计算中使用的压缩曲线可然后被转换以关于不同的响度代表(例如，Sone)被描述。

6.DRC增益、增益限制和增益平滑化

图3示出组合DRC和限制增益的确定/计算的示例性处理逻辑。可通过解码器(100)、编码器(150)等实现该处理逻辑。仅出于解释的目的，解码器(例如，100等)中的DRC增益单元(例如，114)可被用于实现该处理逻辑。

可通过使用从音频内容的一部分确定的响度水平计算音频内容的一部分(例如，音频数据块、音频数据帧等中的一个或更多个等)的DRC增益。响度水平可首先关于(例如，相对于等)从编码音频信号(102)提取的元数据中的对话响度水平(例如，在音频内容是一部分的程序等中)被调整。在图3所示的例子中，音频内容的一部分的响度水平与对话响度水平(“dialnorm”)之间的差值可被用作用于从选择的动态范围压缩曲线查找DRC增益的输入。

为了防止特定回放环境中的输出音频数据要素中的修剪，DRC增益单元(114)可被配置为操作特定回放情形(例如，编码音频信号102与解码器100处的回放环境的特定组合等特有的)中的峰值水平，该回放情形可以是各种可能的回放情形(例如，多信道情形、下混合情形等)中的一个。

在一些实施例中，可作为从编码音频信号(102)提取的元数据的一部分提供特定时间分辨率(例如，音频数据块、几个音频数据块、音频数据帧等)的音频内容的各单个部分的各单个峰值水平。

在一些实施例中，DRC增益单元(114)可被配置为确定这些情形中的峰值水平，并且在必要时调整DRC增益。在DRC增益的计算过程中，可通过DRC增益单元(114)使用并行处理以确定音频内容的峰值水平。例如，可对于具有比由解码器(100)使用的特定扬声器配置的信道多的信道的基准多信道配置编码音频内容。基准多信道配置的更多信道的音频内容可被转换成下混合音频数据(例如，ITU立体声下混合、矩阵环绕可兼容下混合等)，以对解码器(100)处的特定扬声器配置导出更少的信道。在一些实施例中，根据第一方法，可在出于修剪防止的目的确定和操作峰值水平之前执行从基准多信道配置到特定扬声器配置的下混合。另外、任选地或者作为替代方案，在一些实施例中，根据第二方法，可以使用与下混合音频内容有关的下混合信道增益作为用于调整、导出、计算等特定扬声器配置的峰值水平的输入的一部分。在示例性实施例中，可至少部分地基于用于在解码器(100)处的回放环境中实施从基准多信道配置到特定扬声器配置的下混合动作的一个或更多个下混合式导出下混合信道增益。

在一些媒体应用中，可对解码器(100)处的特定回放环境规定或假定基准对话响度水平(例如，“Line”模式中的-31dB_FS、“RF”模式中的-20dB_FS等)。在一些实施例中，用户可控制解码器(100)处的基准对话响度水平的设定或改变。

可以向音频内容施加对话响度相关增益，以将(例如，输出)对话响度水平调整到基准对话响度水平。因此，峰值水平应被调整以反映这种调整。在例子中，(输入)对话响度水平可以为-23dB_FS。在具有-31dB_FS的基准对话响度水平的“Line”模式中，向(输入)对话响度水平的调整为-8dB，以在基准对话响度水平处生成输出对话响度水平。在“Line”模式中，向峰值水平的调整也为-8dB，这与向对话响度水平的调整相同。在具有-20dB_FS的基准对话响度水平的“RF”模式中，向(输入)对话响度水平的调整为-3dB，以在基准对话响度水平处生成输出对话响度水平。在“RF”模式中，向峰值水平的调整也为3dB，这与向对话响度水平的调整相同。

峰值水平与基准对话响度水平(表示为“dialref”)和来自编码音频信号(102)的元数据中的对话响度水平(“dialnorm”)之间的差值的和可被用作计算DRC增益的最大(例如，允许的，等)增益的输入。由于调整的峰值水平以dB_FS表达(相对于0dB_FS上的修剪水平)，因此，不导致修剪(例如，对于当前音频数据块、对于当前音频数据帧等)的最大允许增益只是调整的峰值水平的逆转(例如，乘以-1等)。

在一些实施例中，即使导出DRC增益的动态范围压缩曲线被设计为在一定程度上切割大声，峰值水平也可能超过修剪水平(表示为0dB_FS)。在一些实施例中，甚至可能在最坏情况混合(例如，生成最大下混合信道增益等)中，对话响度水平和DRC增益的组合调整防止峰值水平的修剪。但是，在一些其它的实施例中，对话响度水平和DRC增益的组合调整仍可能不足以在峰值水平中防止修剪。在这些实施例中，DRC增益可被确实防止峰值水平中的修剪的最高增益替代(例如，封盖等)。

在一些实施例中，DRC增益单元(114)被配置为从从编码音频信号(102)提取的元数据得到时间常数(例如，起音时间、释放时间等)。这些时间常数可能或者可能不随对话响度水平或音频内容的当前响度水平中的一个或更多个改变。从动态范围压缩曲线、时间常数和最大增益查找的DRC增益可被用于执行增益平滑化和限制动作。

在一些实施例中，可能增益受限的DRC增益在特定的回放环境中不超过最大峰值响度水平。从响度水平导出的静止DRC增益可通过由时间常数控制的滤波器被平滑化。限制动作可由一个或更多个min()函数实现，这样，(预限制)DRC增益可在短时间间隔等上立即被最大允许增益替代，由此防止修剪。DRC算法可被配置为随着进入的音频内容的峰值水平从高于修剪水平移动到低于修剪水平平稳地从修剪增益释放到下增益。

可以使用一个或更多个不同(例如，实时、双行程等)实现来执行图3所示的DRC增益的确定/计算/施加。仅出于解释的目的，向对话响度水平的调整、(例如，静止等)DRC增益、由于平滑化导致的时间依赖增益变动、由于限制导致的增益修剪等已被描述为来自上述的DRC算法的组合增益。但是，在各种实施例中，可以使用为了控制对话响度水平(例如，在不同节目之间等)、为了动态范围控制(例如，对于同一节目的不同部分等)、为了防止修剪、为了增益平滑化等向音频内容施加增益的其它方法。例如，向对话响度水平的调整、(例如，静止等)DRC增益、由于平滑化导致的时间依赖增益变动、由于限制导致的增益修剪中的一些或全部可被部分地/单个地施加、被串行施加、被并行施加、被部分串行部分并行地施加，等等。

7.输入平滑化和增益平滑化

除了DRC增益平滑化以外，可以在各种实施例中实现根据这里描述的技术的其它平滑化处理。在例子中，可以使用输入平滑化以例如用简单的单极平滑化滤波器平滑化从编码音频信号(102)提取的输入音频数据，以获得具有比没有输入平滑化的特定响度水平的频谱好的时间特性(例如，在时间上更平稳、在时间上不波动等)的特定响度水平的频谱。

在一些实施例中，这里描述的不同的平滑化处理可使用不同的时间常数(例如，1秒、4秒等)。在一些实施例中，两个或更多个平滑化处理可使用同一时间常数。在一些实施例中，在这里描述的平滑化处理中使用的时间常数可以是频率依赖的。在一些实施例中，在这里描述的平滑化处理中使用的时间常数可以是频率无关的。

一个或更多个平滑化处理可与支持一个或更多个平滑化处理的自动或手动复位的复位处理连接。在一些实施例中，当在复位处理中出现复位时，平滑化处理可通过切换或转移到更小的时间常数加速平滑化动作。在一些实施例中，当在复位处理中出现复位时，平滑化处理的存储器可被复位到一定值。该值可以是对于平滑化处理的最后输入采样。

8.多个频带上的DRC

在一些实施例中，可以使用特定频带中的特定响度水平以导出特定频带中的相应DRC增益。但是，即使当所有频带上的广带(或宽带)响度水平保持恒定时，由于特定响度水平会在不同的带中也明显改变并由此招致不同的DRC增益，因此，这会导致音色变化。

在一些实施例中，不是施加随各单个频带改变的DRC增益，而是施加不随频带改变而随时间改变的DRC增益。跨着所有的频带施加相同的时间改变DRC增益。时间改变DRC增益的时间平均DRC增益可被设定为与基于广带、宽带和/或广带(或宽带)范围或多个频带上的总响度水平从选择的动态范围压缩曲线导出的静止DRC增益相同。作为结果，可以防止在其它的方法中通过在不同的频带中施加不同的DRC增益导致的音色效果的变化。

在一些实施例中，用基于广带(或宽带)响度水平确定的广带(或宽带)DRC增益控制各单个频带中的DRC增益。各单个频带中的DRC增益可在基于广带(或宽带)响度水平在动态范围压缩曲线中查找的广带(或带宽)DRC增益周围动作，使得在一定的时间间隔(例如，比5.3毫秒、20毫秒、50毫秒、80毫秒、100毫秒等长)上时间平均的各单个频带中的DRC增益与在动态范围压缩曲线中指示的广带(或宽带)响度水平相同。在一些实施例中，在信道和/或频带之间，相对于偏离时间平均DRC增益的一定时间间隔的短时间间隔上的响度水平波动是允许的。所述方法确保在动态范围压缩曲线中指示的正确多信道和/或多带时间平均DRC增益的施加，并且防止短时间间隔中的DRC增益太多地偏离在动态范围压缩曲线中指示的这种时间平均DRC增益。

9.响度域中的音量调整

根据不实现这里描述的技术的其它方法向音频激励信号施加用于音量调整的线性处理可导致低可听信号水平变得不可听(例如，低于人听觉系统的频率依赖听力阈值等)。

根据这里描述的技术，可在响度域中(例如，通过Sone代表等)而不是在物理域(例如，通过dB_SPL代表等)中进行或实现音频内容的音量调整。在一些实施例中，出于保持感觉质量和/或所有音量水平上的所有带之间的响度水平关系的完整性的目的，在响度域中用相同的因子缩放所有带中的响度水平。基于设定和调整这里描述的响度域中的增益的音量调整可被转换回向不同频带中的音频激励信号施加不同缩放因子的物理域(或者在代表物理域的数字域中)中的非线性处理或者通过其被实现。根据这里描述的技术从响度域中的音量调整转换的物理域中的非线性处理用防止音频内容中的低可听水平中的大多数或全部变得不可听的DRC增益来衰减或增强音频内容的响度水平。在一些实施例中，节目内的大声和柔声之间的响度水平差通过这些DRC增益减小但不在感觉上消失，以使低可听信号水平保持高于人听觉系统的听力阈值。在一些实施例中，为了跨着大范围的音量水平保持频谱感觉和感觉音色等的类似性，在低的音量水平上，具有接近听力阈值的激励信号水平的频率或频带很少衰减并因此在感觉上是可听的。

这里描述的技术可实现物理域(例如，或在代表物理域的数字域中)中的信号水平、增益等与响度域中的响度水平、增益等之间的转换(例如，往复，等)。这些转换可基于基于人听觉系统的模型构建的一个或更多个非线性函数(例如，映射、曲线、分段线性段、查找表等)的正反版本。

10.下混合响度调整

在一些实施例中，对包含多个音频信道或扬声器的基准扬声器配置(例如，环绕声配置、5.1扬声器配置等)，在编码音频信号(102)中编码音频内容(152)。

通过具有较少的音频信道或扬声器的特定扬声器配置(例如，二信道耳机配置等)动作的受体解码器有望将从编码音频信号(102)接收的音频内容(152)从基准扬声器配置中的多个音频信道下混合(例如，通过一个或更多个下混合式等)到解码器的特定扬声器配置中的更少的音频信道，执行增益调整以下混合音频内容，产生下混合输出声音输出等。

对音频内容(152)的相同的各单个部分，对音频内容(152)的各单个部分在基准扬声器配置中测量的响度水平可与在诸如二信道配置等的特定扬声器配置中测量的响度水平不同。例如，如果下混合之前的音频内容(152)的一部分具有集中于基准扬声器配置的左前和右前信道的特定信道依赖声音分布，那么下混合到二信道配置之后的音频内容(152)的同一部分的响度水平可比下混合之前的基准扬声器配置中的音频内容(152)的同一部分的响度水平高或者更大声。另一方面，如果下混合之前的音频内容(152)的一部分具有集中于基准扬声器配置的左前和右前信道以外的其它信道的特定信道依赖声音分布，那么下混合到二信道配置之后的音频内容(152)的同一部分的响度水平可比下混合之前的基准扬声器配置中的音频内容(152)的同一部分的响度水平低或者更低声。

在一些实施例中，这里描述的音频编码器(例如，150等)被配置为向下游的音频解码器提供下混合相关元数据(例如，包含一个或更多个下混合响度参数等)。来自音频编码器(150)的下混合相关元数据可被下游音频解码器使用以有效地且一致地执行(例如，实时、近实时等)下混合相关增益调整动作，允许下游音频解码器在下混合声音输出中产生相对精确的实际目标响度水平，防止基准扬声器配置与解码器的特定扬声器配置之间的测量响度水平的不一致性，等等。

在一些实施例中，音频编码器(150)至少部分地基于对基准扬声器配置和与基准扬声器配置不同的特定扬声器配置(例如，二信道配置等)编码的音频内容(152)确定一个或更多个下混合参数。在一些实施例中，对不同类型的下混合动作，下混合响度参数包含一个或更多个不同组的下混合响度参数。下混合响度参数可包含供下游的音频解码器使用以执行诸如LtRt下混合、LoRo下混合等的特定类型的下混合的单个组的下混合响度参数。下混合响度参数可包含供下游的音频解码器使用以执行诸如LtRt下混合、LoRo下混合等的一种或更多种特定类型的下混合中的任一种的两个或更多个组的下混合响度参数。通过音频编码器(150)产生的下混合响度数据可承载一个或更多个特定标记以对一个或更多个不同类型的下混合动作指示存在一个或更多个组的下混合响度参数。下混合响度数据也可包含偏好标记，以指示对要被下混合的音频内容优选哪种类型的下混合动作。下混合响度参数可作为在包含对基准扬声器配置编码的音频内容(152)的编码音频信号中传输的元数据的一部分被传输到下游解码器。

这里描述的下混合响度参数的例子可包含但不仅仅限于一个或更多个下混合响度元数据指示、一个或更多个下混合响度数据栏等中的任一个。在示例性实施例中，下混合响度参数可包含用于指示是否存在下混合响度偏移数据的指示(例如，表示为“dmixloudoffste”的1位数据栏等)、用于指示下混合响度偏移的数据栏(例如，表示为“5-bit dmixloudoffst”的5位数据栏等)，等等。在一些实施例中，可对一个或更多个不同类型的下混合动作由音频编码器(150)产生这些指示和数据栏的一个或更多个实例。

在一些实施例中，仅当编码音频信号(102)承载用于多于两个的信道的音频数据(例如，音频采样等)时，“dmixloudoffste”栏才可被设定为一(1)；如果“dmixloudoffste”栏被设定为一(1)，那么可承载“dmixloudoffst”栏。在编码音频信号(102)是AC-3或E-AC-3位流等的例子中，当用于AC-3或E-AC-3位流的音频编码模式(例如，“acmod”等)被设定为大于2的值时，“dmixloudoffste”栏可被设定为一(1)；音频编码模式的这种值指示基准扬声器配置是包含多于两个音频信道或扬声器的多信道扬声器配置，并且，既不是仅中心扬声器配置(例如，对“acmod”具有值1，等等)也不是仅左前和右前扬声器配置(例如，对“acmod”具有值2，等等)。

“dmixloudoffst”栏可被用于用在执行产生测量的响度的测量之前施加的由于对话归一化导致的增益调整、动态范围压缩、用于防止下混合过载等的固定衰减中的一些或全部指示从(例如，假定、期望等)音频解码器(例如，AC-3解码器、E-AC-3解码器等)输出的下混合声音的期望响度与这种下混合声音输出的测量响度之间的差值。在一些实施例中，测量的响度对于具有一个或更多个不同组的增益调整的一种或更多种不同类型的下混合声音输出包含一个或更多个不同组的下混合响度测量。在一些实施例中，音频编码器(150)基于一种或更多种类型的下混合动作(例如，LtRt下混合动作、LoRo下混合动作等)产生一个或更多个下混合。例如，音频编码器(150)可向对(例如，多信道等)基准扬声器配置编码的音频内容施加一个或更多个不同组的下混合系数/方程(例如，LtRt下混合系数/方程、LoRo下混合系数/方程等)，以产生一个或更多个下混合。在一些实施例中，音频编码器(150)可向下混合中的一个或更多个施加一个或更多个不同组的增益调整，以对响度测量产生一个或更多个不同类型的下混合声音输出。多组增益调整的例子包含但不仅仅限于具有零增益的一组增益调整、包含与动态范围压缩有关的增益调整的一组增益调整、包含与对话归一化有关的增益调整的一组增益调整、不包含与动态范围压缩有关的增益调整的一组增益调整、不包含与对话归一化有关的增益调整的一组增益调整、包含与动态范围压缩和对话归一化均有关的增益调整的一组增益调整等中的任一个。在基于一个或更多个不同组的增益调整和下混合中的一个或更多个的一个或更多个不同组合产生响度测量的一个或更多个不同类型的下混合声音输出之后，音频编码器(150)可通过在一个或更多个不同类型的下混合声音输出中的任一个、一些或全部中进行一个或更多个不同组的下混合响度测量来产生测量的响度。可通过音频编码器(150)在各种响度测量标准(例如，LKFS、LUFS等)、方法、工具等中的任一个中进行测量响度。仅出于例示的目的，测量的响度可由LKFS值代表。

在一些实施例中，音频编码器(150)假定这里描述的要解码具有对话响度水平(例如，“dialnorm”等)的编码音频信号(102)的音频解码器(例如，100等)有望在解码期间施加一定量的衰减(例如，基准响度水平与“dialnorm”之间的差值等)，以将下混合声音输出的输出对话响度水平对准/调整到基准响度水平。例如，如果对话响度水平“dialnorm”(例如，从对诸如5.1扬声器配置等的基准扬声器配置编码的音频内容(152)确定)具有-24dB_FS的值并且如果解码器的特定扬声器配置(例如，要下混合音频内容(152)的二信道配置等)的基准响度水平是-31LKFS，那么音频解码器(100)有望施加7dB的衰减，以将输出对话响度水平对准/调整到基准响度水平。在一些实施例中，解码器的特定扬声器配置的基准响度水平(例如，-31LKFS等)代表(例如，2信道下混合声音输出等的)期望响度水平。

在一些实施例中，“dmixloudoffst”栏可供音频编码器(150)使用以指示在施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后测量的、(1)2信道下混合声音输出的期望响度水平与(2)2信道下混合声音输出的测量响度水平之间的任何响度偏离。“dmixloudoffst”栏可包含施加一个或更多个不同组的增益调整等之后的一种或更多种不同类型的下混合的一个或更多个实例。由“dmixloudoffst”栏指示的响度偏离可以但不仅仅限于包含由将音频内容从基准扬声器配置下混合到诸如二信道配置等的特定扬声器配置导致的响度水平差。为了在下混合声音输出中产生基准响度水平，响度偏离与应由具有要下混合音频内容(152)的特定扬声器配置的解码器施加的响度偏移对应(例如，代表其相反等)。

在示例性实现中，与-7.5LKFS～+7.5LKFS的响度偏移的范围对应，以0.5LKFS步幅，“dmixloudoffst”栏(例如，其实例等)可被设定为0～30的值范围中的值(例如，整数等)。另外、任选地或者作为替代方案，“dmixloudoffst”栏的31的值可被指定为保留值，并且，如果存在的话可解释为0LKFS的下混合响度偏移。

在一些实施例中，“dmixloudoffst”栏的正LKFS值(例如，用于“dmixloudoffst”栏的16、17、…、30的值)指示下混合声音输出的测量响度水平以指示的LKFS值的大小比下混合声音输出的期望响度水平大声。“dmixloudoffst”栏的负LKFS值(例如，用于“dmixloudoffst”栏的0、1、…、15的值)指示下混合声音输出的测量响度水平以指示的LKFS值的大小比期望下混合响度安静或小声。

为了补偿由将音频内容(152)从基准扬声器配置下混合到特定扬声器配置导致的－编码音频信号(102)中的音频内容(152)的各单个部分的－响度水平差，下混合响度参数中的一些或全部可(例如，另外、任选地、作为替代方案，等等)供具有诸如特定扬声器配置等的扬声器配置的音频解码器(例如，100等)使用，以控制在编码音频信号(102)中的音频内容(152)上动作的一个或更多个音频处理运算、算法等。

在一些实施例中，这里描述的音频解码器(例如，100等)被配置为从编码音频信号(102)解码(例如，多信道等)音频内容、从用音频内容传输的响度元数据提取对话响度水平(例如，“dialnorm”等)，等等。音频解码器(100)可通过具有比与音频内容对应的基准扬声器配置少的音频信道的特定扬声器配置(例如，二信道配置等)动作。

在一些实施例中，音频解码器(100)使用一个或更多个下混合方程，以下混合从多信道音频内容被编码成音频解码器处的特定扬声器配置的基准扬声器配置的编码音频信号(102)接收的多信道音频内容，在下混合的音频内容上执行一个或更多个音频处理运算、算法等，以产生下混合的声音输出等。音频解码器(100)可能能够执行一个或更多个不同类型的下混合运算。音频解码器(100)可被配置为基于一个或更多个因素确定和执行特定类型(例如，LtRt下混合、LoRo下混合等)的下混合运算。这些因素可包含但不仅仅限于规定特定用户选择类型的下混合运算的偏好的用户输入、规定系统选择类型的下混合运算的偏好的用户输入、特定扬声器配置和/或音频解码器(100)的能力、用于特定类型的下混合运算的下混合响度元数据的可用性、用于某种类型的下混合运算的编码器产生偏好标记等中的一个或更多个。在一些实施例中，音频解码器(100)可实现一个或更多个优先规则、可征求其它的用户输入等，以在这些因素相互冲突时确定特定类型的下混合运算。

一个或更多个音频处理运算、算法等包含但不仅仅限于：施加某种量的衰减(例如，基准响度水平与“dialnorm”等之间的差值)，以至少部分地基于对话响度水平(例如，“dialnorm”等)与基准响度水平(例如，-31LKFS等)将下混合声音输出的输出对话响度水平对准/调整到基准响度水平。在一些实施例中，音频解码器(100)进一步执行由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部。在一些实施例中，这些增益调整可与在确定上述的测量响度水平时通过音频编码器(150)执行的那些对应－例如，可与其相同或者基本上相同。这些增益调整中的一个或更多个可以是由音频解码器(100)执行的类型的下混合运算(例如，LtRt下混合、LoRo下混合等)特有的。

另外、任选地或者作为替代方案，在一些实施例中，音频解码器(100)被配置为从编码的音频信号(102)提取下混合响度元数据(例如，“dmixloudoffste”栏、“dmixloudoffst”栏等)作为通过音频内容传输的元数据的一部分。在一些实施例中，提取的下混合响度元数据中的下混合响度参数包含通过在下混合响度元数据中承载的一个或更多个标记指示为存在的不同类型的下混合运算的一个或更多个不同组的下混合响度参数。响应于确定存在一组或更多组下混合响度参数，音频解码器(100)可在一个或更多个不同组的下混合响度参数中确定/选择与由音频解码器(100)执行的特定类型的下混合运算(例如，LtRt下混合、LoRo下混合等)对应的一组下混合响度参数。音频解码器(100)确定(例如，基于“dmixloudoffste”栏是否具有1或0的值等)是否在特定组的下混合响度参数中存在下混合响度偏移数据。响应确定(例如，基于“dmixloudoffste”栏具有1或0的值等)在特定组的下混合响度参数中存在下混合响度偏移数据，音频解码器(100)基于用音频内容从编码音频信号(102)提取的下混合响度元数据(例如，同一组的下混合响度参数中的“dmixloudoffst”栏等)中的下混合响度偏移执行响度调整运算。在施加一个或更多个不同组的增益调整等之后，下混合响度元数据可包含具有一个或更多个不同类型的下混合的一个或更多个实例的“dmixloudoffst”栏。基于由音频解码器(100)执行的增益调整的实际下混合运算和实际组(例如，没有增益调整、不包含与DRC有关的那些的增益调整、包含与DRC有关的那些的增益调整、不包含与对话归一化有关的那些的增益调整、包含与对话归一化有关的那些的增益调整、包含与对话归一化和DRC均有关的那些的增益调整等)，音频解码器(100)可确定/选择下混合响度元数据中的“dmixloudoffst”栏的一个或更多个实例中的特定实例。

响应于确定“dmixloudoffst”栏指示正LKFS值(例如，用于“dmixloudoffst”栏的16、17、…、30的值)，这意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平(由诸如150等的上游音频编码器测量)比通过指示的LKFS值的大小输出的下混合声音的期望响度水平大声，音频解码器(100)用具有指示的LKFS值的大小的负增益值执行进一步的增益调整，这将下混合声音输出的响度水平降低或调整到期望的响度(例如，基准响度水平等)。

响应于确定“dmixloudoffst”栏指示负LKFS值(例如，用于“dmixloudoffst”栏的0、1、…、15的值)，这意味着施加由于对话归一化导致的增益调整、动态范围压缩、防止下混合过载的固定衰减等中的一些或全部之后的下混合声音输出的响度水平(由诸如150等的上游音频编码器测量)比下混合声音输出的期望的响度水平安静或者小声指示的LKFS值的大小，音频解码器(100)用具有指示的LKFS值的大小的负增益值执行进一步的增益调整，这将下混合声音输出的响度水平增加或调整到期望的响度(例如，基准响度水平等)。

“dmixloudoffst”栏的负LKFS值(例如，用于“dmixloudoffst”栏的0、1、…、15的值)指示下混合声音输出的测量响度水平比期望的响度水平安静或者小声指示的LKFS值的大小。在一些实施例中，如果负LKFS值在编码音频信号(102)中指示/信令到受体解码器，那么受体解码器(例如，150等)可采取行动，以确保施加到2信道下混合声音输出以补偿负LKFS值的任何正增益不在2信道下混合声音输出中引入响度水平的修剪。

基于在下混合响度元数据中指示的响度偏移的进一步增益调整可以或者可以不仅仅限于由音频解码器(100)执行的类型的下混合运算所特有。

11.与增益有关的附加动作

根据在这里描述的技术，不是在物理域(或代表物理域的数字域)中，而是可在响度(例如，感觉)域中执行诸如动态均衡化、噪声补偿等的其它处理。

在一些实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可在响度域中的相同增益中被组合，并且/或者可被并行施加。在一些其它的实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可处于响度域中的单独的增益中，并且/或者可至少部分地被串行施加。在一些其它的实施例中，来自诸如DRC、均衡化噪声补偿、修剪防止、增益平滑化等的各种处理中的一些或全部的增益可被依次施加。

12.特定和广带(或宽带)响度水平

一个或更多个音频处理要素、单元、部件等，诸如传送滤波器、听觉滤波器组、合成滤波器组、短时傅立叶变换等，可被编码器或解码器使用，以执行在这里描述的音频处理动作。

在一些实施例中，可以使用模型化人听觉系统的外和中耳过滤的一个或更多个传送滤波器，以过滤进入的音频信号(例如，编码的音频信号102、来自内容提供方的音频内容等)。在一些实施例中，可以使用听觉滤波器组以模型化人听觉系统的频率选择性和频率展度。来自这些滤波器中的一些或全部的激励信号水平可通过向着更高的频率的更短的频率依赖时间常数被确定/计算和平滑化，以模型化人听觉系统中的能量的积分。随后，可以使用激励信号与特定响度水平之间的非线性函数(例如，关系、曲线等)，以获得频率依赖特定响度水平的简档。可通过在频带上积分特定响度获得广带(或宽带)响度水平。

特定响度水平的直接(例如，对所有频带具有相同的权重等)加算/积分可对广带信号很好地起作用。但是，这种方法可能低估窄带信号的(例如，感觉等)响度水平。在一些实施例中，不同频率或者不同频带中的特定响度水平被赋予不同的权重。

在一些实施例中，上述的听觉滤波器组和/或传送滤波器可被一个或更多个短时傅立叶变换(STFT)替代。可在快速傅立叶变换(FFT)域中施加对传送滤波器和听觉滤波器组的响应。在一些实施例中，例如，当在从物理域(或在代表物理域的数字域中)到响度域的转换中或者之前使用一个或更多个(例如，向前等)传送滤波器时，使用一个或更多个逆传送滤波器。在一些实施例中，例如，当作为听觉滤波器组和/或传送滤波器的替代使用STFT时，不使用逆传送滤波器。在一些实施例中，省略听觉滤波器组；作为替代，使用一个或更多个正交镜像滤波器(QMF)。在这些实施例中，可在不明显影响这里描述的音频处理动作的性能的情况下省略人听觉系统的模型中的基膜的扩展效果。

根据这里描述的技术，可在各种实施例中使用不同数量的频带(例如，20个频带、40个感应带等)。另外、任选地或者作为替代方案，也可在各种实施例中使用不同的带宽宽度。

13.用于信道的各单个子集的各单个增益

在一些实施例中，当特定扬声器配置是多信道配置时，可通过在从物理域(或者在代表物理域的数字域中)向响度域的转换之前首先加算所有信道的激励信号获得总响度水平。但是，向特定扬声器配置中的所有信道施加相同的增益不能保持特定扬声器配置的不同信道(例如，关于不同信道之间的相对响度水平等)之间的空间平衡。

在一些实施例中，为了保持空间平衡使得可最佳地或者正确地保持不同信道之间的相对感觉响度水平，可对每个信道确定或计算各响度水平和基于各响度水平获得的相应增益。在一些实施例中，基于各响度水平获得的相应的增益不等于相同的总增益；例如，相应增益中的一些或全部中的每一个可等于总增益加上(例如，信道特定)小校正。

在一些实施例中，为了保持空间平衡，可对信道的每个子集确定或计算各响度水平和基于各响度水平获得的相应增益。在一些实施例中，基于各响度水平获得的相应的增益不等于相同的总增益；例如，相应增益中的一些或全部中的每一个可等于总增益加上(例如，信道特定)小校正。在一些实施例中，信道的子集可包含形成特定扬声器配置中的所有信道的适当子集的两个或更多个信道(例如，包含左前、右前和低频效果(LFE)的信道的子集；包含左环绕和右环绕的信道的子集，等等)。信道的子集的音频内容可构成在编码音频信号(102)中承载的总混合的子混合。可向子混合内的信道施加相同的增益。

在一些实施例中，为了从特定扬声器配置生成实际的响度(例如，实际感觉等)，可以使用一个或更多个校准参数以关联数字域中的信号水平与由数字域代表的物理域中的相应物理(例如，关于dB_SPL的空间压力等)水平。一个或更多个校准参数可被赋予特定扬声器配置中的物理声音设备特有的值。

14.听觉场景分析

在一些实施例中，这里描述的编码器可实现基于计算机的听觉场景分析(ASA)以检测音频内容(例如，编码成编码音频信号102等)中的听觉事件边界、生成一个或更多个ASA参数、将一个或更多个ASA参数格式化为编码音频信号(例如，102等)的要传输到下游装置(例如，解码器100等)的部分。ASA参数可包含但不仅仅限于指示听觉事件边界的位置的参数、听觉事件确信度测量(后面进一步解释)等中的任一个。

在一些实施例中，听觉事件边界的(例如，时间上的)位置可在在编码的音频信号(102)内编码的元数据中被指示。另外、任选地或者作为替代方案，听觉事件边界的(例如，时间上的)位置可在检测听觉事件边界的位置的音频数据块和/或帧中被指示(例如，用标记、数据栏等)。

这里，听觉事件边界指的是前面的听觉事件结束和/或后续的听觉事件开始的点。各听觉事件在两个连续的听觉事件边界之间出现。

在一些实施例中，编码器(150)被配置为通过两个(例如，时间上)连续音频数据帧之间的特定响度频谱中的差值检测听觉事件边界。特定响度频谱中的每一个可包含从连续音频数据帧的相应音频数据帧计算的不平滑化响度的频谱。

在一些实施例中，特定响度频谱N[b,t]可被归一化以获得下式所示的归一化特定响度频谱N_NORM[b,t]：

这里，b表示频带，t表示时间或音频数据帧指数，max_b{N[b，t]}是跨着所有频带的最大特定响度水平。

如下式那样，归一化特定响度频谱可相减并且被用于导出加算的绝对差D[t]。

D[t]＝∑_b|N_NORM[b，t]-N_NORM[b，t-1]| (2)

加算的绝对值被映射到具有0～1的值范围的听觉事件确信度测量A[t]如下：

这里，D_min和D_max是最小和最大阈值(例如，用户可配置、系统可配置、关于音频内容中的D[t]的过去值分布设定，等等)。

在一些实施例中，编码器(150)被配置为检测D[t](例如，在特定的t处等)高于D_min时的听觉事件边界(例如，特定t等)。

在一些实施例中，这里描述的解码器(例如，100等)从编码的音频信号(例如，102等)提取ASA参数，并且使用ASA参数以防止导致听觉事件的感觉畸变的柔声的无意的升压和/或大声的无意切割。

解码器(100)可被配置为通过确保在听觉事件内增益更接近恒定并且通过将许多的增益改变约束到听觉事件边界的附近来减少或防止听觉事件的无意畸变。例如，解码器(100)可被配置为响应听觉事件边界处的起音(例如，响度水平增加等)中的增益变化使用相对小的时间常数(例如，与听觉事件的最小持续期相当或者比其短等)。因此，可相对迅速地通过解码器(100)实现起音中的增益变化。另一方面，解码器(100)可被配置为响应听觉事件中的释放(例如，响度水平减小等)的增益变化相对于听觉事件的持续期使用相对长的时间常数。因此，可相对慢地通过解码器(100)实现释放的增益变化，使得应当表现恒定或者逐渐衰减的声音不可听或者在感觉上受到干扰。听觉事件边界处的起音中的迅速响应和听觉事件中的释放的慢速响应允许快速感觉到听觉事件的到达，并且保持听觉事件中的感觉质量和/或完整性－包含通过特定响度水平关系和/或特定时间关系链接的大声和柔声－诸如钢琴弦等。

在一些实施例中，解码器(100)使用由ASA参数指示的听觉事件和听觉事件边界以控制解码器(100)处的特定扬声器配置中的信道中的一个、两个、一些或全部的增益变化。

15.响度水平过渡

例如，在两个节目之间、在节目与大声商业广告之间等，可出现响度水平过渡。在一些实施例中，解码器(100)被配置为基于过去的音频内容(例如，从编码音频信号102接收，过去4秒等)保持瞬时响度水平的直方图。在从响度水平过渡之前到响度水平过渡之后的时间间隔上，具有变高的概率的两个区域可在直方图中被记录。区域中的一个以前面响度水平周围为中心，而区域中的另一个以新的响度水平周围为中心。

解码器(100)可将平滑化的响度水平动态地确定为正在处理的音频内容，并且基于平滑化的响度水平确定直方图的相应箱体(例如，包含与平滑化的响度水平相同的值的瞬时响度水平的箱体等)。解码器(100)进一步被配置为比较相应箱体处的概率与阈值(例如，6％、7％、7.5％等)，这里，直方图曲线的总区域(例如，所有箱体的和)代表100％的概率。解码器可被配置为通过确定相应箱体处的概率低于阈值检测响度水平过渡的出现。作为响应，解码器(100)被配置为选择相对小的时间常数以相对快速地适于新的响度水平。因此，可减少响度水平过渡内的大声(或柔声)开始的时间持续期。

在一些实施例中，解码器(100)使用安静/噪声门，以防止低瞬时响度水平进入到直方图中并且变为直方图中的高概率箱体。另外、任选地或者作为替代方案，解码器(100)可被配置为使用ASA参数以检测包含于直方图中的听觉事件。在一些实施例中，解码器(100)可从ASA参数确定时间平均听觉事件确信度测量的时间依赖值。在一些实施例中，解码器(100)从ASA参数确定(例如，瞬时等)听觉事件确信度测量A[t]的时间依赖值，并且从ASA参数等基于(例如，瞬时等)听觉事件确信度测量A[t]的时间依赖值计算时间平均听觉事件确信度测量/>的值。解码器(100)可被配置为如果与响度水平同时的时间平均听觉事件确信度测量/>低于直方图包含阈值(例如，0.1、0.12等)则排除响度水平进入直方图。

在一些实施例中，对允许包含于直方图中的(例如，瞬时等)响度水平(例如，相应的高于直方图包含阈值等)，响度水平被分配与与响度水平同时的(contemporanneous)时间平均听觉事件确信度测量/>的时间依赖值相同、与其成比例等的权重。作为结果，与不接近听觉事件边界的其它响度水平相比，听觉事件边界附近的响度水平对直方图具有更大的影响(例如，/>具有相对大的值等)。

16.复位

在一些实施例中，这里描述的编码器(例如，150等)被配置为检测复位事件且在由编码器(150)生成的编码音频信号(例如，102等)中包含复位事件的指示。在第一例子中，编码器(150)响应于确定出现连续(例如，250毫秒，可通过系统和/或用户配置等)的相对安静周期检测复位事件。在第二例子中，编码器(150)响应于确定跨着所有频带在激励水平中出现大的瞬时下降来检测复位事件。在第三例子中，编码器被提供出现需要复位的内容(例如，节目开始/结束、场景改变等)中的过渡的输入(例如，元数据、用户输入、系统控制等)。

在一些实施例中，这里描述的解码器(例如，100等)实现可用于瞬时加速增益平滑化的复位机构。复位机构是有用的，并且可在出现信道或视听输入之间的切换时被调用。

在一些实施例中，解码器(100)可被配置为通过确定是否出现连续(例如，250毫秒，可通过系统和/或用户配置等)的相对安静周期、是否出现跨着所有频带的激励水平的大的瞬时下降等确定是否出现复位事件。

在一些实施例中，解码器(100)可被配置为响应接收通过上游编码器(例如，150等)在编码音频信号(102)中提供的指示(例如，复位事件的指示等)确定出现复位事件。

可使复位机构在解码器(100)确定出现复位事件时发出复位。在一些实施例中，复位机构被配置为利用DRC压缩曲线的略微更激进的切割行为以防止(例如，大声的节目/信道/视听源等的)硬开始。另外、任选地或者作为替代方案，解码器(100)可被配置为实现保护措施以在解码器(100)检测到复位被错误地触发时温和地恢复。

17.编码器提供的增益

在一些实施例中，音频编码器可被配置为计算编码成编码音频信号的音频内容的各单个部分(例如，音频数据块、音频数据帧等)的一组或更多组增益(DRC增益等)。由音频编码器生成的多组增益可包含以下方面中的一个或更多个：包含所有信道(左前、右前、低频效果或LFE、中心、左环绕、右环绕等)的单个广带(或宽带)增益的第一组增益；包含信道的各单个子集的各单个广带(或宽带)增益的第二组增益；包含信道的各单个子集和第一数量(例如，两个等)单个频带(例如，各信道中的两个频带等)中的每一个的各单个广带(或宽带)增益的第三组增益；包含信道的各单个子集和第二数量(例如，四个等)单个频带(例如，各信道中的四个频带等)中的每一个的各单个广带(或宽带)增益的第四组增益；等等。这里描述的信道的子集可以是包含左前、右前和LFE信道的子集、包含中心信道的子集、包含左环绕和右环绕信道的子集等中的一个或更多个。

在一些实施例中，音频编码器被配置为以时间同步方式传送音频内容的一个或更多个部分(例如，音频数据块、音频数据帧等)和对音频内容的一个或更多个部分计算的一个或更多个组的增益。接收音频内容的一个或更多个部分的音频解码器可以以很少的延迟或者在没有延迟的情况下选择和施加一组或更多个组的增益中的一组增益。在一些实施例中，音频编码器可实现在图4所示的一个或更多个子帧中承载(例如，通过差分编码等)一组或更多组增益的子帧技术。在例子中，可在计算增益的音频数据块或音频数据帧内编码子帧。在另一例子中，可在计算增益的音频数据块或音频数据帧前面的音频数据块或音频数据帧内编码子帧。在另一非限制性例子中，可在从计算增益的音频数据块或音频数据帧在一定的时间内的在音频数据块或音频数据帧内编码子帧。在一些实施例中，可以使用Huffman和差分编码，以占据和/或压缩承载多组增益的子帧。

18.示例性系统和处理流程

图5示出非限制性示例性实施例中的示例性编解码器系统。可以是诸如150等的音频编码器中的处理单元的内容创建器被配置为向编码器单元(“NGC Encoder”)提供音频内容(“Audio”)。编码器单元将音频内容格式化成音频数据块和/或帧，并且将音频数据块和/或帧编码成编码的音频信号。内容创建器还被配置为在音频内容和一个或更多个动态范围压缩曲线标识符(“Compression curve IDs”)中建立/生成一个或更多个节目、商业广告等的一个或更多个对话响度水平(“dialnorm”)。内容创建器可从音频内容中的一个或更多个对话音频轨道确定对话响度水平。可至少部分地基于用户输入、系统配置参数等选择动态范围压缩曲线标识符。内容创建器可以是利用工具以生成音频内容和dialnorm的人(艺术家、音频工程师等)。

基于动态范围压缩曲线标识符，编码器(150)生成包含但不限于由一个或更多个动态范围压缩曲线支持的多个回放环境的相应基准对话响度水平(“Reference levels”)的一个或更多个DRC参数组。在编码的音频信号的元数据中，这些DRC参数组在编码音频信号的元数据中可通过音频内容被带内编码、通过音频内容被带外编码等。作为生成可传输到诸如100等的音频解码器的编码音频信号的一部分，可以执行诸如压缩、格式化多路复用(“MUX”)等的动作。可用支持音频数据要素、DRC参数组、基准响度水平、动态范围压缩曲线、函数、查找表、在压缩中使用的Huffman代码、子帧等的输送的句法编码编码的音频信号。在一些实施例中，在一些实施例中，句法允许上游装置(例如，编码器、解码器、变码器等)将增益传送到下游装置(例如，解码器、变码器等)。在一些实施例中，用于将数据编码成编码的音频信号和/或从其解码数据的句法被配置为支持向后的兼容，使得依赖于由上游装置计算的增益的装置可任选地继续这样做。

在一些实施例中，编码器(150)计算音频内容的一组、两组或更多组增益(例如，DRC增益、增益平滑化，通过适当的基准对话响度水平等)。在以音频内容编码成编码音频信号的元数据中，多组增益可具有一个或更多个动态范围压缩曲线。第一组增益可与(例如，缺省等)扬声器配置或简档中的所有信道的广带(或宽带)增益对应。第二组增益可与扬声器配置或简档中的所有信道中的每一个的广带(或宽带)增益对应。第三组增益可与扬声器配置或简档中的所有信道中的每一个的两个频带中的每一个的广带(或宽带)增益对应。第四组增益可与扬声器配置或简档中的所有信道中的每一个中的四个频带中的每一个的广带(或宽带)增益对应。在一些实施例中，可用元数据中的扬声器配置的(例如，参数化等)动态范围压缩曲线传送对扬声器配置计算的多组增益。在一些实施例中，对扬声器配置计算的多组增益可替代元数据中的扬声器配置的(例如，参数化等)动态范围压缩曲线。可根据这里描述的技术支持附加的扬声器配置或简档。

解码器(100)被配置为例如通过诸如解压缩、去格式化、去多路复用(“DEMUX”)等的动作从编码的音频信号提取音频数据块和/或帧和元数据。提取的音频数据块和/或帧可通过解码器单元(“NGC Decoder”)解码成音频数据要素或采样。解码器(100)进一步被配置为确定要呈现音频内容的解码器(100)处的特定回放环境的简档，并且从从编码音频信号提取的元数据选择动态范围压缩曲线。数字音频处理单元(“DAP”)被配置为出于生成在特定回放环境中驱动音频信道的音频信号的目的在音频数据要素或采样上施加DRC和其它动作。解码器(100)可基于从音频数据块或帧确定的响度水平和选择的动态范围压缩曲线计算和施加DRC增益。解码器(100)也可基于与选择的动态范围压缩曲线相关的基准对话响度水平和从编码音频信号提取的元数据中的对话响度水平调整输出对话响度水平。解码器(100)可随后施加与音频内容和特定回放环境相关的回放情形特有的增益限制器。因此，解码器(100)可呈现/播放针对回放情形定制的音频内容。

图6A～6D示出示例性处理流程。在一些实施例中，媒体处理系统中的一个或更多个计算装置或单元可执行该处理流程。

图6A示出可通过这里描述的音频解码器实现的示例性处理流程。在图6A的块602中，第一装置(例如，图1A的音频解码器100等)接收包含音频内容和一个或更多个动态范围压缩曲线的定义数据的音频信号。

在块604中，第一装置确定特定回放环境。

在块606中，第一装置基于从音频信号提取的一个或更多个动态范围压缩曲线的定义数据建立特定回放环境的特定动态范围压缩曲线。

在块608中，第一装置在从音频信号提取的音频内容的一个或更多个部分上执行一个或更多个动态范围控制(DRC)动作。一个或更多个DRC动作至少部分地基于从特定动态范围压缩曲线获得的一个或更多个DRC增益。

在实施例中，一个或更多个动态范围压缩曲线的定义数据包含起音时间、释放时间或与一个或更多个动态范围压缩曲线中的至少一个相关的基准响度水平中的一个或更多个。

在实施例中，第一装置进一步被配置为执行以下过程：计算音频内容的一个或更多个部分的一个或更多个响度水平；基于特定动态范围压缩曲线和音频内容的一个或更多个部分的一个或更多个响度水平确定一个或更多个DRC增益；等等。

在实施例中，对音频内容的一个或更多个部分计算的响度水平中的至少一个是与一个或更多个频带相关的特定响度水平、跨着广带范围的广带响度水平、跨着宽带范围的宽带响度水平、跨着多个频带的广带响度水平、跨着多个频带的宽带响度水平等中的一个或更多个。

在实施例中，对音频内容的一个或更多个部分计算的响度水平中的至少一个是瞬时响度水平或在一个或更多个时间间隔上平滑化的响度水平中的一个或更多个。

在实施例中，一个或更多个动作包括与调整对话响度水平、增益平滑化、增益限制、动态均衡化、噪声补偿等中的一个或更多个相关的一个或更多个动作。

在实施例中，第一装置进一步被配置为执行以下过程：从编码的音频信号提取一个或更多个对话响度水平；将一个或更多个对话响度水平调整到一个或更多个基准对话响度水平，等等。

在实施例中，第一装置进一步被配置为执行以下过程：从编码音频信号提取一个或更多个听觉场景分析(ASA)参数；改变在平滑化施加到音频信号的增益时使用的一个或更多个时间常数，增益与一个或更多个DRC增益、增益平滑化或增益限制等中的一个或更多个有关。

在实施例中，第一装置进一步被配置为执行以下过程：基于复位事件的指示确定复位事件在音频内容的一个或更多个部分中出现，该复位的指示是从编码的音频信号提取的；和响应于确定复位事件在音频内容的一个或更多个部分中出现，在在确定复位事件在音频内容的一个或更多个部分中出现时执行的一个或更多个增益平滑化动作上采取一个或更多个行动。

在实施例中，第一装置进一步被配置为执行以下过程：保持瞬时响度水平的直方图，该直方图被从音频内容中的时间间隔计算的瞬时响度水平占据；确定特定响度水平是否在直方图的高概率区域中高于阈值，特定响度水平是从音频内容的一部分计算的；和响应于确定特定响度水平在直方图的高概率区域中高于阈值，执行以下过程：确定出现了响度过渡；缩短在增益平滑化中使用的时间常数以加速响度过渡。

图6B示出可通过这里描述的音频编码器实现的示例性处理流程。在图6B的块652中，第二装置(例如，图1B的音频编码器150等)接收源音频格式的音频内容。

在块654中，第二装置检索一个或更多个动态范围压缩曲线的定义数据。

在块656中，第二装置生成包含音频内容和一个或更多个动态范围压缩曲线的定义数据的音频信号。

在实施例中，第二装置进一步被配置为执行以下过程：确定一个或更多个动态范围压缩曲线的一个或更多个标识符；和基于一个或更多个标识符从基准数据库检索一个或更多个动态范围压缩曲线的定义数据，等等。

在实施例中，第二装置进一步被配置为执行以下过程：对音频内容的一个或更多个部分计算一个或更多个对话响度水平；用音频内容的一个或更多个部分将一个或更多个对话响度水平编码到编码的音频信号中，等等。

在实施例中，第二装置进一步被配置为执行以下过程：在音频内容的一个或更多个部分上执行听觉场景分析(ASA)；基于音频内容的一个或更多个部分上的ASA的结果生成一个或更多个ASA参数；用音频内容的一个或更多个部分将一个或更多个ASA参数编码到编码的音频信号中，等等。

在实施例中，第二装置进一步被配置为执行以下过程：确定一个或更多个复位事件在音频内容的一个或更多个部分中出现；和用音频内容的一个或更多个部分将一个或更多个复位事件的一个或更多个指示编码到编码的音频信号中，等等。

在实施例中，第二装置进一步被配置为将音频内容的一个或更多个部分编码到音频数据帧或音频数据块中的一个或更多个中。

在实施例中，一个或更多个DRC增益中的第一DRC增益向与特定回放环境对应的特定扬声器配置中的一组所有信道中的第一适当子集中的各信道施加；而一个或更多个DRC增益中的第二不同DRC增益向与特定回放环境对应的特定扬声器配置中的一组所有信道中的第二适当子集中的各信道施加。

在实施例中，一个或更多个DRC增益中的第一DRC增益向第一频带施加，而一个或更多个DRC增益中的第二不同DRC增益向第二不同的频带施加。

在实施例中，音频内容的一个或更多个部分包含音频数据帧或音频数据块中的一个或更多个。在实施例中，编码音频信号是视听信号的一部分。

在实施例中，一个或更多个DRC增益在响度域中被限定。

图6C示出可通过这里描述的音频编码器实现的示例性处理流程。在图6C的块662中，第三装置(例如，图1B的音频编码器150等)产生对基准扬声器配置编码的音频内容。

在块664中，第二装置将对基准扬声器配置编码的音频内容下混合到特定扬声器配置的下混合音频内容。

在块666中，第二装置在对特定扬声器配置编码的下混合音频内容的各单个部分上执行一个或更多个增益调整。

在块668中，第二装置在下混合音频内容的各单个部分上执行响度测量。

在块670中，第二装置产生包含对基准扬声器配置编码的音频内容和至少部分地基于下混合音频内容的各单个部分上的响度测量创建的下混合响度元数据的音频信号。

在实施例中，在对向下混合音频内容的各单个部分施加一个或更多个增益调整之后，执行对下混合音频内容的各单个部分的响度测量。在一些实施例中，响度测量基于响度K加权全尺寸(Loudness-K-weighted-Full-Scale，LKFS)标准。在一些其它的实施例中，响度测量基于响度K加权全尺寸(LKFS)标准以外的响度标准。

在实施例中，对基准扬声器配置编码的音频内容基于一种或更多种类型的下混合运算被下混合到对特定扬声器配置编码的下混合音频内容；下混合音频内容的各单个部分上的响度测量包含与一种或更多种类型的下混合运算中的每一个有关的下混合音频内容的各单个部分上的响度测量。

在实施例中，第三装置进一步被配置为防止在音频信号中编码特定扬声器配置的下混合音频内容。

图6D示出可通过这里描述的音频解码器实现的示例性处理流程。在图6D的块682中，通过特定扬声器配置动作的第四装置(例如，图1A的音频解码器100等)接收包含对基准扬声器配置编码的音频内容和下混合响度元数据的音频信号。

在块684中，第一装置将对基准扬声器配置编码的音频内容下混合到对特定扬声器配置编码的下混合音频内容。

在块686中，第一装置在对特定扬声器配置编码的下混合音频内容的各单个部分上执行一个或更多个增益调整。在通过上游音频编码器产生下混合响度元数据之前，一个或更多个增益调整不基于下混合响度元数据；并且与通过上游音频编码器执行的一个或更多个增调整对应。

在块688中，第一装置在对特定扬声器配置编码的下混合音频内容的各单个部分上执行一个或更多个附加的增益调整，所述一个或更多个附加的增益调整基于下混合响度元数据。

在实施例中，第一装置进一步被配置为执行以下过程：基于一个或更多个选择因素确定特定类型的下混合运算；在将对基准扬声器配置编码的音频内容下混合到对特定扬声器配置编码的下混合音频内容时，施加特定类型的下混合运算；从下混合响度元数据中的一组或更多组的下混合响度参数确定与特定类型的下混合运算对应的特定组的下混合响度参数；和在至少部分地基于特定组的下混合响度参数在对特定扬声器配置编码的下混合音频内容的各单个部分上执行一个或更多个附加的增益调整。

在实施例中，一个或更多个增益调整不对于下混合音频内容的一个或更多个各单个部分中的至少一个单个部分在下混合声音输出中产生期望的响度，其中，执行一个或更多个附加的增益调整以对于下混合音频内容的一个或更多个各单个部分中的至少一个单个部分在下混合声音输出中产生期望的响度。

在实施例中，基准扬声器配置是环绕扬声器配置，并且其中，特定扬声器配置是二信道配置。

在实施例中，对基准扬声器配置编码的音频内容基于一个或更多个下混合方程被下混合到对特定扬声器配置编码的下混合音频内容。

在实施例中，下混合响度元数据包含一组或更多组下混合响度参数，两组或更多组下混合响度参数中的每组对应于与一组或更多组下混合响度参数对应的一种或更多种类型的下混合运算中的单个类型的下混合运算。

在实施例中，一种或更多种类型的下混合运算包含LtRt下混合运算或LoRo下混合运算中的至少一个。

在实施例中，一个或更多个增益调整包含与对话归一化、动态范围压缩或防止下混合过载的固定衰减中的一个或更多个相关的至少一个增益调整。

在实施例中，一个或更多个增益调整对音频内容的各单个部分的至少两个不同部分使用不同的增益调整参数值。

在实施例中，下混合响度元数据代表在音频信号中编码的总音频元数据的一部分。在实施例中，下混合响度元数据包含指示下混合响度偏移的数据栏。在实施例中，编码的音频信号是视听信号的一部分。

在实施例中，提供包含处理器且被配置为执行这里描述的方法中的任一种的装置。

在实施例中，提供包含软件指令的非暂时性计算机可读存储介质，这些软件指令当通过一个或更多个处理器被执行时导致执行这里描述的方法中的任一种。注意，虽然这里讨论了各单独的实施例，但这里讨论的实施例和/或部分实施例的任意组合可被组合以形成其它的实施例。

19.实现机构－硬件概要

根据一个实施例，通过一个或更多个专用计算装置实现这里描述的技术。专用计算装置可被硬接线以执行技术，或者可包含被永久编程以执行技术的诸如一个或更多个应用特定集成电路(ASIC)或场可编程门阵列(FPGA)的数字电子器件，或者可包含被编程以根据固件、内存、其它存储器或组合中的程序指令执行技术的一个或更多个通用硬件处理器。这种专用计算装置还可组合定制硬接线逻辑、ASIC或FPGA与定制编程以实现技术。专用计算装置可以是台式计算机系统、便携式计算机系统、手持设备、联网设备或加入硬接线和/或程序逻辑以实现技术的任何其它装置。

例如，图7是示出可实现实施例的计算机系统700的框图。计算机系统700包含用于传送信息的总线702或其它通信机构和与总线702耦合的用于处理信息的硬件处理器704。硬件处理器704可以例如为通用微处理器。

计算机系统700还包括与总线702耦合的用于存储信息和要通过处理器704执行的指令的主内存706，诸如随机存取内存(RAM)或其它动态存储装置。主内存706也可用于在执行要通过处理器704执行的指令时存储时间变量或其它中间信息。这种指令，当存储于处理器704可访问的非暂时性存储介质中时，将计算机系统700转变成被定制以执行在指令中规定的动作的专用机器。

计算机系统700还包括只读内存(ROM)708或与总线702耦合的用于存储静态信息和处理器704的指令的其它静止存储装置。用于存储信息和指令的存储装置710，诸如磁盘或光盘，被设置并且与总线702耦合。

计算机系统700可通过总线702与用于向计算机用户显示信息的诸如阴极射线管(CRT)的显示器712耦合。用于向处理器704传送信息和命令选择的包含数字字母和其它键的输入装置714与总线702耦合。另一类型的用户输入装置是用于向处理器704传送方向信息和命令选择并且用于控制显示器712上的光标移动的光标控制716，诸如鼠标、跟踪球或光标方向键。该输入装置一般沿两个轴即第一轴(例如，x)和第二轴(例如，y)具有两个自由度，这两个自由度允许装置规定面中的位置。

计算机系统700可通过使用与计算机系统组合以导致计算机系统700或者将其编程为专用机器的定制硬接线逻辑、一个或更多个ASIC或FPGA、固件和/或程序逻辑实现这里描述的技术。根据一个实施例，响应执行包含于主内存706中的一个或更多个指令的一个或更多个序列的处理器704，通过计算机系统700执行这里的技术。这种指令可从诸如存储装置710的另一存储介质被读入到主内存706中。执行包含于主内存706中的指令序列导致处理器704执行这里描述的处理步骤。在替代性实施例中，作为软件指令的替代，或者，与其组合，可以使用硬接线电路。

这里使用的术语“存储介质”指的是存储导致机器以特定的方式动作的数据和/或指令的任何非暂时性介质。这种存储介质可包含非易失性介质和/或易失性介质。非易失性介质包含例如光盘或磁盘，诸如存储装置710。易失性介质包含动态内存，诸如主内存706。存储介质的常见形式包含例如软盘、柔性盘、硬盘、固态驱动、磁带或任何其它的磁数据存储介质、CD-ROM、任何其它光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它的内存芯片或盒子。

存储介质与传送介质明显不同但可与其组合使用。传送介质参与在存储介质之间传送信息。例如，传送介质包含共轴电缆、铜导线和光纤，包括包含总线702的导线。传送介质也可采取声波或光波的形式，诸如在无线电波和红外-红数据通信中产生的那些。

各种形式的介质可参与向处理器704携带用于执行的一个或更多个指令的一个或更多个序列。例如，可首先在远程计算机的磁盘或固态驱动上承载指令。远程计算机可将指令加载到其动态内存中并且通过使用调制解调器在电话线上发送指令。计算机系统700本地的调制解调器可接收电话线上的数据并且使用红外-红传送器以将数据转换成红外-红信号。红外-红检测器可接收在红外-红信号中承载的数据并且，适当的电路可在总线702上放置数据。总线702将数据携带到主内存706，从该主内存706，处理器704检索并且执行指令。通过主内存706接收的指令可任选地在被处理器704执行之前或之后存储于存储装置710上。

计算机系统700可包括与总线702耦合的通信接口718。通信接口718提供与与局域网络722连接的网络链接720的双向数据通信耦合。例如，通信接口718可以是集成服务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器或向相应类型的电话线提供数据通信连接的调制解调器。作为另一例子，通信接口718可以是向兼容LAN提供数据通信连接的局域网络(LAN)卡。也可实现无线链接。在任何这种实现中，通信接口718发送和接收承载代表各种类型的信息的数字数据流的电气、电磁或光学信号。

网络链接720一般通过一个或更多个网络向其它数据装置提供数据通信。例如，网络链接720可通过局域网络722向主机计算机724或向通过因特网服务提供商(ISP)726操作的数据设备提供连接。ISP726又通过现在常称为“因特网”728的世界范围数据包数据通信网络提供数据通信服务。局域网络722和因特网728均使用承载数字数据流的电气、电磁或光学信号。关于计算机系统700携带数字数据的通过各种网络的信号和网络链接620上以及通过通信接口718的信号是传送介质的示例性形式。

计算机系统700可通过网络、网络链接720和通信接口718发送消息并且接收数据，包含程序代码。在因特网的例子中，服务器730会通过因特网728、ISP 726、局域网络722和通信接口718传送对应用程序的请求代码。

接收的代码可在其被接收时由处理器704执行，并且/或者，存储于存储装置710或其它的非易失性存储器中，以供以后的执行。

20.等同物、扩展、替代和杂项

在以上的说明书中，参照可在实现之间改变的大量的特定细节描述了本发明的实施例。因此，本发明的申请人意图是本发明的专有和专用的指示是包含任何随后的校正的一组权利要求，这些权利要求以这些权利要求发出的特定的形式从本申请发出。这里对于包含于这些权利要求中的术语明确阐述的任何定义应掌控在权利要求中使用的这些术语的意思。由此，没有在权利要求中明确详述的限制、要素、性能、特征、优点或属性不应以任何的方式限制这些权利要求的范围。因此，说明书和附图应视为解释性而不是限制性的。

Claims

1.一种基于编码器生成的响度元数据对音频信号进行增益调整的方法，所述方法包括：

通过在不同于基准信道配置的回放信道配置中操作的音频解码器，接收用于所述基准信道配置的音频信号，所述音频信号包括用于基准信道配置的各信道的音频采样数据、和编码器生成的响度元数据，所述编码器生成的响度元数据包括用于包括所述回放信道配置和所述基准信道配置的多个信道配置的响度元数据；

从用于所述多个信道配置的响度元数据选择用于所述回放信道配置的响度元数据；

从用于所述回放信道配置的响度元数据确定响度调整增益；以及

应用所述响度调整增益作为被应用于音频采样数据的总增益的一部分以生成所述回放信道配置的各信道的输出音频采样数据，

其中，所述响度调整增益依赖于由用于所述回放信道配置的响度元数据指示的响度水平以及基准响度水平。

2.根据权利要求1所述的方法，其中，所述总增益包括以下中的一个或多个：

与下混合有关的增益，

与恢复原始动态范围有关的增益，音频采样数据的输入动态范围是从所述原始动态范围转换得到的，

与增益限制有关的增益，

与增益平滑化有关的增益，或者

与对话响度归一化有关的增益。

3.根据权利要求1所述的方法，其中，所述回放信道配置具有与所述基准信道配置数量不同的音频信道。

4.根据权利要求1所述的方法，其中，所述总增益包括要被部分地/单个地施加的增益、要被串行施加的增益、要被并行施加的增益、或者要被部分串行部分并行施加的增益。

5.根据权利要求1所述的方法，其中，所述总增益包括要被应用于所述回放信道配置中的信道的子集的增益。

6.根据权利要求1所述的方法，其中，所述回放信道配置是二信道配置。

7.根据权利要求1所述的方法，其中，所述响度调整增益依赖于由用于所述回放信道配置的响度元数据指示的响度水平与基准响度水平之差。

8.根据权利要求1所述的方法，所述音频解码器设定所述基准响度水平。

9.一种非暂时性计算机可读存储介质，存储有软件指令，所述软件指令在由一个或多个处理器执行时使得执行：

应用所述响度调整增益作为被应用于音频采样数据的总增益的一部分以生成所述回放信道配置的各信道的输出音频数据，

10.一种基于编码器生成的响度元数据对音频信号进行增益调整的音频信号处理设备，其中所述音频信号处理设备：

11.一种音频信号处理设备，包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读存储介质，存储有软件指令，所述软件指令在由一个或多个处理器执行时使得执行根据权利要求1-8中任一项所述的方法。

12.一种基于编码器生成的响度元数据对音频信号进行增益调整的装置，包括用于执行根据权利要求1-8中任一项所述的方法的部件。