CN112185401A

CN112185401A - 基于发送无关的表示的节目响度

Info

Publication number: CN112185401A
Application number: CN202011037206.3A
Authority: CN
Inventors: J·科喷斯; S·G·诺克罗斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2014-10-10
Filing date: 2015-10-06
Publication date: 2021-01-05
Also published as: EP3518236B8; EP3518236A1; CN112185402A; EP3518236B1; CN112164406A; JP2020098368A; US20170249951A1; JP6701465B1; JP2020129829A; JP7350111B2; US10453467B2; US20220005489A1; WO2016057530A1; JP6676047B2; JP7023313B2; US10566005B2; JP2023166543A; US20200258534A1; US20180012609A1; US11062721B2

Abstract

公开了基于发送无关的表示的节目响度。本公开落入音频编码领域中，具体地，本公开涉及提供用于在不同音频输出信号之间提供响度一致性的框架的领域。具体地说，本公开涉及用于对音频数据位流进行编码和解码以便达到输出音频信号的期望响度水平的方法、计算机程序产品和装置。

Description

基于发送无关的表示的节目响度

本申请是基于申请号为201580054844.7、申请日为2015年10月6日、发明名称为“基于发送无关的表示的节目响度”的专利申请的分案申请。

相关申请的交叉引用

本申请要求2014年10月10日提交的美国临时专利申请No.62/062,479的优先权，该申请全文通过引用结合于此。

技术领域

本发明涉及音频信号处理，更具体地，涉及音频数据位流编码和解码以便实现输出音频信号的期望响度水平。

背景技术

Dolby AC-4是用于高效率地分布富媒体内容的音频格式。AC-4为广播公司和内容制作商提供了以高效率的方式分布和编码内容的灵活框架。内容可以分布在若干个子流上，例如M&E(音乐和效果)在一个子流中，对话在第二子流中。对于一些音频内容，可能有利的是，例如，将对话的语言从一种语言切换到另一种语言，或者能够将例如评论子流添加到内容或包括为了视力障碍者而进行的描述的附加子流。

为了确保呈现给消费者的内容的适当调平(leveling)，对内容的响度需要有一定精确度的了解。当前响度要求具有2dB(ATSC A/85)、0.5dB(EBU R128)的容限，而一些规范具有低达0.1dB的容限。这意味着，具有评论音轨并且具有使用第一语言的对话的输出音频信号的响度应与不具有评论音轨、但具有使用第二语言的对话的输出音频信号的响度基本上相同。

发明内容

本发明提供了一种对包括多个内容子流的位流进行处理的方法，每个内容子流表示音频信号，该方法包括：从位流提取一个或多个呈现数据结构，每个呈现数据结构包括对于所述内容子流中的至少一个的引用，每个呈现数据结构还包括对于元数据子流的引用，该元数据子流表示描述所引用的一个或多个内容子流的组合的响度数据；接收指示所述一个或多个呈现数据结构中的选择的呈现数据结构和期望响度水平的数据；对选择的呈现数据结构所引用的一个或多个内容子流进行解码；并且基于解码的内容子流形成输出音频信号，该方法还包括基于选择的呈现数据结构所引用的响度数据来对解码的一个或多个内容子流或输出音频信号进行处理以达到所述期望响度水平。

本发明还提供了一种用于对包括多个内容子流的位流进行处理的解码器，每个内容子流表示音频信号，该解码器包括：接收部件，其被配置为接收位流；解复用器，其被配置为从位流提取一个或多个呈现数据结构，每个呈现数据结构包括对所述内容子流中的至少一个的引用，并且还包括对元数据子流的引用，该元数据子流表示描述所引用的一个或多个内容子流的组合的响度数据；回放状态部件，其被配置为接收指示在一个或多个呈现数据结构之中的选择的呈现数据结构以及期望响度水平的数据；以及混合部件，其被配置为对选择的呈现数据结构所引用的一个或多个内容子流进行解码，并且基于解码的内容子流形成输出音频信号，其中，混合部件还被配置为基于选择的呈现数据结构所引用的响度数据来对解码的一个或多个内容子流或输出音频信号进行处理以达到所述期望响度水平。

本发明还提供了一种音频编码方法，包括：接收表示相应音频信号的多个内容子流；定义一个或多个呈现数据结构，每个呈现数据结构引用所述多个内容子流中的至少一个；对于一个或多个呈现数据结构中的每个，应用预定义响度函数来获得描述所引用的一个或多个内容子流的组合的响度数据，并且包括对来自呈现数据结构的响度数据的引用；并且形成位流，该位流包括所述多个内容子流、所述一个或多个呈现数据结构以及呈现数据结构所引用的响度数据。

本发明还提供了一种音频编码器，包括：响度部件，其被配置为应用预定义响度函数来获得响度数据，该响度数据描述表示相应音频信号的一个或多个内容子流的组合；呈现数据部件，其被配置为定义一个或多个呈现数据结构，每个呈现数据结构包括对多个内容子流之中的一个或多个内容子流的引用以及对描述所引用的内容子流的组合的响度数据的引用；以及复用部件，其被配置为形成位流，该位流包括所述多个内容子流、所述一个或多个呈现数据结构以及呈现数据结构所引用的响度数据。

附图说明

现在将参照附图来描述示例实施例，其中：

图1是举例示出用于对位流进行处理并且达到输出音频信号的期望响度水平的解码器的广义框图；

图2是图1的解码器的混合部件的第一实施例的广义框图；

图3是图1的解码器的混合部件的第二实施例的广义框图；

图4描述根据实施例的呈现数据结构；

图5示出根据实施例的音频编码器的广义框图；以及

图6描述通过图5的音频编码器形成的位流。

所有的图都是示意性的，并且通常仅示出阐明本公开所必需的部分，而其他部分则可以被省略或仅被暗示。除非另有指示，否则相同的附图标记在不同图中指的是相同的部分。

具体实施方式

鉴于以上，目的是提供旨在与什么内容子流被混合到输出音频信号中独立地为输出音频信号提供期望响度水平的编码器和解码器以及相关联的方法。

I.概述-解码器

根据第一方面，示例实施例提出了用于解码的解码方法、解码器和计算机程序产品。所提出的方法、解码器和计算机程序产品通常可以具有相同的特征和优点。

根据示例实施例，提供了一种对包括多个内容子流的位流进行处理的方法，每个内容子流表示音频信号，该方法包括：从位流提取一个或多个呈现数据结构，每个呈现数据结构包括对于所述内容子流中的至少一个的引用，每个呈现数据结构还包括对于元数据子流的引用，该元数据子流表示描述所引用的一个或多个内容子流的组合的响度数据；接收指示所述一个或多个呈现数据结构中的选择的呈现数据结构和期望响度水平的数据；对选择的呈现数据结构所引用的一个或多个内容子流进行解码；并且基于解码的内容子流形成输出音频信号，该方法还包括基于选择的呈现数据结构所引用的响度数据来对解码的一个或多个内容子流或输出音频信号进行处理以达到所述期望响度水平。

指示选择的呈现数据结构和期望响度水平的数据通常是在解码器处可用的用户设置。用户可以例如使用远程控制来选择呈现数据结构，其中，对话是法语，和/或提高或降低期望输出响度水平。在许多实施例中，输出响度水平与回放设备的能力相关。根据一些实施例，输出响度水平由音量控制。因此，指示选择的呈现数据结构和期望响度值的数据通常不包括在解码器接收的位流中。

如本文中所使用的，“响度”表示声音强度的建模的心理声学测量；换言之，响度表示平均用户所感知的一个声音或多个声音的音量的近似。

如本文中所使用的，“响度数据”是指由用对心理声学响度感知进行建模的函数对特定的呈现数据结构的响度水平进行测量而得出的数据。换言之，它是指示所引用的一个或多个内容子流的组合的响度性质的值集合。根据实施例，可以对特定的呈现数据结构引用的一个或多个内容子流的组合的平均响度水平进行测量。例如，响度数据可以指特定的呈现数据结构引用的一个或多个内容子流的对话规范值(dialnorm value)(根据ITU-RBS.1770推荐)。可以使用其他合适的响度测量标准，比如提供对Zwicker响度模型的修改和扩展的Glasberg和Moore响度模型。

如本文中所使用的，“呈现数据结构”是指与输出音频信号的内容相关的元数据。输出音频信号也将被称为“节目”。呈现数据结构也将被称为“呈现”。

音频内容可以分布在若干个子流上。如本文中所使用的，“内容子流”是指此类子流。例如，内容子流可以包括音频内容的音乐、音频内容的对话或要包括在输出音频信号中的评论音轨。内容子流可以要么是基于声道的，要么是基于对象的。在后一种情况下，时间相关的空间位置数据被包括在内容子流中。内容子流可以被包括在位流中或者是音频信号的一部分(即，作为声道组或对象组)。

如本文中所使用的，“输出音频信号”是指将被渲染提供给用户的实际输出的音频信号。

发明人已经认识到，通过为每个呈现提供响度数据，例如，对话规范值，准确地指示当对该特定呈现进行解码时什么响度用于所引用的至少一个内容子流的特定响度数据可以供解码器使用。

在现有技术中，可以为每个内容子流提供响度数据。为每个内容子流提供响度数据的问题是，在这种情况下，是由解码器来将各种响度数据组合为呈现响度的。将子流的各个响度数据值相加(其表示子流的平均响度)来达成用于某个呈现的响度值可能是不精确的，并且在许多情况下将不会导致组合子流的实际平均响度值。由于信号性质、响度算法以及响度感知的性质(通常是非加性的)，将用于每个引用的内容子流的响度数据相加在数学上可能是不可能的，并且可能导致大于上面所指示的容限的潜在的不精确度。

使用本实施例，由用于选择的呈现的响度数据提供的选择的呈现的平均响度水平和期望响度水平之间的差值因此可以用于控制输出音频信号的回放增益。

通过提供并使用如上所述的响度数据，可以在不同呈现之间实现一致的响度，即，接近期望响度水平的响度。此外，可以在电视频道上的不同节目之间(例如在电视节目及其商业广告之间)、以及跨电视频道实现一致的响度。

根据示例实施例，其中，选择的呈现数据结构引用两个或更多个内容子流，并且还引用要应用于这些内容子流的至少两个混合系数，所述形成输出音频信号还包括通过应用混合系数(一个或多个)来将解码的一个或多个内容子流相加地混合。

通过提供至少两个混合系数，实现输出音频信号的内容的灵活性提高。

例如，对于所述两个或更多个内容子流中的每个子流，选择的呈现数据结构可以引用要应用于各个子流的一个混合系数。根据该实施例，可以改变内容子流之间的相对响度水平。例如，文化偏好可能要求不同内容子流之间的不同平衡。考虑西班牙地区想要较少关注音乐的情况。因此，使音乐子流衰减3dB。根据其他实施例，可以将单个混合系数应用于两个或更多个内容子流的子集。

根据示例实施例，位流包括多个时间帧，并且其中，选择的呈现数据结构所引用的混合系数是可以独立分配给每个时间帧的。提供时变的混合系数的效果是可以实现闪避(ducking)。例如，用于一个内容子流的时间段的响度水平可以通过另一个内容子流的相同时间段中的提高的响度来降低。

根据示例实施例，响度数据表示与对它的音频输入信号应用门控相关的响度函数的值。

音频输入信号是编码器端的被应用了响度函数(即，对话规范函数)的信号。所得的响度数据然后在位流中发送给解码器。噪声门(也被称为静音门)是用于控制音频信号的音量的电子设备或软件。门控是此类门的使用。噪声门使寄存(register)的信号衰减低于阈值。噪声门可以使信号衰减固定量，该固定量被称为范围。在其最简单的形式中，噪声门使得信号仅在它高于设置的阈值时才可以通过。

门控还可以基于音频输入信号中的对话的存在。因此，根据示例实施例，响度数据表示与它的音频输入信号的表示对话的此类时间段相关的响度函数的值。根据其他实施例，门控基于最小响度水平。此类最小响度水平可以是绝对阈值或相对阈值。相对阈值可以基于用绝对阈值测量的响度水平。

根据示例实施例，呈现数据结构还包括对用于所引用的一个或多个内容子流的动态范围压缩DRC数据的引用，该方法还包括基于DRC数据来对解码的一个或多个内容子流或输出音频信号进行处理，其中，该处理包括将一个或多个DRC增益应用于解码的一个或多个内容子流或输出音频信号。

动态范围压缩降低响亮的声音的音量或放大安静的声音，因此，使音频信号的动态范围变窄或“压缩”音频信号的动态范围。通过为每个呈现唯一地提供DRC数据，可以实现输出音频信号的改进的用户体验，而不管选择什么呈现。而且，通过为每个呈现提供DRC数据，可以如上所述那样在多个呈现中的每个上、还有在节目之间、跨电视频道实现音频输出信号的一致的用户体验。

DRC增益总是随时间变化的。在每个时间段中，DRC增益可以是用于音频输出信号的单个增益，或者是对每个子流不同的DRC增益。DRC增益可以应用于多组声道和/或是频率相关的。另外，DRC数据中所包括的DRC增益可以表示用于两个或更多个DRC时间段(例如，由编码器定义的时间帧的子帧)的DRC增益。

根据示例实施例，DRC数据包括一个或多个DRC增益的至少一个集合。DRC数据因此可以包括与DRC模式相对应的多个DRC配置文件(profile)，每个DRC配置文件提供音频输出信号的不同用户体验。通过将DRC增益直接包括在DRC数据中，可以实现解码器的降低的计算复杂度。

根据示例实施例，DRC数据包括至少一个压缩曲线，并且其中，一个或多个DRC增益是通过以下方式获得的：使用预定义响度函数来计算一个或多个内容子流或音频输出信号的一个或多个响度值，并且使用压缩曲线将一个或多个响度值映射到DRC增益。通过在DRC数据中提供压缩曲线并且基于这些曲线计算DRC增益，可以降低用于将DRC数据发送到编码器所需的位速率。预定义响度函数可以例如取自ITU-R BS.1770推荐文档，但是任何合适的响度函数可以被使用。

根据示例实施例，响度值的映射包括DRC增益的平滑操作。这样做的效果可以是被更好感知的输出音频信号。用于使DRC增益平滑的时间常数可以被作为DRC数据的一部分发送。此类时间常数可以依赖于信号性质而不同。例如，在一些实施例中，当所述响度值大于先前的对应的响度值时，与当所述响度值小于先前的对应的响度值时相比，时间常数可以更小。

根据示例实施例，所述引用的DRC数据被包括在所述元数据子流中。这可以降低位流的解码复杂度。

根据示例实施例，解码的一个或多个内容子流中的每个包括描述内容子流的响度水平的子流-水平响度数据，并且其中，对解码的一个或多个内容子流或输出音频信号进行所述处理还包括确保基于内容子流的响度水平来提供响度一致性。

如本文中所使用的，“响度一致性”是指响度在不同呈现之间是一致的，即，在基于不同内容子流形成的输出音频信号上是一致的。而且，该术语是指响度在不同节目之间，即，在完全不同的输出音频信号(比如电视节目的音频信号和商业广告的音频信号)之间是一致的。此外，该术语是指响度跨不同的电视频道是一致的。

提供描述内容子流的响度水平的响度数据在一些情况下可以帮助解码器提供响度一致性。例如，在这样的情况下：其中所述形成输出音频信号包括使用替代混合系数来组合两个或更多个解码的内容子流，并且其中，使用子流-水平响度数据来补偿响度数据以用于提供响度一致性。例如在用户决定偏离默认呈现(例如，通过对话增强、对话衰减、场景个性化等)的情况下，这些替代混合系数可以从用户输入推导得到。这可能危及响度合规性(loudness compliance)，因为用户影响可能使音频输出信号的响度落到合规性规则之外。为了帮助这些情况下的响度一致性，本实施例提供发送子流-水平响度数据的选项。

根据一些实施例，对所述内容子流中的至少一个的引用是对由内容子流中的一个或多个组成的至少一个内容子流组的引用。这可以降低解码器的复杂度，因为多个呈现可以共享内容子流组(例如，子流组由与音乐相关的内容子流以及与效果相关的内容子流组成)。这还可以降低发送位流所需的位速率。

根据一些实施例，对于内容子流组，选择的呈现数据结构引用要应用于组成该内容子流组的内容子流中的所述一个或多个中的每个的单个混合系数。

在内容子流组中的内容子流的响度水平的相互性质不错的情况下，这可能是有利的，但是内容子流组中的内容子流的总体响度水平与选择的呈现数据结构所引用的其他(一个或多个)内容子流或(一个或多个)内容子流组相比应提高或降低。

根据一些实施例，位流包括多个时间帧，并且其中，指示一个或多个呈现数据结构之中的选择的呈现数据结构的数据是可以独立分配给每个时间帧的。因此，在对于节目接收到多个呈现数据结构的情况下，选择的呈现数据结构可以在该节目正在进行中的同时例如被用户改变。因此，本实施例提供选择输出音频的内容、同时提供输出音频信号的响度一致性的更灵活的方式。

根据一些实施例，该方法还包括：从位流对所述多个时间帧中的第一帧提取一个或多个呈现数据结构，并且从位流对所述多个时间帧中的第二帧提取与从所述多个时间帧中的第一帧提取的所述一个或多个呈现数据结构不同的一个或多个呈现数据结构，并且其中，指示选择的呈现数据结构的数据指示用于其被分配给的时间帧的选择的呈现数据结构。因此，多个呈现数据结构可以在位流中被接收，其中，其中，呈现数据结构中的一些与第一组时间帧相关，并且呈现数据结构中的一些与第二组时间帧相关。例如，评论音轨可以仅对于节目的某个时间段可用。而且，在特定时间点当前可应用的呈现数据结构可以用于在节目正在进行中的同时选择所选择的呈现数据结构。因此，本实施例提供选择输出音频的内容、同时提供输出音频信号的响度一致性的更灵活的方式。

根据一些实施例，在位流中包括的多个内容子流中，仅对选择的呈现数据结构所引用的一个或多个内容子流进行解码。本实施例可以提供具有降低的计算复杂度的高效率的解码器。

根据一些实施例，位流包括两个或更多个单独位流，每个单独位流包括所述多个内容子流中的至少一个，其中，对选择的呈现数据结构所引用的一个或多个内容子流进行解码的步骤包括：对于两个或更多个单独位流中的每个特定位流，对该特定位流中所包括的引用的内容子流之中的(一个或多个)内容子流进行单独解码。根据该实施例，每个单独位流可以被单独的解码器接收，该解码器对该单独位流中提供的根据选择的呈现结构所需要的(一个或多个)内容子流进行解码。这可以改进解码速度，因为单独解码器可以并行工作。因此，单独解码器进行的解码可以至少部分重叠。但是，应注意，单独解码器进行的解码不需要重叠。

而且，通过将内容子流划分为几个位流，本实施例使得可以通过如下所述的不同基础设施来接收至少两个单独位流。因此，本实施例提供在解码器处接收多个内容子流的更灵活的方式。

每个解码器可以基于选择的呈现数据结构所引用的响度数据来对(一个或多个)解码的子流进行处理，和/或应用DRC增益，和/或将混合系数应用于(一个或多个)解码的子流。经过处理的或未经处理的内容子流然后可以从至少两个解码器中的所有解码器提供给用于形成输出音频信号的混合部件。可替代地，混合部件进行响度处理和/或应用DRC增益和/或应用混合系数。在一些实施例中，第一解码器可以通过第一基础设施(例如，有线电视广播)接收两个或更多个单独位流中的第一位流，而第二解码器通过第二基础设施(例如，通过互联网)接收两个或更多个独立位流中的第二位流。根据一些实施例，所述一个或多个呈现数据结构存在于两个或更多个单独位流中的所有位流中。在这种情况下，呈现定义和响度数据存在于所有的单独解码器中。这使得可以独立地操作解码器一直到混合部件。对不存在于对应位流中的子流的引用可以被指示为外部提供。

根据示例实施例，提供了一种用于对包括多个内容子流的位流进行处理的解码器，每个内容子流表示音频信号，该解码器包括：接收部件，其被配置为接收位流；解复用器，其被配置为从位流提取一个或多个呈现数据结构，每个呈现数据结构包括对所述内容子流中的至少一个的引用，并且还包括对元数据子流的引用，该元数据子流表示描述所引用的一个或多个内容子流的组合的响度数据；回放状态部件，其被配置为接收指示在一个或多个呈现数据结构之中的选择的呈现数据结构以及期望响度水平的数据；以及混合部件，其被配置为对选择的呈现数据结构所引用的一个或多个内容子流进行解码，并且基于解码的内容子流形成输出音频信号，其中，混合部件还被配置为基于选择的呈现数据结构所引用的响度数据来对解码的一个或多个内容子流或输出音频信号进行处理以达到所述期望响度水平。

II.概述-编码器

根据第二方面，示例实施例提出了用于编码的编码方法、编码器和计算机程序产品。所提出的方法、编码器和计算机程序产品通常可以具有相同的特征和优点。通常，第二方面的特征可以具有与第一方面的对应特征相同的优点。

根据示例实施例，提供了一种音频编码方法，包括：接收表示相应音频信号的多个内容子流；定义一个或多个呈现数据结构，每个呈现数据结构引用所述多个内容子流中的至少一个；对于一个或多个呈现数据结构中的每个，应用预定义响度函数来获得描述所引用的一个或多个内容子流的组合的响度数据，并且包括对来自呈现数据结构的响度数据的引用；并且形成位流，该位流包括所述多个内容子流、所述一个或多个呈现数据结构以及呈现数据结构所引用的响度数据。

如上所述，术语“内容子流”包含在位流内和在音频信号内两者的子流。音频编码器通常接收音频信号，这些音频信号然后被编码为位流。可以对音频信号进行分组，其中，每组可以被表征为单独的编码器输入音频信号。然后可以将每组编码为子流。

根据一些实施例，该方法还包括以下步骤：对于一个或多个呈现数据结构中的每个，确定用于引用的一个或多个内容子流的动态范围压缩DRC数据，其中，DRC数据对至少一个期望压缩曲线或至少一组DRC增益进行量化；并且将所述DRC数据包括在位流中。

根据一些实施例，该方法还包括以下步骤：对于该多个内容子流中的每个，应用预定义响度函数来获得内容子流的子流-水平响度数据；并且将所述子流-水平响度数据包括在位流中。

根据一些实施例，预定义响度函数与对音频信号应用门控相关。

根据一些实施例，预定义响度函数仅与音频信号的表示对话的此类时间段相关。

根据一些实施例，预定义响度函数包括以下中的至少一个：音频信号的频率相关的加权、音频信号的声道相关的加权、忽视音频信号的信号功率低于阈值的段；计算音频信号的能量测量。

根据示例实施例，提供了一种音频编码器，包括：响度部件，其被配置为应用预定义响度函数来获得响度数据，该响度数据描述表示相应音频信号的一个或多个内容子流的组合；呈现数据部件，其被配置为定义一个或多个呈现数据结构，每个呈现数据结构包括对多个内容子流之中的一个或多个内容子流的引用以及对描述所引用的内容子流的组合的响度数据的引用；以及复用部件，其被配置为形成位流，该位流包括所述多个内容子流、所述一个或多个呈现数据结构以及呈现数据结构所引用的响度数据。

III.示例实施例

图1举例示出了用于对位流P进行处理并且达到输出音频信号114的期望响度水平的解码器100的广义框图。

解码器100包括接收部件(未示出)，其被配置为接收包括多个内容子流的位流P，每个内容子流表示音频信号。

解码器100还包括解复用器102，其被配置为从位流P提取一个或多个呈现数据结构104。每个呈现数据结构包括对所述内容子流中的至少一个的引用。换言之，呈现数据结构或呈现是其内容子流将被组合的描述。如上面所指出的，在两个或更多个单独子流中编码的内容子流可以被组合为一个呈现。

每个呈现数据结构还包括对元数据子流的引用，该元数据子流表示描述所引用的一个或多个内容子流的组合的响度数据。

现在将结合图4来描述呈现数据结构及其不同引用的内容。

在图4中，示出了可以由提取的一个或多个呈现数据结构104引用的不同子流412、205。在三个呈现数据结构104之中，选择的呈现数据结构110被选择。从图4清楚的是，位流P包括内容子流412、元数据子流205以及所述一个或多个呈现数据结构104。内容子流412可以例如包括用于音乐的子流、用于效果的子流、用于环境的子流、用于英语对话的子流、用于西班牙语对话的子流、用于用英语的关联音频(AA)的子流(例如，英语评论音轨)以及用于用西班牙语的AA的子流(例如，西班牙语评论音轨)。

在图4中，所有的内容子流412都被编码在同一个位流P中，但是如上面所注意到的，情况并非总是如此。音频内容的广播公司可以使用单个位流配置(例如，MPEG标准中的单个数据包标识符(PID)配置或多位流配置(例如，双PID配置))来将音频内容发送到它们的客户端，即，解码器。

本公开引入了驻存在呈现层和子流层之间的子流组的形式的中间水平。内容子流组可以对一个或多个内容子流进行分组或引用一个或多个内容子流。呈现然后可以引用内容子流组。在图4中，内容子流音乐、效果和环境被分组以形成选择的呈现数据结构110所引用404的内容子流组410。

内容子流组提供组合内容子流的更大灵活性。具体地说，子流组水平提供收集几个内容子流或将几个内容子流分组到唯一组(例如，包括音乐、效果和环境的内容子流组410)中的手段。

这可能是有利的，因为(例如，用于音乐和效果的或用于音乐、效果和环境的)内容子流组可以用于多于一个的呈现，例如与英语或西班牙语对话相结合的呈现。类似地，内容子流也可以用在多于一个的内容子流组中。

而且，依赖于呈现数据结构的语法，使用内容子流组可以提供对用于呈现的大量内容子流进行混合的可能性。

根据一些实施例，呈现104、110将总是由一个或多个子流组组成。

图4中的选择的呈现数据结构110包括对内容子流组410的引用404，内容子流组410由内容子流中的一个或多个组成。选择的呈现数据结构110还包括对用于西班牙语对话的内容子流的引用以及对用于用西班牙语的AA的内容子流的引用。而且，选择的呈现数据结构110包括对元数据子流205的引用406，元数据子流205表示描述所引用的一个或多个内容子流的组合的响度数据408。清楚的是，多个呈现数据结构104的其他两个呈现数据结构可以包括与选择的呈现数据结构110类似的数据。根据其他实施例，位流P可以包括与元数据子流205类似的附加元数据子流，其中，这些附加元数据子流是从其他呈现数据结构引用的。换言之，多个呈现数据结构104中的每个呈现数据结构可以引用专用响度数据。

选择的呈现数据结构可以随时间而改变，即，如果用户决定对西班牙语评论音轨AA(ES)进行关闭(turn of)的话。换言之，位流P包括多个时间帧，并且其中，指示一个或多个呈现数据结构104之中的选择的呈现数据结构的数据(图1中的引用108)可以独立分配给每个时间帧。

如上所述，位流P包括多个时间帧。根据一些实施例，一个或多个呈现数据结构104可以与位流P的不同时间段相关。换言之，解复用器(图1中的标号102)可以被配置为从位流P对所述多个时间帧中的第一帧提取一个或多个呈现数据结构，并且还被配置为从位流P对所述多个时间帧中的第二帧提取与从所述多个时间帧中的第一帧提取的所述一个或多个呈现数据结构不同的一个或多个呈现数据结构。在这种情况下，指示选择的呈现数据结构的数据(图1中的标号108)指示用于其被分配给的时间帧的选择的呈现数据结构。

现在返回到图1，解码器100还包括回放状态部件106。回放状态部件106被配置为接收数据108，其指示一个或多个呈现数据结构104之中的选择的呈现数据结构110。数据108还包括期望响度水平。如上所述，数据108可以由将被解码器100解码的音频内容的消费者提供。期望响度值还可以是解码器特定的设置，这依赖于将用于回放输出音频信号的回放设备而定。消费者可以例如选择音频内容应包括如从上面理解的西班牙语对话。

解码器100还包括混合部件，其从回放状态部件106接收选择的呈现数据结构110，并且从位流P解码选择的呈现数据结构110所引用的一个或多个内容子流。根据一些实施例，只有由选择的呈现数据结构110所引用的一个或多个内容子流被混合部件解码。因此，在消费者已经选择利用例如西班牙语对话进行的呈现的情况下，表示英语对话的任何内容子流将不被解码，这使解码器100的计算复杂度降低。

混合部件112被配置为基于解码的内容子流来形成输出音频信号114。

而且，混合部件112被配置为基于选择的呈现数据结构110所引用的响度数据来对解码的一个或多个内容子流或输出音频信号进行处理以达到所述期望响度水平。

图2和图3描述了混合部件112的不同实施例。

在图2中，位流P被子流解码部件202接收，子流解码部件202基于选择的呈现数据结构110从位流P解码选择的呈现数据结构110所引用的一个或多个内容子流204。一个或多个解码的内容子流204然后被发送到部件206，部件206用于基于解码的内容子流204和元数据子流205来形成输出音频信号114。当形成音频输出信号时，部件206可以例如考虑(一个或多个)内容子流204中所包括的任何时间相关的空间位置数据。部件206可以还考虑元数据子流205中所包括的DRC数据。可替代地，响度部件210(下面描述)基于DRC数据对输出音频信号114进行处理。在一些实施例中，部件206接收来自呈现数据结构110(图2中未示出)的混合系数(下面描述)，并且将这些混合系数应用于对应的内容子流204。输出音频信号114*然后被发送到响度部件210，响度部件210基于选择的呈现数据结构110所引用的响度数据(其包括在元数据子流205中)以及数据108中所包括的期望响度水平来对输出音频信号114*进行处理以实现所述期望响度水平，从而输出经过响度处理的输出音频信号114。

在图3中，示出了类似的混合部件112，与图2中所描述的混合部件112的不同之处在于，用于形成输出音频信号的部件206以及响度部件210具有彼此改变的位置。因此，响度部件210对解码的一个或多个内容子流204进行处理以达到所述期望响度水平(基于元数据子流205中所包括的响度数据)，并且输出一个或多个经过响度处理的内容子流204*。这些内容子流204*然后被发送到部件206，部件206用于形成输出经过响度处理的输出音频信号114的输出音频信号。如结合图2所描述的，DRC数据(其包括在元数据子流205中)可以要么在部件206中应用，要么在响度部件210中应用。而且，在一些实施例中，部件206接收来自呈现数据结构110(图3中未示出)的混合系数(下面描述)，并且将这些混合系数应用于对应的内容子流204*。

一个或多个呈现数据结构104中的每个包括专用响度数据，该专用响度数据准确地指示呈现数据结构所引用的内容子流当被解码时将是什么响度。响度数据可以例如表示对话规范值。根据一些实施例，响度数据表示将门控应用于其音频输入信号的响度函数的值。这可以改进响度数据的精确度。例如，如果响度数据是基于带限响度函数(band-limiting loudness function)，则当计算响度数据时将不考虑音频输入信号的背景噪声，因为仅包含静态的频带可以被忽视。

而且，响度数据可以表示与音频输入信号的表示对话的此类时间段相关的响度函数的值。这符合ARSC A/85标准，在该标准中，对话规范相对于对话的响度被明确地定义(Anchor元素)：“对话规范参数的值指示内容的Anchor元素的响度”。

为达到所述期望响度水平即ORL而基于选择的呈现数据结构所引用的响度数据对解码的一个或多个内容子流或输出音频信号的处理或输出音频信号的调平g_L因此可以通过使用根据上面计算的呈现的对话规范DN(pres)来执行：

g_L＝ORL-DN(pres)

其中，DN(pres)和ORL通常都是以dB_FS(参照全标度1kHz正弦(或方)波的dB)为单位表达的值。

根据一些实施例，其中，选择的呈现数据结构引用两个或更多个内容子流，选择的呈现数据结构还引用要应用于两个或更多个内容子流的至少一个混合系数。(一个或多个)混合系数可以用于提供选择的呈现所引用的内容子流之间的修改的相对响度水平。这些混合系数可以在将内容子流中的声道/对象与(一个或多个)其他内容子流中的声道/对象混合之前被作为宽带增益应用于该声道/对象。

至少一个混合系数通常是静态的，但是可以可独立地分配给位流的每个时间帧，例如，以实现闪避。

混合系数因此无需在用于每个时间帧的位流中发送；它们可以保持有效一直到覆写。

可以对每一个内容子流定义混合系数。换言之，对于两个或更多个子流中的每个子流，选择的呈现数据结构可以引用要应用于相应子流的一个混合系数。

根据一些实施例，可以对每一个内容子流组定义混合系数，并且将该混合系数应用于内容子流组中的所有内容子流。换言之，对于内容子流组，选择的呈现数据结构可以引用要应用于组成该子流组的内容子流中的所述一个或多个中的每个的单个混合系数。

根据又一个实施例，选择的呈现数据结构可以引用要应用于两个或更多个内容子流中的每个的单个混合系数。

下面的表1指示了对象发送的示例。对象被聚类在分布于几个子流上的类别中。所有呈现数据结构都组合音乐和包含音频内容的没有对话的主要部分的效果。该组合因此是内容子流组。依赖于选择的呈现数据结构，选择某种语言，例如，英语(D#1)或西班牙语D#2。而且，内容子流包括一个用英语的关联音频子流(Desc#1)以及一个用西班牙语的关联音频子流(Desc#2)。关联音频可以包括增强音频，比如音频描述、用于耳背者的解说员、用于视力障碍者的解说员、评论音轨等。

在呈现1中，不应经由混合系数应用混合增益；呈现1因此根本不引用混合系数。

文化偏好可能要求类别之间的不同平衡。这在呈现2中举例说明。考虑西班牙地区想要较少关注音乐的情况。因此，使音乐子流衰减3dB。在该示例中，对于两个或更多个子流中的每个子流，呈现2引用要应用于相应子流的一个混合系数。

呈现3包括用于视力障碍者的西班牙语描述流。该流被记录在小隔间(booth)中，并且太响亮以至于不能被直接混合到呈现中，因此被衰减6dB。在该示例中，对于两个或更多个子流中的每个子流，呈现3引用要应用于相应子流的一个混合系数。

在呈现4中，音乐子流和效果子流两者都被衰减3dB。在这种情况下，对于M&E子流组，呈现4引用要应用于组成该M&E子流组的内容子流中的所述一个或多个中的每个的单个混合系数。

根据一些实施例，音频内容的用户或消费者可以提供使得输出音频信号偏离选择的呈现数据结构的用户输入。例如，对话增强或对话衰减可以由用户请求，或者用户可能想要执行某种场景个性化，例如，提高效果的音量。换言之，可以提供当组合两个或更多个解码的内容子流以用于形成输出音频信号时使用的替代混合系数。这可以影响音频输出信号的响度水平。为了在这种情况下提供响度一致性，解码的一个或多个内容子流中的每个可以包括描述内容子流的响度水平的子流-水平响度数据。子流-水平响度数据然后可以用于对响度数据进行补偿以用于提供响度一致性。

子流-水平响度数据可以类似于呈现数据结构所引用的响度数据，并且可以有利地表示响度函数的值，这些值可选地具有更大范围以便涵盖内容子流中的通常更安静的信号。

存在使用该数据来实现响度一致性的许多方式。下面的算法是以示例的方式示出的。

设DN(P)是呈现对话规范，DN(S_i)是子流i的子流响度。

如果解码器正在基于引用作为一个内容子流组S_M&E的音乐内容子流S_M和效果内容子流S_E、加上引用对话内容子流S_D的呈现来形成音频输出信号，想要在应用9dB的对话增强DE的同时保持一致的响度，则解码器可以通过对内容子流响度值进行求和来用DE预测新的呈现响度DN(P_DE)：

如上所述，当近似呈现响度时执行子流响度的此类加法可以得到与实际响度非常不同的响度。因此，替代方案是不用DE计算近似，以找到与实际响度的偏移：

因为DE上的增益不是以不同子流信号彼此作用的方式对节目进行大的修改，所以有可能的是，当使用该偏移来对DN(P_DE)的近似进行校正时，该近似更加精确：

根据一些实施例，呈现数据结构还包括对用于所引用的一个或多个内容子流204的动态范围压缩DRC数据的引用。该DRC数据可以用于通过将一个或多个DRC增益应用于解码的一个或多个内容子流204或输出音频信号114来对解码的一个或多个内容子流204进行处理。一个或多个DRC增益可以包括在DRC数据中，或者它们可以基于DRC数据中所包括的一个或多个压缩曲线来计算。在这种情况下，解码器100使用预定义响度函数来对引用的一个或多个内容子流204中的每个或对输出音频信号114计算响度值，然后使用(一个或多个)响度值来使用(一个或多个)压缩曲线映射到DRC增益。响度值的映射可以包括DRC增益的平滑操作。

根据一些实施例，呈现数据结构所引用的DRC数据对应于多个DRC配置文件。这些DRC配置文件是针对可以应用它们的特定音频信号量身定制的。配置文件的范围可以从没有压缩(“全无”)到相当轻微的压缩(例如，“音乐轻微”)、一直到极其激进的压缩(例如，“语音”)。因此，DRC数据可以包括多组DRC增益或可以从其获得多组DRC增益的多个压缩曲线。

引用的DRC数据可以根据实施例而被包括在图4中的元数据子流205中。

应注意，位流P可以根据一些实施例包括两个或更多个单独位流，并且内容子流在这种情况下可以被编码为不同位流。一个或多个呈现数据结构在这种情况下有利地包括在所有的单独位流中，这意味着，几个解码器(每个单独位流一个解码器)可以单独地且完全独立地工作以对选择的呈现数据结构(其也被提供给每个独立解码器)所引用的内容子流进行解码。根据一些实施例，解码器可以并行工作。每个单独解码器对存在于它接收的单独位流中的子流进行解码。根据实施例，每个单独解码器执行对被它解码的内容子流的处理，以达到期望响度水平。经过处理的内容子流然后被提供给另外的混合部件，该混合部件形成具有期望响度水平的输出音频信号。

根据其他实施例，每个单独解码器将其解码的且未经处理的子流提供给另外的混合部件，该混合部件执行响度处理，然后从选择的呈现数据结构所引用的一个或多个内容子流中的全部内容子流形成输出音频信号，或者首先对所述一个或多个内容子流进行混合，并且对混合信号执行响度处理。根据其他实施例，每个单独解码器对其解码的子流中的两个或更多个执行混合操作。另外的混合部件然后对单独解码器的预先混合的贡献进行混合。

图5结合图6举例示出了音频编码器500。编码器500包括被配置为定义一个或多个呈现数据结构506的呈现数据部件504，每个呈现数据结构506包括对多个内容子流502中的一个或多个内容子流612的引用604、605以及对响度数据510的引用608，响度数据510描述引用的内容子流612的组合。编码器500还包括响度部件508，其被配置为应用预定义响度函数514来获得响度数据510，响度数据510描述表示相应音频信号的一个或多个内容子流的组合。编码器还包括被配置为形成位流P的复用部件512，位流P包括所述多个内容子流、所述一个或多个呈现数据结构506以及所述一个或多个呈现数据结构506所引用的响度数据510。应注意，响度数据510通常包括几个响度数据实例，所述一个或多个呈现数据结构506中的每个呈现数据结构506有一个响度数据实例。

编码器500还可以适于对一个或多个呈现数据结构506中的每个，确定用于所引用的一个或多个内容子流的动态范围压缩DRC数据。DRC数据对至少一个期望压缩曲线或至少一组DRC增益进行量化。DRC数据被包括在位流P中。DRC数据和响度数据510可以根据实施例而被包括在元数据子流614中。正如上面所讨论的，响度数据通常是呈现相关的。而且，DRC数据也可以是呈现相关的。在这种情况下，用于特定呈现数据结构的响度数据，以及如果可以应用的话，还有DRC数据被包括在用于该特定呈现数据结构的专用元数据子流614中。

编码器还可以适于针对于多个内容子流502中的每个，应用预定义响度函数来获得内容子流的子流-水平响度数据；并且将所述子流-水平响度数据包括在位流中。预定义响度函数可以与音频信号的门控相关。根据其他实施例，预定义响度函数仅与音频信号的表示对话的此类时间段相关。预定义响度函数可以根据一些实施例包括以下中的至少一个：

·音频信号的频率相关的加权；

·音频信号的声道相关的加权；

·忽视音频信号的信号功率低于阈值的段；

·忽视音频信号的被检测为不是语音的段；

·计算音频信号的能量/功率/均方根测量。

如从上面所理解的，响度函数是非线性的。这意味着，在响度数据仅从不同的内容子流计算的情况下，用于某个呈现的响度不能通过将引用的内容子流的响度数据相加到一起来计算。而且，当将不同的音频音轨(即，内容子流)组合到一起以用于同时回放时，可能出现相干/不相干部分之间的或不同音轨的不同频率区域中的组合效果，该组合效果进一步使得用于音轨的响度数据的加法在数学上是不可能的。

IV.等同、扩展、替代及其他

在研究上面的描述之后，本公开的进一步的实施例对于本领域技术人员将变得清楚。即使本描述和附图公开了实施例和示例，本公开也不限于这些特定示例。在不违背本公开的范围的情况下，可以做出许多修改和变化，本公开的范围由所附权利要求书限定。出现在权利要求中的任何标号不被理解为限制它们的范围。

另外，对于所公开的实施例的变化可以被实践本公开的技术人员通过研究附图、公开内容和所附权利要求书理解和实施。在权利要求书中，词语“包括”不排除其他元件或步骤，并且不定冠词“一”或“一个”不排除复数。某些手段被记载在彼此不同的从属权利要求中这个单纯事实并不表明这些手段的组合不能被用来获利。

上面所公开的设备和方法可以实现为软件、固件、硬件或它们的组合。在硬件实现中，上面的描述中引用的功能单元之间的任务划分不一定对应于划分为物理单元的划分；相反，一个物理部件可以具有多种功能，并且一个任务可以由几个物理部件合作执行。某些部件或全部部件可以实现为由数字信号处理器或微处理器执行的软件，或者实现为硬件或实现为专用集成电路。此类软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员中众所周知的，术语计算机存储介质包括用任何方法或技术实现的用于存储信息(比如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘储存器、磁盒、磁带、磁盘储存器或其他磁性存储设备、或可以用于存储期望信息并且可以被计算机访问的任何其他的介质。此外，技术人员众所周知的是，通信介质通常体现计算机可读指令、数据结构、程序模块或模块化数据信号(比如载波或其他传输机制)中的其他数据，并且包括任何信息递送介质。

Claims

1.一种对包括多个内容子流(412)的位流(P)进行处理的方法，每个内容子流表示音频信号，所述方法包括：

从所述位流提取一个或多个呈现数据结构(104)，每个呈现数据结构包括对多个所述内容子流的引用(404、405)，每个呈现数据结构还包括对包括在元数据子流(205)中的响度数据(408)和动态范围压缩DRC数据的引用(406)，其中，所述响度数据专用于所述呈现数据结构并且指示当被解码时所引用的多个内容子流(204)的组合将是什么响度，并且其中，所述DRC数据包括一个或多个DRC增益的至少一个集合；

接收指示从所述一个或多个呈现数据结构(104)中选择的呈现数据结构以及期望响度水平的数据(108)；

对选择的呈现数据结构(110)所引用的所述多个内容子流(204)进行解码；以及

基于解码的内容子流(204)形成输出音频信号(114)，

所述方法还包括基于所述选择的呈现数据结构所引用的响度数据以及所述一个或多个DRC增益的至少一个集合对所述解码的多个内容子流(204)或输出音频信号(114)进行处理以达到所述期望响度水平。

2.根据权利要求1所述的方法，其中，所述选择的呈现数据结构还引用要应用于所述多个内容子流的至少两个混合系数，

所述形成输出音频信号还包括通过应用混合系数来将所述解码的多个内容子流相加地混合。

3.根据权利要求2所述的方法，其中，所述位流包括多个时间帧，并且其中，所述选择的呈现数据结构所引用的混合系数能够独立地分配给每个时间帧；和/或

所述选择的呈现数据结构对于所述多个子流中的每一个子流引用要应用于相应子流的一个混合系数。

4.根据前述权利要求中的任一项所述的方法，其中，所述DRC数据包括一个或多个DRC增益的多个集合，并且与多个DRC配置文件对应。

5.根据前述权利要求中的任一项所述的方法，其中，所述位流包括多个时间帧，并且其中，指示所述一个或多个呈现数据结构当中的所述选择的呈现数据结构的数据能够独立地分配给每个时间帧。

6.根据权利要求5所述的方法，还包括：

从所述位流并且对于所述多个时间帧中的第一时间帧，提取一个或多个呈现数据结构，以及

从所述位流并且对于所述多个时间帧中的第二时间帧，提取与从所述多个时间帧中的第一时间帧提取的所述一个或多个呈现数据结构不同的一个或多个呈现数据结构，

并且其中，指示所述选择的呈现数据结构的数据指示对于它被分配给的时间帧的选择的呈现数据结构。

7.一种用于对包括多个内容子流(412)的位流(P)进行处理的解码器，每个内容子流表示音频信号，所述解码器包括被配置为执行根据权利要求1-6中的任一项所述的方法的一个或多个部件。

8.一种计算机程序产品，所述计算机程序产品包括指令，所述指令在由计算设备或系统执行时执行根据权利要求1-6中的任一项所述的方法。

9.一种方法，包括：

由解码设备获得编码的位流；

由所述解码设备从所述编码的位流提取音频信号和元数据，所述元数据包括压缩曲线数据和响度数据，其中，所述响度数据指示所述音频信号的响度水平；

由所述解码设备使用所述响度数据生成一个或多个响度值；

由所述解码设备使用所述压缩曲线数据将所述一个或多个响度值映射到动态范围压缩DRC增益；以及

由所述解码设备将所述DRC增益应用于所述音频信号。

10.一种解码装置，包括：

一个或多个处理器；

存储器，所述存储器存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

获得编码的位流；

从所述编码的位流提取音频信号和元数据，所述元数据包括压缩曲线数据和响度数据，其中，所述响度数据指示所述音频信号的响度水平；

使用所述响度数据生成一个或多个响度值；

使用所述压缩曲线数据将所述一个或多个响度值映射到动态范围压缩DRC增益；以及

将所述DRC增益应用于所述音频信号。