CN106233380B

CN106233380B - 多对象音频的编码后位速率减少

Info

Publication number: CN106233380B
Application number: CN201580021028.6A
Authority: CN
Inventors: Z·菲左
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2014-03-06
Filing date: 2015-02-26
Publication date: 2019-11-08
Anticipated expiration: 2035-02-26
Also published as: CN106233380A; JP2017507365A; PL3114681T3; US9984692B2; WO2015134272A1; US20160099000A1; US9564136B2; KR20160129876A; EP3416165B1; KR102451342B1; EP3114681A4; EP3114681B1; US20150255076A1; EP3416165A1; EP3114681A1; JP6620108B2

Abstract

用于从单个编码全文件生成一个或多个缩放的压缩位流的编码后位速率减少系统和方法。全文件包含利用具有细粒度可缩放性的可缩放编码过程被单独编码的多个音频对象文件。在时间段的编码音频对象文件的数据帧中的活动被相互比较，以获得数据帧活动比较。基于数据帧活动比较和对应的分层元数据，来自可用位池的位被分配给所有数据帧。全文件通过缩减数据帧中的位被缩小，以符合位分配。在一些实施例中，帧活动与静音阈值进行比较，并且如果帧活动小于或等于阈值则数据帧包含静音并且最小的位被用来表示静音帧。

Description

多对象音频的编码后位速率减少

相关申请的交叉引用

本申请要求于2014年3月6日提交的题为“多对象音频的编码后位速率减少”的美国专利申请14/199706的优先权，其全部内容通过引用并入在此。

背景技术

音频压缩技术最小化用来创建输入音频信号的表示的数字位的数量。未压缩的高质量数字音频信号往往包含大量的数据。这些未压缩信号的庞大尺寸往往使它们不理想或者不适于用于存储和传输。

压缩技术可以用来减少数字信号的文件尺寸。这些压缩技术减少存储音频信号用于将来回放或传输所需的数字存储空间。此外，这些技术可以用来以减少的文件尺寸生成音频信号的可信表示。这种低位速率版本的音频信号然后可以经有限带宽的网络信道以低位速率被传送。这种压缩版本的音频信号在传送之后被解压缩，以重构声音上可接受的输入音频信号的表示。

作为一般规则，重构的音频信号的质量与用来编码输入音频信号的位的数量成反比。换句话说，用来编码音频信号的位越少，重构的音频信号和输入音频信号之间的差异越大。传统的音频压缩技术在压缩编码时使位速率固定，并且因此使音频质量的水平固定。位速率是每时间段用来编码输入音频信号的位的数量。在不以较低位速率重新编码输入音频信号，或者解压缩压缩的音频信号并且然后以较低位速率重新压缩解压缩的信号的情况下，不能实现位速率的进一步减少。这些传统技术在解决其中不同应用需要以不同位速率编码的位流的情况下不是“可缩放的”。

用来创建可缩放位流的一种技术是差分编码。差分编码将输入音频信号编码为由低位速率位流的子集组成的高位速率位流。低位速率位流然后被用来构建较高位速率位流。差分编码需要对被缩放的位流的广泛分析并且是计算密集的。这种计算强度需要显著的处理能力来获得实时性能。

另一种可缩放编码技术使用多种压缩方法来创建分层的可缩放位流。这种方法使用混合的压缩技术来覆盖期望范围的可缩放位速率。但是，有限的可缩放性范围和有限的分辨率使这种分层的方法不适于许多类型的应用。由于这些原因，存储单个压缩音频位流并且以不同位速率从这个单个位流交付内容的期望场景往往难以实现。

发明内容

提供本发明内容是为了以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。本发明内容并不旨在识别所要求保护主题的关键特征或必要特征，也不旨在被用来限制所要求保护主题的范围。

编码后位速率减少系统和方法的实施例从单个全文件产生一个或多个缩放的压缩位流。全文件包含先前已被单独编码的多个音频对象文件。因此，全文件的处理在音频对象文件已利用全文件的可缩放性特征进行编码之后被执行。

用于每个编码音频文件的编码过程是可缩放的，使得可以从编码音频文件的帧中缩减位以减小文件尺寸。这种可缩放性允许数据以特定位速率进行编码，并且然后任何百分比的编码数据可以被切掉或丢弃，同时仍然保留正确解码编码数据的能力。例如，如果数据以位速率Z进行编码，则一半的帧可以被切掉或丢弃来获得一半的位速率(Z/2)并且仍然能够正确解码。

其中来自单个编码全文件的这种细粒度可缩放性和工作是有价值的一个实例是当流到不同带宽的设备时。例如，如果有多个音频对象文件位于服务器上，则本系统和方法的实施例将以内容提供商想要实现的某个高位速率单独编码这些音频对象文件。但是，如果这个内容被流到不同的和较低带宽的设备，诸如蜂窝电话、汽车、电视机等，则位速率需要被减少。虽然从单个编码全文件工作，但是本系统和方法的实施例允许位速率针对每个个别设备的位速率进行调整。因此，每次交付被不同地进行裁剪。但是单个文件被用来交付不同位速率位流。此外，没有必要重新编码编码的音频对象文件。

不是重新编码音频对象文件，而是本系统和方法的实施例处理单个版本的编码全文件，并且然后缩小位速率。此外，位速率的缩放在无需首先将全文件解码回到其未压缩形式并且然后以不同位速率重新编码结果得到的未压缩数据的情况下完成。这一切可以在无需重新编码编码的音频对象文件的情况下实现。

编码和压缩是昂贵的、计算能力要求很高的过程，而本系统和方法的实施例的编码后位速率缩放是非常轻量级的过程。这意味着，当与同时执行多个编码来服务每个不同信道位速率的现有系统和方法相比，本系统和方法的实施例施加了小得多的服务器要求。

本系统和方法的实施例从单个全文件产生缩放的压缩位流。以全位速率的全文件通过合并多个单独编码音频对象文件来创建。音频对象是特定声音或声音组合的源信号。在一些实施例中，全文件包括对应于编码音频对象文件的分层元数据。分层元数据包含用于每个编码音频对象文件相对于其它编码音频对象文件的优先级信息。例如，电影音轨中的对话音频对象会比街道噪声音频对象(在同一时间段期间)具有更高的权重。在一些实施例中，每个编码音频对象文件的整个时间长度在全文件中被使用。这意味着，即使编码音频对象文件包含静音期，它们仍然被包含在全文件中。

每个音频对象文件被分段成数据帧。时间段被选择并且在那个指定时间段的每个编码音频文件的数据帧的数据帧活动彼此进行比较。这给出了用于在选定时间段的所有编码音频文件的数据帧活动比较。然后基于数据帧活动比较和在一些情况下分层元数据，位从可用位池中被分配给在选定时间段期间的编码音频对象文件的每个数据帧。这为选定的时间段产生位分配。在一些实施例中，分层元数据包含编码音频对象文件优先级，使得文件以对用户优先级或重要性的顺序被排名。应当指出，来自可用位池的位被分配给选定时间段的所有数据帧和所有编码音频对象文件。换句话说，在给定时间段，每个音频对象文件和其中的帧接收位，但是一些文件基于它们的帧活动和其它因素比其它文件接收更多的位。

测量数据帧活动可以基于编码位流中可用的任何数量的参数。例如，音频水平、视频活动、以及帧活动的其它度量可以被用来测量数据帧活动。此外，在本系统和方法的一些实施例中，数据帧活动在编码器侧被测量并且被嵌入在位流中，诸如每帧一个数字。在其它实施例中，解码帧可以针对帧活动被分析。

在一些实施例中，数据帧活动在帧之间进行比较。通常在某个时间段期间，在一些数据帧中将有更多的活动存在，而其它数据帧将具有较少的活动。数据帧比较包括选择时间段，并且然后测量在该时间段期间数据帧内的数据帧活动。每个编码音频对象的帧在选定时间段期间被检查。每个数据帧中的数据帧活动然后与其它帧进行比较，以获得数据帧活动比较。该比较是在该时间段期间特定数据帧相对于其它数据帧的活动的度量。

本系统和方法的实施例然后通过根据位分配缩减数据帧的位以生成削减的帧来缩小全文件。这种位缩减使用全文件的可缩放性并且以反向排名顺序缩减数据帧中的位。这产生在位分配中多个位被分配给数据帧，使得较低排名的位在较高排名的位之前被缩减。在一些实施例中，编码音频对象文件内的帧的可缩放性包括从音频对象文件的频域表示中提取音调，以获得表示有至少一些音调被去除的音频对象文件的时域残差信号。提取的音调和时域残差信号被格式化成多个数据区块，其中每个数据区块包括多个字节的数据。编码音频对象文件的数据帧中的数据区块和数据区块中的位都以心理声学重要性的顺序进行排序，以获得从最重要的位到最不重要的位的排名顺序。

位减少的编码音频对象文件从削减的帧中获得。位减少的编码音频对象文件然后被一起复用并且被包装到缩放的压缩位流中，使得缩放的压缩位流具有低于或等于全位速率的目标位速率，以便促进单个全文件的编码后位速率减少。

对在选定时间段的每个数据帧测得的数据帧活动与静音阈值进行比较，以确定在任何数据帧中是否存在最小量的活动。如果特定数据帧的数据帧活动小于或等于静音阈值，则那个数据帧被指定为静音数据帧。此外，用来表示那个数据帧的位的数量被保持，而无需减少任何位。另一方面，如果特定数据帧的数据帧活动大于静音阈值，则在帧活动缓冲区中存储数据帧活动。用于选定时间段的可用位池通过从分配给选定时间段的多个位中减去在选定时间段期间由静音数据帧使用的位来确定。

在一些实施例中，缩放的压缩位流以小于或等于目标位速率的位速率经网络信道传送。位流被接收设备接收并且然后解压缩以获得解码的音频对象文件。在一些情况下，解码的音频对象文件被混合以创建音频对象混合。用户可以手动或自动混合解码音频对象来创建音频对象混合。此外，分层元数据中的编码音频对象文件可以基于在音频对象混合中的空间定位被区分优先级。此外，两个或更多个解码音频对象文件可以互相依赖，以便基于其在混合中的位置进行空间掩蔽。

本系统和方法的实施例也可以被用来从单个全文件获得多个缩放的压缩位流。这通过利用具有细粒度可缩放性的可缩放位流编码器以全位速率单独编码多个音频对象文件以获得多个编码音频对象文件来完成。这种细粒度可缩放性特征将编码音频对象文件的每个数据帧中的位以对人类听觉的心理声学重要性的顺序排名。全文件通过合并该多个独立编码的音频对象文件和对应的分层元数据生成。该多个编码音频对象文件中的每一个都是持久性的并且在全文件的整个持续时间存在。

以第一目标位速率的第一缩放的压缩位流从全文件以及以第二目标位速率的第二缩放的压缩位流构造。这从单个全文件产生以不同目标位速率的多个缩放的位流，而无需该多个编码音频对象文件的任何重新编码。此外，第一目标位速率和第二目标位速率彼此不同，并且两者都小于全位速率。第一目标位速率是第一缩放的压缩位流将以其经网络信道被传送的最大位速率。

如上所述，将多个编码音频文件中的每一个在选定时间段的数据帧的数据帧活动彼此进行比较，以获得数据帧活动比较。该数据帧活动比较和第一目标位速率被用来将位分配给编码音频对象文件基于选定时间段的数据帧中的每一个，以获得用于选定时间段的位分配。全文件通过根据位分配缩减数据帧的位被缩小，以实现第一目标位速率并获得位减少的编码音频对象文件。这些位减少的编码音频对象文件被一起复用并且被包装到以第一目标位速率的第一缩放的压缩位流中。第一缩放的压缩位流以第一目标位速率被传送到接收设备并且被解码以获得解码音频对象。这些解码音频对象被混合以创建音频对象混合。

应当指出，取决于特定的实施例，备选实施例是可能的，并且本文所讨论的步骤和元素可以被改变、添加或删除。在不背离本发明的范围的情况下，这些备选实施例包括可以被使用的备选步骤和备选元素，以及可以做出的结构变化。

附图说明

现在参考附图，其中相同的标号贯穿全文表示对应的部分：

图1是示出编码后位速率减少系统和方法的实施例的一般概述的框图。

图2是示出从单个全文件获得多个缩放的压缩位流的编码后位速率减少系统的实施例的一般概述的框图。

图3是示出在图1和2中所示的编码后位速率减少系统的第一实施例的细节的框图。

图4是示出在图1和2中所示的编码后位速率减少系统的第二实施例的细节的框图。

图5是示出在图1和图4中所示的可缩放位流编码器的示例性实施例的框图。

图6是示出在联网环境中实现的编码后位速率减少系统和方法的实施例的示例性例子的框图。

图7是示出在图3中所示的逐帧分层位分配模块的细节的框图。

图8是示出在图1-7中所示的编码后位速率减少系统和方法的实施例的一般操作的流程图。

图9是示出在图1-8中所示的编码后位速率减少系统和方法的实施例中的第一实施例的细节的流程图。

图10示出了根据在图1-9中所示的编码后位速率减少系统和方法的一些实施例的音频帧。

图11示出了由在图1中所示的可缩放位流编码器产生的数据的可缩放帧的示例性实施例。

图12示出了将全文件划分成多个帧和时间段的例子的示例性实施例。

图13示出了在时间段内的全文件的帧的细节。

具体实施方式

在以下编码后位速率减少系统和方法的实施例的描述中，对附图进行了参考。这些附图作为说明示出了编码后位速率减少系统和方法的实施例可以如何被实践的具体例子。应当理解，在不背离所要求保护的主题的范围的情况下，可以使用其它实施例并且可以进行结构改变。

I.介绍

音频对象是特定声音或声音组合的源信号。在一些情况下，音频对象也包括其相关联的呈现元数据。呈现元数据是伴随音频对象的指示该音频对象在重放期间应该如何在音频空间中被呈现的数据。这种元数据可以包括多维音频空间信息、空间中的位置信息、以及周围放置信息。

音频对象可以表示各种类型的声音源，诸如各个乐器和人声。此外，音频对象可以包括音频支干(stem)，其有时被称为子混音、子组或总线。音频支干也可以是包含诸如弦乐部分、喇叭部分或街道噪声的一组音频内容的单个轨道。

在传统的音频内容生产环境中，音频对象被记录。专业的音频工程师然后将音频对象混合成最终的主混合。结果得到的混合然后被交付给最终用户用于重放。一般而言，这种音频对象的混合是最终的，并且最终用户几乎不能对该混合做出改变。

与传统的音频内容生产对照，多对象音频(或其变形)允许最终用户在交付之后混合音频对象。一种以特定或建议的方式控制和指定这种交付后混合的方式是通过利用与音频内容一起传送的嵌入式元数据。另一种方式是通过提供允许最终用户直接处理和混合音频对象的用户控件。多对象音频允许最终用户创建独特的和高度个性化的音频呈现。

多对象音频可以被存储为存储设备上的文件，并且然后当请求时在位流中传送。音频位流可以被压缩或编码以减少传送位流所需的位速率和存储文件所需的存储空间。一般而言，作为解释而不是限制，位流的压缩意味着较少的信息被用来表示位流。另一方面，位流的编码意味着位流以另一种形式被表示，诸如利用符号。但是，编码不总是压缩位流。

编码位流经有限带宽网络信道传送。编码后位速率减少系统和方法的实施例采用单独编码的音频对象并且将它们彼此与附加数据合并以生成编码位流。当单独编码的音频对象被传送时，包含编码音频对象的编码位流的带宽往往会超过网络信道的容量。在这种情况下，具有不适合特定应用的较低位速率的位流可能经网络信道传送。这会导致接收到的音频数据的质量降低。

当音频数据(诸如多个音频对象)的多个流被复用用于同时或几乎同时经公共网络信道传输时，这种质量的降级是尤其成问题的。这是因为，在一些情况下，每个编码音频对象的带宽按比例被降级，这不会考虑每个音频对象或音频对象组的相对内容。例如，一个音频对象可能包含音乐，而另一个可能包含街道噪声。按比例降级每个音频对象的带宽将有可能对音乐数据比对噪声数据具有更有害的影响。

可能存在当编码位流以特定位速率经网络信道传送并且信道条件将改变的时间。例如，信道的带宽会变得紧缩并且需要较低的传输位速率。在这些情况下，编码后位速率减少系统和方法的实施例可以通过调整编码位流位速率的缩放对网络条件中的这一变化作出反应。例如，当网络信道的带宽变得有限时，编码位流的位速率下降，使得经网络信道的传输可以继续。不是重新编码音频对象，本系统和方法的实施例处理单个版本的编码位流，并且然后缩小位速率。结果得到的缩放的位流然后可以以减小的位速率经网络信道传送。

可能出现其中期望经各种网络信道以不同位速率传送单个编码位流的场景。例如，当每个网络信道具有不同的容量和带宽时或者当位流被具有不同能力的设备接收时，这可能发生。在这种情况下，本系统和方法的实施例减轻了分别为每个信道编码或压缩的需要。相反，单个版本的编码位流被使用并且位速率的缩放响应于每个信道的容量被调整。

编码位流可以被实时或基本上实时地处理。基本上实时会例如在不能对整个音频文件或程序访问的情况下发生，诸如在实况体育事件的广播期间。此外，音频数据可以被离线处理并且被实时回放。这在对整个音频文件或诸如视频点播应用的程序访问时发生。在编码音频位流的情况下，它可以包括多个音频对象，其中一些或全部包括声音信息和相关联的元数据。这种元数据可以包括，但不限于，位置信息，其包括空间中的位置、速度、轨迹等、声波特性，其包括发散、辐射参数，等等。

每个音频对象或音频对象组可以利用相同或不同的编码技术被单独编码。编码可以在位流的帧或块上执行。“帧”是在音频信号的压缩和编码中使用的时间中的数据的离散片段。这些数据帧可以一个接一个地(像电影胶片)以串行序列放置，以创建压缩的音频位流。每一帧是固定的尺寸并且表示恒定时间间隔包含。帧尺寸取决于脉冲编码调制(PCM)采样率和编码的位速率。

每个数据帧前面通常是包含关于跟随数据的信息的报头。报头后面可能跟着误差检测和校正数据，而帧的剩余部分包含音频数据。音频数据包括PCM数据和在特定时间点的幅度(音量)信息。为了产生可识别的声音，数万帧被顺序播放以产生频率。

取决于特定应用的目标，不同帧(诸如同一对象但在不同时间发生的帧)可以基于例如帧的音频内容利用不同的位速率进行编码。这种方法被称为可变位速率(VBR)编码，因为编码数据的尺寸随时间而变化。这种方法可以提供灵活性并且改善编码数据的质量与带宽比。备选地，帧可以利用相同的位速率进行编码。这种方法被称为恒定位速率(CBR)编码，因为编码数据的大小随时间是恒定的。

虽然有可能为了保持分离以未编码和未压缩的方式独立地传送音频对象，但是由于发送通常大的文件一般所需的大带宽要求，这通常是不可行的。因此，频繁使用一些形式的音频压缩和编码来促进向最终用户经济地交付多对象音频。已经发现，编码包含音频对象的音频信号来减少其位速率，同时仍然维护音频对象之间适当的声学分离是困难的。

例如，用于多个音频对象的一些现有音频压缩技术基于对象的依赖关系。特别地，联合编码技术基于诸如位置、空间掩蔽和频率掩蔽的因素频繁使用音频对象的依赖关系。但是，利用这些联合编码技术的一个挑战是如果对象的放置在交付之前是未知的，则难以预测对象之间的空间和频率掩蔽。

另一种类型的现有音频压缩技术是通常需要计算昂贵的解码和呈现系统以及用于单独携带多个音频对象的高传输或数据存储率的基于离散对象的音频场景编码。用于交付多对象音频的另一种类型的编码技术是多声道空间音频编码。但是，与基于离散对象的音频场景编码技术不同，这种空间音频编码方法不定义可分离的音频对象。因此，空间音频解码器不能分离每个音频对象在降混音频信号中的贡献。

用于编码多个音频对象的还有的另一种技术是空间音频对象编码(SAOC)。但是，SAOC技术不能完全分离降混信号中在时频域中并发的音频对象。因此，如由可交互用户控件可能所需要的通过SAOC解码器广泛放大或衰减对象会导致重现场景的音频质量明显变差。

应当指出，出于教导的目的和易于说明，本文档主要指音频数据的使用。但是，本文所描述的特征也可以被应用到其它形式的数据，包括视频数据和包含诸如地震和医疗数据的时间序列信号的数据。此外，本文所描述的特征也可以被应用到几乎任何类型的数据操纵，诸如数据的存储和数据的传输。

II.系统概览

编码后位速率减少系统和方法的实施例以某个全位速率单独和独立地编码多个音频对象文件。该系统和方法的实施例然后合并这些编码音频对象文件连同其相关联的分层元数据，以生成全文件。多个位流可以从单个全文件获得。这些多个位流是以小于或等于全位速率的目标位速率。这种被称为缩放的位速率改变确保在每个缩放的位速率维持最优的质量。另外，位速率的缩放在无需首先将全文件解码回到其非压缩形式并且然后以不同位速率重新编码结果得到的非压缩数据的情况下实现。

如下面详细解释的，这种缩放部分地实现如下。首先，音频对象文件利用基于心理声学重要性将每一帧中的位排序的可缩放位流编码器进行单独编码。这种可缩放编码还通过去除帧内的位以精细缩放的方式提供位速率改变。其次，在每一帧时间间隔，每个目标文件内的对应帧活动被考虑。然后，基于这些帧活动测量之间的相对关系，该系统和方法的实施例决定每个压缩对象文件的哪个帧有效载荷被保留。换句话说，音频对象文件的每一帧有效载荷基于其测得的多媒体帧活动和它与要被一起复用的所有其它音频对象文件中的所有帧活动的关系被缩放。

图1是示出编码后位速率减少系统100的实施例的一般概述的框图。系统100位于服务器计算设备110上。系统100的实施例接收音频信号120作为输入。音频信号120可以包含以各种形式和类型的各种类型的内容。此外，音频信号120可以是模拟、数字或其它形式。其类型可以是以重复离散量、以连续流或一些其它类型发生的信号。输入信号的内容可以是几乎任何内容，包括音频数据、视频数据或两者。在一些实施例中，音频信号120包含多个音频对象文件。

系统100的实施例包括可缩放位流编码器130，其分别编码在音频信号120中包含的每个音频对象文件。应当指出，可缩放位流编码器130可以是多个编码器。如在图1中所示，来自可缩放位流编码器130的输出是M个独立编码音频对象文件，包括编码音频对象文件(1)至编码音频对象文件(M)，其中M是非零的正整数。编码音频对象文件(1)至(M)与相关联的分层元数据合并以获得全文件140。

每当期望具有特定目标位速率160的位流时，全文件140被位减少模块150处理以产生期望的位流。位减少模块150处理全文件140来产生具有小于或等于目标位速率160的位速率的缩放的压缩位流170。一旦缩放的压缩位流170被生成，然后它就可以被发送到接收设备180。服务器计算设备110经网络185与其它设备(诸如接收设备180)通信。服务器计算设备110利用第一通信链路190访问网络185并且接收设备180利用第二通信链路195访问网络185。以这种方式，缩放的压缩位流170可以被接收设备180请求和发送到接收设备180。

在图1所示的实施例中，网络信道包括第一通信链路190、网络185和第二通信链路195。网络信道具有某个最大带宽，其作为目标位速率160被传达给位减少模块。缩放的压缩位流170以目标位速率或低于目标位速率经网络信道传送，以便不超过信道的最大带宽。

如上所述，在一些情况下，期望经具有多种能力的多个网络信道以不同位速率传送单个全文件。图2是示出从单个全文件140获得多个缩放的压缩位流的编码后位速率减少系统100的实施例的一般概述的框图。如在图2中所示，全文件140包含以某个全位速率的M个编码音频对象文件。具体而言，图2示出了以全位速率的编码音频对象文件(1)、以全位速率的编码音频对象文件(2)、以全位速率的编码音频对象文件(3)、以及包括以全位速率的编码音频对象文件(M)的任何附加编码音频对象文件(如由省略号所指示的)。

编码音频对象文件(1)至编码音频对象文件(M)由可缩放位流编码器130以全位速率进行独立编码。全位速率高于目标位速率160。通常，目标位速率160是用来在不超过信道的可用带宽的情况下经网络信道传送内容的位速率。

在一些实施例中，全文件140使用高位速率来编码该M个独立编码音频对象文件，使得全文件140的尺寸相当大。如果全文件140的内容要经具有有限带宽的网络信道传送，则这会是有问题的。如下面详细解释的，为了减轻与经有限带宽信道发送大尺寸文件(诸如全文件140)相关联的困难，编码音频对象文件(1)至(M)被位减少模块150处理，以从单个全文件140创建多个缩放的编码位流。这部分地通过基于位分配去除数据帧中有序数据的区块来实现。

虽然在图1中示出了单个目标位速率160，但是在一些情况下，可能存在多个目标位速率。例如，可能期望经每个具有不同位速率的各种网络信道传送全文件140。如在图2中所示，存在N个目标位速率200，其中N是正的非零整数。目标位速率200包括目标位速率(1)、目标位速率(2)，等等，直到目标位速率(N)。

位减少模块150接收目标位速率160，以便缩放全文件140的位速率，使得结果得到的缩放的编码位流将最好地适合特定的有限带宽信道。目标位速率200通常从互联网服务提供商(ISP)发送，以通知系统100和方法的实施例关于位流将经其被传送的网络信道的带宽需求和能力。目标位速率200小于或等于全位速率。

在图2的示例性实施例中，目标位速率200包括N个不同的目标位速率，其中N是可以等于、小于或大于M的非零的正整数。目标位速率200包括目标位速率(1)、目标位速率(2)、一些情况下的附加目标位速率(如由省略号所指示的)、以及目标位速率(N)。通常，目标位速率200将彼此不同，但是它们在一些实施例中可能类似。此外，应当指出，目标位速率200中的每一个可以被一起或随时间被分别发送。

在图2中所示的缩放的压缩位流对应于目标位速率200。例如，目标位速率(1)被用来创建以目标位速率(1)的缩放的压缩位流(1)，目标位速率(2)被用来创建以目标位速率(2)的缩放的压缩位流(2)、在一些情况下以目标位速率(如由省略号所示出的)的附加的缩放的压缩位流、以及缩放的编码文件(N)，其中N是如上所述相同的非零的正整数。在一些实施例中，各个目标位速率可以是相似或完全相同的，但是通常各个目标位速率彼此不同。

应当指出，出于教导的目的，在图2中示出了特定数量的编码音频对象文件、目标位速率和缩放的压缩位流。但是，存在其中N＝1、M＝1以及单个缩放的压缩位流从全文件140获得的情况。在其它实施例中，N可以是大数量，其中若干个缩放的压缩位流从全文件140获得。此外，缩放的压缩位流可以响应于来自客户端的请求被即时(on the fly)创建。备选地，缩放的压缩位流可以预先被创建并且存储在存储设备上。

III.系统细节

现在将讨论编码后位速率减少系统100的实施例的部件的系统细节。这些部件包括位减少模块150、可缩放位流编码器130和逐帧分层位分配模块。此外，将讨论接收设备180上的缩放的压缩位流170的解码。应当指出，下面只详细描述了其中可以实现该系统的少数几种方式。许多变化都是可能的。

图3是示出在图1和2中所示的编码后位速率减少系统100的第一实施例的细节的框图。在这个特定的实施例中，音频对象文件已被独立和单独地编码并且被包含在全文件140中。全文件140被输入到编码后位速率减少系统100的实施例。系统100接收以全位速率300的分别编码的音频对象文件，用于进一步处理。

分别编码的音频对象文件300被位减少模块150处理。如下面详细解释的，位减少模块150减少用来表示编码音频对象文件的位的数量，以便实现目标位速率200。位减少模块150接收分别编码的音频对象文件300并且利用逐帧分层位分配模块310处理它们。该模块310基于分层位分配方案减少每个帧中的位的数量。模块310的输出是位减少的编码音频对象文件320。

统计复用器330取得位减少的编码音频对象文件320并且合并它们。在一些实施例中，统计复用器330至少部分地基于分层位分配方案向每个编码音频对象文件1至M分配信道容量或带宽(以位的数量来衡量)。在一些实施例中，编码音频对象文件是可变位速率(VBR)编码数据并且统计复用器330输出恒定位速率(CBR)编码数据。

在一些实施例中，统计复用器330还说明在位分配期间编码音频对象文件的其它特征。例如，编码音频对象文件的音频内容(例如音乐、语音、噪声等)可以是相关的。与简单碰撞相关联的编码音频对象文件(诸如噪音)可能需要比与音乐曲目相关联的对象少的带宽。作为另一个例子，对象的音量可以在带宽分配中被使用(使得响的对象可以从更多的位分配中受益)。作为还有的另一个例子，与对象相关联的音频数据的频率也可以在位分配中被使用(使得宽带对象可以从更多的位分配中受益)。

位流包装器(packer)340然后处理复用的位减少的编码音频对象文件320，并且将它们包装成帧和容器用于传输。位流包装器340的输出是包含可变尺寸帧有效载荷的缩放的压缩位流170。缩放的压缩位流170是以小于或等于目标位速率160的位速率。

在一些实施例中，音频对象文件还没有被编码。图4是示出在图1和2中所示的编码后位速率减少系统100的第二实施例的细节的框图。未编码音频对象文件400被系统100的实施例接收到。可缩放位流编码器130独立编码每个音频对象文件400，以获得全文件140。

全文件140被输入到位减少模块150。逐帧分层位分配模块310处理全文件140，以获得位减少的编码音频对象文件320。统计复用器330取得位减少的编码音频对象文件320并且合并它们。位流包装器340然后处理复用的位减少的编码音频对象文件320，并且将它们包装成帧和容器用于传输。位流包装器340的输出是包含可变尺寸帧有效载荷的缩放的压缩位流170。缩放的压缩位流170是以小于或等于目标位速率160的位速率。

图5是示出在图1和4中所示的可缩放位流编码器130的示例性实施例的框图。可缩放位流编码器130的这些实施例包括多个可缩放位流编码器。在图5中示出的示例性实施例中，可缩放位流编码器500包含M个编码器，即可缩放位流编码器(1)至可缩放位流编码器(M)，其中M是非零的正整数。到可缩放位流编码器500的输入是音频信号120。在这些实施例中，音频信号120包含多个音频对象文件。特别地，音频信号120包括M个音频对象文件，包括音频对象文件(1)至音频对象文件(M)。

在图5中示出的示例性实施例中，可缩放位流编码器500包含用于M个音频对象文件中的每一个的M个编码器。因此，对每一个音频对象存在编码器。但是，在其它实施例中，可缩放位流编码器的数量可以小于音频对象文件的数量。与可缩放位流编码器的数量无关，多个编码器中的每一个分别编码多个音频对象文件中的每一个，以获得分别编码的对象文件300，即分别编码的音频对象文件(1)至分别编码的音频对象文件(M)。

图6是示出在联网环境中实现的编码后位速率减少系统100和方法的实施例的示例性例子的框图。在图6中，系统100和方法的实施例被示为以媒体数据库服务器600的形式在计算设备上实现。媒体数据库服务器600可以是包括处理器的几乎任何设备，诸如台式计算机、笔记本计算机、以及诸如移动电话的嵌入式设备。

在一些实施例中，系统100和方法在媒体数据库服务器600上被存储为用于跨应用、跨设备访问的基于云的服务。服务器600经网络185与其它设备通信。在一些实施例中，其中一个其它设备是接收设备180。媒体数据库服务器600利用第一通信链路190访问网络185并且接收设备180利用第二通信链路195访问网络185。以这种方式，媒体数据库服务器600和接收设备180可以在彼此之间通信和传送数据。

包含编码音频对象文件(1)至(M)的全文件140位于媒体数据库服务器600上。全文件140被位减少模块150处理，以获得位减少的编码音频对象文件320。位减少的编码音频对象文件320被统计复用器330和位流包装器340处理，以生成以等于或低于目标位速率的缩放的压缩位流170。目标位速率从在图2中示出的目标位速率200获得。

在图6中示出的实施例中，全文件140被示为存储在媒体数据库服务器600上。如上所述，全文件140包含以全位速率独立编码的M个编码音频对象文件。如在本文档中所使用的，位速率被定义为通过通信链路或信道的二进制数字的流的速率。换句话说，位速率描述位以其从一个位置传送到另一个位置的速率。位速率通常被表示为每秒位的数量。

位速率可以指示下载速度，使得对于给定位速率，下载3千兆字节(Gb)文件比下载1千兆字节文件花费较少的时间。位速率也可以指示媒体文件的质量。作为例子，以每秒192千位(Kbps)压缩的音频文件通常将具有比以128Kbps压缩的同一音频文件更好或更高的质量(以更大的动态范围和清晰度的形式)。这是因为更多的位被用来表示用于每秒重放的数据。因此，多媒体文件的质量由其相关联的位速率来测量和指示。

在图1-5中示出的实施例中，编码音频对象文件以大于任何目标位速率200的全位速率进行编码。这意味着全文件140的编码音频对象文件比在缩放的压缩位流170中包含的以任何目标位速率200的编码音频对象文件具有更高的质量。

全文件140和每个编码音频对象文件被输入到编码后位速率减少系统100和方法的实施例。如下面详细讨论的，系统100和方法的实施例使用逐帧位减少来减少用于表示编码音频对象文件的位的数量。这在无需重新编码对象的情况下实现。这产生包含多个位减少的编码音频对象文件320的位减少的文件(未示出)。这意味着，全文件140的至少一些编码音频对象文件通过与全文件140相比减少的位数量被表示为位减少的编码音频对象文件320。各个位减少的编码音频对象文件320然后被统计复用器330处理成单个信号，并且被位流包装器340包装成缩放的压缩位流170。缩放的压缩位流170是以小于或等于目标位速率的位速率。另外，目标位速率小于全位速率。

缩放的压缩位流170经网络185被传送到接收设备180。这种传送通常在由接收设备180请求时发生，但是可以发生许多其它情况，包括将缩放的压缩位流170存储为媒体数据库服务器600上的文件。接收设备180可以是能够存储或回放缩放的压缩位流170的任何启用网络的计算设备。虽然接收设备180在图6中被示为驻留在与编码后位速率减少系统100和方法的实施例不同的计算设备上，但是应当指出，在一些实施例中，它们可以驻留在同一计算设备上(诸如媒体数据库服务器600)。

接收设备180通过利用解复用器610处理接收到的缩放的压缩位流170以将编码音频对象文件分离成其各个组分。如在图6中所示，这些各个组分包括编码音频对象文件(1)、编码音频对象文件(2)、编码音频对象文件(3)、存在的其它编码音频对象文件(如由省略号所指示的)、直到并且包括编码音频对象文件(M)。这些单独编码音频对象文件中的每一个被发送到能够解码编码音频对象文件的可缩放位流解码器620。在一些实施例中，可缩放位流解码器630包含用于每个编码音频对象文件的单独的解码器。

如在图6中所示，在一些实施例中，可缩放位流解码器620包括可缩放解码器(1)(用来解码编码音频对象文件(1))、可缩放解码器(2)(用来解码编码音频对象文件(2))，可缩放解码器(3)(用来解码编码音频对象文件(3))、根据需要的其它可缩放解码器(如由省略号所指示的)、以及可缩放解码器(M)(用来解码编码音频对象(文件M))。应当指出，在其它实施例中，可以使用任何数量的可缩放解码器来解码编码音频对象文件。

可缩放位流解码器620的输出是多个解码音频对象文件。具体而言，这多个解码音频对象文件包括解码音频对象文件(1)、解码音频对象文件(2)、解码音频对象文件(3)、可能需要的其它解码音频对象文件(如由省略号所指示的)、以及解码音频对象文件(M)。在这点上，解码音频对象文件可以被存储用于以后使用或立即使用。无论哪种方式，解码音频对象文件的至少一部分被输入到混合设备630。通常，混合设备630由混合解码音频对象文件以生成个性化音频对象混合640的用户控制。但是，在其它实施例中，解码音频对象文件的混合可以由系统100和方法的实施例自动处理。在其它实施例中，音频对象混合640由第三方供应商创建。

图7是示出在图3中所示的逐帧分层位分配模块310的细节的框图。模块310接收已以全位速率编码的分别编码的音频对象文件300。对于特定的时间段，在那个时间段中的每个编码音频对象文件的每个帧在特定时间段700的所有编码音频对象文件上被检查。分层信息710被输入到分层模块720。分层信息710包括关于帧应该如何被优先级化以及最终位应该如何在帧中被分配的数据。

位池730中可用的位被分配模块740使用，以确定有多少位可用来在该时间段期间的帧之间进行分配。基于分层信息710，分配模块740在那个时间段中的帧之间分配位。这些位基于分层信息710跨编码音频对象文件、子频带和帧进行分配。

分配模块740生成这种指示分配给特定时间段中的每个帧的位的数量的位分配750。基于位分配，减少模块760根据需要从每一帧中削减位，以符合用于那个特定帧的位分配750。这产生用于给定时间段的削减帧770。这些削减帧被合并，以生成位减少的编码音频对象文件320。

IV.操作概述

图8是示出在图1-7中所示的编码后位速率减少系统100和方法的实施例的一般操作的流程图。该操作通过输入多个音频对象文件开始(方框800)。这些音频对象文件可以包括与其相关联的呈现元数据结合的源信号，并且可以表示各种声源。这些声源可以包括各个乐器和人声，以及声源的组合，诸如包含鼓套件的各个部件的多个轨道的鼓套件的音频对象。

接下来，系统100和方法的实施例独立和单独编码每个音频对象文件(方框810)。这种编码采用具有细粒度可缩放性特征的一个或多个可缩放位流编码器。具有细粒度可缩放性特征的可缩放位流编码器的例子在于2008年2月19日提交的标题为“ModularScalable Compressed Audio Data Stream”的美国专利号7,333,929和于2009年6月16日提交的标题为“Scalable Compressed Audio Bit Stream and Codec Using aHierarchical Filterbank and Multichannel Joint Coding”的美国专利号7,548,853中阐述。

系统100和方法合并该多个单独编码的音频文件以及任何分层元数据710来生成全文件140(方框820)。全文件140以全位速率进行编码。应当强调的是，每个音频对象文件被分别编码，以便保持该多个音频对象文件之间的分离和隔离。

分层元数据可以包含至少三种类型的层次结构或优先级。这些类型的优先级中的一个或任何组合可以被包括在分层元数据中。第一类型的优先级是帧内的位优先级。在这些情况下，位以对人类听觉的心理声学重要性的顺序被放置。第二类型的优先级是音频对象文件内的帧优先级。在这些情况下，帧的重要性或优先级基于帧的活动。如果帧活动相对于在帧时间间隔期间的其它帧高，则它在层次结构中比较低活动的帧排名更高。

第三种类型的优先级是全文件内的音频对象文件优先级。这包括交叉对象掩蔽和用户定义的优先级两者。在交叉对象掩蔽中，特定的音频对象文件可以基于音频对象在音频空间中的哪里被呈现被另一个音频对象文件掩蔽。在这种情况下，一个音频对象文件将具有高于被掩蔽音频对象文件的优先级。在用户定义的优先级中，用户可以定义一个音频对象文件比另一个音频对象文件对他们更重要。例如，对于用于电影的音频音轨，包含对话的音频对象文件对用户会具有比包含街道噪声的音频对象文件或包含背景音乐的音频对象文件更高的重要性。

基于期望的目标位速率，全文件140被位减少模块150处理，以产生缩放的压缩位流170。缩放的压缩位流在不进行任何重新编码的情况下生成。此外，缩放的压缩位流被设计为以等于或小于目标位速率的位速率经网络信道传输。

目标位速率始终小于全位速率。此外，应当指出，每个音频对象以超过任何目标位速率200的全位速率被独立编码。在其中目标位速率在编码之前未知的情况下，每个音频对象以最大可用的位速率或以超过将在传输期间被使用的最高预期目标位速率的位速率进行编码。

为了获得缩放的压缩位流，系统100和方法的实施例将全文件140划分成一系列帧。在一些实施例中，全文件140中的每个音频对象文件贯穿文件140的整个持续时间存在。即使音频对象文件在重放期间包含静音期，也是这样。

再次参考图8，系统100和方法的实施例选择帧时间间隔(或时间段)并且对在选定时间段期间的帧比较帧活动(方框830)。这种帧时间间隔包括来自每个音频对象的帧。对选定时间段的逐帧比较生成用于那个时间段的数据帧活动比较。一般而言，帧活动是编码帧中的音频有多困难的度量。帧活动可以以多种方式确定。在一些实施例中，帧活动基于许多提取的音调和结果得到的帧残余能量。其它实施例计算帧的熵以得出帧活动。

位在选定时间段的帧中从可用位池中指定或分配(方框840)。位基于数据帧活动和分层元数据进行分配。一旦用于选定时间段的帧之间的位分配已知，位就在这些帧之间被分布。每一帧然后通过削减超过用于该帧的位分配的位使得与其位分配相符合以获得削减的帧(方框850)。如下面详细解释的，这种位减少以有序的方式执行，使得具有最高优先级和重要性的位最后被削减。

负责多个编码音频对象文件中的多个削减帧的这种位减少生成位减少的编码音频对象文件320(方框860)。位减少的编码音频对象文件320然后被一起复用(方框870)。系统100和方法然后利用位流包装器340包装复用的位减少的编码音频对象文件320，以获得以目标位速率的缩放的压缩位流170(方框880)。

在一些情况下，可能出现以若干个不同的位速率传送编码音频对象的需要。例如，如果全文件存储在媒体数据库服务器600上，则它可能被每个都具有不同带宽要求的若干个客户端请求。在这种情况下，可以从单个全文件140获得多个缩放的压缩位流。此外，每个缩放的压缩位流可以以不同的目标位速率，其中每个目标位速率小于全位速率。这一切都可以在无需重新编码编码音频对象文件的情况下实现。

系统100和方法的实施例然后可以将缩放的压缩位流中的一个或多个以等于或小于目标位速率的位速率传送到接收设备180。接收设备180然后解复用接收到的缩放的压缩位流，以获得多个位减少的编码音频对象。接着，系统100和方法利用至少一个可缩放位速率解码器解码这些位减少的编码音频对象，以获得多个解码音频对象文件。解码音频对象文件然后可以由最终用户、内容提供商混合或自动混合，以生成音频对象混合640。

V.操作细节

编码后位速率减少系统100和方法的实施例包括处理音频的静音期的实施例和将单个全文件交付给各种不同带宽网络信道的实施例。静音期实施例针对当若干个音频对象文件可能具有其中该音频是静音或相对于其它音频对象文件处于非常低水平的相当长时间段的那些情况。例如，包含音乐的音频内容可能具有长的时间段，其中人声轨道是静音或处于非常低的水平。当利用恒定位速率音频编解码器编码这些音频对象文件时，相当量的数据有效载荷被浪费在编码静音期上。

系统100和方法利用每个编码音频对象文件的细粒度可缩放性来减轻在静音期期间的任何数据(或帧)有效负载的浪费。这在不影响重构的压缩音频的质量的情况下实现了整体压缩数据有效负载的减少。在一些实施例中，编码音频对象文件具有开始和停止时间。开始时间表示其中静音开始的时间点并且停止时间表示静音结束的时间点。在这些情况下，系统100和方法可以将开始和停止时间之间的帧标记为空帧。这允许位被分配给在时间段期间的其它音频对象文件的帧。

在其它场景中，除了或代替静音期实施例，可能需要即时位速率减少方案。例如，当包含多个音频对象文件的单个高质量编码音频文件或位流被存储在需要同时利用不同连接带宽服务客户端的服务器上时，这会发生。单个全文件到各种不同带宽网络信道的实施例使用音频文件或位流的细粒度可缩放性特征来缩小编码音频对象文件的整体位速率，同时试图尽可能多地保持整体质量。

现在将讨论系统100和方法的实施例的操作细节。图9是示出在图1-8中所示的编码后位速率减少系统100和方法的实施例的第一实施例的细节的流程图。该操作通过输入包含多个单独编码的音频对象文件的全文件开始(方框900)。该多个编码的音频对象文件中的每一个被分段成数据帧(方框905)。

系统100和方法然后在全文件的开始处选择时间段(方框910)。这个时间段理想地与各个帧的时间长度一致。选定的时间段在全文件的开始处开始。该方法处理选定时间段的数据帧，并且然后通过按时间顺序取得时间段连续地处理数据帧的剩余部分。换句话说，选择的下一个时间段是在时间上与先前的时间段相邻的时间段并且以上和以下描述的方法被用来处理在每个时间段期间的数据帧。

接下来，系统100和方法选择用于在选定时间段期间的多个编码音频对象文件的数据帧(方框915)。帧活动针对在选定时间段期间的音频对象文件中的每个数据帧进行测量(方框920)。如上所述，可以使用各种技术来测量帧活动。

对于在时间段期间的每个数据帧，系统100和方法做出关于测得的帧活动是否大于静音阈值的确定(方框925)。如果是，则用于数据帧的帧活动被存储在帧活动缓冲区中(方框930)。如果测得的帧活动小于或等于静音阈值，则数据帧被指定为静音数据帧(方框935)。这种指定意味着数据帧已被减少到最小的有效载荷，并且在那个帧中的位的数量被用来表示没有进一步减少的数据帧。静音数据帧然后被存储在帧活动缓冲区中(方框940)。

系统100和方法然后将存储在帧活动缓冲区中用于在选定时间段的每个数据帧的数据帧活动与用于当前时间段的其它数据帧进行比较(945)。这产生数据帧活动比较。然后，系统100和方法确定由在该时间段期间的任何静音帧使用的可用位的数量(方框950)。可以被分配给在该时间段期间的剩余数据帧的可用位的数量然后被确定。这通过从已分配给在该时间段期间被使用的位的数量中减去由任何静音数据帧使用的位来完成(方框955)。

剩余数据帧中的位分配通过将可用位分配给来自在选定时间段的每个编码音频对象文件的数据帧来执行(方框960)。这种位分配基于数据帧活动比较和分层元数据执行。接着，在数据帧中排序的位被削减，以符合位分配(方框965)。换句话说，位以重要的位被最后去除并且最不重要的位被首先去除的方式从数据帧中去除。这继续直到只剩下分配给那个特定帧的位数量。结果是削减的数据帧。

这些削减的数据帧被存储(方框970)并且做出关于是否存在更多时间段的确定(方框975)。如果是，则下一个顺续的时间段被选择(方框980)。该过程再次通过选择用于在新的时间段处的多个编码音频对象文件的数据帧开始(方框915)。否则，削减的数据帧被包装成可缩放的压缩位流(方框985)。

V.A.帧和容器

如以上所讨论的，在一些实施例中，全文件140包括多个编码音频对象文件。这些编码音频对象文件中的一些或全部可能包含音频数据、声音信息以及相关联的元数据的任意组合。此外，在一些实施例中，编码音频对象文件可以被划分或分区成数据帧。数据帧或帧的使用对流化应用会是高效的。一般而言，“帧”是由编解码器创建和在编码和解码中使用的离散数据段。

图10示出了根据在图1-9中所示的编码后位速率减少系统100和方法的一些实施例的音频帧1000。帧1000包括帧首部1010，其可被配置为指示帧1000的开始，以及帧尾部1020，其可以被配置为指示帧1000的结束。帧1000也包括一个或多个编码音频数据块1030和对应的元数据1040。元数据1040包括一个或多个片段首部1050块，其可以被配置为指示新元数据片段的开始。该元数据1040可以包括由分层模块720使用的分层元数据710。

未分组的音频对象可以被包括作为对象片段1060。分组的音频对象1070可以包括分组开始和结束块。这些块可以被配置为指示新组的开始和结束。此外，分组的音频对象1070可以包括一个或多个对象片段。在一些实施例中，帧1000然后可以被封装到容器中(诸如MP4)。

一般地，“容器”或包裹格式是元文件格式，其规范描述共存于计算机文件中的数据元素和元数据如何不同。容器指数据在文件内被组织的方式，而与所使用的编码方案无关。此外，容器用来将多个位流“包裹”在一起并且同步帧以确保它们以正确的顺序被呈现。如果需要，容器也可以负责为流化服务器添加信息，使得流化服务器知道何时发送文件的哪个部分。如在图10中所示，帧1000可以被包装到容器1080中。可用于容器1080的数字容器格式的例子包括传输流(Transport Stream，TS)、素材交换格式(Material ExchangeFormat，MXF)、运动图像专家组，第14部分(Moving Pictures Expert Group，Part 14，MP4)，等等。

V.B.细粒度位流可缩放性

放置在缩放的压缩位流170中的元素的结构和顺序提供了位流170的宽的位范围和细粒度的可缩放性。该结构和顺序允许位流170通过诸如位减少模块150的外部机制被平滑地缩放。

图11示出了由图1中所示的可缩放位流编码器130产生的数据的可缩放帧的示例性实施例。应当指出，基于其它分解规则的一个或多个其它类型的音频压缩编解码器可以被用来向编码后位速率减少系统100和方法的实施例提供细粒度的可缩放性。在这些情况下，其它代码将提供一组不同的心理声学相关元素。

在图11的例子中使用的可缩放的压缩位流170由多个资源交换文件格式(RIFF)数据结构(被称为“区块”)组成。应当指出，这是示例性实施例，并且其它类型的数据结构可以被使用。由本领域技术人员众所周知的这个RIFF文件格式允许识别由区块携带的数据的类型以及由区块携带的数据量。应当指出，携带关于在其定义的位流数据结构中携带的数据量和类型的信息的任何位流格式可以与系统100和方法的实施例一起使用。

图11示出了可缩放位速率帧区块1100的布局，连同包括网格1区块1105、音调1区块1110、音调2区块1115、音调3区块1120、音调4区块1125、音调5区块1130的子区块。另外，子区块包括高分辨率网格区块1135、时间样本1区块1140、以及时间样本2区块1145。这些区块组成在帧区块1100内被携带的心理声学数据。虽然图11只绘出了区块标识(ID)和帧区块1100的区块长度，但是子区块ID和子区块长度数据被包括在每个子区块中。

图11示出了可缩放位流的帧中的区块的顺序。这些区块包含由在图1中示出的可缩放位流编码器130产生的心理声学音频元素。除了区块按心理声学重要性布置之外，区块中的音频元素也按心理声学重要性布置。

帧中的最后一个区块是空区块1150。它被用来在需要帧是恒定或特定尺寸的情况下填补区块。因此，空区块1150没有心理声学相关性。如在图11中所示，最不重要的心理声学区块是时间样本2区块1145。相反，最重要的心理声学区块是网格1区块1105。在操作中，如果需要缩小可缩放位速率帧区块1100，则数据从在位流尾部处的心理声学最不相关的区块(时间样本2区块1145)开始并且沿心理声学相关性排名向上移动被去除。这在图11中将会从右向左移动。这意味着在可缩放位速率帧区块1100中具有可能最高质量的心理声学最相关的区块(网格1区块1105)最有可能不被去除。

应当指出，将能够被位流支持的最高目标位速率(连同最高音频质量)在编码时被定义。但是，缩放之后的最低位速率可以由对于应用使用可接受的音频质量级别来定义。去除的每个心理声学元素不使用相同数量的位。作为例子，用于在图11中示出的示例性实施例的缩放分辨率的范围从用于最低心理声学重要性元素的1位到用于那些最高心理声学重要性元素的32位不等。

还应当指出，用于缩放位流的机制不需要一次去除整个区块。如前面所指出的，每个区块内的音频元素被布置为使得心理声学最重要的数据被放置在可缩放位速率帧区块1100的开始处(最靠近图11的右侧)。由于这个原因，音频元素可以由缩放机制从区块的尾部被去除，每次一个元素，同时在每个元素从可缩放位速率帧区块1100中去除的情况下维持可能最好的音频质量。这就是“细粒度可缩放性”的含义。

系统100和方法按需去除区块内的音频元素，并且然后更新从中去除音频元素的特定区块的区块长度字段。此外，系统100和方法还更新帧区块长度1155和帧校验和1160。利用对每个缩放的区块的更新的区块长度字段以及更新的帧区块长度1155和更新的帧校验和信息，解码器可以正确地处理和解码缩放的位流。此外，即使在位流中存在丢失音频元素的区块和完全从位流中丢失的区块，系统100和方法也可以自动产生固定数据速率的音频输出信号。此外，帧区块标识(帧区块ID 1165)被包含在可缩放位速率帧区块1100中用于识别的目的。此外，帧区块数据1170包含(从右向左移动)校验和1160至空区块1150。

V.C.位分配

现在将讨论在时间段期间的帧之间进行位分配的例子。应当指出，这只是其中可以执行位分配的若干种方法中的一种。图12示出了将全文件140划分为多个帧和时间段的例子的示例性实施例。如在图12中所示，全文件140被示为划分成用于多个音频对象的多个帧。x-轴是时间轴并且y-轴是编码音频对象文件编号。在这个例子中，有M个编码音频对象，其中M是正的非零整数。此外，在这个示例性例子中，每个编码音频对象文件在全文件140的整个持续时间存在。

跨时间轴从左到右看，可以看到，每个编码音频对象(编号1至M)被划分成X个帧，其中X是正的非零整数。每个方框由标记F_M,X表示，其中F是帧，M是音频对象文件编号，并且X是帧编号。例如，帧F_1,2表示编码音频对象文件(1)的第二帧。

如在图12中所示，为全文件140定义了对应于帧的长度的时间段1200。图13示出了在时间段1200内全文件140的帧的细节。在每个帧中示出了其有序频率分量，这些有序频率分量是相对于它们对全文件140的质量的相对重要性。应当指出，x-轴是频率(以kHz为单位)并且y-轴表示特定频率的大小(以分贝为单位)。例如，在F_1,1中，可以看到，7kHz是最重要的频率分量(在这个例子中)，随后分别跟着6kHz和8kHz的频率分量，以此类推。这样，每个音频对象的每个帧包含这些排名的频率分量。

目标位速率被用来确定用于时间段1200的多个可用位。在一些实施例中，心理声学(诸如掩蔽曲线)被用来以非均匀的方式跨频率分量分布可用位。例如，对1、19和20kHz频率分量中的每一个可用位的数量可以是64位，而2048位可用于7、8和9kHz频率分量中的每一个。这是因为，依照掩蔽曲线，人耳对7、8和9kHz频率分量最敏感，而人耳对非常低和非常高的分量，即1kHz和以下的频率分量以及19和20kHz的频率分量相对不敏感。虽然心理声学被用来确定可用位跨频率范围的分布，但是应该指出，可以使用许多其它不同的技术来分布可用位。

编码后位速率减少系统100和方法的实施例然后为每个编码音频对象文件针对对应时间段1200测量每个帧的帧活动。在时间段1200中每个编码音频对象文件的每个数据帧的帧活动被相互进行比较。这被称为数据帧活动比较，这是相对于时间段1200期间的其它帧的帧活动。

在一些实施例中，帧被分配帧活动编号。作为例子，假定音频对象文件的数量是10，使得帧活动编号范围从1至10。在这个例子中，10意味着在时间段1200期间具有最大帧活动的帧并且1意味着具有最小活动的帧。应当指出，可以使用许多其它技术来排名在时间段1200期间每一帧内的帧活动。基于数据帧活动比较和来自位池的可用位，系统100和方法的实施例然后针对时间段1200在编码音频对象文件的帧之间分配可用位。

可用位的数量和数据帧活动比较被系统100和方法使用来按需削减帧中的位以与分配的位相符。系统100和方法利用细粒度可缩放性特征和位基于分层元数据以重要性顺序被排名的事实。例如，参考图13，对于F_1,1，假定只有足够的分配位来表示前四个频率分量。这意味着，7、6、8和3kHz的频率分量将被包括在位减少编码位流中。F_1,1的5kHz频率分量和那些在排序中更低的频率分量被丢弃。

在一些实施例中，数据帧活动比较通过音频对象重要性进行加权。该信息包含在分层元数据710中。作为例子，假定编码音频对象文件#2对音频信号是重要的，如果该音频是电影音轨并且编码音频对象文件#2是对话轨道，则这可能发生。即使编码音频对象文件#9可能是10的最高相对帧活动排名并且编码音频对象文件#2具有7的排名，编码音频对象文件#2的排名也可以由于因为音频对象的重要性的加权被增加到10。应当指出，可以使用以上技术的许多变型和其它技术来分配位。

VI.备选实施例和示例性操作环境

与本文所述的那些不同的许多其它变体将从本文档显而易见。例如，依赖于实施例，本文所述的任何方法和算法的某些动作、事件或功能可以以不同的顺序来执行，可以被添加、合并，或完全排除(诸如，不是所有描述的动作或事件对方法和算法的实践都是必须的)。而且，在某些实施例中，动作或事件可以同时执行，诸如通过多线程处理、中断处理或者多个处理器或处理器核心或者在其它并行体系架构上，而不是连续地。此外，不同的任务或过程可以由可以一起发挥作用的不同机器和计算系统来执行。

结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法过程和序列可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，各种说明性部件、块、模块和过程动作已经在上面就其功能性一般地进行了描述。这种功能被实现为硬件还是软件依赖于强加到整个系统上的特定应用和设计限制。所描述的功能可以对每个特定的应用以不同的方式来实现，但是这种实现决定不应当被解释为造成从本文档的范围的偏离。

联系本文公开的实施例描述的各种说明性逻辑块和模块可以由机器实现或执行，诸如通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件部件，或者被设计为执行本文描述的功能的其任意组合。通用处理器可以是微处理器，但在备选方案中，处理器可以是控制器、微控制器或状态机，其组合，等等。处理器也可以被实现为计算设备，诸如DSP和微处理器的组合、多个微处理器，一个或多个微处理器与DSP核心结合，或者任何其它此类配置。

本文描述的编码后位速率减少系统100和方法的实施例在多种类型的通用或专用计算系统环境或配置中操作。一般而言，计算环境可以包括任何类型的计算机系统，包括但不限于基于一个或多个微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、个人组织器、设备控制器、器具中的计算引擎、移动电话、台式计算机、移动计算机、平板计算机、智能电话，以及具有嵌入式计算机的器具，这仅仅举了几个例子。

这种计算设备通常可以在具有至少某个最小计算能力的设备中找到，包括但不限于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如手机和PDA的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、音频或视频媒体播放器，等等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专用微处理器，诸如数字信号处理器(DSP)、超长指令字(VLIW)或其它微控制器，或者可以是具有一个或多个处理核心的常规中央处理单元(CPU)，包括多核CPU中基于专用图形处理单元(GPU)的核心。

联系本文公开的实施例描述的方法、过程或算法的处理动作可以直接体现在硬件中、在由处理器执行的软件模块中，或者在这两者的任意组合中。软件模块可以包含在能够由计算设备访问的计算机可读介质中。计算机可读介质既包括易失性又包括非易失性介质，或者是可移动的、或者是不可移动的，或者是其某种组合。计算机可读介质被用来存储信息，诸如计算机可读或计算机可执行指令、数据结构、程序模块或其它数据。作为例子而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括，但不限于，计算机或机器可读介质或存储设备，诸如蓝光盘(BD)、数字多功能盘(DVD)、压缩盘(CD)、软盘，带式驱动器、硬驱、光驱、固态存储器设备、RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪速存储器或其它存储器技术、磁带盒、磁带、磁盘存储装置或其它磁存储设备，或者可被用来存储期望的信息并可被一个或多个计算设备访问的任何其它设备。

软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM，或任何其它形式的非临时性计算机可读存储介质、媒体，或本领域中已知的物理计算机储存器。示例性存储介质可以耦合到处理器，使得处理器可以从存储介质读取信息，并将信息写入到其中。在备选方案中，存储介质可以是处理器的组成部分。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。作为替代，处理器和存储介质可以作为分立元件驻留在用户终端中。

如在本文档中所使用的，短语“非临时性”是指“持久或长寿的”。短语“非临时性计算机可读介质”包括任何和所有计算机可读介质，具有过渡性传播信号的唯一例外。作为例子而非限制，这包括非临时性计算机可读介质，诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等等信息的保持也可以通过使用多种通信介质来编码一个或多个调制的数据信号、电磁波(诸如载波)或其它传输机制或通信协议来实现，并且包括任何有线或无线信息输送机制。一般而言，这些通信介质指其一个或多个特征以使得在信号中编码信息或指令的方式被设置或改变的信号。例如，通信介质包括有线介质，诸如有线网络或携带一个或多个调制的数据信号的直接连线连接，以及无线介质，诸如声学、射频(RF)、红外线、激光，以及用于发送、接收或两者的其它无线介质或多个调制的数据信号或电磁波。以上所述的任意组合也应当包括在通信介质的范围内。

另外，体现本文描述的编码后位速率减少系统100和方法的各种实施例的一些或所有或者其部分的软件、程序、计算机程序产品的一个或任意组合，可以从计算机或机器可读介质或存储设备以及形式为计算机可执行指令或其它数据结构的通信介质的任何期望的组合存储、接收、发送或读取。

本文描述的编码后位速率减少系统100和方法的实施例可以在由计算设备执行的计算机可执行指令，诸如程序模块，的一般上下文中进一步描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构，等等。本文描述的实施例还可以在其中任务由一个或多个远程处理设备执行的分布式计算环境中，或者在通过一个或多个通信网络链接的一个或多个设备的云中实践。在分布式计算环境中，程序模块可以位于包括介质存储设备的本地和远程计算机存储介质两者中。更进一步，上述指令可以部分或全部地被实现为硬件逻辑电路，其可以或可以不包括处理器。

除非另有说明或者如所使用的以其它方式在上下文中被理解，否则本文所使用的条件性语言，诸如除其它之外还有“能够”、“可能”、“可以”、“例如”等，一般意在传达某些实施例包括，而其它实施例不包括，某些特征、元件和/或状态。因此，这种条件语言一般不意在暗示特征、元件和/或状态以任何方式是一个或多个实施例所需的或者一个或多个实施例必需包括用于在有或没有作者输入或提示的情况下决定这些特征、元件和/或状态是否包括在或者要在任何特定实施例中执行的逻辑。术语“包括”、“具有”等是同义的并且以开放的方式被包含性地使用，并且不排除附加的元件、特征、动作、操作，等等。而且，术语“或者”是在其包含的意义上(而不是在其排他的意义上)使用的，使得在用于，例如，连接元件的列表时，术语“或”是指列表中的一个、一些或所有元素。

虽然以上详细描述已经示出、描述并指出了如应用到各种实施例的新颖特征，但是应当理解，在不背离本公开内容的精神的情况下，可以进行所示出的设备或算法的形式和细节的各种省略、替换和变化。如将认识到的，本文描述的本发明的某些实施例可以在不提供本文阐述的所有特征和益处的形式中体现，因为一些特征可以与其它特征分开使用或实践。

而且，虽然本主题已经在特定于结构特征和方法动作的语言中进行了描述，但是应当理解，在所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求书的示例形式被公开的。

Claims

1.一种由一个或多个处理设备执行的用于从单个全文件产生缩放的压缩位流的方法，包括：

通过合并经由使用可缩放位流编码器而单独且独立编码的多个音频对象文件，创建具有全位速率的全文件，该可缩放位流编码器基于心理声学重要性对每个帧中的位排序，其中音频对象是特定声音或声音组合的源信号；

将每个编码的音频对象文件分割成数据帧；

将每个编码的音频对象文件在选定时间段的每个数据帧中的数据帧活动与要一起复用的所有其他音频对象文件中的所有帧活动进行比较，以获得所有编码的音频对象文件在选定时间段的数据帧活动比较；

基于数据帧活动比较，将来自可用位池的位分配给编码的音频对象文件在选定时间段期间的每个数据帧，以获得用于选定时间段的位分配；

通过根据所述位分配缩减数据帧的位来缩小全文件，以生成削减的帧；

从削减的帧获得位减少的编码的音频对象文件，并且将所述位减少的编码的音频对象文件一起复用；及

将复用的所述位减少的编码的音频对象文件包装成缩放的压缩位流，使得该缩放的压缩位流具有低于或等于全位速率的目标位速率，以便促进单个全文件的编码后位速率减少。

2.如权利要求1所述的方法，还包括：

通过合并单独编码的多个音频对象文件和对应的分层元数据创建所述全文件，其中分层元数据包含每个编码的音频对象文件相对于其它编码的音频对象文件的优先级信息；及

基于数据帧活动比较和分层元数据将来自可用位池的位分配给每个数据帧，以获得用于选定时间段的位分配。

3.如权利要求1所述的方法，其中每个编码的音频对象文件的全部时间长度被用来创建所述全文件。

4.如权利要求1所述的方法，还包括将来自可用位池的位分配给选定时间段的所有数据帧和所有音频编码对象文件。

5.如权利要求2所述的方法，还包括：

测量在选定时间段的每个数据帧的数据帧活动；及

将每个数据帧的数据帧活动与静音阈值进行比较，以确定在任何数据帧中是否存在最小量的活动。

6.如权利要求5所述的方法，还包括：

如果特定数据帧的数据帧活动小于或等于静音阈值，则将所述特定数据帧指定为具有最小量的活动的静音数据帧，并且使用于表示静音数据帧的位数量保持相同而没有任何位减少；及

如果特定数据帧的数据帧活动大于静音阈值，则将数据帧活动存储在帧活动缓冲区中。

7.如权利要求6所述的方法，还包括通过从分配给选定时间段的多个位中减去在选定时间段期间由静音数据帧使用的位来确定用于选定时间段的可用位池。

8.如权利要求2所述的方法，还包括以反向排名顺序缩减数据帧的位，以实现在位分配中分配给数据帧的多个位，使得较低排名的位在较高排名的位之前被缩减。

9.如权利要求8所述的方法，还包括：

从音频对象文件的频域表示中提取音调，以获得表示有至少一些音调被去除的音频对象文件的时域残差信号；

将提取的音调和时域残差信号格式化成多个数据区块，每个数据区块包括多个字节的数据；及

以心理声学重要性的顺序对所述音频对象文件的数据帧中的数据区块和数据区块中的位两者排序，以获得从最重要位到最不重要位的排名顺序。

10.如权利要求2所述的方法，还包括：

经网络信道以小于或等于目标位速率的位速率传送缩放的压缩位流；及

接收和解码缩放的压缩位流以获得解码的音频对象文件。

11.如权利要求10所述的方法，还包括混合解码的音频对象文件以创建音频对象混合，其中解码的音频对象文件中的两个或更多个彼此依赖，以便基于其在混合中的位置进行空间掩蔽。

12.如权利要求2所述的方法，还包括基于音频对象混合中的空间定位在分层元数据中区分编码的音频对象文件的优先级。

13.如权利要求2所述的方法，还包括基于音频对象混合中每个音频对象文件对用户的重要性区分编码的音频对象文件的优先级。

14.一种用于从单个全文件获得多个缩放的压缩位流的方法，包括：

利用具有细粒度可缩放性的可缩放位流编码器以全位速率单独且独立编码多个音频对象文件，以获得多个编码的音频对象文件，该编码器以对人类听觉的心理声学重要性的顺序排名编码的音频对象文件的每个数据帧中的位；

通过合并独立编码的多个音频对象文件和对应的分层元数据生成具有全位速率的全文件；

从全文件构建第一目标位速率的第一缩放的压缩位流；

从全文件构建第二目标位速率的第二缩放的压缩位流，使得从单个全文件获得不同目标位速率的多个缩放的位流，而无需所述多个编码的音频对象文件的任何重新编码；

将多个编码的音频对象文件中的每个编码的音频对象文件在选定时间段的每个数据帧中的数据帧活动与要一起复用的所有其他音频对象文件中的所有帧活动进行比较，以获得数据帧活动比较；

基于数据帧活动比较和第一目标位速率，将位分配给编码的音频对象文件在选定时间段的每个数据帧，以获得用于选定时间段的位分配；

通过根据所述位分配缩减数据帧的位来缩小全文件，以实现第一目标位速率并且获得位减少的编码的音频对象文件；及

将位减少的编码的音频对象文件一起复用并包装成第一目标位速率的第一缩放的压缩位流；

其中第一目标位速率和第二目标位速率彼此不同并且两者都比全位速率小。

15.如权利要求14所述的方法，其中第一目标位速率是第一缩放的压缩位流将被传送的最大位速率。

16.如权利要求15所述的方法，其中所述多个编码的音频对象文件中的每一个都是持久性的并且在全文件的整个持续时间存在。

17.如权利要求14所述的方法，还包括：

以第一目标位速率将第一缩放的压缩位流传送到接收设备；及

解码第一缩放的压缩位流以获得解码的音频对象。

18.如权利要求17所述的方法，还包括混合解码的音频对象以创建音频对象混合。

19.一种编码后位速率减少系统，包括：

全文件，包含已以全位速率被编码并且与对应的分层元数据合并在一起以形成全文件的、使用可缩放位流编码器被单独且独立编码的音频对象文件，该可缩放位流编码器基于心理声学重要性对每个帧中的位排序；

位减少模块，用于基于每个音频对象文件在选定时间段中的每个数据帧的数据帧活动与要一起复用的所有其他音频对象文件中的所有帧活动的比较，减少分配给编码的音频对象文件的数据帧的多个位，以获得位减少的编码音频对象；

位流包装器，用于在容器中布置位减少的编码音频对象的数据帧以用于经计算机网络传输；及

复用器，用于合并包含位减少的编码音频的容器，以生成目标位速率的缩放的压缩位流，其中目标位速率小于全位速率。

20.一种音频信号接收系统，包括：

以目标位速率经网络接收的缩放的压缩位流，该位流包含已利用驻留在计算设备上的可缩放位流编码器被单独且独立编码的多个位减少的编码的音频对象文件，该可缩放位流编码器基于心理声学重要性对每个帧中的位排序，并且该位流使以全位速率编码的全文件的数据帧中的位基于数据帧活动比较和对应的分层元数据被缩减，其中目标位速率小于或等于全位速率，并且其中数据帧活动比较包括：将每个编码的音频对象文件在选定时间段的每个数据帧中的数据帧活动与要一起复用的所有其他音频对象文件中的所有帧活动进行比较，以获得所有编码的音频对象文件在选定时间段的数据帧活动比较；

解复用器，用于将缩放的压缩位流分离成多个编码的音频对象文件；及

可缩放位流解码器，解码编码的音频对象以获得解码的音频对象。

21.如权利要求20所述的音频信号接收系统，还包括用来混合解码的音频对象文件并且生成音频对象混合的混合设备。