CN116324978A

CN116324978A - 分级空间分辨率编解码器

Info

Publication number: CN116324978A
Application number: CN202180065200.3A
Authority: CN
Inventors: D·森; M·Y·金; F·鲍姆加特; S·扎玛尼; A·林达尔
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-09-25
Filing date: 2021-08-31
Publication date: 2023-06-23
Also published as: DE112021005067T5; WO2022066370A1; US20230360661A1

Abstract

本发明公开了一种分级空间分辨率编解码器，其在用于传送沉浸式音频内容的目标带宽改变时自适应地调整该音频内容的表示。该音频内容可由自适应数量的内容类型诸如声道/对象、更高阶高保真度立体声响复制(HOA)表示，并由自适应空间编码技术编码以支持传输声道或用户的目标比特率。自适应空间编码技术可以包括用于生成自适应数量的声道/对象的自适应声道/对象空间编码技术，以及用于生成HOA的自适应阶次的自适应HOA空间编码或HOA压缩技术。该自适应可以根据与期望质量相关联的目标比特率以及确定声道、对象和HOA的优先级的分析来进行。高优先级声道/对象可被编码到高质量比特流中，而低优先级声道/对象可被转换并编码为HOA。

Description

分级空间分辨率编解码器

相关申请的交叉引用

本申请要求于2020年9月25日提交的美国临时申请号63/083,788的权益，该美国临时申请的公开内容以引用方式全文并入本文。

技术领域

本公开涉及音频通信领域；并且更具体地，涉及被设计成使用自适应空间编码技术来传送沉浸式音频内容的数字信号处理方法。还描述了其他方面。

背景技术

消费电子设备正在提供日益复杂且性能不断改善的数字音频编码和解码能力。传统上，主要使用提供左右音频声道的双声道立体声格式来生产、分发和消费音频内容。最近的市场发展旨在使用支持多声道音频、基于对象的音频和/或高保真度立体声响复制(Ambisonics)的更丰富的音频格式(例如Dolby Atmos或MPEG-H)来提供更加沉浸式的听者体验。

沉浸式音频内容的传送与更大的带宽需求相关联，即需要相比用于立体声内容的更大的数据速率来进行流式传输和下载。如果带宽有限，则需要可在保持可能的最佳音频质量的同时减小音频数据大小的技术。感知音频编码中常见的减少带宽的方法是利用听觉的感知特性来保持音频质量。例如，对应于不同内容类型(诸如多声道音频、音频对象或更高阶高保真度立体声响复制(HOA))的空间编码器可使用空间参数实现某些声音特征的比特率高效编码，使得可在解码器中近似地重新创建该特征。可选择表示沿着空间分辨率相对于带宽要求的折衷曲线的不同点的空间编码器以适应目标带宽。在一些技术中，音频场景可被预先确定为由较高带宽多声道音频/音频对象或较低带宽立体声信号表示。要使用有限带宽来传送更丰富和更沉浸式的音频内容，还需要其他音频编码和解码(编解码器)技术。

发明内容

公开了分级空间分辨率编解码器的各方面，该分级空间分辨率编解码器随着用于传送沉浸式音频内容的声道的带宽改变而自适应地调整沉浸式音频内容的表示。沉浸式音频内容的音频场景可以由通过自适应空间编码和基线编码技术编码的自适应数量的内容类型以及支持传输声道或用户的目标比特率的自适应声道配置来表示。例如，音频场景可由自适应数量的声道、自适应数量的对象、自适应阶次的更高阶高保真度立体声响复制(HOA)或自适应数量的其他声场表示来表示。HOA描述基于球谐函数的声场。当在解码器处重新创建时，不同的内容类型具有不同的带宽要求和对应的不同的音频质量。自适应空间编码技术可以包括用于生成自适应数量的声道和对象的自适应声道和对象空间编码技术，以及用于生成HOA的自适应阶次的自适应HOA空间编码或HOA压缩技术。该自适应可以根据与期望质量相关联的目标比特率以及确定声道、对象和HOA的优先级的分析来进行。目标比特率可以基于声道条件或一个或多个用户的比特率要求而动态地改变。可基于由声道、对象和HOA表示的声场的场景元素的空间显著性来作出优先级决策。

在一个方面，声道和对象优先级决策模块对多声道音频的声道和音频对象进行操作，以向空间编码器提供声道和对象的优先级排序。基于优先级排序和目标比特率，声道和对象空间编码器可以仅对高优先级声道和对象进行编码，以生成高空间分辨率的高质量比特流。剩余的低优先级声道和对象可被转换成较低质量内容类型诸如HOA，并由HOA空间编码器进行空间编码以生成需要较低带宽的低空间分辨率的较低质量比特流。为了适应于甚至更低的目标比特率，低优先级声道和对象中的一些或全部可以被渲染为甚至更低质量的内容类型，诸如需要甚至更低带宽的双声道立体声信号。分级空间分辨率编解码器的自适应编码能力允许根据目标比特率由不同的内容类型表示相同的音频场景，例如，通过将对象中的一些对象转换为HOA并且根据目标比特率在HOA域中对转换的对象进行编码。

在一个方面，HOA优先级决策模块对HOA内容进行操作，以向HOA空间编码器提供HOA的优先级排序。基于优先级排序和目标比特率，HOA空间编码器可以仅对高优先级HOA进行编码，以生成高空间分辨率的高质量比特流。剩余的低优先级HOA可以被渲染为较低质量的内容类型，诸如需要较低带宽的双声道立体声信号。空间编码器的分级结构可因此随着目标比特率改变而自适应地生成不同质量和不同带宽要求的音频内容类型的比特流的混合。

在一个方面，一个或一组空间编码器和基线编码器转换声道、对象、HOA和其他声场表示(诸如双声道立体声信号和音频场景的语音)的选择性场景元素，从而在一组比特率生成变化音频质量的一组比特流。该组比特流可以实时或离线生成。基于最终用户的目标比特率，声道和对象比特流、HOA比特流、立体声信号比特流和语音比特流的不同场景元素被选择并被自适应地传输到最终用户。

在一个方面，对于对等音频信号传输，空间编码器的分级结构可随着用户的目标比特率改变而自适应地生成具有声道、对象、HOA和其他场景元素的不同混合的传输流。可以实时或离线生成不同音频内容类型的混合。

在一个方面，公开了一种用于对音频内容进行编码的方法。该方法包括接收音频内容。音频内容由包括第一内容类型和第二内容类型的多个内容类型表示。第一内容类型可以包括多个场景元素。该方法还包括确定第一内容类型的场景元素的优先级。基于所确定的场景元素的优先级和音频内容的传输的目标比特率，该方法将第一内容类型的自适应数量的场景元素编码到第一内容流中。该方法还基于目标比特率将第一内容类型的剩余场景元素编码到第二内容流中，该剩余场景元素是尚未被编码到第一内容流中的场景元素。第二内容流表示第二内容类型的空间编码。该方法还基于目标比特率生成包括第一内容流和第二内容流的传输流以用于传输。

上面的概述不包括本发明的所有方面的详尽列表。设想本发明包括可从上面概述的各个方面以及在下面的具体实施方式中公开并在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实践的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1是根据本公开的一个方面的随着目标比特率改变而自适应地调整沉浸式音频内容的编码的分级空间分辨率编解码器的功能框图。

图2描绘了根据本公开的一个方面的对音频场景进行实时编码以针对一组比特率生成一组候选音频比特流，使得可选择候选音频比特流以适应于一个或多个用户的改变的目标比特率的分级空间分辨率编解码器。

图3描绘了根据本公开的一个方面的对音频场景进行离线编码以针对一组比特率生成一组候选音频比特流来存储在文件中的分级空间分辨率编解码器，该文件可被读取以使传输流适应于一个或多个用户的改变的目标比特率。

图4描绘了根据本公开的一个方面的自适应地实时对音频场景进行编码以生成适应于用户的变化的目标比特率的对等传输(peer-to-peer transmission)中的传输流的分级空间分辨率编解码器。

图5是根据本公开的一个方面的随着目标比特率改变而自适应地调整音频内容的编码以生成内容类型的分级结构的方法的流程图。

具体实施方式

期望通过传输声道从音频源将沉浸式音频内容提供到回放系统，同时尽可能保持最佳音频质量。当传输声道的带宽由于改变声道条件或改变回放系统的目标比特率而改变时，沉浸式音频内容的编码可以被适配为改善音频回放质量与带宽之间的折衷。沉浸式音频内容可包括多声道音频、音频对象或空间音频重建(称为高保真度立体声响复制)，该高保真度立体声响复制描述了基于球谐函数的声场，可用于重新创建用于回放的声场。高保真度立体声响复制可包括一阶或更高阶球谐函数，也称为更高阶高保真度立体声响复制(HOA)。沉浸式音频内容可以根据目标比特率和声道、对象和HOA的优先级排序而被自适应地编码到具有不同比特率和空间分辨率的音频内容中。自适应地编码的音频内容及其元数据可以在传输声道上传输，以允许具有变化的目标比特率的一个或多个解码器在元数据的帮助下通过自适应地编码的音频内容的空间解码和渲染来重建沉浸式音频体验。

公开了用于沉浸式音频编码技术的系统和方法，该沉浸式音频编码技术自适应地调整声道的数量、音频对象的数量、HOA的阶次或沉浸式音频内容的音频场景的其他声场表示，以适应解码器的变化的目标比特率或传输声道带宽。音频场景的声场表示可使用分级空间分辨率编解码器自适应地进行编码，该分级空间分辨率编解码器自适应地调整声道、对象、HOA等的空间编码分辨率或压缩，以及元数据的量化。该自适应可以根据目标比特率和确定声道、对象、HOA等的优先级的分析来进行。可基于声场表示的场景元素的空间显著性来作出优先级决策，使得较高优先级场景元素经编码以保持较高质量的声场表示，而剩余低质量场景元素可被转换并编码到较低质量的声场表示中。有利地，分级空间分辨率编码技术可以在解码器的目标比特率波动时减少传输流的音频质量的劣化来保持沉浸式音频体验。

以下描述示出了许多具体细节。然而，应当理解，这里可在不需要这些具体细节的情况下来实践本公开的方面。在其他情况下，未详细示出已熟知的电路、结构和技术，以免模糊对此描述的理解。

本文中所使用的术语仅仅是为了描述特定方面并非旨在对本发明进行限制。空间相关术语，诸如“在……之下”、“在……下方”、“下”、“在……上方”、“上”等可在本文中用于描述的方便，以描述一个元件或特征部与另外一个或多个元件或一个或多个特征部的关系，如在附图中示出的。应当理解，空间相对术语旨在涵盖除了在附图所示取向之外的元件或特征部使用或操作过程中的不同取向。例如，如果图中包含多个元件的设备被翻转，则被描述为在其他元件或特征部“下方”或“之下”的元件然后可被取向成在其他元件或特征部“上方”。因此，示例性术语“在……下方”可涵盖在……上方和在……下方这两个取向。设备可以其他方式取向(例如，旋转90度或在其他的取向处)，并且在本文中使用的空间相关描述符被相应地解释。

如本文所用，单数形式“一个”(“a”,“an”)和“该”旨在同样包括复数形式，除非上下文另外指出。应当进一步理解，术语“包括”和“包含”限定了所述特征、步骤、操作、元件、或部件的存在，但不排除一个或多个其他特征、步骤、操作、元件、部件、或其组的存在或添加。

本文所用的术语“或”以及“和/或”应被解释为包含在内或意指任何一个或任何组合。因此，“A、B或C”或“A、B和/或C”指“以下中的任意一种：A；B；C；A和B；A和C；B和C；A、B和C。”仅当元素、功能、步骤或动作的组合以某种方式固有地互相排斥时，才会出现这个定义的例外。

图1是根据本公开的一个方面的随着目标比特率改变而自适应地调整沉浸式音频内容的编码的分级空间分辨率编解码器的功能框图。沉浸式音频内容111可以包括各种沉浸式音频输入格式，也被称为声场表示，诸如多声道音频、音频对象、HOA、对话等。就多声道输入而言，可存在已知输入声道布局的M个声道，诸如7.1.4布局(7个扬声器位于中位平面、4个扬声器位于上平面、1个低频效果(LFE)扬声器)。应当理解，HOA还可包括一阶高保真度立体声响复制(FOA)。在以下对自适应编码技术的描述中，音频对象可以被类似地视为声道，并且为了简单起见，声道和对象可以在分级空间分辨率编解码器的操作中被分组在一起。

沉浸式音频内容111的音频场景可以由多个通道/对象150、HOA 154和对话158分别伴随通道/对象元数据151、HOA元数据155和对话元数据159来表示。元数据可用于描述相关联的声场的属性，诸如相关联的声道的布局配置或方向参数，或相关联的对象或HOA的位置、大小、方向或空间图像参数，以帮助渲染器实现期望的源图像或重新创建主导声音的感知位置。为了允许分级空间分辨率编解码器改进空间分辨率与目标比特率之间的折衷，可对声道/对象和HOA进行排序，使得当目标比特率降低时，对较高排序的声道/对象和HOA进行空间编码以保持较高质量的声场表示，而将较低排序的声道/对象和HOA转换并空间编码到较低质量的声场表示中。

声道/对象优先级决策模块121可以接收音频场景的声道/对象150和声道/对象元数据151，以提供声道/对象150的优先级排序162。在一个方面，可基于声道和对象的空间显著性(诸如声道/对象150的位置、方向、移动、密度等)来确定优先级排序162。例如，在主导声音的感知位置附近具有较大移动的声道/对象可比在远离主导声音的感知位置具有较小移动的声道/对象在空间上更显著，并且因此排名更高。为了在降低目标比特率时减少对声道/对象的整体音频质量的劣化，可保持表现为较高排序的声道/对象的空间分辨率的音频质量，同时可降低较低排序的声道/对象的空间分辨率。在一个方面，声道/对象元数据151可提供信息以指导声道/对象优先级决策模块121确定优先级排序162。例如，声道/对象元数据151可以包含用于对通过人工输入提供的某些声道/对象150进行排序的优先级元数据。在一个方面，声道/对象150和声道/对象元数据151可以分别作为声道/对象160和声道/对象元数据161通过声道/对象优先级决策模块121。

声道/对象空间编码器131可以基于声道/对象优先级排序162和目标比特率190对声道/对象160和声道/对象元数据161进行空间编码，以生成声道/对象音频流180和相关联的元数据181。例如，对于最高目标比特率，所有声道/对象160和元数据161可以被空间编码到声道/对象音频流180和声道/对象元数据181中，以提供所得传输流的最高音频质量。目标比特率可以由传输声道的声道条件或解码设备的目标比特率来确定。在一个方面，声道/对象空间编码器131可将声道/对象160变换到频域中以执行空间编码。可以根据目标比特率190来调整频率子带的数量和编码参数的量化。在一个方面，声道/对象空间编码器131可以对声道/对象160和元数据161进行聚类以适应减小的目标比特率190。

在一个方面，当目标比特率190降低时，具有较低优先级排序的声道/对象160和元数据161可以被转换成另一内容类型并且利用另一编码器进行空间编码以生成较低质量的传输流。声道/对象空间编码器131可以不对作为低优先级声道/对象170和相关联的元数据171输出的这些低排序的声道/对象进行编码。HOA转换模块123可以将低优先级声道/对象170和相关联的元数据171转换成HOA 152和相关联的元数据153。随着目标比特率190逐渐降低，从优先级排序162的最低排序开始的逐渐更多的声道/对象160和元数据161可被输出为低优先级声道/对象170和相关联的元数据171，以被转换为HOA 152和相关联的元数据153。HOA 152和相关联的元数据153可被空间编码以生成与完全编码所有声道/对象160的传输流相比质量较低的传输流，但具有要求较低比特率和较低传输带宽的优点。

可存在用于将声道/对象160转换和编码到另一内容类型中以适应较低目标比特率的分级结构的多个层级。在一个方面，可利用参数编码诸如基于立体声的沉浸式编码(STIC)编码器137来对低优先级声道/对象170中的一些低优先级声道/对象和相关联的元数据171进行编码。STIC编码器137可以从沉浸式音频信号渲染双声道立体声音频流186，诸如通过将声道向下混合或将对象或HOA渲染为立体声信号。STIC编码器137还可以基于导出描述主导声音的感知方向的参数的感知模型来生成元数据187。通过将声道/对象中的一些声道/对象转换和编码到立体声音频流186而不是HOA中，可以适应比特率的进一步降低，尽管是在较低质量的传输流下。虽然STIC编码器137被描述为将声道、对象或HOA渲染为双声道立体声音频流186中，但是STIC编码器137不限于此，并且可以将声道、对象或HOA渲染为多于两个声道的音频流。

在一个方面，在中目标比特率下，可将具有最低优先级排序的低优先级声道/对象170中的一些声道/对象和它们的相关联的元数据171编码到立体声音频流186和相关联的元数据187中。具有较高优先级排序的剩余低优先级声道/对象170和它们的相关联的元数据可以被转换成HOA 152和相关联的元数据153，HOA 152和相关联的元数据153可以与来自沉浸式音频内容111的其他HOA 154和相关联的元数据155一起进行优先级排序并且被编码到HOA音频流184和相关联的元数据185中。具有最高优先级排序的剩余声道/对象160和它们的元数据被编码到声道/对象音频流180和相关联的元数据181中。在一个方面，在最低目标比特率，可将所有声道/对象160编码到立体声音频流186和相关联的元数据中，而不在传输流中留下编码的声道、对象或HOA。

类似于声道/对象，还可对HOA进行排序，使得对较高排序的HOA进行空间编码以保持HOA的较高质量声场表示，而将较低排序的HOA渲染为较低质量声场表示诸如立体声信号。HOA优先级决策模块125可以从沉浸式音频内容111接收音频场景的声场表示的HOA 154和相关联的元数据155，以及已经从低优先级声道/对象170转换的经转换的HOA 152和相关联的元数据153，以提供HOA之间的优先级排序166。在一个方面，可基于HOA的空间显著性(诸如HOA的位置、方向、移动、密度等)来确定优先级排序。为了在降低目标比特率时减少对HOA的整体音频质量的劣化，可以保持较高排序的HOA的音频质量，同时可以降低较低排序的HOA的音频质量。在一个方面，HOA元数据155可以提供信息以指导HOA优先级决策模块125确定HOA优先级排序166。HOA优先级决策模块125可以组合来自沉浸式音频内容111的HOA154和已经从低优先级声道/对象170转换的经转换的HOA 152以生成HOA 164，以及组合该组合的HOA的相关联的元数据以生成HOA元数据165。

分级HOA空间编码器135可以基于HOA优先级排序166和目标比特率190对HOA 164和HOA元数据165进行空间编码，以生成HOA音频流184和相关联的元数据185。例如，对于高目标比特率，所有HOA 164和HOA元数据165可以被空间编码到HOA音频流184和HOA元数据184中以提供高质量传输流。在一个方面，分级HOA空间编码器135可将HOA 164变换到频域中以执行空间编码。可以根据目标比特率190来调整频率子带的数量和编码参数的量化。在一个方面，分级HOA空间编码器135可以对HOA 164和HOA元数据165进行聚类以适应降低的目标比特率190。在一个方面，分级HOA空间编码器135可执行压缩技术以生成HOA 164的自适应阶次。

在一个方面，当目标比特率190被降低时，具有较低优先级的HOA 164和元数据165可被编码为立体声信号。分级HOA空间编码器135可以不对输出为低优先级HOA 174和相关联的元数据175的这些低排序的HOA进行编码。随着目标比特率190逐渐降低，从优先级排序166的最低排序开始的逐渐更多的HOA 164和HOA元数据165可被输出为低优先级HOA 174和相关联的元数据175，以被编码到立体声音频流186和相关联的元数据187中。与完全编码所有HOA 164的传输流相比，立体声音频流186和相关联的元数据187需要较低的比特率和较低的传输带宽，尽管音频质量较低。因此，随着目标比特率190降低，音频场景的传输流可以具有较低音频质量的内容类型的分级结构的更大混合。在一个方面，内容类型的分级混合可以逐个场景、逐个帧或逐个分组地自适应地改变。有利地，分级空间分辨率编解码器基于目标比特率和声场表示的场景元素的优先级排序来自适应地调整沉浸式音频内容的分级编码，以生成声道、对象、HOA和立体声信号的变化的混合，以改进音频质量和目标比特率之间的折衷。

在一个方面，沉浸式音频内容111的音频场景可以包含对话158和相关联的元数据159。对话空间编码器139可以基于目标比特率190对对话158和相关联的元数据159进行编码，以生成语音流188和语音元数据189。在一个方面，当目标比特率190较高时，对话空间编码器139可以将对话158编码到两个声道的语音流188中。当目标比特率190被降低时，对话158可以被编码到一个声道的语音流188中。

基线编码器141可以基于目标比特率190将声道/对象音频流180、HOA音频流184和立体声音频流186编码到音频流191中。基线编码器141可以使用任何已知的编码技术。在一个方面，基线编码器141可以使编码的速率和量化适应于目标比特率190。语音编码器143可针对音频流191单独编码语音流188。声道/元数据181、HOA元数据185、立体声元数据187和语音元数据189可以被组合到音频流191的单个传输声道中。音频流191可以在传输声道上传输以允许一个或多个解码器重建沉浸式音频内容111。音频流191也被称为传输流。

图2描绘了根据本公开的一个方面的对音频场景进行实时编码以针对一组目标比特率生成一组候选音频比特流203，使得可选择候选音频比特流203以适应于一个或多个用户的改变的目标比特率的分级空间分辨率编解码器。一组编码器201可以提供该组候选音频比特流203。每个候选音频比特流可以包括声道/对象音频流180、HOA流184、立体声音频流186、语音流188和元数据，如图1中针对一个可能的目标比特率所描述的。

可能的目标比特率的范围以降序被标记为最高、高、高-中、中、中-低、低和最低。在一个方面，目标比特率的范围可以包括1Mbps(兆比特每秒)、768Kbps(千比特每秒)、512Kbps、384Kbps、256Kbps、128Kbps和64kbps的离散值。对于可能的目标比特率中的每个目标比特率，该组编码器201可以包括单独的音频编码器，该音频编码器可以包括图1的分级空间分辨率编解码器。然而，该组编码器201不限于此。在一个方面，可对单个高速率分级空间分辨率编解码器进行时分多路复用以针对所有可能的目标比特率生成该组候选音频比特流203。

如图所示，对于最高目标比特率，音频编码器可以生成候选比特流，该候选比特流包括对沉浸式音频内容111的L1声道/对象进行编码的声道/对象音频流180，但是不包括针对HOA、立体声信号或语音的音频流。在另一示例中，用于最高目标比特率的候选比特流可包括对某一阶次的HOA进行编码的HOA音频流184、立体声音频流186和/或语音流188。在目标比特率的范围中到高目标比特率向下一步，可以将具有较低优先级排序的L1声道/对象中的一些L1声道/对象转换并编码到阶次M1的HOA音频流184中，留下声道/对象音频流180来对较高优先级排序的L2声道/对象进行编码。再下一步到高-中目标比特率，声道/对象音频流180中的声道/对象的数量被合并为L3，其中L3小于L2。再下一步到中目标比特率，HOA音频流184中的HOA的阶次被合并到M2，其中M2小于M1。

进一步向下步进到中-低目标比特率，具有较低优先级排序的L3声道/对象中的一些L3声道/对象被转换并编码到HOA中，留下声道/对象音频流180来对较高优先级排序的L4声道/对象进行编码。附加的转换的HOA与阶次M2的现有HOA一起进行优先级排序，从而导致具有较低优先级排序的HOA中的一些HOA被编码到立体声音频流186中。HOA音频流184保持在阶次M2以对较高优先级排序的HOA进行编码。立体声音频流186被示出为具有N1个声道以示出其不限于两个声道。用于中-低目标比特率的音频流还包括语音流188。

进一步步进到低目标比特率，具有较低优先级排序的L4声道/对象中的一些L4声道/对象被转换并编码到HOA中，留下声道/对象音频流180来对较高优先级排序的L5声道/对象进行编码。附加的转换的HOA与阶次M2的现有HOA一起进行优先级排序，并且HOA的阶次被合并以将HOA音频流184保持在阶次M2。

对于最低目标比特率，所有声道/对象被转换并编码到HOA中。附加的转换的HOA以及阶次M2的现有HOA被编码到两个声道的立体声音频流186中。不存在声道/对象音频流180或HOA流184。需注意，用于所有目标比特率的候选比特流具有一个元数据传输流。在一个方面，该组编码器可进一步基于目标比特率的范围使用基线编码器141来对该组候选音频比特流203进行编码。

统计复用模块205基于每个用户的目标比特率190来选择可以包括声道/对象音频流180、HOA流184、立体声音频流186、语音流188和元数据传输流的一个候选比特流，以自适应地生成传输流。用户的目标比特率190可以逐个场景、逐个帧或逐个分组地自适应地改变。例如，对于分组自适应，当用户的目标比特率190最高时，针对用户的传输流的分组可以包括对L1声道/对象进行编码的声道/对象音频流180和元数据传输流。当用户的目标比特率改变为中时，针对用户的传输流的分组可以改变为对L3声道/对象进行编码的声道/对象音频流180、阶次M2的HOA音频流184以及元数据传输流。当用户的目标比特率改变为低时，针对用户的传输流的分组可以改变为对L5声道/对象进行编码的声道/对象音频流180、阶次M2的HOA音频流184、N1声道的立体声音频流186、语音流188和元数据传输流。针对多个用户的传输流(诸如针对用户A的传输流210、针对用户B的传输流212以及针对用户C的传输流214)可以根据每个用户的目标比特率190单独定制，以提供沉浸式音频内容111的实时流式传输。

图3描绘了根据本公开的一个方面的对音频场景进行离线编码以针对一组比特率生成一组候选音频比特流203来存储在文件中的分级空间分辨率编解码器，该文件可被读取以使传输流适应于一个或多个用户的改变的目标比特率。如图2所示，一组编码器201可以提供该组候选音频比特流203。对于一个可能的目标比特率，每个候选音频比特流可以包括声道/对象音频流180、HOA流184、立体声音频流186、语音流188以及从沉浸式音频内容111编码的元数据。

然而，代替实时流传输沉浸式音频内容111，可以离线生成该组候选音频比特流203并且将其存储在比特流清单文件207中。当用户准备流传输沉浸式音频内容111时，统计复用模块205可以读取比特流清单文件207以基于目标比特率190选择可以包括声道/对象音频流180、HOA流184、立体声音频流186、语音流188和元数据传输流的一个候选比特流，以供用户自适应地生成传输流。针对多个用户的传输流(诸如针对用户A的传输流210、针对用户B的传输流212以及针对用户C的传输流214)可以根据每个用户的目标比特率190来单独定制。

图4描绘了根据本公开的一个方面的自适应地实时对音频场景进行编码以生成适应于用户的变化的目标比特率的对等传输中的传输流的分级空间分辨率编解码器。代替如图2和图3中生成用于目标比特率范围的一组候选比特流，空间和基线编码器301(诸如图1的分级空间分辨率编解码器)将沉浸式音频内容111编码到传输流中，该传输流可以包括通道/对象音频流180、HOA流184、立体声音频流186、语音流188和元数据传输流，以实时地适应于用户的目标比特率190。在一个方面，编码的音频流可离线产生、存储在文件中以及在稍后时间检索以适应于用户的目标比特率。

空间和基线编码器301可以基于分组、帧或音频场景使编码的音频流适应于用户的目标比特率190。例如，当每个分组包括四个帧时，在分组1处，当目标比特率190最高时，针对用户的传输流的分组可以包括对L1声道/对象进行编码的声道/对象音频流180和用于四个帧的元数据传输流。在分组2处，当目标比特率为高-中时，针对用户的传输流的分组可改变为对L3声道/对象进行编码的声道/对象音频流180、阶次M1的HOA音频流184以及用于四个帧的元数据传输流。在分组3处，当目标比特率最低时，针对用户的传输流的分组可以改变为两个声道的立体声音频流186、一个声道的语音流188和用于四个帧的元数据传输流。

图5是根据本公开的一个方面的随着目标比特率改变而自适应地调整音频内容的编码以生成内容类型的分级结构的方法500的流程图。方法500可由图1、图2、图3或图4的分级空间分辨率编解码器来实践。

在操作501中，方法500接收音频内容。音频内容由包括第一内容类型和第二内容类型的多个内容类型表示。第一内容类型可以包括多个场景元素。在一个方面，第一内容类型可包括声道/对象，并且第二内容类型可包括HOA。场景元素的数量可以表示声道或对象的数量。

在操作503中，方法500确定第一内容类型的场景元素的优先级。在一个方面，可基于场景元素的空间显著性来对第一内容类型的场景元素的优先级进行排序。

在操作505中，方法500基于场景元素的优先级和音频内容的传输的目标比特率将第一内容类型的自适应数量的场景元素编码到第一内容流中。被编码到第一内容流中的第一内容类型的场景元素的数量可以随着目标比特率的改变而改变。

在操作507中，方法500基于目标比特率将第一内容类型的剩余场景元素编码到第二内容流中，该剩余场景元素是尚未被编码到第一内容流中的场景元素。第二内容流表示第二内容类型的空间编码。被编码到第二内容流中的第二内容类型的场景元素的数量可以随着目标比特率的改变而改变。

在操作509中，方法500基于目标比特率生成包括第一内容流和第二内容流的传输流以用于传输。

本文描述的分级空间分辨率编解码器的实施方案可例如通过网络计算机、网络服务器、平板计算机、智能手机、膝上型计算机、台式计算机、其他消费电子设备、或其他数据处理系统在数据处理系统中实现。具体地讲，针对分级空间分辨率编解码器描述的根据改变的目标比特率自适应地编码音频场景的操作是由执行存储在一个或多个存储器中的指令的处理器执行的数字信号处理操作。处理器可从存储器读取所存储的指令并且执行指令以执行所述的操作。这些存储器代表可存储或包含在被执行时使得数据处理系统执行本文所述的一个或多个方法的计算机程序指令的机器可读非暂态存储介质的示例。处理器可为本地设备诸如智能电话中的处理器、远程服务器中的处理器、或本地设备和远程服务器中的多个处理器的分布式处理系统，其中它们的相应存储器包含执行所述的操作所需的指令的各个部分。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然附图中描述并且示出了某些示例性实例，但应当理解，这些实例仅为示例性的并对广义发明不具有限制性，并且本发明不限于所示和所述的具体构造和布置，因为本领域的普通技术人员可进行各种其他修改。因此，要将描述视为示例性的而非限制性的。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

Claims

1.一种对音频内容进行编码的方法，所述方法包括：

由编码设备接收所述音频内容，所述音频内容由多个内容类型表示，第一内容类型包括多个场景元素；

确定所述第一内容类型的所述多个场景元素的优先级；

基于所述多个场景元素的所述优先级和用于传输所述音频内容的目标比特率，将所述第一内容类型的自适应数量的所述多个场景元素编码到第一内容流中；

基于所述目标速率和所述第二内容类型的场景元素的优先级，将所述第一内容类型的未被选择用于编码到所述第一内容流中的剩余场景元素编码到第二内容流中，所述第二内容流表示第二内容类型的编码；以及

基于所述目标比特率生成包括所述第一内容流和所述第二内容流的传输流以用于传输。

2.根据权利要求1所述的方法，其中所述第一内容类型具有比所述第二内容类型更高质量的所述音频内容的声场表示。

3.根据权利要求1所述的方法，其中用于支持所述第一内容类型的传输的比特率高于用于支持所述第二内容类型的传输的比特率。

4.根据权利要求1或3所述的方法，其中确定所述第一内容类型的所述多个场景元素的所述优先级包括：

基于所述多个场景元素的空间显著性生成所述第一内容类型的所述多个场景元素的优先级排序，其中具有较高空间显著性的场景元素比具有较低空间显著性的场景元素具有更高质量的声场表示。

5.根据权利要求1或3所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

随着所述目标比特率改变，基于所选择的场景元素具有比所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素的所述优先级更高的优先级，来选择所述自适应数量的所述场景元素。

6.根据权利要求1所述的方法，其中基于所述目标速率和所述第二内容类型的场景元素的优先级，将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

将所述第一内容类型的所述剩余场景元素转换为所述第二内容类型的场景元素；以及

基于所述目标比特率，对与从所述音频内容接收的所述第二内容类型的场景元素组合的所转换的场景元素进行编码，以生成所述第二内容流。

7.根据权利要求6所述的方法，其中对与从所述音频内容接收的所述第二内容类型的场景元素组合的所转换的场景元素进行编码包括：

确定所述第二内容类型的多个场景元素的优先级，所述第二内容类型的所述多个场景元素包括所转换的场景元素和从所述音频内容接收的所述第二内容类型的所述场景元素；

基于所述第二内容类型的所述多个场景元素的所述优先级和所述目标比特率，将所述第二内容类型的自适应数量的所述多个场景元素编码到所述第二内容流中；

基于所述目标比特率将所述第二内容类型的未被选择用于编码到所述第二内容流中的剩余场景元素编码到第三内容流中，所述第三内容流表示第三内容类型的编码；以及

生成所述传输流以包括所述第三内容流。

8.根据权利要求6或7所述的方法，其中所述第一内容类型具有比所述第二内容类型更高质量的所述音频内容的声场表示，并且所述第二内容类型具有比所述第三内容类型更高质量的所述音频内容的声场表示。

9.根据权利要求6或7所述的方法，其中用于支持所述第一内容类型的传输的比特率高于用于支持所述第二内容类型的传输的比特率，并且用于支持所述第二内容类型的传输的所述比特率高于用于支持所述第三内容类型的传输的比特率。

10.根据权利要求6或7所述的方法，其中确定所述第二内容类型的所述多个场景元素的所述优先级包括：

基于所述多个场景元素的空间显著性生成所述第二内容类型的所述多个场景元素的优先级排序，其中具有较高空间显著性的场景元素比具有较低空间显著性的场景元素具有更高质量的声场表示。

11.根据权利要求6或7所述的方法，其中将所述第二内容类型的所述自适应数量的所述多个场景元素编码到所述第二内容流中包括：

随着所述目标比特率改变，基于所选择的场景元素具有比所述第二内容类型的未被选择用于编码到所述第二内容流中的所述剩余场景元素的所述优先级更高的优先级，来选择所述第二内容类型的所述自适应数量的所述场景元素。

12.根据权利要求1或7所述的方法，其中基于所述目标比特率将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

将所述第一内容类型的所述剩余场景元素的第一子集转换为所述第二类型的场景元素；

基于所述目标比特率将所转换的场景元素编码到所述第二内容流中；

基于所述目标比特率，将所述第一内容类型的所述剩余场景元素的未被转换为所述第二类型的场景元素的第二子集编码到第三内容流中，所述第三内容流表示第三内容类型的编码；以及

生成所述传输流以包括所述第三内容流。

13.根据权利要求1或7所述的方法，其中生成所述传输流包括：

基于所述目标比特率来执行所述第一内容流和所述第二内容流的基线编码和空间编码。

14.根据权利要求1或7所述的方法，其中所述音频内容包括作为所述内容类型中的一者的语音对话，其中所述方法还包括：

基于所述目标比特率将所述语音对话编码到语音流中；以及

生成所述传输流以包括所述语音流。

15.根据权利要求1或7所述的方法，其中所述第一内容类型与描述所述第一内容类型的所述多个场景元素的属性的元数据相关联，

其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

基于所述目标比特率将与所述自适应数量的所述多个场景元素相关联的所述元数据编码到所述第一内容流的元数据中，

其中基于所述目标比特率将所述第一内容类型的所述剩余场景元素编码到所述第二内容流中包括：

基于所述目标比特率将与所述剩余场景元素相关联的所述元数据编码到所述第二内容流的元数据中，

并且其中生成所述传输流包括：

基于所述目标比特率将所述第一内容流的所述元数据和所述第二内容流的所述元数据组合成一个元数据传输流。

16.根据权利要求15所述的方法，其中与所述第一内容类型相关联的所述元数据包括用于帮助所述编码设备确定所述第一内容类型的所述多个场景元素的所述优先级以及帮助解码设备对所述第一内容类型的所述多个场景元素进行空间解码和渲染的元数据。

17.根据权利要求1或7所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

基于所述多个场景元素的所述优先级和多个目标比特率生成多个候选第一内容流，所述多个候选第一内容流对所述第一内容类型的自适应数量的所述场景元素进行编码，

其中基于所述目标比特率将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

基于所述多个目标比特率生成多个候选第二内容流，所述多个候选第二内容流对所述第二内容类型的自适应数量的场景元素进行编码，所述第二内容类型的自适应数量的场景元素包括与从所述音频内容接收的所述第二内容类型的场景元素组合的被转换成所述第二类型的场景元素的所述第一内容类型的所述剩余场景元素，

并且其中生成所述传输流包括：

基于用户的所述目标比特率来选择所述多个候选第一内容流中的一个候选第一内容流和所述多个候选第二内容流中的一个候选第二内容流以用于所述传输流。

18.根据权利要求17所述的方法，还包括：

在文件中存储所述多个候选第一内容流和所述多个候选第二内容流，

并且其中生成所述传输流包括：

基于用户的所述目标比特率从所述文件中选择所述多个候选第一内容流中的一个候选第一内容流和所述多个候选第二内容流中的一个候选第二内容流以用于所述传输流。

19.根据权利要求1或7所述的方法，其中将所述第一内容类型的所述自适应数量的所述多个场景元素编码到所述第一内容流中包括：

基于所述多个场景元素的所述优先级并且随着用户的所述目标比特率改变，生成所述第一内容流以对所述第一内容类型的自适应数量的所述场景元素进行编码；

并且其中基于所述目标比特率将所述第一内容类型的未被选择用于编码到所述第一内容流中的所述剩余场景元素编码到所述第二内容流中包括：

随着所述用户的所述目标比特率改变，生成所述第二内容流以对所述第二内容类型的自适应数量的场景元素进行编码，所述第二内容类型的自适应数量的场景元素包括与从所述音频内容接收的所述第二内容类型的场景元素组合的被转换成所述第二类型的场景元素的所述第一内容类型的所述剩余场景元素。

20.根据权利要求1或7所述的方法，其中所述第一内容类型包括音频声道或音频对象，其中所述第一内容类型的所述多个场景元素包括多个音频声道或多个音频对象，并且其中所述第二内容类型包括更高阶高保真度立体声响复制(HOA)。

21.一种被配置为对音频内容进行编码的系统，所述系统包括：

存储器，所述存储器被配置为存储指令；

处理器，所述处理器被耦接到所述存储器，并且被配置为执行存储在所述存储器中的所述指令以：

接收所述音频内容，所述音频内容由多个内容类型表示，

第一内容类型包括多个场景元素；

确定所述第一内容类型的所述多个场景元素的优先级；

基于所述目标比特率将所述第一内容类型的未被选择用于编码到所述第一内容流中的剩余场景元素编码到第二内容流中，所述第二内容流表示第二内容类型的编码；以及