CN110164483B

CN110164483B - 渲染音频节目的方法和系统

Info

Publication number: CN110164483B
Application number: CN201910622236.1A
Authority: CN
Inventors: C·费尔奇; A·格罗舍尔
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-10-03
Filing date: 2015-10-01
Publication date: 2021-03-02
Anticipated expiration: 2035-10-01
Also published as: US20170243590A1; US10089991B2; CN110364190A; JP6574027B2; US20200342884A1; CN110364190B; US10650833B2; EP3786955A1; JP2023052432A; JP7411125B2; CN106796809B; US11437048B2; CN106796809A; JP2024038032A; EP4216217A1; US20190035411A1; EP3201923B1; WO2016050900A1; US11948585B2; EP3201923A1

Abstract

本公开涉及渲染音频节目的方法和系统。描述了用于生成指示基于对象的音频节目的比特流(500)的方法(600)。比特流(500)包括容器序列(500)，该容器序列(500)的第一容器(501)包括用于基于对象的音频节目的多个子流(411,412,413,414)的多个子流实体(520)、以及呈现部分(510)。该方法(600)包括确定(601)一组对象通道(424)。该方法(600)还包括对于该组对象通道(424)提供(602)一组对象相关元数据(434,444)。另外，方法(600)包括将第一组对象通道帧和第一组对象相关元数据帧插入(603)第一容器(501)的相应的一组子流实体(520)。此外，方法(600)包括将呈现数据插入(604)呈现部分(510)。

Description

渲染音频节目的方法和系统

本申请是申请号为201580053322.5、申请日为2015年10月1日、发明名称为“个性化音频的智能访问”的发明专利申请的分案申请。

技术领域

本公开涉及音频信号处理，并且尤其涉及包括音频内容和支持音频内容的交互式渲染的元数据的音频数据比特流的编码、解码和交互式渲染。

背景技术

能够实现个性化音频体验的音频编码和解码系统通常需要携带个性化音频体验可能需要的所有音频对象通道和/或音频扬声器通道。特别地，音频数据/元数据通常为使得个性化音频节目不需要的部分不能容易地从包含这样的个性化音频节目的比特流中去除。

通常，用于音频节目的全部数据(音频数据和元数据)被共同存储在比特流内。接收器/解码器需要至少解析完整的元数据，以理解比特流的哪些部分(例如哪些扬声器通道和/或哪些对象通道)是个性化音频节目所需要的。此外，剥离个性化音频节目所不需要的比特流的部分通常需要显著大量的计算量。特别地，可能需要对于给定的回放场景/给定的个性化音频节目所不需要的比特流的部分进行解码。然后可能需要在回放期间使比特流的这些部分静音，以便生成个性化音频节目。此外，可能不能从比特流高效地生成子比特流，其中子比特流仅包括个性化音频节目所需的数据。

本文件解决了提供用于音频节目的比特流的技术问题，其使得比特流的解码器能够以资源高效的方式从比特流中得出个性化音频节目。

发明内容

根据一个方面，描述了一种用于生成指示基于对象的音频节目的比特流的方法。比特流包括用于基于对象的音频节目的音频节目帧的对应序列的容器序列。容器序列的第一容器包括用于基于对象的音频节目的多个子流的多个子流实体(entity)。此外，第一容器包括呈现(presentation)部分。该方法包括确定指示一组音频信号中的至少一些音频信号的音频内容的一组对象通道，其中该组对象通道包括对象通道帧的集合的序列。该方法还包括提供或确定用于该组对象通道的一组对象相关元数据，其中该组对象相关元数据包括对象相关元数据帧的集合的序列。基于对象的音频节目的第一音频节目帧包括该组对象通道帧的第一组对象通道帧和对应的第一组对象相关元数据帧。此外，该方法包括将第一组对象通道帧和第一组对象相关元数据帧插入到第一容器的多个子流实体的对应的一组对象通道子流实体中。另外，该方法包括将呈现数据插入呈现部分，其中呈现数据指示至少一个呈现。该呈现包括得自所述多个子流实体中的要被同时呈现的一组子流实体。

根据另一方面，描述了指示基于对象的音频节目的比特流。所述比特流包括用于所述基于对象的音频节目的音频节目帧的对应序列的容器序列。所述容器序列中的第一容器包括所述基于对象的音频节目的第一音频节目帧。第一音频节目帧包括一组对象通道帧的第一组对象通道帧和对应的第一组对象相关元数据帧。第一组对象通道帧指示一组音频信号中的至少一些音频信号的音频内容。第一容器包括用于所述基于对象的音频节目的多个子流的多个子流实体。多个子流实体分别包括用于所述第一组对象通道帧的一组对象通道子流实体。第一容器还包括具有呈现数据的呈现部分，其中呈现数据指示所述基于对象的音频节目的至少一个呈现。呈现包括要被同时呈现的得自所述多个子流实体中的一组子流实体。

根据另一方面，描述了一种用于从本公开中概述的比特流生成个性化音频节目的方法。该方法包括从呈现部分提取呈现数据，其中呈现数据指示个性化音频节目的呈现，并且其中呈现包括要被同时呈现的得自多个子流实体的一组子流实体。此外，该方法包括基于呈现数据从第一容器的一组对象通道子流实体提取一个或多个对象通道帧和对应的一个或多个对象相关元数据帧。

根据另一方面，描述了一种用于生成指示基于对象的音频节目的位流的系统(例如，编码器)。比特流包括用于所述基于对象的音频节目的音频节目帧的对应序列的容器序列。容器序列中的第一容器包括用于该基于对象的音频节目的多个子流的多个子流实体。第一容器还包括呈现部分。该系统被配置用于确定指示一组音频信号中的至少一些音频信号的音频内容的一组对象通道，其中该组对象通道包括对象通道帧的集合的序列。此外，该系统被配置用于为该组对象通道确定一组对象相关元数据，其中该组对象相关元数据包括对象相关元数据帧的集合的序列。基于对象的音频节目的第一音频节目帧包括该组对象通道帧中的第一组对象通道帧和对应的第一组对象相关元数据帧。另外，该系统被配置用于将所述第一组对象通道帧和所述第一组对象相关元数据帧插入所述第一容器的所述多个子流实体的相应的一组对象通道子流实体中。此外，该系统被配置用于将呈现数据插入所述呈现部分中，其中所述呈现数据指示至少一个呈现，并且其中至少一个呈现包括要被同时呈现的所述多个子流实体中的一组子流实体。

根据另一方面，描述了一种用于从包括基于对象的音频节目的比特流生成个性化音频节目的系统。该比特流如在本公开中所描述的。该系统被配置用于包括从呈现部分提取呈现数据，其中呈现数据指示个性化音频节目的呈现，并且其中呈现包括要被同时呈现的得自多个子流实体的一组子流实体。此外，该系统被配置用于基于呈现数据从第一容器的一组对象通道子流实体提取一个或多个对象通道帧和对应的一个或多个对象相关元数据帧。

根据另一方面，描述了一种软件程序。软件程序可以适于在处理器上执行，以及当在处理器上执行时执行本公开中概述的方法步骤。

根据另一方面，描述了一种存储介质。存储介质可以包括适于在处理器上执行并且当在处理器上执行时执行本公开中概述的方法步骤的软件程序。

根据另一方面，描述了一种计算机程序产品。计算机程序可以包括用于当在计算机上执行时执行本公开中概述的方法步骤的可执行指令。

应当注意，包括其在本专利申请中概述的优选实施例的方法和系统可以单独使用或与本公开中公开的其他方法和系统组合使用。此外，本专利申请中概述的方法和系统的所有方面可以任意组合。特别地，权利要求的特征可以以任意方式彼此组合。

附图说明

下面参考附图以示例性方式解释本发明，其中

图1示出了示例音频处理链的框图；

图2示出了示例音频编码器的框图；

图3示出了示例音频解码器的框图；

图4示出了音频节目的示例子流和示例呈现数据；

图5示出了包括呈现数据的比特流的示例结构；以及

图6示出了用于生成包括呈现数据的比特流的示例方法的流程图。

具体实施方式

如上所述，本公开针对提供用于通用音频节目的比特流的技术问题，其允许比特流的解码器以资源高效的方式从比特流生成个性化音频节目。特别地，个性化音频节目的生成应当以相对低的计算复杂度来执行。此外，包括通用音频节目的比特流应当展现相对低的比特率。

图1示出了示例音频处理链(也称为音频数据处理系统)的框图。该系统包括如下所示的耦合在一起的以下元件：捕获单元1，制作单元3(其包括编码子系统)，传送子系统5，解码器7，对象处理子系统9，控制器10和渲染子系统11。在所示系统的变型中，省略了一个或多个元件，或者包括附加的音频数据处理单元。通常，元件7,9,10和11被包括在回放和/或解码系统(例如，终端用户的家庭影院系统)中。

捕获单元1通常被配置为生成包括音频内容的PCM(时域)样本，并且输出PCM样本。样本可以指示由麦克风捕获的多个音频流(例如，在体育赛事或其他观众赛事)。典型地由广播者操作的制作单元3被配置为接受PCM样本作为输入并且输出指示音频内容的基于对象的音频节目。该节目通常是或包括指示音频内容和呈现数据的编码(例如，压缩)音频比特流，该呈现数据允许从比特流中导出不同的个性化音频节目。指示音频内容的编码比特流的数据在本文中有时被称为“音频数据”。从单元3输出的基于对象的音频节目可指示(即，可包括)音频数据的多个扬声器通道(扬声器通道的“床”)，音频数据的多个对象通道，以及对象相关的元数据。音频节目可以包括呈现数据，该呈现数据可以用于选择扬声器通道和/或对象通道的不同组合，以便生成不同的个性化音频节目(其也可以被称为不同的体验)。作为示例，基于对象的音频节目可以包括主混合，其继而包括指示扬声器通道床的音频内容，指示至少一个用户可选择对象通道(以及可选的至少一个其他对象通道)的音频内容，以及与每个对象通道相关联的对象相关元数据。该节目还可以包括至少一个副混合，其包括指示至少一个其他对象通道(例如，至少一个用户可选择对象通道)的音频内容和/或对象相关元数据。音频节目可以指示一个或多个扬声器通道床，或不指示床。例如，音频节目(或特定混合/呈现)可以指示两个或更多个扬声器通道床(例如，5.1通道中立人群噪声床，2.0通道主队人群噪声床，和2.0通道客队人群噪声床)，包括至少一个用户可选择的床(其可以使用用于用户选择对象通道内容或配置的用户接口而被选择)和默认床(其将在用户没有选择另一个床的情况下被渲染)。可以通过指示回放系统的扬声器组的配置(例如，初始配置)的数据来确定默认床，并且可选地，用户可以选择将替代默认床被渲染的另一床。

图1的传送子系统5被配置为存储和/或发送(例如，广播)由单元3产生的音频节目。解码器7接受(接收或读取)由传送子系统5传送的音频节目，并解码节目(或其的一个或多个被接受的元素)。对象处理子系统9被耦合以(从解码器7)接收所传送的音频节目的经解码的扬声器通道，对象通道和对象相关的元数据。子系统9被耦合和配置为向渲染子系统11输出由音频节目指示的对象通道的全集的所选子集、以及相应的对象相关元数据。子系统9通常还被配置为使来自解码器7的经解码的扬声器通道未改变地通过(到达子系统11)。

由子系统9执行的对象通道选择可以由用户选择(如由从控制器10赋予(assert)子系统9的控制数据指示)和/或子系统9已被编程或以其它方式配置以实现的规则(例如，指示条件和/或约束)来确定。这样的规则可以由音频节目的对象相关元数据和/或由(例如，从控制器10或另一外部源)赋予子系统9的其他数据(例如，指示回放系统的扬声器阵列的能力和组织的数据)来确定和/或通过预配置(例如，编程)子系统9来确定。控制器10(经由由控制器10实现的用户接口)可以向用户提供(例如，在触摸屏上显示)对象和“床”扬声器通道内容的可选择“预设”混合或呈现的菜单或控制板(palette)。可选择预设混合或呈现可以由包括在音频节目内的呈现数据确定，并且还可能由子系统9实现的规则(例如，子系统9已经被预先配置来实现的规则)来确定。用户通过向控制器10输入命令(例如，通过致动其触摸屏)来从可选择混合/呈现中进行选择，并且作为响应，控制器10将对应的控制数据赋予子系统9。

图1的渲染子系统11被配置为渲染由子系统9的输出确定的音频内容，以供回放系统的扬声器(未示出)进行回放。子系统11被配置为将由对象处理子系统9选择的对象通道所确定的音频对象(例如，默认对象，和/或已经作为使用控制器10的用户交互的结果被选择的用户选择的对象)通过使用与每个所选对象相关联的从子系统9输出的渲染参数(例如，空间位置和水平的用户选择值和/或默认值)来映射到可用的扬声器通道。至少一些渲染参数可以由从子系统9输出的对象相关元数据来确定。渲染系统11还接收子系统9通过的扬声器通道的床。通常，子系统11是智能混音器，并且被配置为确定可用扬声器的扬声器馈送，该确定包括将一个或多个选择的(例如，默认选择的)对象映射到多个单独的扬声器通道中的每一个，并且将对象与由节目的扬声器通道床的每个对应扬声器通道指示的“床”音频内容进行混合。

图2是被配置为生成用于广播的基于对象的音频节目(和对应的视频节目)的广播系统的框图。一组X个麦克风(其中X是大于0,1或2的整数)，包括图2的系统中的麦克风100,101,102和103，被定位为捕获要包括在音频节目中的音频内容，并且它们的输出耦合到音频控制台104的输入。音频节目可以包括指示观众赛事(例如，足球或橄榄球比赛，汽车或摩托车比赛或另一个体育比赛)中的或者在该处的气氛和/或对于其的评论的交互音频内容。音频节目可以包括多个音频对象(包括用户可选择对象或对象集合，并且通常还包括在用户没有进行对象选择的情况下将被渲染的对象的默认集合)和音频节目的通道扬声器的混合(或“床”)。扬声器通道的床可以是可以包括在不包括对象通道的传统广播节目中的类型的扬声器通道的常规混合(例如，5.1通道混合)。

麦克风的子集(例如，麦克风100和101，以及可选地、其输出耦合到音频控制台104的其它麦克风)可以是常规麦克风阵列，其在操作中捕获音频(要被编码并被传送作为扬声器通道的床)。在操作中，麦克风的另一子集(例如，麦克风102和103，以及可选地、其输出耦合到音频控制台104的其他麦克风)捕获要被编码和传送作为节目的对象通道的音频(例如，人群噪声和/或其它“对象”)。例如，图2的系统的麦克风阵列可以包括：被实现为声场麦克风并且永久地安装在体育场中的至少一个麦克风(例如，麦克风100)，指向支持一个队(例如，主队)的观众的位置的至少一个立体声麦克风(例如，被实现为Sennheiser MKH416麦克风或另一立体声麦克风的麦克风102)，以及指向支持另一队(例如，客队)的观众的位置的至少一个其他立体声麦克风(被实现为Sennheiser MKH416麦克风或另一立体声麦克风的麦克风103)。

图2的广播系统可以包括位于体育场(或其他赛事位置)外部的移动单元(其可以是卡车，并且有时被称为“赛事车”)，其是来自体育场(或其他赛事位置)中的麦克风的音频馈送的第一接收者。赛事车生成基于对象的音频节目(待广播)，这包括对来自麦克风的音频内容进行编码以供作为音频节目的对象通道传送，生成对应的对象相关元数据(例如，指示每个对象应当在该处被渲染的空间位置)，并且将这样的元数据包括在音频节目中，和/或对来自一些麦克风的音频内容进行编码以便作为音频节目的扬声器通道的床来传送。

例如，在图2系统中，控制台104、对象处理子系统106(耦合到控制台104的输出)、嵌入子系统108和贡献编码器110可以安装在赛事车中。在子系统106中生成的基于对象的音频节目可以与视频内容(例如，来自定位在体育场中的摄像机)组合(例如，在子系统108中)，以生成组合音频和视频信号，该信号然后被编码(例如，通过编码器110)，从而生成编码的音频/视频信号以供广播(例如，通过图1的传送子系统5)。应当理解，解码和渲染这种编码的音频/视频信号的回放系统将包括用于解析所传送的音频/视频信号的音频内容和视频内容的子系统(在图中未具体示出)，以及用于解码和渲染音频内容的子系统，以及用于解码和渲染视频内容的另一子系统(图中未具体示出)。

控制台104的音频输出可以包括例如指示在体育赛事捕获的声音的5.1扬声器通道床(在图2中标记为“5.1中立”)、例如指示来自出席赛事的主队球迷的人群噪声的立体声对象通道(标记为“2.0主队”)的音频内容、例如指示来自出席赛事的客队球迷的人群噪声的立体声对象通道(标记为“2.0客队”)的音频内容、例如指示来自主队的城市的播音员的评论的对象通道音频内容(标记为“1.0comm1”)、例如指示来自客队的城市的播音员的评论的对象通道音频内容(标记为“1.0comm2”)、以及例如指示当比赛用球被体育赛事参与者击中时所产生的声音的对象通道音频内容(标记为“1.0踢球”)。

对象处理子系统106被配置为将来自控制台104的音频流组织(例如，分组)到对象通道(例如，将标记为“2.0客队”的左和右音频流分组成访问人群噪声对象通道)和/或对象通道的集合中，以生成指示对象通道(和/或对象通道集合)的对象相关元数据，并且将对象通道(和/或对象通道集合)、对象相关元数据和扬声器通道床(从来自控制台104的音频流确定)编码为基于对象的音频节目(例如，编码为AC-4比特流的基于对象的音频节目)。作为替代，编码器110可以被配置为生成基于对象的音频节目，其可以被编码，例如编码为AC-4比特流。在这种情况下，对象处理子系统106可以专注于产生音频内容(例如，使用Dolby E+格式)，而编码器110可以专注于产生用于发射或分发的比特流。

子系统106还可以被配置为渲染(并且在一组演播室监视器扬声器上播放)对象通道(和/或对象通道组)和扬声器通道床的至少所选子集(包括使用对象相关元数据生成指示所选择的对象通道和扬声器通道的混合/呈现)，使得回放声音可以由控制台104和子系统106的操作者监视(如图2的“监视路径”所指示的)。

子系统104的输出和子系统106的输入之间的接口可以是多通道音频数字接口(“MADI”)。

在操作中，图2系统的子系统108可以将子系统106中生成的基于对象的音频节目与视频内容(例如，来自位于体育场中的摄像机)组合，以生成被赋予编码器110的组合音频和视频信号。子系统108的输出和子系统110的输入之间的接口可以是高清晰度串行数字接口(“HD-SDI”)。在操作中，编码器110对子系统108的输出进行编码，从而产生编码音频/视频信号以用于广播(例如，通过图1的传送子系统5)。

广播设施(例如，图2系统的子系统106,108和110)可以被配置为生成基于对象的音频节目的元素的不同呈现。这种展示的示例包括5.1平坦混合、国际混合和家用混合。例如，所有呈现可以包括公共的扬声器通道床，但是呈现的对象通道(和/或由呈现确定的可选择对象通道的菜单，和/或用于渲染和混合对象通道的可选或不可选渲染参数)可以根据呈现而不同。

音频节目的对象相关元数据(或回放或渲染系统的预配置，其未由与音频节目一起传送的元数据指示)可提供关于对象和床(扬声器通道)内容的可选择混合/呈现的约束或条件。例如，DRM层级可以被实现为允许用户对包括在基于对象的音频节目中的一组对象通道进行分层访问。如果用户支付更多的钱(例如，给广播公司)，则用户可以被授权来解码，选择和渲染音频节目的更多对象通道。

图3是示例回放系统的框图，该回放系统包括解码器20，对象处理子系统22，空间渲染子系统24，控制器23(其实现用户接口)，以及可选地还包括数字音频处理子系统25,26和27，它们如图所示地耦合。在一些实施方式中，图3系统中的元件20,22,24,25,26,27,29,31和33可以被实现为机顶设备。

在图3的系统中，如图3所示，解码器20被配置为接收和解码指示基于对象的音频节目的编码信号。音频节目指示音频内容，其包括例如两个扬声器通道(即，至少两个扬声器通道的“床”)。音频节目还指示至少一个用户可选择对象通道(以及可选地至少一个其他对象通道)和对应于每个对象通道的对象相关元数据。每个对象通道指示音频对象，因此为了方便起见，对象通道在本文中有时被称为“对象”。音频节目可以包括在指示音频对象、对象相关元数据和/或扬声器通道床的AC-4比特流内。通常，各个音频对象是单声编码或立体声编码的(即，每个对象通道指示对象的左通道或右通道，或指示对象的单声通道)，床可以是传统的5.1混合，并且解码器20可以被配置为同时解码预定数量(例如16个或更多个)的音频内容通道(包括例如床的六个扬声器通道，以及例如十个或更多个对象通道)。输入比特流可以指示特定数量(例如，多于十个)的音频对象，并且并非所有输入比特流可能需要被解码以实现特定混合/呈现。

如上所述，音频节目可以包括零个、一个或多个扬声器通道床以及一个或多个对象通道。扬声器通道床和/或对象通道可以形成包括音频节目的比特流的子流。因此，比特流可以包括多个子流，其中子流指示扬声器通道床或一个或多个对象通道。此外，比特流可以包括(例如，包括在比特流的呈现部分内的)呈现数据，其中呈现数据可以指示一个或多个不同的呈现。呈现可以定义子流的特定混合。换句话说，呈现可以定义扬声器通道床和/或一个或多个对象通道，它们要混合在一起以便提供个性化音频节目。

图4示出了多个子流411,412,413,414。每个子流411,412,413,414包括音频数据421,424，其中音频数据421,424可以对应于扬声器通道的床或音频对象的音频数据(即，对应于音频通道)。作为示例，子流411可以包括扬声器通道421的床，并且子流414可以包括对象通道424。此外，每个子流411,412,413,414可以包括与音频数据421,424相关联并且可以用于渲染相关联的音频数据421,424的元数据431,434(例如，默认元数据)。作为示例，子流411可以包括扬声器相关的元数据(用于扬声器通道421的床)，并且子流414可以包括对象相关的元数据(用于对象通道424)。另外，子流411,412,413,414可以包括替代元数据441,444，以便提供用于渲染相关联的音频数据421,424的一个或多个替代方式。

此外，图4示出了不同的呈现401,402,403。呈现401指示将用于呈现401的子流411,412,413,414的选择，由此定义了个性化音频节目。此外，呈现401可以指示要用于呈现401的所选子流411的元数据431,441(例如，默认元数据431或一个替代元数据441)。在所示示例中，呈现401描述了包括子流411,412,414的个性化音频节目。

这样，呈现401,402,403的使用提供了用于在通用的基于对象的音频节目内发信号通知不同的个性化音频节目的高效手段。特别地，呈现401,402,403可以使得解码器7,20可以容易地选择特定呈现401所需的一个或多个子流411,412,413,414，而无需对通用的基于对象的音频节目的完整比特流进行解码。此外，再复用器(图3中未示出)可以被配置为从完整比特流中容易地提取一个或多个子流411,412,413,414，以便生成用于特定呈现401的个性化音频节目的新比特流。换句话说，从具有相对大量的渲染401,402,403的比特流，可以高效地生成承载减少数量的呈现的新比特流。可能的情况是具有相对大量的呈现的相对大的比特流到达STB。STB可以专注于个性化(即，选择呈现)，并且可以被配置为重新封装单一呈现比特流(不解码音频数据)。单一呈现比特流(和音频数据)然后可以在适当的远程解码器，例如，在AVR(音频/视频接收器)内或在诸如平板PC的移动家庭设备内，被解码。

解码器(例如，图3的解码器20)可以解析呈现数据，以便识别用于渲染的呈现401。此外，解码器200可以从呈现数据指示的位置提取呈现401所需的子流411,412,414。在提取子流411,412,414(扬声器通道，对象通道和相关联的元数据)之后，解码器可以对(例如，仅仅)所提取的子流411,412,414执行任何必要的解码。

比特流可以是AC-4比特流，并且呈现401,402,403可以是AC-4呈现。这些呈现使得能够容易地访问特定呈现所需的比特流的部分(音频数据421和元数据431)。以这种方式，解码器或接收器系统20可以容易地访问比特流的所需部分，而不需要深入解析比特流的其他部分。这例如还使得能够实现如下的可能性：仅将比特流的所需部分转发到另一设备，而不需要重新构建整个结构或甚至解码和编码比特流的子流411,412,413,414。特别地，可以提取从比特流导出的简化结构。

再次参考图3，用户可以使用控制器23来选择要渲染的对象(由基于对象的音频节目指示)。作为示例，用户可以选择特定呈现401。控制器23可以是被编程为实现与图3的其他元件兼容的用户接口(例如，iPad App)的手持处理设备(例如，iPad)。用户接口可以向用户提供(例如，在触摸屏上显示)对象和/或“床”扬声器通道内容的可选呈现401,402,403的菜单或控制板(例如“预设”混合)。呈现401,402,403可以与菜单或控制板内的名称标签一起被提供。可选择的呈现401,402,403可以由比特流的呈现数据确定，并且可能还由子系统22实现的规则(例如，子系统22已经被预先配置来实现的规则)来确定。用户可以通过向控制器23输入命令(例如，通过激活其触摸屏)来从可选择的呈现中进行选择，并且作为响应，控制器23可以向子系统22赋予相应的控制数据。

响应于基于对象的音频节目，并且响应于来自控制器23的指示所选择的呈现401的控制数据，解码器20解码(如果必要的话)所选呈现401的扬声器通道床的扬声器通道，并且向子系统22输出解码扬声器通道。响应于基于对象的音频节目，并且响应于来自控制器23的指示所选择的呈现401的控制数据，解码器20解码(如果必要的话)所选择的对象通道，并且向子系统22输出所选择的(例如解码的)对象通道(每个通道可以是脉冲编码调制或“PCM”比特流)，以及与所选择的对象通道相对应的对象相关元数据。

由解码的对象通道指示的对象通常是或包括用户可选择的音频对象。例如，如图3所示，解码器20可以提取5.1扬声器通道，指示来自主队城市的播音员的评论的对象通道(“评论-1单声”)，指示来自客队城市的播音员的评论的对象通道(“评论-2单声”)，指示来自处于体育赛事的主队的球迷的人群噪声的对象通道(“球迷(主队)”)，指示当比赛用球被体育赛事参与者击中时所产生的声音的左和右对象通道(“球声立体声”)，以及指示特殊效果的四个对象通道(“效果4x单声”)。“评论-1单声”，“评论-2单声”，“球迷(主队)”，“球声立体声”和“效果4x单声”对象通道中的任何一个可被选择作为呈现401的一部分，它们中的每个所选择的将从子系统22传递到渲染子系统24(在解码器20中经历任何必要的解码之后)。

子系统22被配置为输出由音频节目指示的对象通道的全集中的所选子集，以及音频节目的对应的对象相关元数据。对象选择可以通过用户选择(如由从控制器23赋予子系统22的控制数据所指示的)和/或子系统22已经被编程或以其它方式配置为实现的规则(例如，指示条件和/或约束)来确定。这样的规则可以由节目的对象相关元数据和/或由(例如，从控制器23或另一外部源)赋予子系统22的其他数据(例如，指示回放系统的扬声器阵列的能力和组织的数据)确定，和/或通过预配置(例如，编程)子系统22确定。如上所述，比特流可以包括提供对象和“床”扬声器通道内容的一组可选“预设”混合(即呈现401,402,403)的呈现数据。子系统22通常使得来自解码器20的未改变的解码的扬声器通道通过(到子系统24)，并处理被赋予的对象通道中所选的通道。

图3的空间渲染子系统24(或具有至少一个下游设备或系统的子系统24)被配置为渲染从子系统22输出的音频内容，以供用户的回放系统的扬声器回放。可选地包括的数字音频处理子系统25,26和27中的一个或多个可以在子系统24的输出上实现后处理。

空间渲染子系统24被配置为将由对象处理子系统22选择的音频对象通道使用从子系统22输出的与每个选择的对象相关联的渲染参数(例如，空间位置和水平的用户选择值和/或默认值)映射到可用的扬声器通道。空间渲染系统24还接收子系统22通过的解码的扬声器通道床。通常，子系统24是智能混合器，并且被配置为确定可用扬声器的扬声器馈送，该确定包括将一个，两个或多于两个的选择的对象通道映射到多个单独的扬声器通道中的每一个，并且将选择的对象通道与由节目的扬声器通道床的每个对应的扬声器通道指示的“床”音频内容相混合。

要被驱动以渲染音频的扬声器可以位于回放环境中的任意位置；而不仅仅在(标称)水平面中。在一些这样的情况下，包括在节目中的元数据指示用于使用扬声器的三维阵列在任何表观空间位置(在三维体积中)渲染节目的至少一个对象的渲染参数。例如，对象通道可以具有对应的元数据，该对应的元数据指示要在该处渲染(由对象通道指示的)对象的视空间位置的三维轨迹。轨迹可以包括“地板”位置的序列(在播放环境的假设位于地板上的扬声器的子集的平面中或者另一水平平面中)，以及“地板上”位置的序列(每个位置通过驱动假设位于回放环境的至少一个其他水平平面中的扬声器的子集来确定)。在这种情况下，可以根据本发明执行渲染，使得可以驱动扬声器发出(由相关对象通道确定的)声音，该声音将被感知为从包含该轨迹的三维空间中的对象位置序列发出，与由“床”音频内容确定的声音混合。子系统24可以被配置为实现这样的渲染或其步骤，其中渲染的剩余步骤由下游系统或设备(例如，图3的再现子系统35)执行。

可选地，数字音频处理(DAP)级(例如，用于多个预定输出扬声器通道配置中的每一个的一个)被耦合到空间渲染子系统24的输出，以对空间渲染子系统的输出执行后处理。这种处理的示例包括智能均衡或(在立体声输出的情况下)扬声器虚拟化处理。

图3系统的输出(例如，空间渲染子系统或在空间渲染级之后的DAP级的输出)可以是PCM比特流(其确定用于可用扬声器的扬声器馈送)。例如，在用户的回放系统包括扬声器的7.1阵列的情况下，系统可以输出确定用于该阵列的扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或者该比特流的后处理版本(在DAP 25生成)。对于另一示例，在用户的回放系统包括5.1扬声器阵列的情况下，系统可以输出确定用于该阵列的扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或者该比特流的后处理版本(在DAP 26中生成)。作为另一示例，在用户的回放系统仅包括左和右扬声器的情况下，系统可以输出确定用于左和右扬声器的扬声器馈送的PCM比特流(在子系统24中生成)，或者该比特流的后处理版本(在DAP27中生成)。

图3系统可选地还包括再编码子系统31和33中的一个或两者。再编码子系统31被配置为将从DAP 25输出的PCM比特流(指示用于7.1扬声器阵列的馈送)再编码为编码比特流(例如，AC-4或AC-3比特流)，并且所得到的编码(压缩)AC-3比特流可以从系统输出。再编码子系统33被配置为将从DAP 27输出的PCM比特流(指示5.1扬声器阵列的馈送)再编码为编码比特流(例如，AC-4或AC-3比特流)，并且所得到的编码(压缩)比特流可以从系统输出。

图3系统还可选地包括再编码(或格式化)子系统29和耦合以接收子系统29的输出的下游渲染子系统35。子系统29被耦合以接收指示所选择的音频对象(或音频对象的默认混合)、对应的对象相关元数据和扬声器通道床的数据(从子系统22输出)，并且被配置为再编码(和/或格式)这样的数据以供子系统35渲染。可以在AVR或者条形音箱(soundbar)(或者子系统29下游的其他系统或者设备)中实现的子系统35被配置为响应于子系统29的输出生成用于可用的回放扬声器(扬声器阵列36)的扬声器馈送(或者确定扬声器馈送的比特流)。例如，子系统29可以被配置为通过将指示所选(或默认)音频对象、对应元数据和扬声器通道床的数据再编码为用于在子系统35中渲染的合适格式来生成编码音频，以及以编码音频(例如，经由HDMI链路)传输到子系统35。响应于由子系统35产生(或由子系统35的输出确定)的扬声器馈送，可用扬声器36将发出指示扬声器通道床和所选(或默认)对象的混合的声音，其中对象具有由子系统29的输出的对象相关元数据确定的表观源位置。当包括子系统29和35时，可选地从系统中省略渲染子系统24。

如上所述，使用呈现数据是有益的，因为它使得解码器20能够高效地选择特定呈现401所需的一个或多个子流411,412,413,414。鉴于此，解码器20可以被配置为提取特定呈现401的一个或多个子流411,412,413,414，并且重建(通常仅)包括该一个或多个子流411,412,413,414的新比特流。可以在不需要实际解码和再编码一个或多个子流411,412,413,414的情况下执行新比特流的提取和重建。因此，可以以资源高效的方式来执行用于特定呈现401的新比特流的生成。

图3的系统可以是用于渲染基于对象的音频的分布式系统，其中渲染的一部分(即，至少一个步骤)(例如，要渲染的音频对象的选择和每个所选对象的渲染的特性的选择，如由图3的系统的子系统22和控制器23执行)在第一子系统(例如，在机顶设备中实现的图3的元件20,22和23，或机顶设备和手持控制器)实现，并且渲染的另一部分(例如，响应于第一子系统的输出生成扬声器馈送或确定扬声器馈送的信号的沉浸式渲染)在第二子系统(例如子系统35，在AVR或条形音箱中实现)中实现。可以提供延迟管理以应对执行音频渲染(以及对应于正在被渲染的音频的视频的任何处理)的部分的不同时间和不同子系统。

如图5所示，通用音频节目可以在包括容器501的序列的比特流500中传送。每个容器501可以包括用于音频节目的特定帧的音频节目的数据。音频节目的特定帧可对应于音频节目的特定时间段(例如，20毫秒的音频节目)。因此，容器501的序列中的每个容器501可以携带用于通用音频节目的帧序列的帧的数据。用于帧的数据可以包括在容器501的帧实体502内。可以使用比特流500的语法元素来识别帧实体。

如上所述，比特流500可以携带多个子流411,412,413,414，其中每个子流411包括扬声器通道421的床或对象通道424。因此，帧实体502可以包括多个对应的子流实体520。此外，帧实体502可以包括呈现部分510(也称为内容表，TOC，部分)。呈现部分510可以包括TOC数据511，其可以指示包括在呈现部分510内的多个呈现401,402,403。此外，呈现部分510可以包括一个或多个呈现实体512，其携带分别用于定义一个或多个呈现401,402,403的数据。子流实体520可以包括用于携带子流411的帧的音频数据421,424的内容子实体521。此外，子流实体520可以包括用于携带子流411的帧的对应元数据431,441的元数据子实体522。

图6示出了用于生成指示基于对象的音频节目(即通用音频节目)的比特流500的示例方法600的流程图。比特流500展现比特流格式，使得比特流500包括用于基于对象的音频节目的音频节目帧的对应序列的容器501的序列。换句话说，基于对象的音频节目的每个帧(即，每个时间段)可以被插入到可以由比特流格式定义的容器序列的容器中。可以使用比特流格式的特定容器语法元素来定义容器。作为示例，比特流格式可以对应于AC-4比特流格式。换句话说，要产生的比特流500可以是AC-4比特流。

此外，比特流格式可以为使得容器501的序列中的第一容器501(即，容器501的序列中的至少一个容器501)包括用于基于对象的音频节目的多个子流411,412,413,414的多个子流实体520。如上所述，音频节目可以包括多个子流411,412,413,414，其中每个子流411,412,413,414可以包括扬声器通道421的床或对象通道424或两者。比特流格式可以为使得容器501的序列中的每个容器501提供用于对应子流411,412,413,414的专用子流实体520。具体地，每个子流实体520可以包括与对应子流411,412,413,414的帧相关的数据。子流411,412,413,414的帧可以是扬声器通道421的床的帧，其在这里被称为扬声器通道帧。作为替代，子流411,412,413,414的帧可以是对象通道的帧，其在本文中被称为对象通道帧。子流实体520可以由比特流格式的对应语法元素定义。

此外，第一容器501可以包括呈现部分510。换句话说，比特流格式可以允许为容器501的序列的所有容器501定义呈现部分510(例如，使用适当的语法元素)。呈现部分510可以用于为可以从(通用)基于对象的音频节目生成的不同的个性化音频节目定义不同的呈现401,402,403。

方法600包括确定601指示一组音频信号中的至少一些音频信号的音频内容的一组对象通道424。该组音频信号可以指示捕获的音频内容，例如，已经使用在图2的上下文中描述的系统捕获的音频内容。该组对象通道424可以包括多个对象通道424。此外，该组对象通道424包括对象通道帧集合的序列。换句话说，每个对象通道包括一系列对象通道帧。因此，该组对象通道包括对象通道帧集合的序列，其中在特定时刻的一组对象通道帧包括在该特定时刻的该组对象通道的对象通道帧。

此外，方法600包括提供或确定602用于对象通道424的集合的一组对象相关元数据434,444，其中该组对象相关元数据434,444包括对象相关元数据帧的集合的序列。换句话说，对象通道的对象相关元数据被分割成对象相关元数据帧的序列。因此，用于对应的对象通道集合的对象相关元数据的集合包括对象相关元数据帧的集合的序列。

这样，可以为对应的对象通道帧提供对象相关元数据帧(例如，使用在图2的上下文中描述的对象处理器106)。如上所述，对象通道424可以被提供有对象相关元数据434,444的不同变体。作为示例，可以提供对象相关元数据434的默认变体和对象相关元数据444的一个或多个替代变体。通过这样做，可以模拟不同的视角(例如,体育场内的不同位置)。作为替代或附加地，扬声器通道421的床可以设置有扬声器相关元数据431,441的不同变体。作为示例，可以提供扬声器相关元数据431的默认变体和扬声器相关元数据441的一个或多个替代变体。通过这样做，可以限定扬声器通道421的床的不同旋转。类似于对象相关元数据，扬声器相关元数据也可以是时变的。

这样，音频节目可以包括一组对象通道。因此，基于对象的音频节目的第一音频节目帧可以包括来自对象通道帧集合的序列的第一组对象通道帧和来自对象相关元数据帧集合的序列的对应的第一组对象相关元数据帧。

方法600还可以包括将第一组对象通道帧和第一组对象相关元数据帧插入603第一容器501的多个子流实体520的相应的一组对象通道子流实体520中。这样，可以为基于对象的音频节目的每个对象通道421生成子流411,412,413,414。每个子流411,412,413,414可以在比特流500内经由携带子流411,412,413,414的相应子流实体520被识别。作为其结果，不同的子流411,412,413,414可以由解码器7,20以资源有效的方式被识别并且可以被提取，而不需要对完整的比特流500和/或子流411,412进行解码413,414。

此外，方法600包括将呈现数据插入604比特流500的呈现部分510中。呈现数据可以指示至少一个呈现401，其中，至少一个呈现401可以定义个性化音频节目。特别地，至少一个呈现401可以包括或可以指示得自多个子流实体520的要被同时渲染的一组子流实体520。这样，呈现401可以指示基于对象的音频节目的子流411,412,413,414中的哪一个或多个将被选择用于生成个性化音频节目。如上所述，呈现401可以识别子流411,412,413,414的全集的子集(即，小于子流411,412,413,414的总数)。

呈现数据的插入使得对应的解码器7,20能够从比特流500中识别并提取一个或多个子流411,412,413,414，以生成个性化音频节目，而不需要解码或解析整个比特流500。

方法600可以包括确定扬声器通道421的床，其指示该组音频信号中的一个或多个音频信号的音频内容。扬声器通道421的床可以包括以下各项中的一个或多个：2.0通道，5.1通道，5.1.2通道，7.1通道和/或7.1.4通道。扬声器通道421的床可以用于提供个性化音频节目的基础。此外，一个或多个对象通道424可以用于提供个性化音频节目的个性化变体。

扬声器通道421的床可以包括扬声器通道帧的序列，并且基于对象的音频节目的第一音频节目帧可以包括扬声器通道帧的序列的第一扬声器通道帧。方法600还可以包括将第一扬声器通道帧插入到第一容器501的多个子流实体520的扬声器通道子流实体520中。呈现部分510的呈现401然后可以包括或指示扬声器通道子流实体520。作为替代或附加地，呈现401可包括或可指示得自该组对象通道子流实体的一个或多个对象通道子流实体520。

方法600还可以包括为扬声器通道421的床提供扬声器相关元数据431,441。扬声器相关元数据431,441可以包括扬声器相关元数据帧的序列。可以将来自扬声器相关元数据帧的序列的第一扬声器相关元数据帧插入到扬声器通道子流实体520中。应当注意，扬声器通道421的多个床可以插入对应的多个扬声器通道子流实体520中。

如在图4的上下文中概述的，呈现数据可以指示包括用于不同个性化音频节目的子流实体520的不同集合的多个呈现401,402,403。子流实体520的不同集合可以包括一个或多个扬声器通道子流实体520的不同组合、一个或多个对象通道子流实体520和/或元数据434,444的变体(例如，默认元数据434或替代元数据444)的不同组合。

呈现部分510内的呈现数据可以被分割成用于不同呈现401,402,403的不同呈现数据实体512(例如，使用比特流格式的适当语法元素)。方法600还可以包括将内容表(TOC)数据插入呈现部分510。TOC数据可以指示呈现部分510内的不同呈现数据实体512的位置和/或呈现部分510内包括的不同呈现401,402,403的标识符。因此，TOC数据可以由对应的解码器7,20使用以高效的方式识别和提取不同的呈现401,402,403。作为替代或者附加地，用于不同呈现401,402,403的呈现数据实体512可以顺序地包括在呈现部分510内。如果TOC数据不指示不同的呈现数据实体512的位置，则对应的解码器7,20可以通过顺序地解析不同的呈现数据实体512来识别和提取不同的呈现401,402,403。这可以是用于用信号通知不同的呈现401,402,403的比特率高效的方法。

子流实体520可以包括用于音频内容或音频数据424的内容子实体521和用于相关元数据434,444的元数据子实体522。子实体521,522可以通过比特流格式的适当语法元素被标识。通过这样做，相应的解码器7,20可以以资源高效的方式识别音频数据和对象通道或扬声器通道床的对应元数据。

如上所述，用于对应通道帧的元数据帧可以包括元数据的多个不同变体或组434,444。呈现401可以指示将元数据的哪个变体或组434要用于渲染对应的通道帧。通过这样做，可以增加音频节目的个性化程度(例如，收听/观看视角)。

扬声器通道421的床通常包括要由呈现环境的一个或多个扬声器36分别呈现的一个或多个扬声器通道。另一方面，对象通道424通常由呈现环境的扬声器36的组合来呈现。对象通道424的对象相关元数据434,444可以指示呈现环境内的对象通道424将被从其渲染的位置。对象通道424的位置可以是随时间变化的。作为其结果，用于渲染对象通道424的扬声器36的组合可以沿着对象通道424的对象通道帧的序列改变，和/或扬声器组合的扬声器36的平移(panning)可以沿着对象通道424的对象通道帧的序列改变。

呈现401,402,403可以包括用于目标设备配置的目标设备配置数据。换句话说，呈现401,402,403可以取决于用于呈现401,402,403的渲染的目标设备配置。目标设备配置可以关于扬声器的数量、扬声器的位置和/或关于可以被处理和渲染的音频通道的数量而不同。示例目标设备配置是具有左扬声器和右扬声器的2.0(立体声)目标设备配置，或者5.1目标设备配置等。目标设备配置通常包括空间渲染子系统24，如在图3的上下文中所描述的。

这样，呈现401,402,403可以指示要用于不同目标设备配置的不同音频资源。目标设备配置数据可以指示多个子流实体520中的一组子流实体520和/或元数据的变体434，它们将用于在特定目标设备配置上渲染呈现401。特别地，目标设备配置数据可以指示用于多个不同目标设备配置的这样的信息。作为示例，呈现401可以包括具有用于不同目标设备配置的目标设备配置数据的不同部分。

通过这样做，相应的解码器或解复用器可以高效地识别要用于特定目标设备配置的音频资源(一个或多个子流411,412,413,414，元数据的一个或多个变体441)。

比特流格式可以允许另一(中间)层用于定义个性化音频节目。特别地，比特流格式可以允许定义包括多个子流411,412,413,414中的一个、两个或更多个子流的子流组。子流组可以用于对诸如大气内容，对话和/或音效的不同音频内容进行分组。呈现401可以指示子流组。换句话说，呈现401可以通过参考包括要同时渲染的一个、两个或更多个子流的子流组来识别该一个、两个或更多个子流。因此，子流组提供了用于识别两个或更多个子流(可能彼此相关联)的高效手段。

呈现部分510可以包括用于定义一个或多个对应子流组的一个或多个子流组实体(在图5中未示出)。子流组实体可以位于呈现数据实体512之后或下游。子流组实体可以指示包括在对应子流组内的一个或多个子流411,412,413,414。呈现401(在对应呈现数据实体512内被定义)可以指示子流组实体，以便将对应的子流组包括到渲染401中。解码器7,20可以解析呈现数据实体512以识别特定呈现401。如果呈现401参考子流组或子流组实体，则解码器7,20可以继续解析呈现部分510，以识别包括在呈现部分510的子流组实体内的子流组的定义。因此，解码器7,20可以通过解析呈现数据实体512并解析呈现部分510的子流组实体来确定用于特定呈现401的子流411,412,413,414。

因此，用于生成比特流500的方法600可以包括将用于识别多个子流中的一个、两个或更多个子流的数据插入到呈现部分510的子流组实体中。作为其结果，子流组实体包括用于定义子流组的数据。

鉴于比特率降低，子流组的定义可能是有益的。特别地，在多个呈现401,402,403内联合使用的多个子流411,412,413,414可以被分组在子流组内。作为其结果，可以通过参考子流组来在呈现401,402,403内高效地识别多个子流411,412,413,414。此外，子流组的定义可以为内容设计者提供用于控制子流411,412,413,414的组合并且为被控制的子流411,412,413,414的组合定义子流组的高效手段。

因此，描述了比特流500，其表示基于对象的音频节目，并且其允许资源高效的个性化。比特流500包括用于基于对象的音频节目的音频节目帧的对应序列的容器501的序列，其中容器501的序列中的第一容器501包括基于对象的音频节目的第一音频节目帧。第一音频节目帧包括一组对象通道的第一组对象通道帧和对应的第一组对象相关元数据帧。该组对象通道可以指示一组音频信号中的至少一些音频信号的音频内容。此外，第一容器501包括用于基于对象的音频节目的多个子流411,412,413,414的多个子流实体520，其中多个子流实体520分别包括用于第一组对象通道帧的一组对象通道子流实体520。第一容器501还包括具有呈现数据的呈现部分510。呈现数据可以指示基于对象的音频节目的至少一个呈现401，其中至少一个呈现401包括得自多个子流实体520的要被同时呈现的一组子流实体520。

第一音频节目帧还可以包括扬声器通道421的床的第一扬声器通道帧，其中扬声器通道421的床指示该组音频信号中的一个或多个音频信号的音频内容。然后，比特流500的多个子流实体520可以包括用于第一扬声器通道帧的扬声器通道子流实体520。

比特流500可以由解码器7,20接收。解码器7,20可以被配置为执行用于从比特流500生成个性化音频节目的方法。该方法可以包括从呈现部分510提取呈现数据。如上所述，呈现数据可以指示用于个性化音频节目的呈现401。此外，该方法可以包括基于呈现数据从第一容器501的对象通道子流实体520的集合中提取一个或多个对象通道帧和对应的一个或多个对象相关元数据帧，以便生成和/或渲染个性化音频节目。取决于比特流的内容，该方法还可以包括基于呈现数据从第一容器501的扬声器通道子流实体520中提取第一扬声器通道帧。

鉴于对于通用的基于对象的音频节目创建个性化音频节目，本公开中描述的方法和比特流是有益的。特别地，所描述的方法和比特流允许以资源高效的方式去除或提取比特流的部分。作为示例，如果仅需要转发比特流的一部分，则这可以在不转发/处理元数据的全集和/或音频数据的全集的情况下完成。只有比特流的所需部分需要被处理和转发。可能仅需要解码器来解析比特流的呈现部分(例如，TOC数据)，以便识别包含在比特流内的内容。此外，比特流可以提供“默认”呈现(例如“标准混合”)，其可以由解码器使用以开始渲染节目而无需进一步解析。另外，解码器仅需要对渲染特定个性化音频节目所需的比特流的部分进行解码。这是通过将音频数据适当地聚类到子流和子流实体中来实现的。音频节目可以包括数量可能不受限的子流和子流实体，从而提供具有高度灵活性的比特流格式。

本公开中描述的方法和系统可以被实现为软件，固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其它组件可被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以存储在诸如随机存取存储器或光存储介质的介质上。它们可以经由网络(例如无线电网络，卫星网络，无线网络或有线网络)，例如互联网，被传送。使用本公开中描述的方法和系统的典型设备是便携式电子设备或用于存储和/或渲染音频信号的其他消费设备。

因此，本发明的实施例可以涉及下面列出的列举示例(EE)中的一个或多个。

EEE 1.一种用于生成指示基于对象的音频节目的比特流(500)的方法(600)，其中所述比特流(500)包括用于所述基于对象的音频节目的音频节目帧的对应序列的容器(501)的序列；其中所述容器(501)的序列中的第一容器(501)包括用于该基于对象的音频节目的多个子流(411,412,413,414)的多个子流实体(520)；其中所述第一容器(501)还包括呈现部分(510)；其中所述方法(600)包括

-确定(601)指示一组音频信号中的至少一些音频信号的音频内容的一组对象通道(424)；其中该组对象通道(424)包括对象通道帧的集合的序列；

-为该组对象通道(424)提供(602)一组对象相关元数据(434,444)；其中该组对象相关元数据(434,444)包括对象相关元数据帧的集合的序列；其中所述基于对象的音频节目的第一音频节目帧包括第一组对象通道帧和对应的第一组对象相关元数据帧；

-将所述第一组对象通道帧和所述第一组对象相关元数据帧插入(603)所述第一容器(501)的所述多个子流实体(520)的相应的一组对象通道子流实体(520)中；以及

-将呈现数据插入(604)所述呈现部分(510)中；其中所述呈现数据指示至少一个呈现(401)；其中呈现(401)包括要被同时呈现的得自所述多个子流实体(520)的一组子流实体(520)。

EEE 2.如EEE1所述的方法(600)，其中呈现(401)包括来自该组对象通道子流实体的一个或多个对象通道子流实体(520)。

EEE 3.如任何前述EEE所述的方法(600)，其中呈现数据指示包括子流实体(520)的不同集合的多个呈现(401,402,403)；其中所述子流实体(520)的不同集合包括该组对象通道子流实体(520)的不同组合。

EEE 4.如任何前述EEE所述的方法(600)，其中呈现数据被分割成用于不同呈现(401,402,403)的不同呈现数据实体(512)。

EEE 5.如EEE4所述的方法(600)，还包括：将被称为TOC数据的内容数据的表插入呈现部分(510)；其中TOC数据指示

-所述呈现部分(510)内的不同呈现数据实体(512)的位置；和/或

-被包括在所述呈现部分(510)内的不同呈现(401,402,403)的标识符。

EEE 6.如任何前述EEE所述的方法(600)，其中子流实体(520)包括用于音频内容(424)的内容子实体(521)和用于相关元数据(434,444)的元数据子实体(522)。

EEE 7.如任何前述EEE所述的方法(600)，其中

-用于相应通道帧的元数据帧包括元数据的多个不同变体(434,444)；和

-呈现(401)指示将元数据的哪个变体(434)要用于渲染相应的通道帧。

EEE 8.如任何前述EEE所述的方法(600)，还包括：

-确定指示一组音频信号中的一个或多个音频信号的音频内容的扬声器通道(421)的床；其中所述扬声器通道(421)的床包括扬声器通道帧的序列；其中基于对象的音频节目的第一音频节目帧包括所述扬声器通道(421)的床中的第一扬声器通道帧；和

-将所述第一扬声器通道帧插入到所述第一容器(501)的多个子流实体(520)中的扬声器通道子流实体(520)中。

EEE 9.如EEE8所述的方法(600)，其中，呈现(401)还包括扬声器通道子流实体(520)。

EEE 10.如EEE8至9中任一项所述的方法(600)，其中所述扬声器通道(421)的床包括分别由呈现环境的一个或多个扬声器(36)呈现的一个或多个扬声器通道。

EEE 11.如EEE8至10中任一项所述的方法(600)，其中

-所述方法(600)还包括提供用于所述扬声器通道(421)的床的扬声器相关元数据(431,441)；

-所述扬声器相关元数据(431,441)包括扬声器相关元数据帧的序列；以及

-来自扬声器相关元数据帧的序列的第一扬声器相关元数据帧被插入到扬声器通道子流实体(520)中。

EEE 12.如EEE8至11中任一项所述的方法(600)，其中所述扬声器通道(421)的床包括以下中的一个或多个：2.0通道，5.1通道和/或7.1通道。

EEE 13.如任何前述EEE所述的方法(600)，其中一组对象通道(424)包括多个对象通道(424)。

EEE 14.如任一前述EEE所述的方法(600)，其中对象通道(424)将由呈现环境的扬声器(36)的组合来呈现。

EEE 15.如EEE14所述的方法(600)，其中对象通道(424)的对象相关元数据(434,444)指示呈现环境内的要从该处渲染对象通道(424)的位置。

EEE 16.如EEE14至15中任一项所述的方法(600)，其中

-所述对象通道(424)的位置是随时间变化的；

-用于渲染所述对象通道(424)的扬声器(36)的组合沿着所述对象通道(424)的对象通道帧序列改变；和/或

-扬声器(36)的组合中的扬声器(36)的摇摄沿着对象通道(424)的对象通道帧的序列改变。

EEE 17.如任何前述EEE所述的方法(600)，其中所述比特流(500)是AC-4比特流。

EEE 18.如任何前述EEE所述的方法(600)，其中所述一组音频信号指示所捕获的音频内容。

EEE 19.如任何前述EEE所述的方法(600)，其中

-呈现(401)包括用于目标设备配置的目标设备配置数据；和

-所述目标设备配置数据指示要用于在目标设备配置上渲染所述呈现(401)的元数据变体(434)和/或所述多个子流实体(520)中的一组子流实体(520)。

EEE 20.如任何前述EEE所述的方法(600)，其中

-多个子流中的一个、两个或更多个子流形成子流组；和

-呈现(401)指示所述子流组。

EEE 21.如EEE20所述的方法(600)，还包括：将用于标识所述多个子流中的所述一个、两个或更多个子流的数据插入到呈现部分(510)的子流组实体中；其中所述子流组实体包括用于定义子流组的数据。

EEE 22.一种指示基于对象的音频节目的比特流(500)，其中

-所述比特流(500)包括用于所述基于对象的音频节目的音频节目帧的相应序列的容器(501)的序列；

-所述容器(501)的序列中的第一容器(501)包括所述基于对象的音频节目的第一音频节目帧；

-所述第一音频节目帧包括第一组对象通道帧和对应的第一组对象相关元数据帧；

-所述第一组对象通道帧指示一组音频信号中的至少一些音频信号的音频内容；

-所述第一容器(501)包括用于所述基于对象的音频节目的多个子流(411,412,413,414)的多个子流实体(520)；-

-所述多个子流实体(520)分别包括用于所述第一组对象通道帧的一组对象通道子流实体(520)；

-所述第一容器(501)还包括具有呈现数据的呈现部分(510)；

-所述呈现数据指示所述基于对象的音频节目的至少一个呈现(401)；和

-呈现(401)包括要被同时呈现的得自多个子流实体(520)中的一组子流实体(520)。

EEE 23.如EEE 22所述的比特流(500)，其中

-所述第一音频节目帧包括扬声器通道(421)的床的第一扬声器通道帧；

-所述扬声器通道(421)的床指示一组音频信号中的一个或多个音频信号的音频内容；以及

-所述多个子流实体(520)包括用于所述第一扬声器通道帧的扬声器通道子流实体(520)。

EEE 24.一种用于从包括基于对象的音频节目的比特流(500)生成个性化音频节目的方法；其中

-所述比特流(500)包括用于所述基于对象的音频节目的音频节目帧的对应序列的容器(501)的序列；

-所述第一音频节目帧包括一组对象通道(424)的第一组对象通道帧和对应的第一组对象相关元数据帧；

-该组对象通道(424)指示一组音频信号中的至少一些音频信号的音频内容；

-所述第一容器(501)包括用于所述基于对象的音频节目的多个子流(411,412,413,414)的多个子流实体(520)；

-所述多个子流实体(520)分别包括用于所述第一组对象通道帧的一组对象通道子流实体(520)；以及

-所述第一容器(501)还包括呈现部分(510)；

其中所述方法包括

-从所述呈现部分(510)提取呈现数据；其中呈现数据指示用于个性化音频节目的呈现(401)；其中所述呈现(401)包括要被同时呈现的得自所述多个子流实体(520)的一组子流实体(520)；和

-基于所述呈现数据，从所述第一容器(501)的所述一组对象通道子流实体(520)提取一个或多个对象通道帧和对应的一个或多个对象相关元数据帧。

EEE 25.如EEE24所述的方法，其中

-所述扬声器通道(421)的床指示所述一组音频信号中的一个或多个音频信号的音频内容；

-所述多个子流实体(520)包括用于所述第一扬声器通道帧的扬声器通道子流实体(520)；和

-所述方法还包括：基于所述呈现数据，从所述第一容器(501)的扬声器通道子流实体(520)中提取所述第一扬声器通道帧。

EEE 26.一种用于生成指示基于对象的音频节目的比特流(500)的系统(3)，其中所述比特流(500)包括用于所述基于对象的音频节目的音频节目帧的对应序列的容器(501)的序列；其中所述容器(501)的序列中的第一容器(501)包括用于该基于对象的音频节目的多个子流(411,412,413,414)的多个子流实体(520)；其中所述第一容器(501)还包括呈现部分(510)；其中所述系统(3)被配置用于：

-确定指示一组音频信号中的至少一些音频信号的音频内容的一组对象通道(424)；其中该组对象通道(424)包括对象通道帧的集合的序列；

-为该组对象通道(424)提供一组对象相关元数据(434,444)；其中该组对象相关元数据(434,444)包括对象相关元数据帧的集合的序列；其中所述基于对象的音频节目的第一音频节目帧包括第一组对象通道帧和对应的第一组对象相关元数据帧；

-将所述第一组对象通道帧和所述第一组对象相关元数据帧插入所述第一容器(501)的所述多个子流实体(520)的相应的一组对象通道子流实体(520)中；以及

-将呈现数据插入所述呈现部分(510)中；其中所述呈现数据指示至少一个呈现(401)；其中呈现(401)包括要被同时呈现的得自所述多个子流实体(520)的一组子流实体(520)。

EEE 27。一种用于从包括基于对象的音频节目的比特流(500)生成个性化音频节目的系统(7)，其中

-所述第一容器(501)还包括呈现部分(510)；

其中所述系统(7)被配置用于

Claims

1.一种用于从编码比特流渲染音频节目的方法，所述方法包括：

从所述编码比特流提取呈现数据，其中所述呈现数据指示音频节目的呈现，并且其中所述呈现包括要被同时呈现的一组子流实体；以及

通过基于该呈现数据从所述比特流中包含的容器序列中的第一容器中的一组对象通道子流实体提取第一组对象通道帧和对应于所述一组子流实体对应的第一组对象相关元数据帧，渲染该音频节目，其中，所述一组对象通道子流实体是用于所述音频节目的第一音频节目帧的，其中所述第一音频节目帧包括第一组对象通道帧和所述对应的第一组对象相关元数据帧，其中所述容器序列是用于所述音频节目的音频节目帧的对应序列的，并且其中所述一组子流实体来自于所述音频节目的多个子流的第一容器中包含的多个子流实体，

其中对象通道帧将由呈现环境的扬声器的组合来呈现，其中对象通道帧的对象相关元数据帧指示呈现环境中的将从其渲染对象通道帧的位置；并且其中，该组对象通道指示一组音频信号中的至少一些音频信号的音频内容。

2.根据权利要求1所述的方法，其中所述第一音频节目帧包括扬声器通道的床的第一扬声器通道帧；其中扬声器通道的床指示该组音频信号中的一个或多个音频信号的音频内容；其中多个子流实体包括用于所述第一扬声器通道帧的扬声器通道子流实体；以及其中所述方法还包括：基于所述呈现数据，从第一容器的扬声器通道子流实体中提取所述第一扬声器通道帧。

3.一种用于从编码比特流渲染音频节目的系统，所述系统包括：

处理器，用于从所述编码比特流提取呈现数据，其中所述呈现数据指示音频节目的呈现，并且其中所述呈现包括要被同时呈现的一组子流实体；以及

渲染器，用于通过基于该呈现数据，从所述比特流中包含的容器序列中的第一容器中的一组对象通道子流实体提取第一组对象通道帧和对应于所述一组子流实体的对应的第一组对象相关元数据帧，渲染该音频节目，其中，所述一组对象通道子流实体是用于所述音频节目的第一音频节目帧的，其中所述第一音频节目帧包括第一组对象通道帧和所述对应的第一组对象相关元数据帧，其中所述容器序列是用于所述音频节目的音频节目帧的对应序列的，并且其中所述一组子流实体来自于所述音频节目的多个子流的第一容器中包含的多个子流实体，

其中对象通道帧将由呈现环境的扬声器的组合来呈现，其中对象通道帧的对象相关元数据帧指示呈现环境中的将从其渲染对象通道帧的位置；并且

其中，该组对象通道指示一组音频信号中的至少一些音频信号的音频内容。

4.根据权利要求3所述的系统，其中所述第一音频节目帧包括扬声器通道的床的第一扬声器通道帧；其中扬声器通道的床指示该组音频信号中的一个或多个音频信号的音频内容；其中多个子流实体包括用于所述第一扬声器通道帧的扬声器通道子流实体；以及其中所述处理器还基于所述呈现数据，从第一容器的扬声器通道子流实体中提取所述第一扬声器通道帧。

5.一种非暂态存储介质，具有软件程序，所述软件程序在由处理器执行时实行根据权利要求1-2中任一项所述的方法。

6.一种用于从编码比特流渲染音频节目的设备，包括：

处理器，以及

非暂态存储介质，具有软件程序，所述软件程序在由处理器执行时实行根据权利要求1-2中任一项所述的方法。