CN112019881B

CN112019881B - 视听内容项数据流

Info

Publication number: CN112019881B
Application number: CN202010884938.XA
Authority: CN
Inventors: R.A.布龙迪克; A.W.J.奥门; F.M.J.德邦特
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2014-03-18
Filing date: 2015-03-16
Publication date: 2022-11-01
Anticipated expiration: 2035-03-16
Also published as: US20200228848A1; KR20200101469A; KR20160135301A; CN106068651B; KR102380204B1; BR112016021214A2; US11375252B2; RU2678323C2; MX2016011798A; US10631027B2; BR112016021214B1; KR102370031B1; US20160381399A1; EP3120573B1; RU2016140630A; US10142666B2; JP6549605B2; CN112019882B; CN112019881A; MX364331B

Abstract

发射设备生成视听内容项数据流（例如，传输流），其包括具有用于内容项的视听分量的多个个别视听数据流。生成器（301‑307）生成包括用于音频表示的强制性音频数据和可替换音频数据二者的第一流，其中可替换音频数据是能够利用备选音频数据来替换的数据。组合器（309）将由此产生的流包括在内容项数据流中。接收设备包括从所接收的流中提取强制性音频数据的提取器（403）。替换器（415）可以利用备选音频数据来替换可替换音频数据，以及输出（415）能够从强制性音频数据和备选音频数据中生成音频信号。该方案可以具体地为视听内容提供改进的且更灵活的数据流。

Description

视听内容项数据流

本发明申请是一个分案申请，其原申请的国际申请日为2015年3月16日、国家申请号为201580014246.7，并且原申请的发明创造名称为“用于生成视听内容项数据流/视听内容项的音频信号的方法和设备”。

技术领域

本发明涉及视听内容项数据流并且特别地、但不完全涉及诸如MPEG-2 TransportStream（传输流）之类的视听内容项数据流。

背景技术

随着数字信号表示和通信已日益替换模拟表示和通信，各种源信号的数字编码在过去的几十年里已变得日益重要。例如，移动电话系统诸如Global System for Mobilecommunication（全球移动通信系统）以数字语音编码为基础。诸如视频和音乐之类的媒体内容的分发也日益以数字内容编码为基础。

典型地，视听内容项包括许多不同的视听分量和类型的数据。例如，与电影或电视节目相对应的内容项可以包括至少一个视频信号分量，典型地包括多个不同的音频分量、控制数据、同步数据、例如表征内容的元数据等等。例如，电影可以包括主视频分量、辅助视频分量、多个音轨（audio track）（例如，针对不同的语言）、字幕数据、识别例如电影标题、主要演员等等的元数据。因而，时常相对大数量的不同数据类型需要被包括在视听内容项的单个组合数据流中。

为了适应（accommodate）包括一系列不同类型数据的视听内容项的表示，时常可以生成视听内容项数据流，其包括为视听内容项提供视听分量的多个（子）视听数据流。另外，可以包括这样的数据流，其包括控制数据、元数据等等。

视听内容项数据流能够包括与内容项的渲染有关的所有数据。视听内容项数据流典型地被称为传输流或可能地被称为系统流、节目流或容器流。个别视听数据流典型地被称为基本数据流。

为了提供视听内容项的有效表示，重要的是：为视听内容项数据流定义高效的数据结构。包括许多单独的视听数据流的数据结构的使用提供灵活而有效的方案，其中每一个视听数据流代表视听分量。该方案例如允许针对给定视频分量的不同音轨的灵活包含，例如，可以在不同的视听数据流中提供与不同的语言相对应的音频信号。

在ETSI DVB (Digital Video Broadcasting) Standard EN 300 468 V I.14.1中提供数据结构的示例，其中第6.4.10节具体涉及用于DVB的MPEG传输流。ENGDEGÄRDJONAS ET AL: "MPEG Spatial Audio Object Coding The ISO/MPEG Standard forEfficient Coding of Interactive Audio Scenes", AES CONVENTION 129; NOVEMBER2010, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 4November 2010 (2010-11-04), XP040567234提供ISO-MPEG SAOC Specification（规范）的一般介绍和综述。Steffens et al(等人): "Interactivity in MPEG-H 3D AudioContent - Proposal for Extension of OAM Format and Test Procedure" 16 January2013, XP030056683提议公开在基于对象的编码器/解码器方案中使用交互性标志来指示：应该使得具体的音频对象在接收机侧上与所有其他的音频对象分开可用的。

用于视听内容项数据流的许多不同的结构已被标准化。一种最广泛且频繁使用的视听内容项数据流的结构是用于例如数字电视广播或Blu-ray（蓝光光盘）的MPEG-2Transport Stream。

MPEG-2 Transport Stream是其中数据流由多个相继的时间复用（timemultiplex）数据分组构成的数据结构的示例。每一个数据分组可以为视听内容项的具体分量提供数据。

然而，用于视听内容项数据流的常规方案具有的问题是：该数据结构对于某些目的而言是次优的，并且特别地往往不提供最佳灵活性。

例如，诸如MPEG-2 Transport Stream之类的视听内容项数据流通过虑及(allowfor)将在不同的基本流中提供的不同的音频表示而的确支持针对给定场景的备选(alternative)音频表示。接收机随后可以在这些备选基本流之间进行选择来提供所希望的音轨。例如，MPEG-2 Transport Stream可以包括基本流，其连同两个基本流一起包括视频分量，其中每一个基本流提供能够与视频分量一起渲染的音频表示。例如，一个基本音频流可以包括采用原始语言的视频分量的音频，而另一基本音频流可以包括用于视频分量的音频，但是其具有采用不同语言配音的语音。解码器或渲染器随后可以通过选择恰当的基本流在用于视频的备选音轨之间选择。

然而，这样的方案并没有为音频提供最佳灵活性，并且也由于利用备选基本流所提供的并行音频表示而导致相对高的数据速率。

提供针对视听内容项数据流的改进方案相应地将是所希望的，并且特别地提供附加的灵活性和/或降低的数据速率的方案将是所希望的。

然而，关键的挑战在于：在保持与现有方案的高度通用性的同时，这样的增强如何是有可能的。例如，所希望的是能够进一步增强MPEG-2 Transport Stream，但是这样的增强应该优选地尽可能保持向后兼容性。增强用于视听内容项数据流的方案所需的考虑此外可能并不只是限于应该如何或以哪种格式来提供哪些附加数据。相反，在确定应该如何在视听内容项数据流中包括这样的数据以便不仅实现有效的视听内容项数据流而且也虑及有效的操作与优选优化的向后兼容性中存在附加的挑战。

因此，用于视听内容项数据流的改进方案将是有利的。

发明内容

相应地，本发明寻求单个地或以任何组合来优选地减轻、缓解或消除上述缺陷之中的一个或多个缺陷。

根据本发明的另一方面，提供一种为视听内容项生成音频信号的方法，该方法包括：接收包括多个个别视听数据流的视听内容项数据流，多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；其中视听内容项数据流包括第一个别视听数据流，其包括用于视听内容项的音频表示的第一音频数据，第一音频数据包括用于音频表示的强制性音频数据和用于音频表示的可替换音频数据，强制性音频数据对应于在音频表示被渲染时必须渲染的音频分量，而可替换音频数据对应于在音频表示被渲染时能够利用备选音频分量代替的可替换音频分量，视听内容项数据流进一步包括用于视听内容项的内容项映射表，内容项映射表包括被链接至视听内容项的视听数据流的数据分组的视听数据流分组识别符的列表，并且内容项映射表包括用于多个个别视听数据流之中的至少两个的集合的视听内容项的公共数据流分组识别符；该方法进一步包括：从第一音频数据中提取强制性音频数据，以响应公共数据流分组识别符；检索备选音频数据；利用备选音频数据来替换可替换音频数据；从强制性音频数据和备选音频数据中生成音频信号；其中该方法进一步包括：从多个单个个别视听数据流中生成单个个别视听数据流；为至少一个视听数据流的第二音频数据生成音频数据处理描述符，将音频数据处理描述符插入单个视听数据流中，并且将单个视听数据流馈送至音频解码器；以及其中生成音频信号包括：音频解码器从单个个别视听数据流的音频数据中生成音频信号，从第二视听数据流中提取音频数据处理描述符；和生成音频信号，以响应音频数据处理描述符。

本发明可以允许用于内容项的音频的改进生成。典型地，能够实现更有效的和/或灵活的处理、通信或功能。

在许多情景中能够实现更有效的选择和生成音频。

该方案时常可以提供改进的向后兼容性。将领会到：先前针对视听内容项数据流所提供的评论将同样准用于视听内容项数据流的处理。

利用备选音频数据进行的可替换音频数据的替换可以是利用备选音频数据的选择和可替换音频数据的去选择(de-selection)（或不选择）用于处理。在一些实施例中，选择/去选择可以是对应于可替换音频数据和备选音频数据的音频分量的选择/去选择，即利用分别通过解码可替换音频数据和备选音频数据所生成的可替换音频分量和备选音频分量的选择/去选择。在其他实施例中，替换可以例如是通过例如在数据流/比特流中或在存储器中利用备选音频数据来重写可替换音频数据。

在一些实施例中，该方法可以包括：仅检索可替换音频数据和备选音频数据之一，并且仅使用所检索的音频数据用于生成音频信号。

在一些实施例中，检索包括从第一视听数据流中检索备选音频数据。在一些实施例中，检索包括从多个个别视听数据流之中与第一视听数据流不同的视听数据流中检索备选音频数据。

在一些实施例中，检索包括从与视听内容项数据流不同的数据流中检索备选音频数据。

数据流可以例如对应于单独的文件或文件的分段(segment)。

根据本发明的一方面，提供一种用于为视听内容项生成音频信号的设备，该设备包括：接收机，用于接收包括多个个别视听数据流的视听内容项数据流，多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；其中视听内容项数据流包括第一视听数据流，其包括用于视听内容项的音频表示的第一音频数据，第一音频数据包括用于音频表示的强制性音频数据和用于音频表示的可替换音频数据，强制性音频数据对应于在音频表示被渲染时必须渲染的音频分量，而可替换音频数据对应于在音频表示被渲染时能够利用备选音频分量来代替的可替换音频分量，视听内容项数据流进一步包括用于视听内容项的内容项映射表，内容项映射表包括被链接至视听内容项的视听数据流的数据分组的视听数据流分组识别符的列表，并且内容项映射表包括用于多个个别视听数据流之中的至少两个的集合的视听内容项的公共数据流分组识别符；该设备进一步包括：提取器，用于从第一音频数据中提取强制性音频数据，以响应公共数据流分组识别符；检索备选音频数据的检索器；替换器，用于利用备选音频数据来替换可替换音频数据；输出，用于从强制性音频数据和备选音频数据中生成音频信号；音频解码器，用于从单个个别视听数据流的音频数据中生成音频信号，该音频解码器包括提取器、检索器、替换器和输出；以及其中接收机被安排成：从多个单个个别视听数据流中生成单个个别视听数据流，并且为至少一个视听数据流的第二音频数据生成音频数据处理描述符，而且将音频数据处理描述符插入单个视听数据流中，以及将单个视听数据流馈送至音频解码器；和该音频解码器进一步包括音频数据处理描述符提取器，用于从第二视听数据流中提取音频数据处理描述符；并且该音频解码器被安排成：生成音频信号，以响应音频数据处理描述符。

一种生成包括多个个别视听数据流的视听内容项数据流的方法，多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；该方法包括：生成第一视听数据流，其包括用于视听内容项的音频表示的第一音频数据，第一音频数据包括用于音频表示的强制性音频数据和用于音频表示的可替换音频数据，可替换音频数据是利用备选音频数据可替换的数据；以及将第一视听数据流包括在视听内容项数据流中。

该方案可以提供改进的视听内容项数据流。特别地，在许多情景中可以实现具有增加的灵活性和/或降低的数据速率的传输流。

在许多情景中能够实现更有效的备选音频的供应（provision）。该方案可以典型地被实现为针对现有传输流的增强或被实现为现有传输流的进一步发展，同时需要相对低水平的修改。时常能够实现增加的向后兼容性。

作为具体示例，该方案可以允许有效且实用的传输流诸如MPEG-2 TransportStream的增强。传输流可以保持该方案以及传统MPEG-2 Transport Stream的总体设计理念，同时允许这个被增强来提供备选音频表示的更灵活且有效的表示。

可替换音频数据能够利用备选音频数据来替换/代替/交换/改变成备选音频数据。因而，传输流为内容项提供备选音频表示，其中一种备选表示例如是利用强制性音频数据和可替换音频数据来代表的默认表示，而另一备选表示是利用强制性音频数据和备选音频数据来代表的备选表示。

在许多情景中，该方法可以进一步包括：将备选音频数据包括在传输流中，时常包括在第一视听数据流中或包括在多个视听数据流之中的另一视听内容项数据流中。因而，备选音频数据可以被包括在多个个别视听数据流之中的视听数据流中。

强制性音频数据可以定义用于音频表示的强制性音频分量。可替换音频数据可以定义用于音频表示的可替换音频分量。备选音频数据可以定义用于音频表示的备选音频分量。

因而，第一音频数据可以包括用于该表示的强制性音频分量的强制性音频数据以及用于该表示的可替换音频分量的可替换音频数据，可替换音频分量是可以利用用于备选音频分量的备选音频数据而被代替成可替换音频分量的数据。

可替换音频数据可以对应于用于内容项的默认音轨（audio track）。

传输流可以包括用于内容项的一个或多个音频表示的指定（designation）。音频表示可以对应于一组足以提供内容项的音频输出的音频分量。传输流可以相应地为内容项指定至少一个音频声轨（sound track）/表示。在许多实施例中，在传输流中指定（或定义）的至少一个音频表示包括多个音频分量，其中至少一个音频分量是强制性音频分量，并且至少一个音频分量是可替换音频分量。强制性音频分量利用强制性音频数据来代表，而可替换音频分量利用可替换音频数据来代表。在选择该表示时，强制性音频分量必须被包括在内容项的音频输出中。然而，在接收机选择这个表示时，可替换音频分量可以被包括或者可以利用备选音频分量来代替。备选音频分量利用备选音频数据来代表，时常（但是不是总是/必定）被包括在传输流本身中。

在该方案中，用于在传输流中定义/规定/描述/指定的音频表示的音频数据可以相应地包括用于至少一个强制性音频分量的强制性音频数据以及用于至少一个可替换音频分量的可替换音频数据。当传输流指定的音频表示被选择用于例如渲染时，必须包括强制性音频分量，而可替换音频分量必须被包括或者利用备选音频分量来替换。

内容项的音频表示可以对应于足以为内容项提供音频表示/轨道的一组音频分量。具体地，用于内容项的音频表示可以对应于在传输流中被指示成足以为该内容项提供声轨的一组音频分量。没有在传输流中被定义成足以提供内容项的音频表示的一组音频分量除非与至少一个其他的音频分量进行组合否则并不形成音频表示。

因而，传输流可以包括为内容项定义一个或多个音频表示的数据。对于所定义的音频表示之中的第一音频表示而言，强制性音频数据可以是强制性的。除非利用备选音频数据来替换，否则可替换音频数据提供第一音频表示所需的音频数据。传输流或许可以为内容项指定一个以上的音频表示。在这种情况下，对于第二音频表示而言，强制性音频数据不必是强制性的。

数据流可以例如对应于单独的文件或文件的分段。

该方法可以进一步包括将备选音频数据包括在第一视听数据流中的步骤。

这可以提供有效且灵活的方案以及视听内容项数据流。特别地，在许多情景中，它可以为备选音频提供非常有效的数据结构。该方案可以例如提供在一些实施例中可以方便操作的改进的备选音频的分组。

将备选音频数据包括在第一视听数据流中的步骤可以包括：将备选音频数据包括在多个个别视听数据流之中与第一视听数据流不同的视听数据流中。

这可以提供有效且灵活的方案以及有效且灵活的视听内容项数据流。特别地，这在许多情景中可以为备选音频提供非常有效的数据结构。该方案可以例如方便传输流的生成和/或方便所希望数据从中的提取。

在一些实施例中，不同的视听数据流可以提供音频场景的备选音频表示。例如，不同的视听数据流可以在传输流中被指定为提供内容项的音频表示的基本流。具体地，它可以包括足以生成内容项的音频输出的一组音频分量的数据而不包括其他流的任何音频分量。

视听内容项数据流可以是传输流，并且第一视听数据流可以是基本流。

该方案可以提供以许多个别基本流为基础的改进的传输流。该方案可以提供用于代表内容项的灵活而有效的结构。此外，它可以允许与常规系统的改进的向后兼容性。

可替换音频数据可以代表采用第一语言的语音音频分量，而备选音频数据代表采用第二语言的语音音频分量。

该方案可以提供用于为给定内容项提供多种不同的/备选的语言的特别有效的方案。

强制性音频数据可以代表背景音频分量，而可替换音频数据代表语音音频分量。

该方案可以提供用于为背景音频与语音音频提供差异化（differentiated）声音的特别有效的方案，并且特别地可以方便备选语音分量的支持而没有不可接受地增加数据速率。

可替换音频数据和备选音频数据可以代表使用不同的编码特征编码的相同的音频内容。

不同的编码特征可以例如是不同的数据速率、不同的编码算法等等。具体地，在一些实施例中，可替换音频数据和备选音频数据可以代表利用不同的编码特征诸如不同的比特率编码的相同的音频内容或分量。

该方案可以允许增加的灵活性并且可以具体地允许传输流的特征的灵活适配（adaptation）。此外，该方案可以允许传输流相对容易地利用例如中间系统或实体来修改。

备选音频数据可以例如代表可以包括进一步子对象的音频对象。

该方法可以进一步包括将渲染控制数据包括在视听内容项数据流中的步骤，渲染控制数据为使用可替换音频数据进行的渲染提供与使用备选音频数据进行的渲染不同的渲染参数。

这可以提供有利的功能和/或改进的用于内容项的音频的渲染。

该方法可以具体地包括将渲染控制数据包括在视听内容项数据流中的步骤，渲染控制数据指示与用于备选音频数据的渲染不同的渲染设置用于可替换音频数据的渲染。

该方法可以进一步包括在视听内容项数据流中包括第一视听数据流包括可替换音频数据的指示的步骤。

这可以允许处理视听内容项数据流的接收机的功能的有效适配。

该方法可以进一步包括在视听内容项数据流中包括用于可替换音频数据的提取数据的步骤。

该方法可以进一步包括以下步骤：生成内容项映射表，用于内容项的内容项映射表包括被链接到内容项的视听数据流的数据分组的视听数据流分组识别符的列表；以及将内容项映射表包括在视听内容项数据流中；其中生成内容项映射表的步骤包括：生成内容项映射表，以便对于多个个别视听数据流之中的至少两个个别视听数据流的集合包括用于内容项的公共数据流分组识别符。

这在许多实施例中可以提供改进的和/或方便的操作。具体地，这可以允许生成可以由不同的设备诸如复用器、数据提取器等等利用降低的复杂度来处理的视听内容项数据流。

生成内容项映射表的步骤可以包括在内容项映射表中包括用于内容项的仅仅一个视听数据流分组识别符。

这在许多实施例中可以提供改进的和/或方便的操作。特别地，这可以允许各种功能来处理视听内容项数据流，就好像它仅仅包括单个视听数据流似的。

生成内容项映射表的步骤可以包括在内容项映射表中包括用于内容项的仅仅一个音频视听数据流分组识别符。

这在许多实施例中可以提供改进的和/或方便的操作。特别地，它可以允许各种功能来处理视听内容项数据流，就好像它仅仅包括单个音频视听数据流似的。

生成内容项映射表的步骤可以包括：对于公共数据流分组识别符，包括多个辅助分组识别符，每一个辅助分组识别符识别多个个别视听数据流之中的至少两个个别视听数据流的集合中的个别视听数据流。

这可以提供改进的灵活性和功能。例如，这可以允许针对个别视听数据流的有效选择和访问。主要和辅助分组识别符可以在一些实施例中被包括在结构化或嵌套数据结构中或可以在其他实施例中例如以扁平结构来提供，其中例如主要和辅助分组识别符作为单个列表中的相继条目来提供。

该方法可以进一步包括以下步骤：为至少一个视听数据流的第二音频数据生成音频数据处理描述符，音频数据处理描述符指示第二音频数据被指定为备选音频数据还是附加音频数据；以及将内容项映射表包括在视听内容项数据流中。

这可以提供改进的功能并且特别地可以允许指示如何可以利用解码器来处理不同音频数据的有效方式。

该方法可以进一步包括生成内容项映射表的步骤，用于内容项的内容项映射表包括被链接到该内容项的视听数据流的数据分组的视听数据流分组识别符的列表；以及其中生成内容项映射表的步骤包括：生成内容项映射表来包括音频数据处理描述符。

这在许多实施例中可以提供信息的特别有利的表示。

根据本发明的可选特性，该方法进一步包括接收第二视听内容项数据流，其包括多个视听数据流，多个视听数据流包括视听分量；以及其中检索包括从第二视听内容项数据流的视听数据流中检索备选音频数据。

这在许多实施例中可以提供有利的功能和/或操作。

根据本发明的可选特性，生成音频信号的步骤包括：在第一音频解码器中解码强制性音频数据，以生成第一解码音频信号；在第二音频解码器中解码备选音频数据，以生成第二解码音频信号；和生成音频信号，以响应至少组合第一解码音频信号与第二解码音频信号。

这在许多实施例中可以提供改进的和/或方便的操作。

视听内容项数据流包括内容项映射表，用于内容项的内容项映射表包括被链接到内容项的视听数据流的数据分组的视听数据流分组识别符的列表，内容项映射表对于多个个别视听数据流之中的至少两个个别视听数据流的集合包括用于内容项的公共数据流分组识别符；以及该方法进一步包括响应于公共数据流分组识别符来提取内容项的音频数据的步骤。

这在许多实施例中可以提供改进的和/或方便的操作。具体地，它可以允许生成可以由不同的设备诸如复用器、数据提取器等等利用降低的复杂度来处理的视听内容项数据流。

根据本发明的可选特性，内容项映射表对于公共数据流分组识别符包括多个辅助分组识别符，每一个辅助分组识别符识别多个个别视听数据流之中至少两个个别视听数据流的集合中的个别视听数据流；以及提取用于内容项的音频数据的步骤包括：针对不同的音频分量，提取音频数据，以响应辅助分组识别符。

这可以提供改进的灵活性和功能。例如，这可以允许针对个别视听数据流的有效选择和访问。主要和辅助分组识别符在一些实施例中可以被包括在结构化或嵌套数据结构中或在其他实施例中可以例如以扁平结构来提供，其中例如主要和辅助分组识别符作为单个列表中的相继条目来提供。

一种用于生成包括多个个别视听数据流的视听内容项数据流的设备，多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；该设备可以包括：生成器，用于生成第一视听数据流，第一视听数据流包括用于视听内容项的音频表示的第一音频数据，第一音频数据包括用于音频表示的强制性音频数据和用于音频表示的可替换音频数据，可替换音频数据是利用备选音频数据可替换的数据；以及用于将第一视听数据流包括在视听内容项数据流中的组合器。

根据本发明的可选特性，音频数据处理描述符指示是否第二音频数据替换可替换数据。

这在许多实施例中可以提供特别有利的且有效的实现方式，同时在视听内容项数据流的音频数据的处理中允许高度的灵活性和控制。

该方案可以特别地在接收机与音频解码器之间提供有效的接口。在许多实施例和情景中，它可以允许使用通用的音频解码器，同时在音频渲染中提供灵活性并且不需要在接收机与音频解码器之间实现复杂和/或专有的控制功能。

根据本发明的可选特性，音频数据处理描述符指示第二音频数据被指定为备选音频数据还是附加音频数据，以及音频解码器被安排成：如果第一音频数据处理描述符指示第二音频数据被指定为备选音频数据，则检索第二音频数据作为备选音频数据，而如果第一音频数据处理描述符指示第二音频数据被指定为附加音频数据，则检索第二音频数据作为附加音频数据；以及如果第二音频数据被指定为可替换音频数据，则利用第二音频数据来替换可替换音频数据，并且输出被安排成：如果第一音频数据处理描述符指示第二音频数据被指定为附加音频数据，则通过组合强制性音频数据、第二音频数据和可替换音频数据来生成音频信号。

这可以提供用于控制音频渲染的适配的特别有利的且有效的方案。

根据本发明的可选特性，接收机被安排成：从视听内容项数据流中所接收的第二音频数据处理描述符中生成第一音频数据处理描述符。

这可以允许视听内容项数据流的供应商和本地渲染器或用户二者控制所生成的音频。第二音频数据处理描述符可以描述可以由例如用户在确定合适渲染中使用的恰当的音频输出。

该方案也可以方便实现方式。例如，接收机不需要具有如何执行具体音频处理的任何详细的知识或考虑，而是可以简单地使得第一音频数据处理描述符以第二音频数据处理描述符为基础。

根据本发明的可选特性，接收机被安排成将第二音频数据处理描述符拷贝到第二视听数据流。

该方案也可以方便实现方式。例如，接收机不需要具有如何执行具体音频处理的任何详细的知识或考虑，而是可以简单地拷贝第二音频数据处理描述符。

根据本发明的可选特性，第二音频数据处理描述符被包括在内容项映射表中。

这可以提供特别有利的表示。

根据本发明的可选特性，视听内容项数据流包括用于第二音频数据的多个可能的音频数据处理描述符；以及接收机被安排成从多个可能的音频数据处理描述符中选择第一音频数据处理描述符。

这可以允许视听内容项数据流的供应商和本地渲染器或用户二者控制所生成的音频。第二音频数据处理描述符可以例如描述所提供的音频分量的可允许或推荐的组合，从而为内容项提供备选音频呈现（presentation）。用户可以简单地选择一个建议的备选音频呈现，并且接收机可以在响应中简单地通过拷贝相应的第二音频数据处理描述符并将其包括在提供给音频解码器的数据流中而引起所选择的音频呈现被提供。

本发明的这些与其他的方面、特性和优点从下文描述的（多个）实施例中将是显然的并将参考这（多）个实施例来阐述。

附图说明

现在将参考附图、仅通过示例来描述本发明的实施例，其中：

图1是根据现有技术的传输流的图解；

图2是根据本发明的一些实施例的传输流的图解；

图3是用于生成传输流的设备的图解；

图4是用于生成传输流的设备的图解；

图5是根据本发明的一些实施例的传输流的图解；

图6是根据本发明的一些实施例的传输流的图解；

图7图解MPEG-2 Transport Stream的补充音频描述符的语法；

图8图解MPEG-2 Transport Stream的数据项mix_type和editorial_classification的语法；

图9图解根据本发明的一些实施例的mix_type数据项的修改语法；

图10图解根据本发明的一些实施例的editorial_classification数据项的修改语法；

图11图解根据本发明的一些实施例的AAC描述符分量数据项的语法；

图12图解音频净荷报头中的对象的识别；

图13图解用于允许对象将其内容委托（delegate）给SAOC对象的对象描述符的语法的示例；

图14图解包括耦合到音频解码器的接收机的接收设备的示例，其中接收机接收视听内容项数据流；

图15图解将音频数据处理用于（修改的）MPEG 传输流的操作的示例；

图16图解将音频处理用于（修改的）MPEG传输流的操作的另一示例。

具体实施方式

以下描述集中于可应用于增强视听内容的传输流诸如例如MPEG-2 TransportStream的本发明的实施例。然而，将领会到：本发明并不限于这种应用，而可以应用于许多其他的视听内容项数据流。

作为具体参考，在图1中图解如在利用如在EN 300468中的标准DVB内容扩展的ISO/IEC 13818-1中所定义的MPEG DVB（Digital Video Broadcast（数字视频广播））Transport Stream（TS）的示例。将领会到：虽然该描述将集中于可以例如增强这样的视听内容项数据流的实施例，但是该方案可以应用于许多其他的传输技术，其例如包括在ISO/IEC 23009-1 DASH（Dynamic Adaptive Streaming over HTTP）（HTTP上动态自适应流媒体）的上下文中基于TCP/IP的传输流。

在该示例中，传输流由多个数据分组构成。传输流的数据被分成与视听分量、控制或信息数据（元数据）相对应的多个基本流。每一个基本流与给定的身份（identity）相关联，并且每一个分组包括报头，其包括识别分组包括其数据的基本流的Packet IDentifier（分组识别符）（PID）。

在具体示例中，传输流是时间复用的分组流，其中每一个分组包含188个字节。每一个分组利用PID来标记。分组可以包含元数据或压缩的视听数据。具有给定PID的分组代表必须被结合来创建单个视听分量的相继数据。例如，为了在传输流中传输视听分量，用于视听分量的数据被划分在一组数据分组的净荷上。那个组的数据分组并且只有那个组的数据分组随后将使用相同的独特PID。

传输流进一步包括提供在具体传输流中包括的节目的信息的ProgramAssociation Table（节目关联表）（PAT）。每一个节目利用包括关于个别节目的信息的Program Map Table（节目映射表）（PMT）来表征。具体地，PMT识别在用于个别节目的传输流中包括的基本流，并且特别地，它列出属于用于个别节目的不同基本流的数据分组的PID。

图1图解如何可以在传输流中提供节目的音频基本流的示例。在该示例中，为节目提供三个音频分量。这些音频分量可以与传输流的视频分量（在图1中未显示）一起进行渲染。每一个音频分量对应于内容项的音频声场的全表示（full representation），即，每一个基本流提供渲染所必要的整个音频声场数据（术语音频声场指的是整个渲染的内容项的音频并且不限于例如具体的音频场景）。

每一个基本流提供必须被整体渲染的单个集成音频分量。因而，如果基本流被选择用于渲染，则渲染器将解码基本流的所有音频数据来生成基本流的单个音频分量。这个音频分量随后被渲染（有可能在某些情况下在与来自另一流的音频进行混合之后）。

在利用单独PID识别的单独基本流中提供每一个音频分量。在许多数据分组中提供每一个音频表示的音频数据（被引用为PR1p1、PR1p2……PR2p1、PR2p2……PR3p1、PR3p2……等等，每一个分组具有它自己的识别p1、p2……，并且每一个组的分组被给予它所属于的音频呈现的识别“PR”x）。因而，每一个音频分量在传输流中利用包括与全音频表示相对应的音频分量的编码音频数据的数据分组来代表。每一个音频表示在个别基本流中作为单个音频分量来提供，并且相应地，每一个音频表示与单独PID相关联。在图1的示例中，音频表示分别与PID 1、PID 2和PID 3相关联。

如图1所示，这些数据分组被时间复用到传输流中。接收机能够接收这些数据分组、从与具体PID相关联的每一个数据分组中提取音频数据、解码音频数据并因而重新创建与基本流相对应的个别音频分量/表示。

为了允许接收机同步来自不同数据分组的音频数据以及将由此产生的音频分量与例如相关联的视频流同步，每一个数据分组包括指示利用数据分组的音频数据所代表的音频分段的定时的同步或定时数据。

提供多个音频基本流的优点是：能够提供更灵活的音频供应。例如，图1图解其中提供三个音频基本流的示例。每一个基本流提供包括例如背景数据、音乐、对话等等的音频场景的全表示。全表示利用单个音频分量来提供。然而，三个基本流提供不同的表示，例如，三个基本流可以与同一视频序列相对应，但是具有采用三种不同语言的音频。例如，PID 1可以代表具有采用原始语言例如英语的对话的原始音频场景，而PID 2和PID 3可以代表但是具有分别采用例如法语和德语配音的对话的音频场景。PMT能够提供指示与每一个个别基本流相关联的语言的数据。相应地，用户可以选择首选的语言，并且接收机可以相应地选择对应的基本流。因而，接收机从具有对应PID的所有分组中提取音频数据，并且它随后从这个音频数据中生成音频输出信号。例如，用户可以指示对于对话的偏好是法语，并且相应地，渲染器可以从具有PID 2的基本流分组中提取音频数据并随后从这个音频数据中生成音频输出。

相应地，可以提供多个备选流，其中每一个基本流提供单个音频分量，其提供内容项的音频的完整表示（即，具有用于节目的音频）。接收机随后能够在个别流之间进行选择。因而，在用于音频广播的常规传输流中，每一种备选语言作为利用在单个基本流中的单个音频分量所给出的完整且独立的音频表示来提供。接收机只能在不同的可用流之间进行选择，并且一旦选择某个流，则渲染来自那个流的所有音频。

然而，这个方案导致低度的灵活性，这是因为只有与整个音频声场相对应的单个音频分量可用于在接收机上进行渲染。此外，由于提供全音频表示，所以该方案导致数据流的高数据速率。

MPEG-2 Transport Stream的确虑及补充音频分量被定义，以便提供附加的AudioDescription（音频描述）音频（附加音频为视觉受损用户提供描述性注释）。这样的补充音频分量本身不能被渲染但是可以被添加至来自另一基本流的全表示音频分量。

因而，传统MPEG-2 Transport Stream的音频基本流可以是两种类型之一。第一类型是最典型的类型，其中单个音频分量为内容时间（项）提供音频的全表示。这个音频能够被直接渲染并且被称为“广播混合的”音频。第二类型只提供具有补充音频的单个分量，其中补充音频必须被添加至第一类型的音频分量（与之混合）。因而，第二类型的基本数据提供能够被添加至全音频表示的附加数据。这个被称为“接收机混合的”音频。

为了能够解码所接收的传输流，传输流包括定义在传输流中包含的数据的信息。更详细地，在PAT中指示有关在流中包括的节目的信息。对于每一个节目而言，经由PMT中的信号传输而使得音频分量/轨道的数量和类型对于接收机（例如，DVB传输流解码器）而言是已知的。PMT信息以PID为基础并且具体地包括数据结构环（loop），其包含所有的每个PID所需的信号传输。对于每一个PID而言，可以具体地具有语言描述符和编解码器特定的描述符。语言描述符可以是ISO 639语言描述符或补充音频（Supplementary Audio）描述符。补充音频描述提供在接收机与广播混合的音频信号之间的明显差异化。编解码器特定的音频描述提供有关具有给定PID的分组化基本流的内容的信息。这个信息主要是关于分量是多声道还是立体声分量。

因而，在当前方案中，除了被指示成利用接收机进行混合的基本流之外，每一个基本流为内容项提供单独的音频表示。这些并不提供音频呈现，而是提供必须被添加至广播混合音频信号的音频信号。

在下面，将描述提供更灵活且有效的传输流的方案。该描述将集中于其中在传输流内提供多种语言的示例，但是将领会到：该方案也能够与其他类型的音频一起使用。

图2图解修改的传输流的示例。与图1的方案相类似，图2的传输流包括多个音频基本流。然而，与现有技术形成对比，这些基本流并不限于完整音频表示或补充音频数据，并且不限于单个音频分量。相反，基本流可以包括不同类型的音频数据并且具体地可以包括对于音频表示而言是强制性的数据以及可替换音频数据二者。

具体地，传输流可以包括定义/指定/描述一个或多个音频表示的数据。第一基本流可以与利用传输流所代表的视听内容项的音频表示相关联。这个第一基本流包括用于音频表示的强制性音频数据以及用于音频表示的可替换音频数据。强制性音频数据对应于在渲染基本流的音频表示时必须渲染的强制性音频分量。相比之下，可替换数据可以利用视听内容项的备选音频来替换。因此，第一基本流包括用于音频表示的强制性音频分量和可替换音频分量二者，其中可替换音频分量能够利用另一音频分量来代替。

第一基本流/视听数据流能够相应地包括多个音频分量或对象，其中一个音频分量/对象利用强制性音频数据来代表。这个音频分量是强制性的而且在选择（与第一视听数据流相关联）的具体音频表示时并因而在第一基本流被选择用于渲染时必须总是被渲染。

另一音频分量利用可替换音频数据来代表。这个可替换音频分量相应地对于该表示而言不是强制性的，而可以利用备选音频分量来代替。然而，可替换音频分量在提供音频表示的同时不能仅仅被删除或被丢弃而是能够利用备选音频分量来替换。可替换音频分量能够对应于对于音频表示而言必要的音频源，但是在传输流中包括音频源的不同版本。

在许多实施例中，传输流可以提供视听内容项的默认表示，其中利用强制性音频数据所代表的强制性音频分量和利用可替换音频数据所代表的可替换音频分量一起（有可能与其他的数据或音频分量一起）提供内容项的默认音频表示。因而，可替换音频数据典型地对应于默认音频分量。在渲染音频表示时，接收机将相应地选择强制性音频数据和可替换音频数据作为默认。相应地，它能够解码强制性音频分量和可替换音频分量、将这些分量一起混合并渲染由此产生的音频。这将导致接收机渲染内容项的音频表示的默认版本。

然而，传输流可以同时包括用于备选音频的数据。这个备选音频然而并不需要在提供全音频表示的单独基本流中作为完整的备选音频表示来提供。相反，提供备选音频数据，其可以简单地定义能够替换第一基本流的可替换音频分量的备选音频分量。因而，传输流可以包括能够替换第一基本流的可替换音频数据部分的备选音频数据。

第一基本流因而包括两种类型的数据，即用于（至少）一个强制性音频分量的强制性音频数据以及用于（至少一个）可替换音频分量的可替换音频数据。

具体地，第一基本流能够包括具有强制性音频数据的数据分组以及具有可替换音频数据的数据分组。每一个数据分组可以具体地包括或强制性音频数据或可替换音频数据之一，即，在许多实施例中，数据分组将只包括用于一个音频分量的音频数据。

强制性音频分量和可替换音频分量因而是时间并行分量，即，对于给定的渲染/内容项时间段而言，第一基本流能够包括用于强制性音频分量的强制性音频数据和用于可替换音频分量的可替换音频数据二者。然而，典型地在第一基本流中和在传输流中是时间相继的不同的数据分组中提供同一时间段的强制性音频数据和可替换音频数据。

类似地，可以在这样的数据分组中提供备选音频数据，其中这些数据分组在传输流中对于第一基本流的强制性音频数据和可替换音频数据的数据分组而言是时间相继的，然而为相同的（渲染）时间段提供音频数据。

因而，传输流中的数据分组和数据的定时可以独立于（并且明显不同于）音频分量中的对应音频的定时。具体地，对于至少一个时间段而言，基本流包括用于强制性音频分量以及可替换音频分量的单独的音频数据，即，对于该时间段而言，它包括强制性音频数据和可替换音频数据二者。

图2图解其中给第一基本流分配PID 1的示例。第一基本流不仅仅包括单个音频分量，而是包括用于强制性音频分量和用于可替换音频分量二者的音频数据。

具体地，强制性音频分量可以对应于内容项的一般背景音频（包括例如音乐）。在图2中利用BG1p1、BG1p2、BG1p3、BG1p4来引用包括强制性音频数据的数据分组。

可替换音频分量可以对应于采用默认语言例如英语的对话。在图2中利用AO A来引用包括可替换音频数据的数据分组。

如所示的，在被时间复用到传输流中的个别数据分组中提供强制性音频数据和可替换音频数据。在该示例中，在单独数据分组中提供强制性音频数据和可替换音频数据，即，第一基本流的数据分组包括或强制性音频数据或可替换音频数据。然而，将领会到：在一些实施例中，数据分组可以包括强制性音频数据和可替换音频数据二者。

渲染具有默认语言的默认音频表示的接收机相应地只需要访问第一基本流，即，它只需要解码和处理具有PID 1 的数据分组。它随后能够个别地解码强制性音频数据来生成强制性音频分量以及解码可替换音频数据来生成可替换音频分量。随后通过将强制性音频分量和可替换音频分量一起混合能够生成用于内容项的音频信号。

然而，除了第一基本流之外，传输流还包括进一步基本流，其包括用于可替换音频数据的备选音频数据，即，它包括定义可以替换可替换音频分量的至少一个备选音频分量的数据。

在图2的示例中，传输流包括利用PID 2识别的第二音频基本流以及利用PID 3识别的第三音频基本流。相应地，对应于第二和第三基本流的数据分组在数据流中与用于第一基本流的数据分组进行时间复用。第二基本流包括具有第一备选音频数据的数据分组（被引用为AO B），以及第三基本流包括具有第二备选音频数据的数据分组（被引用为AOC）。第一备选音频数据能够被解码来生成第一备选音频分量，而第二备选音频数据能够被解码来生成第二备选音频分量。

不使用可替换音频分量来为内容项生成音频信号，渲染器能够使用备选音频分量之一，即，用于内容项的音频的生成可以基于备选音频数据的集合之一而非基于可替换音频数据。

例如，可替换音频数据可以提供英语语言对话，第一备选音频数据可以提供德语对话，并且第二备选音频数据可以提供法语对话。接收机随后将默认解码第一基本流、生成背景音频分量和英语音频分量、并将这些一起混合来为内容项生成音频。然而，例如，响应于用户输入，接收机可以利用第一备选音频数据来替换可替换音频数据，即，它可以着手解码强制性音频数据来生成强制性音频分量并且解码第一备选音频数据来生成第一备选音频分量。输出音频随后可以通过组合强制性音频分量和第一备选音频分量来生成。因而，提供德语对话，而非具有英语对话的内容项。

该方案虑及在传输流中音频的非常有效的通信和编码。能够实现降低的数据速率和/或提供增加的灵活性。此外，实现在生成和处理传输流二者方面中的简易处理。

重要地，具体方案可以提供与现有传输流诸如MPEG-2 Transport Stream的高度兼容性。具体地，它提供其中能够保持现有数据结构和组织的方案，并且具体地，基本流的相同方案能够用于提供增加的灵活性。实际上，该方案将最小化（或至少减少）采用新颖方案所需的标准化工作量。此外，它可以增加向后兼容性并减少或甚至最小化支持附加功能所需的改变。

具体地，该方案可以使用包括定义一个或多个内容项的PAT并且具体地为每一个内容项的PMT提供PID的传输流的相同方案。每一个内容项的PMT可以为与内容项相关联的每一个基本流定义PID（因而，内容项可以由在PMT中包括其PID的基本流构成）。接收机随后能够通过选择具有在PMT中指示的PID的数据分组来检索内容项的视听数据。然而，由于内容项可以具有备选音轨，所以接收机可以例如取决于是否这个PID包括所需的音频数据来选择忽略或提取给定PID中的数据。例如，（并且参考图2），如果提供德语对话轨道作为具有PID 2的数据分组中的备选数据，则在希望PID 1的英语对话时，接收机能够忽略这些数据分组。因而，如果希望标准音频场景，则接收机在这个示例中只需要考虑PID 1数据分组来提供所希望的音频。然而，同时，如果备选德语对话音轨是首选的话，则接收机能够简单地从PID 2的数据分组中提取这个音频数据并且利用这个音频数据来替换PID 1数据分组中的可替换音频数据。

该方案虑及高度操作效率。实际上，该系统能够简单地渲染单个基本流用于标称操作，并因而该方案不仅提供不同的选项，而且它还能够将一个选项当作首选选项。例如，原始对话被包括在与背景音频相同的基本流中，并因而这将总是被提供，除非例如用户具体地请求备选的。

图3图解用于生成视听内容项数据流并且具体地生成传输流诸如图2的基于MPEG的传输流的设备的示例。视听内容项数据流自此以后将被称为传输流。内容项由许多视听分量诸如一个或多个音频分量以及典型地一个或多个视频分量构成。内容项也可以包括支持交互性的分量。每一个音频分量可以是音频信号并且在许多情况下可以是音频对象。每一个视频分量可以是与单个运动图像相对应的视频信号，或者可以例如是多视图运动图像的视图。内容项也可以包括支持交互性的分量。例如，交互性分量可能可用于帮助用户进行音频对象和/或视频分量的其选择。

该设备生成包括多个个别视听数据流的传输流。内容项的视听分量相应地被分布在多个个别视听数据流上。每一个个别视听数据流相应地对应于如前所述的基本流，并且将被称为基本流。每一个基本流可以与独特的（在传输流内）分组识别符相关联，诸如具体地与PID相关联。

多个基本流（视听数据流）相应地包括内容项的视听分量。在图1的方案中，每一个视听分量被包括在单个基本流中。然而，与此相反，图2的设备被安排成生成传输流，以致基本流之中的至少第一基本流包括多个视听分量。

视听分量由于基本流包括视听分量的编码数据而被包括在基本流中。因而，每一个基本流包括代表至少一个视听分量的编码数据。在一些实施例中，可以附加地提供包括元数据诸如控制数据、交互式数据等等的一些基本流。

如前所述，基本流由多个时间复用的数据分组构成，并且相应地，用于视听分量的编码数据被包括在传输流的数据分组中。因而，传输流中的个别数据分组的定时并不直接对应于在这个被渲染时在数据分组中的视听分量的分段的定时。为了确保渲染的正确定时，每一个基本流包括允许它与其他基本流中的视听分量进行同步的同步信息。具体地，每一个数据分组能够包括定义利用数据分组所代表的内容分段的定时的同步数据。

图3的描述和图解将集中于与音频分量相关的传输流的部分。将领会到：另外，可以生成传输流来包括元数据、控制数据、视频内容项（并且可能地，其他音频项）等等。例如，从常规的MPEG-2 Transport Stream的各种实现方式中众所周知的方案可以用于这样的数据。

图3的设备包括为多个音频分量提供编码音频数据的音频源301。在一些实施例中，音频源301可以接收多个音频分量，并且它可以着手个别地编码这些音频分量。该编码可以使用相同的编码算法或在许多实施例中可以针对不同的音频分量使用不同的编码算法和标准。并且，对于不同的音频分量，例如，编码参数诸如由此产生的数据速率可以是相同的或可以是不同的。

在其他实施例中，音频源301可以直接提供编码音频数据。例如，音频源301可以是其中存储许多编码音频分量的本地储存器。

音频源301具体地为代表内容项的音频分量提供编码音频数据。它典型地提供将在再现被包括在传输流中的视频分量时进行再现的所有音频。例如，对于电影而言，一个或多个基本流可以为该电影提供视频（例如，不同的基本流可以提供视频的不同分辨率）。音频源301可以提供被分成许多音频分量的相关联音频。

在图3的方案中，生成包括将与渲染内容项相结合来渲染的音频声场的全表示的单个基本流。例如，生成包括渲染例如电影或电视节目的音频所需的所有音频的一个基本流。

可以具体地生成传输流来明确包括定义一个或多个音频表示的数据。音频表示的定义可以例如利用与用于音频表示的强制性音频数据和可替换音频数据相对应的音频数据的直接或间接识别来提供。典型地，音频表示的定义也可以包括可以替换可替换音频数据的备选音频数据的识别。

在该方案中，第一基本流并不包括单个音频分量，而是包括强制性音频分量和可替换音频分量二者。因而，生成基本流来如前所述包括用于强制性音频分量的强制性音频数据和用于可替换音频分量的可替换音频数据二者。强制性音频分量可以具体地对应于背景音频，而可替换音频分量可以对应于采用原始语言（例如，英语）的主对话。

在图3的示例中，音频源301给第一分组器（packetizer）303提供用于强制性音频分量的强制性音频数据。第一分组器303着手分组化（packetize）强制性音频数据。这个分组化包括将强制性音频数据分成合适大小的块。它也包括将同步数据添加至数据分组。另外，第一分组器303给报头添加允许数据分组的正确解码的相关信息。该报头具体地被生成来包括PID，并且被分配给第一基本流的PID相应地被包括在数据分组中。

类似地，音频源301给第二分组器305提供用于可替换音频分量的可替换音频数据。第二分组器305着手分组化可替换音频数据。这个分组化类似地包括将可替换音频数据分成合适大小的块、添加同步数据和分组报头。就第一分组器303而论，第二分组器305生成报头来包括与分配给第一基本流的PID相对应的PID。因而，用于强制性音频分量和可替换音频分量二者的数据分组具有相同的PID并且相应地是同一基本流的一部分。

音频源301此外向第三分组器307提供备选音频数据。第三分组器307着手分组化可替换音频数据。这个分组化类似地包括将可替换音频数据分成合适大小的块、添加同步数据和分组报头。就第一分组器303而论，第三分组器307生成报头来包括PID。备选音频数据如前所述对于可替换音频数据而言是备选的。因而，备选音频数据是编码可以被使用来代替可替换音频分量的备选音频分量的数据。例如，备选音频分量可以对应于配音语言（例如，德语），并且这个可以在渲染在传输流中包括的内容项时替换原始语言（例如，英语）。

在具体示例中，备选音频数据被包括在与第一基本流不同的基本流中，并且相应地备选音频数据被生成为具有与用于强制性音频数据和可替换音频数据的数据分组不同的PID。然而，如稍后将描述的，备选音频数据可以在一些实施例中被包括在第一基本流本身中，并因而在一些实施例中，这些数据分组可以被生成为具有与用于强制性音频数据和备选音频数据的（数据分组）相同的PID。

第一、第二和第三分组器303、305、307被耦合到流生成器309，而流生成器着手通过时间复用来自分组器303、305、307的数据分组来生成传输流。将领会到：典型地，也可以编码许多其他的音频分量。这些音频分量（可能包括用于其他音频表示的强制性音频分量或者进一步备选音频分量二者）可以采用类似的方式被分组化。流生成器309可以被安排成通过时间复用而进一步在传输流中包括这样的数据分组。类似地，可以为视频分量、可能地混合视听分量、元数据或控制数据生成数据分组，并且由此产生的数据分组可以通过时间复用而被包括在传输流中。

该设备此外包括被安排成为传输流生成控制数据的控制数据生成器311。控制数据生成器311具体地生成描述哪些数据被包括在传输流中的控制数据。具体地，控制数据生成器311能够生成PAT和PMT。由此产生的数据分组被馈送至流生成器309，而该流生成器着手将该数据包括在传输流中。控制数据生成器311能够具体地包括这样的数据，其定义或描述与用于内容项的具体音频表示相关联的数据。

因而，图3的设备可以生成诸如参考图2所描述的传输流，即，能够生成其中至少第一基本流包括多个音频分量的数据的传输流，其中至少一个音频分量对于内容项的音频表示而言是强制性的，而其他的音频分量可以利用另一音频分量来替换。因而，利用图3的设备能够实现先前描述的优点。

图4图解用于为视听内容项生成音频信号的设备的示例。具体地，该设备从图3的设备接收传输流（具体地，在图2中显示传输流）并且为内容项生成音频输出信号。输出信号可以典型地用于音频的渲染，并且图4的设备将相应地被称为渲染器。

渲染器包括接收传输流的传输流接收机401。

渲染器进一步包括被安排成从接收的传输流中提取强制性音频数据的第一数据提取器403。具体地，第一数据提取器403被安排成检测具有与第一基本流相对应的PID的数据分组。它随后能够从这些数据分组中提取源自数据分组的子集的数据，其中对于这些数据分组而言，该数据对应于强制性音频分量。

渲染器也包括被安排成从接收的传输流中提取可替换音频数据的第二数据提取器405。具体地，第二数据提取器405被安排成检测具有与第一基本流相对应的PID的数据分组。它随后能够从这些数据分组中提取源自数据分组的子集的数据，其中对于这些数据分组而言，该数据对应于可替换音频分量。

个别数据分组包括可替换音频数据还是强制性音频数据的信息可以在一些实施例中利用未被包括在第一基本流中的传输流的控制或元数据来提供。例如，可以提供PMT，其为第一基本流定义数据分组在该基本流中的顺序。例如，它可以定义两个数据分组的重复序列，其中强制性音频数据被可替换音频数据的一个数据分组跟随。在其他实施例中，该信息可以可供选择地或附加地被提供在个别数据分组中。例如，在每一个数据分组的报头中的标记可以指示：数据分组包括强制性音频数据还是可替换音频数据。在简单实施例中，可以提供简单的1比特标记。在其他实施例中，可以提供基本流的个别音频分量的身份。

渲染器也包括被安排成从接收的传输流中提取备选音频数据的第三数据提取器407。具体地，在其中在不同的基本流中提供备选音频数据的示例中，第三数据提取器407可以被安排成检测具有与这个不同的基本流相对应的PID的数据分组。它随后能够从这些数据分组中提取备选音频数据。

第一数据提取器403被耦合至第一解码单元409，而强制性音频数据被提供给第一解码单元。第一解码单元409随后着手解码强制性音频数据来生成强制性音频分量。

类似地，第二数据提取器405被耦合至第二解码单元411，而可替换音频数据被提供给第二解码单元。第二解码单元411随后着手解码可替换音频数据来生成可替换音频分量。

相应地，第三数据提取器407被耦合至第三解码单元413，而备选音频数据被提供给第三解码单元。第三解码单元413随后着手解码备选音频数据来生成备选音频分量。

在一些实施例中，第一、第二和第三解码单元409、411、413可以利用相同的解码算法，即相同的编码算法或标准可能已被用于生成编码音频数据。然而，甚至在这样的实施例中，不同的解码单元（并因而，在源端上的编码器）可以具有不同的编码/解码参数。具体地，对于强制性音频数据、可替换音频数据和/或备选音频数据而言，音频数据的数据速率可以是不同的，并且相应地，这些解码单元可以利用不同的数据速率来解码音频数据。

在一些实施例中，第一、第二和第三解码单元409、411、413之中的至少两个解码单元可以利用不同的解码算法，即不同的编码算法或标准可能已被用于生成编码音频数据。

因而，该方案可以虑及针对每一个个别音频分量的特征和首选项的个别优化或适配。例如，基于音频分量的特征，可以动态地执行编码设置/算法的决定。

第一、第二和第三解码单元409、411、413被耦合至组合器415，而该组合器被安排成通过将强制性音频分量与可替换音频分量和备选音频分量之一相组合来生成输出信号。该组合在许多情景中可以是简单的（可能地，加权的和/或频率选择性的）相加或混合。

具体地，当操作在默认模式中时，通过组合强制性音频分量与可替换音频分量来生成输出信号。以这种方式，输出信号被生成来对应于内容项的默认音频表示。在具体示例中，为视频分量生成具有英语语言对话的音轨。

然而，例如，响应于明确的用户输入，图4的设备反而可以通过组合强制性音频分量与备选音频分量来生成输出信号。因而，在这个情景中，该设备着手利用备选音频分量来替换可替换音频分量。这可以例如导致为视频分量生成具有配音的德语语言对话的音轨。

输出音频信号随后可以例如通过基于输出音频信号驱动扩音器来渲染或再现。这样的驱动可以经由如本领域中众所周知的例如包括功率放大器、滤波器等等的合适驱动器电路。也将领会到：该方案可以用于多通道信号，例如，由于所有的数据、分量和处理直接位于多通道域中（例如，音频数据可以代表编码的多通道信号，而编码的多通道信号被解码来生成多通道音频分量，其中多通道音频分量随后能够利用多通道组合器来选择和组合）。作为另一示例，可以个别地针对多通道信号的每一个个别通道来执行所描述的方案。

作为还一示例，单通道音频分量与多通道音频分量可以被混合，例如，强制性音频分量可以是多通道信号，而可替换音频分量和备选音频分量可以是单通道信号。

在先前的示例中，通过组合器415选择组合备选音频分量和强制性音频分量，利用备选音频数据来替换可替换音频数据。将领会到：在一些这样的实施例中，图4的设备不可以提取或解码没有在使用的数据。具体地，如果选择默认操作，则该设备将不提取备选音频数据和解码备选音频分量。类似地，如果使用备选音频数据来生成输出信号，则该设备不可以提取可替换音频数据或解码可替换音频分量。

在该示例中，通过选择与强制性音频分量进行组合的音频分量来执行利用备选音频数据进行的可替换音频数据的替换（或者不替换）。然而，将领会到：可以直接在编码音频数据域中执行选择和替换。例如，相同的解码器可以用于被解码的所有音频分量，并且该设备可以被安排成利用被馈送至解码单元的数据流中的备选音频数据来直接代替可替换音频数据。

在一些实施例中，可以在压缩和/或编码域中执行强制性音频与可替换（默认）音频或备选音频的组合。在这样的实施例中，可以给组合器415提供来自数据提取器403、405、407的相关的压缩/编码音频数据，并且该组合器可以着手选择和组合所希望的音频数据。所组合的音频数据随后可以被馈送至解码所组合的音频数据的单个解码单元。

可以在不同的实施例中在传输流的不同部分中提供备选音频数据，或实际上甚至在一些情况中可以从传输流外部提供备选音频数据。

因而，在一些实施例中，该设备可以被安排成从相同的源或从不同的源接收第二传输流。该设备可以被安排成处理这个第二传输流并且可以从这个第二传输流中提取备选音频分量，其能够替换第一传输流中的可替换音频分量，如先前针对在相同的传输流中所包括的备选音频分量所描述的。例如可以经由因特网（Internet）连接从另一源接收第二传输流。

这样的方案可以例如允许可替换音频分量例如通过因特网连接从不同的供应商进行检索。它可以例如使得第三方能够为例如电影提供配音语言。

第二传输流的具体示例因而可以是从与第一传输流不同的数据源或从不同的文件接收或检索的传输流。例如，可以通过广播传输从主要数据源接收第一传输流。例如，第一传输流可以来自向大量接收机和用户广播第一传输流的电视台。因而，这种通信可以例如是点对多点无线电广播。然而，包括备选音频数据的第二传输流可以通过不同的通信媒介诸如例如经由因特网而被直接发射至个别用户。第二传输流可以作为点对点传输而被直接发射至个别接收机/用户。第二传输流实际上甚至可以由用户具体请求并且经由交互媒介诸如因特网来提供。这样的方案可以允许有效的分发和通信，而同时允许非常高程度的潜在用户定制。

相应地，第二传输流或许可以是从与第一传输流不同的源中可检索的或者是经由与第一传输流不同的源而可检索的。在文件的情况下，这些传输流可以来自不同的文件。用于第二传输流的不同源也可以是例如不同的媒介（例如，第一传输流可以从Blu-ray盘中进行检索，而第二传输流可以来自无线电传输）。提供第一传输流的主源可以是广播或多播信号，而提供第二传输流的第二源可以是以具体个体为目标的。

在许多实施例中，然而，备选音频数据将是相同传输流的一部分。

具体地，在一些实施例中生成传输流的设备将备选音频数据包括在传输流之中不同的基本流中。这可以提供特别有效的方案，并且在许多情景中可以方便操作和信号传输，而且可以提供更有效的传输流。在这样的实施例中，接收机可以通过识别具有与其中包括备选音频数据的基本流相对应的PID的数据分组来提取备选音频数据。

在图5中显示这样的情景的示例。在该示例中，具有1的PID 的基本流包括两个音频分量，即与背景声音相对应的强制性音频分量以及与默认语言相对应的可替换音频分量。强制性音频分量利用被引用为BG1p1、BG1p2等等的数据分组中的音频数据来代表，而可替换音频分量利用被引用为OA C的数据分组中的音频数据来提供。另外，具有2的PID的第二基本流包括利用被引用为OA A的数据分组中的音频数据来代表的备选音频分量。具有3的PID的第三基本流也提供利用被引用为OA B的数据分组中的音频数据来代表的备选音频分量。注意：在图5中，用于OA A和OA B的数据分组被显示成与用于OA C的数据分组是同步的。这可以反映其中这些数据分组可以实际上同时被包括（例如，通道交错在数据分组上）的情景。然而，也将领会到：在许多实施例中，这些数据分组可以被时间复用。这两个备选音频分量可以对应于不同的语言，而这些不同的语言能够替换可替换音频分量的语言。具体地，如图5所示，基本流PID 2的备选音频数据可以替换基本流OA C的可替换音频数据。

因而，渲染器可以从基本流PID 1中提取背景音频数据（强制性音频数据）并且解码这个来生成与背景音频相对应的强制性音频分量。另外，它可以从基本流PID 2中提取备选音频数据并且解码这个来生成与配音语言之一相对应的备选音频分量。这两个分量随后被组合来生成被渲染/再现的输出信号。

如图5所示，用于可替换音频数据和备选音频数据的数据分组不一定相互对应。例如，它们可以被不同地编码（例如不同的编码参数、数据速率或编码算法）并且可以具体地对应于不同的时间间隔或段。然而，如果例如使用其后跟随着音频分量的组合的单独解码，则能够通过适配不同的解码路径和解码信号的组合来解决这样的差异。

在一些实施例中，第二基本流可以不仅包括该备选音频分量，而且可以例如包括多个备选音频分量。

实际上，在一些实施例中，第二基本流对于内容项的不同表示可以进一步包括强制性音频数据。因此，在一些实施例中，第二基本流可以是它本身为内容项提供不同的音频表示的基本流。相应地，接收机可能能够仅使用第二基本流的音频数据来为内容项生成声轨。例如，第二基本流可以针对内容项的备选音频表示包括强制性音频数据和可替换音频数据。在这样的示例中，用于第一基本流（并因而，第一表示）的备选音频数据可以例如是第二基本流（即，用于第二表示）的可替换音频数据。

在一些实施例中，备选音频数据可以被提供在第一基本流本身中，即它可以是包括强制性音频数据和可替换音频数据的同一基本流的一部分。因而，图3的设备可以被安排成通过将包括备选音频数据的数据分组时间复用到传输流中而将备选音频数据包括在第一基本流中，其中对于具有强制性音频数据和可替换音频数据的数据分组而言，这些数据分组的PID是相同的。图4的设备可以作为默认从包括强制性音频数据和可替换音频数据的数据分组中提取音频数据并且着手从这个数据中生成输出音频信号。然而，例如，响应于用户输入，该设备反而可以从恰当的数据分组中提取备选音频数据并且使用这个数据而非可替换音频数据来生成音频输出信号。

在图6中显示这样的方案的示例，其中第一基本流包括具有强制性音频数据（BG1p1……）、具有可替换音频数据（OA A）和具有备选音频数据（OA B, OA C）的数据分组。在该示例中，强制性音频数据被提取来生成强制性音频分量，而数据分组OA B中的数据被提取并被解码，以生成备选音频分量而非默认的可替换音频数据。通过组合解码的强制性音频分量和解码的备选音频分量来生成输出信号。

先前描述已集中于这样的示例，其中备选音频数据对应于不同的音频分量，诸如对应于不同的语言。然而，将领会到：所描述的方案并不限于这样的示例。

实际上，在一些实施例中，可替换音频数据和备选音频数据可以代表使用不同的编码特征来编码的相同的音频内容。具体地，可替换音频数据和备选音频数据可以对应于相同的音频内容，并且具体地对应于相同的但是利用不同的比特率编码的音频分量。

这可以提供增加的灵活性并且例如可以允许接收机接收传输流和有效地且利用低复杂度来生成对应于相同的音频内容但是具有不同的数据速率的传输流。因而，在可替换音频数据与备选音频数据之间的选择可以取决于数据本身的特征，诸如取决于具体的数据速率以及所希望的数据速率。该方案可以允许增加的灵活性并且可以具体地允许传输流的特征的灵活适配。

在一些实施例中，备选音频数据可以例如是音频对象，诸如SAOC音频对象，其代表多个子对象。

在一些实施例中，图3的设备可以被安排成在传输流中包括渲染控制数据。渲染控制数据可以为了渲染传输流的音频而指定所需的、所希望的或所建议的渲染参数。例如，渲染控制数据可以提供音频分量的绝对或相对电平的指示。

与对于在使用备选音频数据时相比而言，对于在使用可替换音频数据时，渲染控制数据可以具体地提供不同的渲染参数。

在渲染默认音频时，即在基于强制性音频数据和可替换音频数据来生成输出信号时，渲染控制数据可以例如描述用于输出信号的相对增益或信号电平。它可以进一步描述在渲染备选音频时、即在基于强制性音频数据和备选音频数据来生成输出信号时用于输出信号的不同的相对增益或信号电平。

这样的方案可以例如用于在渲染之间提供差异，例如，与在渲染备选音频信号时相比而言，在渲染默认音频信号时，可以更大声来渲染音频。然而，该方案也可以用于均匀化输出信号。例如，在其中可替换音频分量的电平高于备选音频分量的电平的情形中，在使用备选音频分量导致电平差被降低时，渲染控制数据可以增加输出信号的总体增益。

在一些实施例中，渲染控制数据可以描述针对可替换音频分量和备选音频分量而言不同的渲染。例如，用于可替换音频分量的增益可以不同于备选音频分量。这可以例如允许定制。作为具体示例，与英语语言TV（电视）广播相比而言，德语语言TV广播可能倾向于相对于体育赛事的人群噪声而言具有较高的相对电平的评论员声音。相应地，可以为两个不同的语言分量设置不同的增益，以致能够从具有备选语言的单个传输流中提供相同的效果。

在一些实施例中，取决于是基于可替换音频数据/可替换音频分量还是基于备选音频数据/备选音频分量来生成输出信号，渲染控制数据可以为（可能地，仅仅）强制性音频数据/强制性音频分量提供不同的渲染参数。

为了允许接收机充分利用所提供的传输流，发射机可以包括能够信号传输有关在传输流中包括的不同数据的信息的附加数据。

具体地，在一些实施例中，图3的设备可以被安排成包括第一基本流包括可替换音频数据的指示。这个指示可以例如作为用于传输流的单独配置参数的一部分来提供。例如，可以提供包括规定传输流的不同基本流的配置分组的数据分组。具体地，可以提供包括PMT的配置数据。在这样的情况下，定义个别基本流的PMT的该部分可以被增强来也包括定义在基本流中代表哪些音频分量以及具体地定义是否个别基本流包括一个以上音频分量的信息。例如，可以设置标记来指示：给定的基本流包括可替换音频数据。

在一些实施例中，传输流可以被生成来包括用于基本流中的可替换音频数据的提取数据。这样的提取数据可以例如规定如何能够识别可替换音频数据。例如，它可以包括以下的指示：哪些数据分组包括可替换音频数据，以及哪些数据分组包括强制性音频数据。该描述可以例如通过描述在基本流中包括的音频分量并将每一个与身份相关联来提供。每一个数据分组随后能够在报头中包括音频分量身份来指示：对于哪个音频分量，数据分组包括音频数据。提取数据可以为每一个音频分量提供音频分量身份，从而允许接收机提取相关信息。

具体地，对于MPEG-2 Transport Stream而言，补充音频描述符可以利用对象的定义来扩展。在图7中提供补充音频描述符的语法的示例。图8分别图解数据项mix_type和editorial_classification的常规使用。

在这个示例中，mix_type数据结构可以从图8的数据结构改变成图9的数据结构。editorial_classification可以被改变成图10的数据结构。此外，可以使用诸如图11的AAC描述符分量。

这个示例显示：依据editorial_classification数据结构，保留比特能够用于指示是否音频包含能够被操纵的对象。在mixed_type等于1的情况下，对象比特值1指示：音轨是背景对象并且必须与对象进行混合。如果对象比特为0，则这就是当前情况，这个指示：音轨是完整的并且可以利用对象或另一mix_type 0流来补足。

利用editorial_classification数据结构，能够信号传输可替换对象的使用情况。那个可替换对象的识别能够被放置在AAC描述符中。在这个水平上需要给出的唯一信号是具有可替换对象的识别。

AAC描述符的扩展可以具体地包括对象的环（loop），其中每个对象的描述符描述其属性，具体地，诸如：

- 对象的语言，

- 可替换性：这个可以信号传输：该对象是流中的默认对象并且能够利用另一对象来替换（以及任选地，可以包括至那个备选对象的链接），

- 是否这是用户可以选择来将其添加至整体或者挑选来将其排除之外的对象。例如，它可以是用于残疾人的特殊声轨或者包含特殊评论。这给予操作者以非常有限的带宽为代价来提供评论轨道的可能性，

- 能够利用对象来显示的文本的指示，以使得用户清楚了解它是交互对象。例如，对于用户选择这个对象、将它放在另一位置上或者使之例如更大声或更柔软而言，这可能是有可能的，

- 提供至被耦合到音频对象的视频对象的链接。交互对象也可以具有与其视频配对物一起移动的能力。例如，“放大（zoom into）”对象可能是有可能的。缩放能够利用视频对象以及音频对象的响度来可视化。用户随之具有该对象实际上更靠近的错觉，这是因为只有那个对象的音频独自变得更大声。

此外，视频净荷报头中的对象（UsacConfig）能够经由元数据描述符、利用独特的识别符来扩展。这个识别符可以被包括在PMT之中的描述符中，以允许识别该对象。这个识别符也可以是描述音频内容的文件中的XML描述。

图12图解如何可以在UsacConfig中识别对象。

图13图解用于允许对象将其内容委托给SAOC对象的对象描述符的语法的示例。

在许多实施例中，视听内容项数据流可以相应地具有数据，其包括在分层布置中构造的视听数据、控制数据、元数据等等。

具体地，视听内容项数据流（具体地，传输流）可以包括定义在视听内容项数据流中包括的内容项的数据流内容项描述符。数据流内容项描述符可以具体地被分配给预定分组识别符，其具体地可以被标准化并因而在发射和接收端二者上将是已知的。因而，接收机能够检测具有预定分组识别符的数据分组并能够从这些数据分组中提取数据，以确定在视听内容项数据流中包括哪些内容项。例如，对于MPEG传输流而言，该传输流可以包括PAT，其被包括在具有0的预定PID 的数据分组中。

数据流内容项描述符可以具体地为每一个内容项提供指向用于该内容项的内容项映射表的指针。用于内容项的内容项映射表可以包括被链接至该内容项的视听数据流的数据分组的视听数据流分组识别符的列表。因而，内容项映射表对于为内容项提供包括例如视频数据、强制性音频数据、可替换音频数据、备选音频数据和附加音频数据的视听数据的每一个视听数据流包括分组识别符。另外，内容项映射表可以包括指针以及具体地包括为内容项提供例如元数据、控制数据等等的数据流的分组识别符。内容项映射表可以是节目映射表。

具体地，对于MPEG类型数据流而言，PAT可以为每一个内容项包括用于PMT的分组识别符。用于节目/内容项的PMT则可以包括为该节目提供视听数据的每一个基本数据流的PID。

相应地在具有与内容项映射表中所指示的分组识别符相对应的分组识别符的数据分组中提供视听数据流。例如，如前所述，通过给分组中的音频数据提供一个分组识别符，可以在一个视听数据流中提供强制性和可替换音频数据，通过给分组中的音频数据提供另一分组识别符，可以在另一视听数据流中提供第一备选数据，通过给分组中的音频数据提供第三分组识别符，可以在另一视听数据流中提供第二备选数据，等等。内容项映射表被生成来包括各自的视听数据流的分组识别符。

该方案提供高度的灵活性并且允许源生成适合于特殊的情景且以所希望的方式提供所希望的内容项的视听内容项数据流。这可以进一步显著地方便利用接收机进行的数据的提取。具体地，接收机实质上只需要监视分组识别符来选择所需的数据，并且它能够简单地忽略不包含所需数据的所有数据分组。

例如，接收机可以最初针对数据流内容项描述符的分组识别符来监视所接收的分组，即具体地，它可以监视PAT的预定PID（在MPEG的情况下，PID 0）。

在检测到这个时，接收机提取数据并选择所希望的内容项。随后为这个内容项提取内容项映射表的分组识别符，具体地，针对MPEG而言的PMT的PID。

接收机随后扫描具有这个分组识别符的数据分组。这些数据分组的数据被提取，从而提供包括该内容项的数据的视听数据流的分组识别符。接收机随后能够着手扫描包含这些识别符的数据分组，同时忽略所有其他的数据分组。该方案特别允许实用的和低复杂度的视听数据的复用和解复用。

因而，该方案提供用于从视听内容项数据流中提取相关数据的低复杂度和低资源方案。

然而，在一些实施例中，可以生成视听内容项数据流，以允许许多视听数据流被当作单个视听数据流。具体地，该方案可以使用组合或级联的识别方案，而非使用标准分组识别符。具体地，视听数据流可以与主要识别符以及辅助识别符二者相关联，其中主要识别符可以是用于至少两个视听数据流的公共识别符。

主要识别符可以具体地是公共数据流分组识别符，即，它可以是识别（组合）数据流的分组识别符。由于主要识别符对于多个视听数据流而言是公共的，所以主要识别符能够被认为定义公共或组合视听数据流，其是共享主要识别符的所有视听数据流的组合。

主要识别符在许多实施例中被包括在内容项映射表中。因而，生成内容项映射表来包括主要识别符，并因而，内容项映射表从而提供指向单个数据流的指针，其中单个数据流是多个个别视听数据流的组合数据流。

实际上，在许多实施例中，图3的设备可以被安排成：生成内容项映射表，以便对于包括音频的所有视听数据流、或者实际上对于所有的视听数据流、对于利用内容项映射表所代表的内容项而言只包括单个主要识别符。

实际上，在一些实施例中，内容项映射表可以被生成，以便在内容项映射表中对于内容项只包括一个视听数据流分组识别符或者在内容项映射表中对于内容项的音频数据只包括一个视听数据流分组识别符。因而，对于给定的内容项而言，公共分组识别符代表用于内容项的所有音频或视听内容，并且实际上该内容项可以基于主要识别符来处理，就好像它只包括单个视听数据流（或用于音频的单个视听数据流）似的。

作为具体示例，对于MPEG类型传输流而言，可以生成用于内容项的PMT，以便对于所有的音频基本流、或者实际上对于所有的音频或视频基本流、对于该内容项而言只包括一个PID。因而，内容项将仅被链接至用于所有的音频或者用于所有的音频与视频的单个PID。

相应地，在一些实施例中，对于处理设备诸如接收机、复用器、解复用器等等而言，视听数据流可以显现为具有比实际情况更少的视听数据流。具体地，视听数据流可以显现为只具有用于内容项的单个音频或单个视听基本流。例如，对于MPEG类型示例，对于处理电路而言，传输流可以显现为对于内容项的所有音频（或视听）分量而言只包括单个基本流。

然而，对于已被组合在公共视听数据流中的每一个个别视听数据流，视听内容项数据流可以进一步包括辅助识别符。辅助识别符在公共视听数据流中是独特的，即，公共视听数据流之中没有两个视听数据流将具有辅助识别符。辅助识别符因而允许个别视听数据流被识别。

辅助识别符在许多实施例中可以是分组识别符。因而，在许多实施例中，个别分组可以利用公共主要分组识别符和利用辅助分组识别符来代表。每一个分组可以包括在其中包括公共主要分组识别符的字段以及在其中包括个别辅助识别符的第二字段。

以这种方式，这些分组能够利用电路诸如解复用器、路由器等等来处理，就好像这些分组代表单个视听数据流似的。具体地，通过将公共PID包括在用于MPEG类型传输流的数据分组的PMT和PID字段中，能够处理该传输流，就好像它只包括单个音频或视听基本流似的。该功能能够简单地采用相同的方式来处理例如用于该内容项的所有音频数据分组，并且就好像只具有单个基本流似的。然而，同时，合适装备的功能能够访问个别视听数据流并且作为单独的视听数据流来处理它们。具体地，这样的功能能够进一步评估包括辅助识别符的字段并且能够相应地选择如何处理数据分组。具体地，它能够取决于需要哪一个视听数据流来提供内容项的所希望的渲染来决定是忽略还是处理这些数据分组。

因而，在处理视听内容项数据流时，接收机可以基于主要/公共分组识别符来检测用于给定内容项的正确数据分组。它可以特别地基于在接收的内容项映射表中的信息来识别属于公共视听数据流并因而属于形成公共视听数据流的单个视听数据流的所有数据分组。因而，音频数据的提取基于主要识别符。

在使用这样的两部分分组识别符方案的实施例中，传输流可以包括附加数据，其提供个别视听数据流的信息，其包括对应辅助识别符的信息并且典型地包括与个别视听数据流相关联的个别视听数据流的音频的特征的信息。

例如，可以提供针对给定的主要识别符列出共享相同的主要识别符的视听数据流的所有辅助识别符的数据。该数据可以进一步指示个别视听数据流的特征，例如，诸如是否它包括强制性音频数据、可替换音频数据、附加音频数据、备选音频数据等等。

在一些实施例中，可以在公共视听数据流的数据分组内提供这样的信息。例如，在规则间隔上，可以提供包括与辅助识别符相关的所有信息的数据分组。接收机可以最初从包括主要识别符的所有数据分组中检测和提取数据。在接收到具有与辅助识别符的使用相关的信息的数据分组时，这个信息能够由接收机提取和使用来识别个别视听数据流。它随后可以切换到也考虑包括主要分组识别符的数据分组的辅助识别符并且具体地只从具有所希望的辅助识别符的数据分组中提取数据。

在其他实施例中，可以在公共视听数据流的外部提供该数据，并且实际上在许多实施例中，可以在内容项映射表中提供该信息。

具体地，对于每一个公共或主要识别符，可以生成内容项映射表来包括多个辅助分组识别符，其中每一个辅助分组识别符识别公共视听数据流的视听数据流之中的个别视听数据流。

例如，在主要识别符的列表之后，可以在内容项映射表中包括许多可选字段，其中每一个可选字段为具有公共主要识别符的个别视听数据流提供辅助识别符。如果主要识别符代表不是视听数据流的组合的单个视听数据流，则没有可选字段可以被包括。除了用于个别视听数据流的辅助分组识别符之外，每一个可选字段也可以包括用于视听数据流的元数据，具体地，诸如定义视听数据流的视听数据的特征的数据（例如，诸如它包含备选音频数据、强制性音频数据、可替换音频数据还是附加音频数据）。

具体地，可以修改或生成内容项映射表来针对每一个主要识别符包括一组字段，其中每一个字段代表组合的视听数据流之中的一个个别视听数据流。每一个字段可以例如包括代表以下的数据：

- 用于个别视听数据流的辅助识别符，以及

- 用于那个个别视听数据流的描述符。

例如，对于MPEG类型方案而言，PMT对于内容项的所有音频可以包括单个PID。跟随在PMT中的PID之后，可以具有一组字段，其为每一个个别视听数据流提供辅助识别符以及表征那个个别视听数据流的内容的元数据。

在一些实施例中，主要/公共识别符和辅助分组识别符可以被提供在分层布置中。例如，可以在第一级上在内容项映射表中提供主要分组识别符，其将被接收机扫描以寻找基本流。例如，诸如通过为每一个主要分组识别符包括辅助分组识别符的列表，可以在链接至主要分组识别符的可选字段中提供辅助分组识别符。在这样的实施例中，接收机将相应地首先扫描主要分组识别符的标准列表。在已识别所希望的组合基本流时，接收机可以着手仔细检查（go through）针对所识别的主要分组识别符所存储的辅助分组识别符的列表。因而，依据对应的主要分组识别符来识别辅助分组识别符。

因而，在一些实施例中，可以使用主要和辅助分组识别符的嵌套结构。例如，PMT可以在一组专用字段中包括PID的列表，并且该列表可以例如针对组合基本流只包括单个主要PID。然而，PMT可以针对组合基本流之中的个别基本流另外包括辅助PID的第二列表。这些辅助PID被提供在用于辅助PID的专用数据字段中并且被链接至主要PID。因而，接收机将仅基于主要PID来访问辅助PID，并且实际上接收机将区分主要PID和辅助PID。

然而，在其他实施例中，可以使用主要和辅助分组识别符的扁平结构。实际上，内容项映射表可以包括识别符的列表，其可以包含主要识别符和辅助识别符二者。实际上，内容项映射表可以包括所有可能的视听数据流的简单列表，其包括组合视听数据流和个别视听数据流二者。此外，给定的个别视听数据流可以利用用于个别视听数据流的辅助分组识别符来代表并且也可以利用主要分组识别符来代表（即，这些分组识别符之中的任一分组识别符的选择将导致该视听数据流的选择）。实际上，对于每一个个别视听数据流而言，内容项映射表可以包括用于该个别视听数据流所属于的任何组合视听数据流的主要分组识别符的条目以及用于该个别流的辅助分组识别符。因而，在这个示例中，列表可以例如包括具有用于包括组合和个别视听数据流二者的所有视听数据流的分组识别符的条目。

相应地，在一些实施例中，辅助分组识别符可以被封装在被链接至主要分组识别符的数据中，而在其他实施例中可以与主要分组识别符并行来提供辅助分组识别符。主要分组识别符可以相应地是为包括多个视听数据流的组合视听数据流提供分组识别符的任何识别符。辅助分组识别符可以是用于个别视听数据流的任何分组识别符并且不需要被封装、被嵌入或者依赖于主要分组识别符。

例如，可以生成内容项映射表来在环/序列中包括所有可能的分组识别符，而不是在用于单个主要分组识别符的数据中嵌入辅助分组识别符的信息。在这样的实施例中，接收机能够简单地选择与所需要的具体数据相对应的分组识别符并且能够挑选以便例如简单地通过从列表中选择恰当的分组识别符来选择单个组合视听数据流或个别视听数据流。

在这样的实施例中，接收机1401可以具体地被安排成通过选择所需的分组识别符而非只是发射在单个组合流中的所有音频信息来选择所希望的音频。

该方案可以组合具有单个视听数据流的属性和特性与在传输流中具有多个视听数据流的属性和特性。

这可以提供显著的优点，这是因为本领域中的大量设备不能可靠地处理多个视听数据流。

图14图解包括被耦合至音频解码器1403的接收机1401的接收设备的示例。在该示例中，接收机1401接收视听内容项数据流并且能够处理这个，以便例如提取各种视听数据流。因而，接收机1401可以接收传输流并且可以被安排成处理这个来例如生成个别音频和视频基本数据流。接收机1401可以具体地直接对应于图4的接收机401。

音频解码器1403被安排成接收包括音频数据的一个或多个数据流并且从这个音频数据中生成输出音频信号。音频解码器1403可以具体地包括用于接收视听内容项数据流的视听数据流中的音频数据的功能。因此，音频解码器1403可以具体地包括从基本流中提取强制性音频数据、用于从相同的基本流中或从另一基本流中检索备选音频数据、用于利用备选数据来替换所接收的可替换音频数据以及用于从由此产生的音频数据中生成音频信号的功能。

具体地，音频解码器1403可以包括图4的剩余功能块，并且可以具体地包括数据提取器403、405、407、解码单元409、411、413以及替换器/组合器415。

在图14的示例中，可以给音频解码器1403提供不同的视听数据流/基本数据流，其中每一个流是包括不同音频数据的音频流。然而，在许多实施例中，接收机1401可以被安排成生成包括所有音频数据的单个数据流并将这个数据流馈送至音频解码器1403。接收机1401可以例如将音频基本流组合成包括不同基本流的单个组合音频流。在一些情景中，单个组合音频流仍可以包括个别视听数据流，例如，个别视听数据流可以被封装在单个数据流中。在其他情景中，接收机1401可以例如提取相关音频数据并将这个组合成音频数据流而不包括输入视听数据流的所有方面。例如，接收机1401可以生成包括用于数据流的不同的控制、语法和/或结构数据的新的数据流。在一些情况中，音频数据可以被组合成新的视听数据流，即新的基本流。这个组合视听数据流/基本流可以包括所接收的传输流的原始基本流或者可以在独立基本流中包括一些或所有的音频数据。为了简洁起见，以下描述将主要参考传输流和基本流而不参考视听内容项数据流和视听数据流。此外，它将参考其中接收机1401为音频解码器1403生成单个基本流的情景。

因而，音频解码器1403将接收一个音频基本流并将生成输出音频流。

在许多实用的实现方式中，接收机和解码器是相对独立且单独的功能块而非紧密集成的功能。实际上，在许多情景中，这两个实体可以独立地且单独地进行设计和开发。例如，对于许多内容渲染设备而言，音频解码器是被重复用于许多不同设备的通用解码器。例如，内容渲染设备的许多制造商可以购买通用音频解码器功能而非内部开发它们。

相应地，接收机1401与音频解码器1403之间的接口在许多情景中是至关重要的，并且所希望的是利用简单且标准化的或者至少常用的方案，而非依赖于例如专用且专有的接口和控制。

传统上，音频解码器已在相对简单设备的框架中被考虑，其中给该相对简单设备馈送根据利用音频解码器实现的解码标准所解码的比特流并且没有利用外部电路进行的任何进一步修改或交互。这样的方案例如可以在图4的实施例中进行使用，其中解码单元409-413之中的每一个被馈送它从中生成音频信号的简单基本流，然后能够利用组合器415根据用于具体渲染的具体音频首选项来组合该音频信号，并且具体地可以基于例如具体用户所需的可替换音频数据或备选数据来生成输出信号。

在一些实施例中，设备可以使用更复杂的音频解码器1403，该音频解码器可以具体地接收一个或多个音频基本流并通过例如在音频信号的解码之前操纵数据来从这个中生成输出音频。例如，音频解码器1403可以在这样的实施例中在执行实际的解码之前选择将要使用的恰当数据。因而，未被使用的音频数据可以不被解码并且实际上甚至不从被提供给音频解码器1403的（多个）数据流中进行提取。例如，利用备选数据来替换的可替换音频数据可以不被解码或甚至不被提取。类似地，未被使用的备选音频数据或者未被用于替换可替换音频数据的备选音频数据可以不被解码或被提取。

因而，在一些实施例中，利用备选音频数据进行的可替换音频数据的替换可以不通过适配解码的音频信号的组合来执行，但是反而可以通过选择备选音频数据用于解码而非选择可替换音频数据来执行。输出信号在这种情况下可以例如通过只解码强制性音频数据和备选音频数据并将由此产生的音频信号相加在一起来生成。

这样的方案在许多情景中可以提供更有效的操作。然而，它需要解码器能够适应于个别情景的具体需求和首选项。此外，它需要解码器能够处理多个不同的音频分量并且以灵活的方式来适应这些音频分量。具体地，不是音频解码器仅仅渲染所有接收的音频数据，它必须能够灵活地组合不同的音频对象并且具体地利用其他对象来替换一些音频对象。

然而，为了实现此，必要的是：接收机向音频解码器1403指示如何处理提供给它的音频数据。一种可能性是实现专有接口，其中接收机1401被安排成生成控制音频解码器1403来执行所需操作的各种控制信号。然而，这样的方案往往导致复杂的实施例并且需要使用专用且专有的解码器。

在图14的系统中，音频解码器1403被安排成通过接收机1401生成视听数据流来控制，其中视听数据流包括音频数据并且进一步包括指示将由音频解码器1403如何处理不同音频数据的音频数据处理描述符。在该示例中，接收机1401具体地生成单个视听数据流，其包括可以潜在地被音频解码器1403使用的所有音频数据并且可能包括在给定内容项的输入传输流中包括的所有音频数据。另外，相同的视听数据流包括解码/处理控制数据，其允许音频解码器1403针对用于这个渲染的具体首选项来适配音频对象的解码/处理并且具体地适配音频对象的组合。因而，在图14的系统中，接收机1401采用音频数据处理描述符的形式将控制描述符添加至被馈送至视听数据流的音频基本流，并且音频解码器1403解释这个音频数据处理描述符来控制其解码任务。

更详细地，在图14的示例中，接收机1401接收包括多个基本流的传输流，其中多个基本流包括用于给定内容项的许多音频基本流。接收机1401提取一个或多个音频基本流并且从这个中生成一个或多个输出基本流。具体地，基于第一视听数据流，其具体地可以是包括用于第一内容项的强制性音频数据和可替换音频数据的第一基本流，接收机1401可以生成第二视听数据流，其具体地可以是包括第一视听数据流中的强制性音频数据和可替换音频数据的第二基本流。另外，第二视听数据流/基本流可以包括另一输入基本流中的、例如诸如包括备选音频数据的基本流中的音频数据。

另外，接收机1401生成指示音频解码器1403应该如何从第二基本流的音频数据中生成输出音频信号的音频数据处理描述符。音频数据处理描述符被包括在第二基本流中。例如，可以生成第二基本流来包括一个或多个字段，而这一个或多个字段包括描述应该如何处理个别音频分量并且具体地应该如何（是否）解码它们并将它们与其他音频分量进行组合的数据。

接收机1401随后将第二基本流馈送至音频解码器1403。音频解码器1403着手从第二视听数据流中提取音频数据处理描述符并生成音频信号，以响应音频数据处理描述符。

音频数据处理描述符可以定义哪些音频分量应该被组合在一起来生成输出信号，并且相应地音频解码器1403可以具体地（只）检索所指示的音频分量、解码这些音频分量以及最后将它们相加在一起。

在一些实施例中，接收机1401可以包括多个音频数据处理描述符，其中每一个音频数据处理描述符为第二基本流的音频分量的子集提供处理指示。在一些实施例中，可以为每一个音频分量提供一个音频数据处理描述符，其中音频数据处理描述符具体地描述对应的音频分量是强制性音频数据、可替换音频数据还是备选音频数据。音频数据处理描述符此外可以描述是否事实上备选音频分量应该替换给定的可替换音频分量。

作为具体示例，可以为给定音频分量提供音频数据处理描述符来指示这个应该被视为备选音频数据还是附加数据。备选音频数据是将替换一些可替换音频数据的数据，而附加数据是被添加至可替换音频数据的数据。

例如，至接收机1401的输入流可以包括对于给定的第一音频分量包括第一音频数据的基本流。在一些渲染情形中，可能所希望的是：第一音频分量替换输入传输流的第二音频分量。因而，在这种情况下，第一音频数据代表被渲染的备选音频分量而非第二音频分量的备选音频数据，其中第二音频分量是可替换音频分量。然而，在其他情景中，可能所希望的是：与第二音频分量一起渲染第一音频分量，即，一起渲染两个音频分量。

在第一种情况中，能够利用接收机1401将音频数据处理描述符包括在第二基本流中，以指示第一音频数据实际上是应该替换第二音频数据的备选音频数据。然而，在后一种情况中，能够利用接收机1401包括音频数据处理描述符，以指示第一音频数据反而是应该被添加至第二音频数据的附加音频数据，即，两个音频分量应该被提取并被渲染。因而，在这种情况下，针对第一音频数据来插入音频数据处理描述符，其指示这是指定的备选音频数据还是附加音频数据。

音频解码器1403将根据所接收的音频数据处理描述符来处理数据。在具体示例中，如果音频数据处理描述符指示第一音频数据被指定为备选音频数据，那么音频解码器1403着手提取第一音频数据并将其视为备选音频数据。此外，它利用这个提取的第一音频数据来替换采用第二音频数据形式的可替换音频数据。该替换可以具体地通过仅解码第一音频数据来实现，而第二音频数据不被提取并且不被解码。相应地，第一音频分量被生成并被包括在输出音频信号中。

然而，如果音频数据处理描述符指示第一音频数据被指定为附加音频数据，那么音频解码器1403着手提取第一音频数据和第二音频数据二者。此外，第一音频数据和第二音频数据二者被解码，以生成第一音频分量和第二音频分量。这二者随后在输出信号中进行组合。

在这样的实施例中，接收机1401可以相应地控制音频解码器1403的操作，并且具体地可以控制哪些音频数据有助于输出信号以及哪些音频数据被忽略。该方案虑及低复杂度控制并且可以使得音频解码器1403能够只需要输入数据流来生成所希望的音频输出。

该方案可以进一步允许例如（针对给定内容项）传输流的所有音频数据被包括在提供给音频解码器1403的第二视听数据流中，而同时允许这个数据被灵活地使用，并且具体地同时仍允许生成只包括音频分量的子集的输出信号。可以由接收机1401经由在第二视听数据流本身之中包括的数据来灵活地选择这些音频分量。

接收机1401可以例如生成指示是否给定音频数据是来自以下的组的音频数据的音频数据处理描述符：

强制性音频数据；

可替换音频数据；

备选音频数据；以及

附加音频数据。

在一些实施例中，可以使用这个组的子集或超集。

用于给定内容项的音频数据处理描述符可以例如响应于用于具体设备的渲染首选项或者例如响应于用户输入来生成。

作为示例，所接收的传输流可以包括强制性背景音频分量、英语语言音频分量、德语背景音频分量以及辅助背景分量。用户可以选择哪些音频分量是所希望的，并且可以生成音频数据处理描述符来反映所选择的音频分量，以致这些由音频解码器1403来提取和解码。

在一些实施例中，音频数据处理描述符可以由接收机1401来生成而不依赖于任何预定的音频数据处理描述符并且具体地不依赖于所接收的传输流中的任何音频数据处理描述符。

然而，在其他实施例中，从是所接收的视听内容项数据流的一部分、即作为所接收的传输流的一部分的音频数据处理描述符中生成第二基本流的音频数据处理描述符。

具体地，接收机1401可以被安排成从传输流中所接收的第二音频数据处理描述符中生成第一音频数据处理描述符。因而，对于输入传输流中的给定音频基本流，该传输流可以包括一个或多个音频数据处理描述符，其指示应该由音频解码器1403如何解码这个音频基本流的音频数据。

例如，给定音频基本流可以包括打算用于替换可替换音频数据的备选音频数据。例如，基本流可以包括应该替换默认对话音频分量诸如例如英语对话音频分量的德语对话。输入传输流可以相应地包括音频数据处理描述符，其定义这个音频数据应该被视为可替换音频数据以及它应该替换其他的对话音频数据。传输流可以包括其他的对话音频基本流，并且对于这些之中的每一个，该传输流也可以包括音频数据处理描述符。

因而，在这个示例中，生成传输流的设备诸如例如图3的设备可以进一步被配置成生成指示应该或者可以如何处理对应音频数据的音频数据处理描述符。例如，对于每一个对话音频分量，可以包括音频数据处理描述符，其指示：这个轨道能够被选择，并且如果是这样的话，它应该替换所有其他的对话音频分量。

音频数据处理描述符被包括在传输流中，例如被包括在用于内容项的节目映射中，或者可能地被包括在用于个别基本流的个别数据分组中。

特别地，在许多实施例中，音频数据处理描述符可以在传输流生成侧上被包括在内容项的节目映射表中。作为具体示例，对于每一个音频基本流而言，节目映射表可以不仅包括用于基本流的分组识别符，而且还包括指示应该如何解码音频数据的一个或多个音频数据处理描述符。这可以允许源来控制和描述如何能够、可以和/或应该解码和渲染该内容。

接收机1401可以在接收到这样的传输流时生成第二基本流并将其馈送至音频解码器1403，其中第二基本流包括从输入数据流的音频数据处理描述符中生成的并且描述在具体情形中应该如何解码和渲染具体音频数据的音频数据处理描述符。

从所接收的音频数据处理描述符中生成第二基本流的音频数据处理描述符。这个处理在一些实施例中可以是评估所接收的音频数据处理描述符并从中生成反映具体处理的新的音频数据处理描述符的复杂处理。

然而，在许多实施例中，接收机1401可以被安排成简单地将恰当的音频数据处理描述符从传输流拷贝至第二基本流。

具体地，可以将描述处理或具体地描述对于当前渲染而言哪些音频数据是所希望的输入流的音频数据处理描述符从输入传输流拷贝至第二基本流。

例如，如果希望渲染给定音频分量或音频基本流的音频数据，接收机1401可以简单地将用于这个音频分量或音频基本流的音频数据处理描述符拷贝至第二基本流。例如，如果所希望的是渲染德语对话音轨，那么接收机1401可以将用于德语对话基本流的音频数据处理描述符（与音频数据一起）拷贝到第二基本流中。相应地，第二基本流将包含导致音频解码器1403利用德语对话的可替换音频数据来替换英语对话的可替换音频数据的音频数据处理描述符。

如果不需要渲染音频数据，例如，如果用户偏爱英语对话，则接收机1401可以不将用于德语对话基本流的音频数据处理描述符拷贝到第二基本流中。在这样的实施例中，音频解码器1403可以例如被安排成忽略或丢弃对其而言没有音频数据处理描述符被包括在被输入至音频解码器1403的基本流中的音频数据。

在一些实施例中，源可以被安排成生成传输流，其包括用于给定音频基本流的多个可能的音频数据处理描述符。多个可能的音频数据处理描述符可以例如描述能够使用基本流的音频数据的不同的可能方式。例如，如果能够渲染音频分量以及另一音频分量二者并且能够渲染该音频分量而非另一音频分量，传输流可以包括指示该数据是备选音频数据的音频数据处理描述符以及指示该数据是附加音频数据的一个音频数据处理描述符。因而，可能的音频数据处理描述符之中的每一个可以描述对应音频数据的可允许处理。

在这样的实施例中，接收机1401可以例如为音频数据提取多个可能的音频数据处理描述符。基于所希望的渲染（例如，基于用户的语言选择），接收机1401可以着手选择与所希望的渲染相对应的音频数据处理描述符之一。这个音频数据处理描述符随后可以被拷贝至第二基本流，而其他的音频数据处理描述符可以被忽略。

在所描述的示例中，音频数据处理描述符可以被认为对应于在输入传输流中发现的、将被注入用于音频解码器1403的数据流中并被用作针对这个的命令的令牌的使用。音频数据处理描述符可以包括利用音频解码器1403进行的音频数据的所需处理的指示。

这个方案可以导致更通用且开放的方式来实现针对音频解码器1403的接口。它也可以允许低复杂度处理。作为特定的显著优点，接收机1401只不过需要选择哪个渲染是所希望的并随后将对应音频数据处理描述符从输入传输流拷贝至第二基本流。它不需要考虑或者实际上具有如何执行利用音频解码器1403进行的实际处理的任何知识。相反，音频解码器1403解释并执行利用音频数据处理描述符所定义的处理。

这是非常有利的，这是因为创建针对音频解码器1403的专有接口的备选方案要求接收机1401不仅明白该挑选，而且还明白“替换”的概念，即，这个流中的对象必须替换主流中的对象。仅转发音频数据处理描述符的拷贝的接收机1401只需要明白：选择被作出。这暗示：因为接收机1401所必须做的一切是拷贝相关的音频数据处理描述符，所以利用音频数据处理描述符所描述的动作能够是任意复杂的并且不断改变和及时改进。接收机1401不需要明白它将需要哪些专有命令来实现与给定流在总流中的包括相耦合的复杂动作。

在图15和16中针对（修改的）MPEG传输流提供使用音频数据处理描述符的操作的具体示例。在这些示例中，音频数据处理描述符被称为“3D AD”和“3D Audio Descriptor（3D音频描述符）”。在这些示例中，第二视听数据流/基本流被生成为MPEG-H Audio Stream（音频流）（MHAS）。

先前描述提供与音频在视听内容项数据流中的有效分布相关并且具体地与音频内容在这样的数据流中的分布相关的方案的许多示例。

在决定用于视听内容的分发的方案时，设计人员面临着许多不同的且时常冲突的技术挑战。具体地，所希望的是：数据速率是尽可能低的，同时保持尽可能高的质量。另一折衷在于提供非常简单的数据表示来由接收机处理和渲染、但对于接收机定制数据的渲染而言仍然提供高度灵活性的希望之间。为了支持这样的灵活性，可能需要日益复杂的数据流结构和组织，但是这也倾向于在接收机侧上需要更复杂的处理。

因此，如何划分、构造和组织视听数据流中的数据的问题是关键的且困难的技术问题，其需要大量的技术折衷。

先前描述的方案解决这个问题并且寻求针对各种应用在不同的特征、需求和首选项之间提供改进的折衷。

这些方案利用比其中典型地在单个基本流中提供音频表示的所有音频的传统MPEG数据流更灵活的方案。实际上，常规的MPEG数据流被组织成包括多个基本流的传输流，其中每一个基本数据流包括视频或音频分量。在MPEG传输流中的数据因而被构造在基本流中，并且两个可能的音频基本流被定义。一个是为内容项提供全音频表示的基本数据流，即，在单个基本流中提供与整个声场相对应的音频分量。另一选项是针对音频基本流而言包括能够与完整（全表示）音频分量相组合/被添加至完整（全表示）音频分量的附加声音分量的音频数据。

MPEG的方案具有以下显著优点：它具有低复杂度，并且能够基于低复杂度处理来渲染内容。实际上，识别和提取对于给定内容项所需的音频数据典型地只需要一个基本数据流在传输流中进行识别并且从传输流中进行提取，而且典型地只需要一个音频分量被解码。

MPEG通过允许利用附加音频分量补足音频来提供某种灵活性。这些附加音频分量是可以被忽略或者可以与完整音频分量进行组合/被添加至完整音频分量的附加音频分量。然而，没有其他选项是可能的，即，这些音频分量是附加分量，其对于完整表示而言不能替换音频数据。

因而，对于常规的MPEG传输流而言，音频数据或被指定为在单个基本数据流中个别且单独提供的完整音频数据或被指定为也在单独基本流中本身提供的附加音频数据。相应地，每一个基本流提供一种类型的音频数据，其能够被直接渲染或被添加至完整音频分量。

MPEG方案给数据流提供紧凑数据表示以及低的数据开销，其允许利用接收机进行的低复杂度处理。实际上，接收机只需考虑数据分组的PID（Packet IDentifier）（分组识别符）来发现和提取仅仅所需的音频数据，即，在音频数据的类型与基本流的识别之间具有直接对应关系。然而，该方案的不利方面是：音频渲染的灵活性是低的并且实质上限于任选地将附加音频添加至否则完整的音频表示的可能性。

近年来，已提议引入音频对象。不提供对应于整个声场/场景的音频分量，该方案反而以提供大量的个别音频对象为基础，其中每一个个别音频对象对应于音频场景中的一个声源。最后的渲染器可以相应地通过个别地解码每一个音频对象、在声音场景中定位对象、生成恰当的空间音频信号、组合音频对象和最后渲染所组合的信号来创建给定的声音场景。

这样的方案为所渲染的音频提供高度灵活性并且给接收机提供高度自由度。然而，它在接收机上需要非常复杂的处理。实际上，渲染音频数据所需的处理是复杂的，并且另外，识别和提取所需的且所希望的音频数据所需的复杂度和处理以及确定如何能够在渲染中使用音频数据是非常复杂的。为了提供识别数据在数据流中的分布所需的必要信息，该方案也导致大的数据开销。

在分发内容项时，与利用常规的MPEG传输流或音频对象传输流所提供的相比而言，先前描述的方案涉及提供不同的并且对于许多情景而言在复杂度、数据开销和灵活性之间提供改进的折衷。

这些方案基于包括与常规传输流中不同类型的音频数据的新颖数据流并且基于具有这个数据在数据流中的不同组织。

类似于传统的MPEG方案，这些方案基于包括多个个别视听数据流的视听内容项数据流（传输流），其中这多个个别视听数据流包括用于视听内容项的视听分量（被称为基本流）。

然而，这些方案基于基本数据流，其中每一个基本数据流可以提供对于内容的音频表示而言足够的音频数据但是包括不同类型的音频数据。因而，传输流被安排成包括基本流，而基本流包括不同类型的音频数据。实际上，这个基本流中的一些音频数据被指定为用于音频表示的强制性音频数据。在呈现音频表示时，强制性音频数据必须被渲染。基本数据流中的其他数据被指定为可替换音频数据。这个可替换音频数据是用于音频表示的音频数据，但是是允许接收机利用其他（备选）数据来代替的音频数据。

因而，在这些方案中，给单个基本流提供不同类型的数据用于给定音频表示，即给单个基本流提供被指定为在呈现音频表示时必须渲染的强制性音频数据的一些数据以及被指定为能够利用其他数据来替换/或代替的可替换音频数据的其他数据。

相应地，在这些方案中，传输流提供音频表示，其中在单个基本数据流内提供不同类型的音频数据用于音频表示。此外，该数据具体地被指定为（在呈现/渲染对应音频表示时）必须呈现/渲染的数据或能够利用其他数据来代替/替换的数据。可替换音频数据是被指定为利用其他数据可代替的、但是在没有被替换的情况下不能被删除的数据。

这个具体方案提供显著更有效的数据流结构并且在许多情景和应用中在数据速率、复杂度和灵活性之间提供更好的折衷。它此外能够在提供增加的针对现有技术方案诸如MPEG传输流的向后兼容性的同时提供这些优点。

具体地，这些方案可以提供这样的比特流，其并不需要太多开销，但是其提供灵活的方案。低复杂度的接收机能够基于在基本流中如何构造数据来识别和提取数据。然而，它能够利用一个基本流之中不同的音频数据被指定为相对于音频表示而言具有不同的特征来进一步增加灵活性。

这些方案可以例如虑及低复杂度的传统接收机，以便仍能够纯粹基于基本流的识别来渲染新颖数据流的音频表示。例如，在许多实施例中，传统MPEG解码器能够简单地提取第一基本流并将这个当作标准MPEG基本流。这能够导致标称的音频呈现被生成。然而，除了这样的向后兼容性之外，非传统接收机还可以处理所接收的数据流并且利用备选数据来代替可替换音频数据，从而生成备选音频呈现。这仍然能够利用低复杂度来实现并且不需要与例如音频对象关联的复杂处理和开销。

这些方案针对如何最佳分发视听内容项的音频内容的技术问题提供有利的解决方案，并且具体地提供（传输）数据流结构和数据内容，其在数据速率、复杂度和灵活性之间提供改进的折衷并且也可以提供改进的向后兼容性。

强制性音频数据是这样的数据，其被指定（并且在许多实施例中被指示）为必须被包括在音频表示/音频场景的渲染中的数据。因而，用于音频呈现的强制性音频数据是被包括在基本数据流中并且在选择基本数据流的音频表示/音频场景时必须渲染的数据。因而，强制性音频数据是对于与基本数据流相关联的音频表示/音频场景的渲染而言被指定为强迫的、所需的、义务的等等的数据。在许多实施例中，强制性音频数据和可替换音频数据可以被包括在仅与一个音频表示/音频场景相关联的基本数据流中。

强制性音频数据可以例如经由基本流中的位置和/或利用将数据描述为强制性的控制数据而被指定/指示为强制性音频数据。因而，在一些实施例中，传输数据流并且有可能具体地基本数据流可以包括指示基本数据流之中的哪个音频数据是强制性音频数据的数据。

可替换（音频数据）是这样的数据，其被指定（并且在许多实施例中被指示）为可以被包括在音频表示/音频场景的渲染中或在音频表示/音频场景的渲染中可以利用其他的音频数据来替换的数据。因而，用于音频呈现的可替换音频数据是被包括在基本数据流中并且在选择基本数据流的音频表示/音频场景时必须被渲染的数据，除非它被其他的音频数据替换。可替换音频数据是在渲染/呈现与基本数据流相关联的音频表示/音频场景时或能够被渲染或能够利用备选数据来代替/替换/交换/互换的数据。

在所描述的方案中，内容的分发相应地基于包括多个子（基本）数据流的（传输）流，其中音频表示能够利用包括被指定为强制性音频数据的数据和被指定为可替换音频数据的数据二者的单个基本数据流来描述，即，单个基本数据流包括接收机在呈现音频表示时必须呈现的音频数据以及接收机可以利用其他数据来代替的音频数据二者。

因而，接收机接收它知道必须被渲染的音频数据以及它知道它能够利用其他数据来代替的数据。此外，它在单个基本流中接收这个数据，从而简单地通过从一个基本数据流中提取音频数据并渲染这个而使得音频表示的呈现是可能的（因而提供向后兼容性）。

因而，传输流包括与针对必须由接收机/渲染器如何使用它们的具体限制相关联的数据。被指定成不同地被使用并且与针对其使用的不同限制相关联的不同类型的数据的这种具体结构可以提供利用改进的折衷来生成的并且具体地在增加灵活性的同时仍允许低复杂度处理和向后兼容性的有效传输流。

实际上，针对一个基本数据流内的一个音频表示而言的音频数据作为强制性或可替换音频数据的指定提供显著的益处。所描述的视听内容项数据流的结构、内容和组织提供能够利用低复杂度来处理的、可以是向后兼容的、仍然能够提供增加灵活性的传输流。

该方案相应地并不集中于任何具体的混合或音频政策的推导、确定或选择但是反而涉及能够支持音频数据的有效分发的技术解决方案，以致这样的政策能够被遵守。该方案在保持低的数据开销和降低复杂度的同时允许使用允许灵活的（但不是完全自由的）政策被分发的数据流。这些方案并不集中于如何选择混合策略，而是集中于如何在技术上支持音频数据的分发。该方案允许渲染政策的某些方面由源来确定（例如，强制性音频数据），而其他方面能够在接收/渲染端上进行适配（例如，接收机能够在不同的备选音频分量之间选择）。

也注意：这不是定义数据的接收机中的实际处理。相反，这是数据流中的数据被指定为用于音频表示的强制性音频数据或可替换音频数据。该数据相应地利用预定使用来定义，即，强制性音频数据是在选择音频表示时应该呈现的数据，而可替换音频数据可以利用其他的备选数据来代替（但是不可以只是被删除）。

将领会到：为了清晰起见，上面的描述参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，可以使用在不同的功能电路、单元或处理器之间任何合适的功能分布而不偏离本发明，这将是显然的。例如，被图解成利用单独的处理器或控制器来执行的功能可以利用相同的处理器或控制器来执行。因此，对于具体的功能单元或电路的引用将仅被视为对于用于提供所述功能的合适装置的引用，而非指示严格的逻辑或物理的结构或组织。

本发明能够采用任何合适的包括硬件、软件、固件或这些的任何组合的形式来实现。本发明可以任选地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实现。本发明的实施例的元素和组件可以在物理上、在功能上和在逻辑上采用任何合适的方式来实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。因此，本发明可以在单个单元中实现或可以在物理上和在功能上在不同的单元、电路和处理器之间进行分布。

虽然结合一些实施例描述了本发明，但是并不打算将本发明限于在本文阐述的具体形式。相反，本发明的范畴仅利用所附权利要求书来限制。另外，虽然某特性可能看起来结合特殊实施例来描述，但是本领域技术人员将认识到：所描述实施例的各种特性可以根据本发明进行组合。在权利要求书中，术语包括并不排除其他的元素或步骤的存在。

此外，虽然被个别地列出，但是多个装置、元素、电路或方法步骤可以利用例如单个电路、单元或处理器来实现。另外，虽然个别特性可以被包括在不同的权利要求中，但是这些特性有可能可以有利地进行组合，并且在不同权利要求中的包括并不暗示：特性的组合不是可行和/或有利的。特性在一种类别的权利要求中的包括并不暗示对于这种类别的限制，但是反而指示：该特性同样酌情可应用于其他的权利要求类别。此外，特性在这些权利要求中的顺序并不暗示这些特性必须据此工作的任何具体的顺序，并且特别地，个别步骤在方法权利要求中的顺序并不暗示：必须依照这个顺序来执行这些步骤。相反，这些步骤可以依照任何合适的顺序来执行。另外，单数引用并不排除复数。因而，对于“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。权利要求书中的参考符号仅仅作为澄清示例来提供，而不应以任何方式被解释成限制这些权利要求的范畴。

Claims

1.一种为视听内容项生成音频信号的方法，所述方法包括：

接收包括多个个别视听数据流的视听内容项数据流，所述多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；其中所述视听内容项数据流包括第一个别视听数据流，其包括用于所述视听内容项的音频表示的第一音频数据，第一音频数据包括用于所述音频表示的强制性音频数据和用于所述音频表示的可替换音频数据，所述强制性音频数据对应于在所述音频表示被渲染时必须渲染的音频分量，而所述可替换音频数据对应于在所述音频表示被渲染时能够利用备选音频分量代替的可替换音频分量，所述视听内容项数据流进一步包括用于所述视听内容项的内容项映射表，所述内容项映射表包括被链接至所述视听内容项的视听数据流的数据分组的视听数据流分组识别符的列表，并且所述内容项映射表对于所述多个个别视听数据流之中的至少两个个别视听数据流的集合包括用于所述视听内容项的公共数据流分组识别符；

所述方法进一步包括：

从第一音频数据中提取所述强制性音频数据，以响应所述公共数据流分组识别符；

检索备选音频数据；

利用所述备选音频数据来替换所述可替换音频数据；

从所述强制性音频数据和所述备选音频数据中生成所述音频信号；

其中所述方法进一步包括：

从所述多个个别视听数据流中生成单个个别视听数据流；

为至少一个视听数据流的第二音频数据生成音频数据处理描述符，将所述音频数据处理描述符插入所述单个个别视听数据流中，并且将所述单个个别视听数据流馈送至音频解码器；以及

其中生成所述音频信号包括：所述音频解码器从所述单个个别视听数据流的音频数据中生成所述音频信号，从所述单个个别视听数据流中提取所述音频数据处理描述符；和生成所述音频信号，以响应所述音频数据处理描述符。

2.根据权利要求1所述的方法，进一步包括：接收包括多个视听数据流的第二视听内容项数据流，所述多个视听数据流包括视听分量；以及其中所述检索包括：从第二视听内容项数据流的视听数据流中检索所述备选音频数据。

3.根据权利要求1所述的方法，其中生成所述音频信号的步骤包括：

在第一音频解码器中解码所述强制性音频数据，以生成第一解码音频信号；

在第二音频解码器中解码所述备选音频数据，以生成第二解码音频信号；以及

生成所述音频信号，以响应组合至少第一解码音频信号与第二解码音频信号。

4.根据权利要求1所述的方法，其中所述内容项映射表对于所述公共数据流分组识别符包括多个辅助分组识别符，每一个辅助分组识别符识别所述多个个别视听数据流之中的至少两个个别视听数据流的集合中的个别视听数据流；以及为所述内容项提取音频数据的步骤包括：为不同的音频分量提取音频数据，以响应所述辅助分组识别符。

5.一种用于为视听内容项生成音频信号的设备，所述设备包括：

接收机（1401），用于接收包括多个个别视听数据流的视听内容项数据流，所述多个个别视听数据流包括用于视听内容项的视听分量；每一个视听数据流包括代表至少一个视听分量的编码数据和同步数据；其中所述视听内容项数据流包括第一视听数据流，其包括用于所述视听内容项的音频表示的第一音频数据，第一音频数据包括用于所述音频表示的强制性音频数据和用于所述音频表示的可替换音频数据，所述强制性音频数据对应于在所述音频表示被渲染时必须渲染的音频分量，而所述可替换音频数据对应于在所述音频表示被渲染时能够利用备选音频分量代替的可替换音频分量，所述视听内容项数据流进一步包括用于所述视听内容项的内容项映射表，所述内容项映射表包括被链接至所述视听内容项的视听数据流的数据分组的视听数据流分组识别符的列表，并且所述内容项映射表对于所述多个个别视听数据流之中的至少两个个别视听数据流的集合包括用于所述视听内容项的公共数据流分组识别符；

所述设备进一步包括：

音频解码器（1403），用于从单个个别视听数据流的音频数据中生成所述音频信号，所述音频解码器包括提取器（403）、检索器、替换器和输出；

其中所述提取器（403）用于从第一音频数据中提取所述强制性音频数据，以响应所述公共数据流分组识别符，

所述检索器用于检索备选音频数据；

所述替换器用于利用所述备选音频数据来替换所述可替换音频数据；

所述输出用于从所述强制性音频数据和所述备选音频数据中生成所述音频信号；

以及

其中所述接收机（1401）被安排成：从多个所述单个个别视听数据流中生成所述单个个别视听数据流，并且为至少一个视听数据流的第二音频数据生成音频数据处理描述符，而且将所述音频数据处理描述符插入所述单个个别视听数据流中，以及将所述单个个别视听数据流馈送至所述音频解码器；和

所述音频解码器（1403）进一步包括音频数据处理描述符提取器，用于从第二视听数据流中提取所述音频数据处理描述符；并且所述音频解码器（1403）被安排成：生成所述音频信号，以响应所述音频数据处理描述符。

6.根据权利要求5所述的设备，其中

所述接收机（1401）被安排成：为至少一个视听数据流的第二音频数据生成音频数据处理描述符，并且将所述音频数据处理描述符插入第二视听数据流中，而且将第二视听数据流馈送至所述音频解码器；和

7.根据权利要求6所述的设备，其中所述音频数据处理描述符指示是否第二音频数据替换所述可替换音频数据。

8.根据权利要求6所述的设备，其中所述音频数据处理描述符指示第二音频数据被指定为备选音频数据还是附加音频数据，以及

所述音频解码器（1403）被安排成：

如果第一音频数据处理描述符指示第二音频数据被指定为备选音频数据，则检索第二音频数据作为备选音频数据，而如果第一音频数据处理描述符指示第二音频数据被指定为附加音频数据，则检索第二音频数据作为附加音频数据；和

如果第二音频数据被指定为可替换音频数据，则利用第二音频数据来替换所述可替换音频数据，以及

所述输出被安排成：如果第一音频数据处理描述符指示第二音频数据被指定为附加音频数据，则通过组合所述强制性音频数据、第二音频数据和所述可替换音频数据来生成所述音频信号。

9.根据权利要求6所述的设备，其中所述接收机（1401）被安排成：从所述视听内容项数据流中所接收的第二音频数据处理描述符中生成第一音频数据处理描述符。

10.根据权利要求6所述的设备，其中所述接收机（1401）被安排成：将第二音频数据处理描述符拷贝至第二视听数据流。

11.根据权利要求6所述的设备，其中第二音频数据处理描述符被包括在所述内容项映射表中。

12.根据权利要求6所述的设备，其中所述视听内容项数据流包括用于第二音频数据的多个可能的音频数据处理描述符；以及所述接收机被安排成：从所述多个可能的音频数据处理描述符中选择第一音频数据处理描述符。