CN113921020A

CN113921020A - 发送装置、发送方法、接收装置和接收方法

Info

Publication number: CN113921020A
Application number: CN202111173401.3A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-09-30
Filing date: 2015-09-16
Publication date: 2022-01-11
Also published as: US20170302995A1; US20240089534A1; US11871078B2; CN106716524B; RU2017109625A3; JP7310849B2; US20240114202A1; JP2021105735A; EP3203469A4; RU2017109625A; JP2023081933A; CN106716524A; CN113921019A; EP4254405A3; EP3203469A1; US10856042B2; JPWO2016052191A1; US20210058669A1; EP4092670A1; WO2016052191A1

Abstract

本发明提供了发送装置、发送方法、接收装置和接收方法。该发送装置包括发送单元，被配置成发送具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项；以及信息插入单元，被配置成将表示所述多个组的编码数据项的相应属性的属性信息插入到所述容器的层和/或音频流的层中。

Description

发送装置、发送方法、接收装置和接收方法

本申请为国际申请日为2015年9月16日、国际申请号为PCT/JP2015/076259、发明名称为“发送装置、发送方法、接收装置和接收方法”的中国国家阶段申请的分案申请，该中国国家阶段申请的进入国家阶段日为2017年3月23日、申请号为201580051430.9、发明名称为“发送装置、发送方法、接收装置和接收方法”。

技术领域

本技术涉及发送装置、发送方法、接收装置和接收方法，更具体地，涉及用于发送多种音频数据项的发送装置等。

背景技术

在相关技术中，作为三维(3D)声学技术，已经提出了这样的技术：基于元数据项将编码样本数据项映射并渲染至在任何位置处的扬声器(例如参照专利文献1)。

引用列表

专利文献

专利文献1：PCT国际申请公开No.2014-520491的翻译。

发明内容

技术问题

可以想到，通过将包括编码样本数据项和元数据项的对象编码数据项与5.1声道、7.1声道等的声道编码数据项一起发送，可以在接收侧再现具有增强的真实感的声音。

本技术的目的在于在发送多种音频数据项的情况下减少接收侧的处理负荷。

问题的解决方案

本技术的概念是发送装置，包括：发送单元，发送具有预定数量的音频流的预定格式的容器，该音频流包括多个组的编码数据项；以及信息插入单元，将表示多个组的编码数据项的相应属性的信息插入到容器的层和/或音频流的层中。

在本技术中，发送单元发送具有预定数量的音频流的预定格式的容器，该音频流包括多个组的编码数据项。例如，多个组的编码数据项可以包括声道编码数据项和对象编码数据项中的一者或两者。

通过信息插入单元，将表示多个组的编码数据项的相应属性的属性信息插入到容器的层和/或音频流的层中。例如，容器可为在数字广播标准中适用的传输流(MPEG2-TS)。此外，例如，容器可为用于因特网传送的MP4格式或其他格式。

因此，在本技术中，表示包括在预定数量音频流中的多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中。因此，在接收侧在对编码数据项进行解码之前，可以容易地识别多个组的编码数据项的相应属性，并且可以仅选择性地解码和使用必要组的编码数据项，由此可以减少处理负载。

此外，在本技术中，例如，信息插入单元还可以将流对应关系信息插入到容器的层和/或音频流的层中，该流对应关系信息表示多个组的编码数据项分别包含在哪个音频流中。以这种方式，可以在接收侧容易地辨识包含必要组的编码数据项的音频流，从而可以减少处理负荷。

在这种情况下，例如，容器可为MPEG2-TS，以及在属性信息和流标识符信息被插入容器中的情况下，信息插入单元可以将属性信息和流标识符信息插入到与在节目映射表之下存在的预定数量的音频流中的至少一个或多个音频流对应的音频基本流循环中。

另外，在这种情况下，例如，在属性信息和流对应关系信息被插入到音频流中的情况下，信息插入单元可以将属性信息和流对应关系信息插入到预定数量的音频流中的至少一个或多个音频流中的PES包的PES有效载荷中。

例如，流对应关系信息可为表示标识多个组的编码数据项中的每个的组标识符与标识预定数量的音频流中的每个的流标识符之间的对应关系的信息。在这种情况下，例如，信息插入单元可以将流标识符信息插入到容器的层和/或音频流的层中，该流标识符信息表示预定数量音频流中的每个的流标识符的。

例如，容器可为MPEG2-TS，以及在流标识符信息被插入到容器中的情况下，信息插入单元可以将流标识符信息插入到与存在于节目映射表下的预定数量的音频流中的每一个对应的音频基本流循环中。另外，例如，在流标识符信息被插入到音频流中的情况下，信息插入单元将流标识符信息插入到所定数量的音频流中的每一个的PES包的PES有效载荷中。

另外，例如，流对应关系信息可为表示标识多个组的编码数据项中的每个的组标识符与在预定数量音频流中的每个被封包化时所添加的包标识符之间的对应关系的信息。另外，例如，流对应关系信息可为表示标识多个组的编码数据项中的每个的组标识符与表示预定数量音频流中的每个的流类型的类型信息之间的对应关系的信息。

此外，本技术的其他概念是接收装置，包括：接收单元，接收具有预定数量的音频流的预定格式的容器，该预定数量的音频流包括多个组的编码数据项，表示多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中；以及处理单元，基于属性信息处理包括在所接收的容器中的预定数量的音频流。

在本技术中，接收单元接收具有预定数量的音频流的预定格式的容器，该预定数量的音频流包括多个组的编码数据项。例如，多个组的编码数据项可以包括声道编码数据项和对象编码数据项中的一者或两者。表示多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中。处理单元基于所述属性信息处理包括在所接收的容器中的所述预定数量的音频流。

因此，在本技术中，基于表示插入到容器的层和/或音频流的层中的多个组的编码数据项的相应属性的属性信息而处理包含在所接收的容器中的预定数量的音频流。因此，可以选择性地解码和使用仅必要组的编码数据项，从而可以减少处理负荷。

此外，在本技术中，例如，表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息进一步被插入到容器的层和/或音频流的层中。除了属性信息之外，处理单元还可以基于流对应关系信息处理预定数量的音频流。在这种情况下，可以容易地识别包含必要组的编码数据项的音频流，从而可以减少处理负荷。

另外，在本技术中，例如，基于属性信息和流对应关系信息，处理单元可以对包括具有适用于扬声器配置和用户选择信息的属性的组的编码数据项的音频流执行选择性解码处理。

此外，本技术的其他概念是接收装置，包括：接收单元，接收具有预定数量音频流的预定格式的容器，所述预定数量的音频流包括多个组的编码数据项；表示多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中；处理单元，基于属性信息从包括在所接收的容器中的预定数量的音频流选择性地获取预定组的编码数据项，并且重新配置包括预定组的编码数据项的音频流；以及，流发送单元，将由处理单元重新配置的音频流发送到外部设备。

在本技术中，接收单元接收具有包括多个组的编码数据项的预定数量的音频流的预定格式的容器。表示多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中。处理单元基于属性信息从包括在所接收的容器中的预定数量的音频流选择性地获取预定组的编码数据项，并且重新配置包括预定组的编码数据项的音频流。流发送单元将由处理单元重新配置的音频流发送到外部设备。

因此，在本技术中，基于插入到容器的层和/或音频流的层中的表示多个组的编码数据项的相应属性的属性信息，从预定数量的音频流中选择性地获取预定组的编码数据项，并且重新配置待发送到外部设备的音频流。可以容易地获取必要组的编码数据项，从而可以减少处理负荷。

另外，在本技术中，例如，表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息进一步被插入到容器的层和/或音频流的层中。除了属性信息之外，处理单元还可以基于流对应关系信息从预定数量的音频流中选择性地获取预定组的编码数据项。在这种情况下，可以容易地识别包括预定组的编码数据项的音频流，从而可以减少处理负荷。

本发明的有益效果

根据本技术，在发送多种音频数据项的情况下，可以减少在接收侧处的处理负荷。应当注意，在本说明书中描述的效果仅仅是说明性的而不是限制性的，并且可以具有额外的效果。

附图说明

[图1]是示出作为实施方式的发送/接收系统的配置实例的框图。

[图2]是示出3D音频传输数据项中的音频帧(1024个样本)的结构的示图。

[图3]是示出3D音频发送数据项的配置实例的示图。

[图4]是示意性地示出在通过一个流和多个流发送3D音频发送数据项的情况下音频帧的配置实例的示图。

[图5]是示出在通过两流发送3D音频发送数据项的情况下的组划分实例的示图。

[图6]是示出在组划分实例(两个划分)中的组和流之间对应关系等的示图。

[图7]是示出在通过两流发送3D音频发送数据项的情况下的组划分实例的示图。

[图8]是示出在组划分实例(两个划分)中的组和流之间对应关系等的示图。

[图9]是示出包含在服务发送器中的流生成单元的配置实例的框图。

[图10]是示出3D音频流配置描述符的配置实例的示图。

[图11]示出3D音频流配置描述符的配置实例中的主要信息的内容。

[图12]是示出在“contentKind”中定义的内容的种类的示图。

[图13]是示出配置实例中的3D音频流ID描述符和主要信息的内容的配置实例的示图。

[图14]是示出传输流的配置实例的示图。

[图15]是示出服务接收器的配置实例的框图。

[图16]是示出所接收音频流的实例的示图。

[图17]是示意性地示出在音频流内不存在描述符信息的情况下的解码处理的示图。

[图18]是示出在音频流内不存在描述符信息的情况下音频流的音频访问单元(音频帧)的配置实例的示图。

[图19]是示意性地示出在音频流内存在描述符信息的情况下的解码处理的示图。

[图20]是示出在音频流内存在描述符信息的情况下音频流的音频访问单元(音频帧)的配置实例的示图。

[图21]是示出在音频流内存在描述符信息的情况下音频流的音频访问单元(音频帧)的其他配置实例的示图。

[图22]是示出服务接收器中的CPU的音频解码控制处理的实例的流程图(1/2)。

[图23]是示出服务接收器中的CPU的音频解码控制处理的实例的流程图(2/2)。

[图24]是示出服务接收器的其他配置实例的框图。

具体实施方式

在下文中，将参考附图详细本公开的实施方式。本说明书将按以下顺序进行。

1.实施方式

2.变型例

<1.实施方式>

[发送/接收系统的配置实例]

图1示出作为实施方式的发送/接收系统10的配置实例。发送/接收系统10包括服务发送器100和服务接收器200。服务发送器100通过广播波或网络包发送传输流TS。传输流TS具有视频流和包括多个组的编码数据项的预定数量(即一个或多个)的音频流。

图2示出在本实施方式中处理的3D音频传输数据项中的音频帧(1024个样本)的结构。音频帧包括多个MPEG音频流包(mpeg Audio Stream Packets)。每个MPEG音频流包包括报头(Header)和有效载荷(Payload)。

报头具有关于包类型(Packet Type)、包标签(Packet Label)、包长度(PacketLength)等的信息。由报头中的包类型定义的信息设置在有效载荷上。在有效载荷信息中，存在与同步启动代码对应的“SYNC”信息、作为3D音频发送数据项的实际数据的“帧”、以及表示“帧”的配置的“Config”。

“帧”包括配置3D音频传输数据项的声道编码数据项和对象编码数据项。这里，声道编码数据项包括编码样本数据项诸如SCE(单声道元素)、CPE(声道对元素)、LFE(低频元素)等。此外，对象编码数据项包括SCE(单声道元素)的编码样本数据项，和用于将SCE的编码样本数据项映射至存在于任何位置处的扬声器并对SCE的编码样本数据项渲染的元数据项。元数据项作为扩展元素(Ext_element)被包含。

图3示出3D音频发送数据项的配置实例。在该实例中，3D音频发送数据项包括一个声道编码数据项和两个对象编码数据项。该声道编码数据项是5.1声道的声道编码数据项(CD)，并且包括SCE1、CPE1.1、CPE1.2和LFE1中的每个编码样本数据项。

两个对象编码数据项是沉浸式音频对象(IAO)和语音对话对象(SDO)的编码数据项。沉浸式音频对象编码数据项是用于沉浸式声音的对象编码数据项，并且包括编码样本数据项SCE2和用于将编码样本数据项SCE2映射至在任意位置处的扬声器并渲染编码样本数据项SCE2的元数据项EXE_E1(对象元数据)2。

语音对话对象编码数据项是语音语言的对象编码数据项。在该实例中，存在与第一语言和第二语言中的每一个对应的语音对话对象编码数据项。与第一语言对应的语音对话对象编码数据项包括编码样本数据项SCE3，和用于将编码样本数据项SCE3映射至存在于任何位置处的扬声器并渲染编码样本数据项SCE3的元数据项EXE_E1(对象元数据)3。另外，与第二语言对应的语音对话对象编码数据项包括编码样本数据项SCE4，和用于将编码样本数据项SCE4映射至存在于任何位置处的扬声器并渲染编码样本数据项SCE4的元数据项EXE_E1(对象元数据)4。

基于类型，通过组(Group)的概念对编码数据项进行分类。在所示的实例中，5.1声道的编码声道数据项被分类为组1，沉浸式音频对象编码数据项被分类为组2，根据第一语言的语音对话对象编码数据项被分类为组3，而根据第二语言的语音对话对象编码数据项被分类为组4。

另外，在接收侧在组之间选择的被登记为切换组(SW组)，并且被编码。此外，组被作为预设组(preset Group)捆绑，从而可以进行对应于用例的再生。在所示的实例中，组1、组2和组3捆绑成预设组1，组1、组2和组4被捆绑为预设组2。

返回图1，服务发送器100通过一个流或多个流(多个流)发送包括多个组的编码数据项的3D音频发送数据项，如上所述。

图4(a)示意性地示出在通过一个流(主流)发送在图3中的3D音频发送数据项的情况下的配置实例。在这种情况下，一个流包括声道编码数据项(CD)、沉浸式音频对象编码数据项(IAO)和语音对话对象编码数据项(SDO)以及“SYNC”和“Config”。

图4(b)示意性地示出在通过多个流发送在图3中的3D音频发送数据项的情况下的配置实例。在这种情况下，主流包括声道编码数据项(CD)和沉浸式音频对象编码数据项(IAO)连同“SYNC”和“Config”。此外，子流包括语音对话对象编码数据项(SDO)连同“SYNC”和“Config”。

图5示出在通过两种流发送图3中的3D音频发送数据项的情况下的组划分实例。在这种情况下，主流包括分类为组1的声道编码数据项(CD)和分类为组2的沉浸式音频对象编码数据项(IAO)。另外，子流包括分类成组3的根据第一语言的语音对话对象编码数据项(SDO)，以及分类为组4的根据第二语言的语音对话对象编码数据项(SDO)。

图6示出在图5中的组划分实例(两个划分)中的组和流之间的对应关系等的示图。这里，组ID(groupID)是用于识别组的标识符。属性(attribute)示出每个组的编码数据项的属性。切换组ID(switchGroupID)是用于识别切换组的标识符。预设组ID(presetGroupID)是用于识别预设组的标识符。流ID(sub Stream ID)是用于识别子流的标识符。种类(Kind)示出每个组的内容的种类。

所示对应关系示出属于组1的编码数据项是声道编码数据项，不构成切换组，并且包括在流1中。另外，所示对应关系示出属于组2的编码数据项是用于沉浸式声音的对象编码数据项(沉浸式音频对象编码数据项)，不构成切换组，并且包括在流1中。

另外，所示对应关系示出属于组3的编码数据项是用于根据第一语言的语音语言的对象编码数据项(语音对话对象编码数据项)，构成切换组1，并且包括在流2中。另外，所示对应关系示出属于组4的编码数据项是用于根据第二语言的语音语言的对象编码数据项(语音对话对象编码数据项)，构成切换组1，并且包括在流2中。

另外，所示对应关系示出预设组1包括组1、组2和组3。此外，所示对应关系示出预设组2包括组1、组2和组4。

图7示出在通过两种流发送3D音频发送数据项的情况下的组划分实例。在这种情况下，主流包括分类为组1的声道编码数据项(CD)和分类为组2的沉浸式音频对象编码数据项(IAO)。

另外，主流包括被分类为组5的SAOC(空间音频对象编码，Spatial Audio ObjectCoding)对象编码数据项和被分类为组6的HOA(高阶高保真度立体声响复制，Higher OrderAmbisonics)对象编码数据项。SAOC对象编码数据项是利用对象数据项的特性的数据项，并且执行对象编码的较高压缩。HOA对象编码数据项的目的在于通过将3D声音作为整个声场来处理的技术而从麦克风的声音进入方向到听觉位置再现声音方向。

子流包括被分类为组3的根据第一语言的语音对话对象编码数据项(SDO)，以及被分类为组4的根据第二语言的语音对话对象编码数据项(SDO)。另外，子流包括被分类为组7的第一音频描述编码数据项和被分类为组8的第二音频描述编码数据项。音频描述编码数据项用于以声音解释内容(主要是视频)，且与普通声音分开地发送，用于主要视觉残疾的人。

图8示出在图7中的组划分实例(两个划分)中的组和流之间对应关系等。所示对应关系示出属于组1的编码数据项是声道编码数据项，不构成切换组，并且包括在流1中。另外，所示对应关系示出属于组2的编码数据项是用于沉浸式声音的对象编码数据项(沉浸式音频对象编码数据项)，不构成切换组，并且包括在流1中。

另外，所示对应关系示出属于组5的编码数据项是SAOC对象编码数据项，构成切换组2，并且包括在流1中。另外，所示对应关系示出属于组6的编码数据项是HAO对象编码数据项，构成切换组2，并且包括在流1中。

另外，所示对应关系示出属于组5的编码数据项是第一音频描述对象编码数据项，构成切换组3，并且包括在流2中。另外，所示对应关系示出属于组8的编码数据项是第二音频描述对象编码数据项，构成切换组3，并且包括在流2中。

另外，所示对应关系示出预设组1包括组1、组2、组3和组7。此外，所示对应关系示出预设组2包括组1、组2、组4和组8。

返回图1，服务发送器100将表示在3D音频发送数据项中包括的多个组的编码数据项的相应属性的属性信息插入到容器的层中。另外，服务发送器100将表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息插入容器的层中。在该实施方式中，例如，流对应关系信息被视为表示在组ID和流标识符之间的对应关系的信息。

服务发送器100将属性信息和流对应关系信息作为描述符插入到音频基本流循环中，该音频基本流循环与例如在节目映射表(PMT：节目映射表)下存在的预定数量的音频流中的一个或多个音频流对应。

另外，服务发送器100将表示预定数量音频流的相应流标识符的流标识符信息插入到容器的层中。服务发送器100例如将流标识符信息作为描述符插入到与存在于节目映射表(PMT：Program Map Table)下的相应预定数量音频流对应的音频基本流循环中。

此外，服务发送器100将表示在3D音频发送数据项中包括的多个组的编码数据项的相应属性的属性信息插入到音频流的层中。另外，服务发送器100将表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息插入音频流的层中。服务发送器100例如将属性信息和流对应关系信息插入预定数量的音频流中的一个或多个音频流的PES包的PES有效载荷中。

另外，服务发送器100将表示预定数量音频流的相应流标识符的流标识符信息插入到音频流的层中。服务发送器100例如将流标识符信息插入到预定数量的音频流的相应PES包的PES有效载荷中。

通过在“SYNC”和“Config”之间插入“Desc”，即描述符信息，服务发送器100将信息插入到音频流的层中，如图4(a)，(b)所示。

如上所述，虽然本实施方式示出，每个信息(属性信息、流对应关系信息、流标识符信息)被插入到容器的层和音频流的层这两者中，但是设想每条信息仅插入到容器的层中或者仅插入到音频流的层中。

服务接收器200接收通过广播波或网络包从服务发送器100发送的传输流TS。如上所述，除了视频流之外，传输流TS包括预定数量的音频流，该音频流包括多个组的编码数据项，其配置3D音频发送数据项。

表示包含在3D音频传输数据项中的多个组的编码数据项的相应属性的属性信息被插入到容器的层和/或音频流的层中，并且表示多个组中的编码数据项分别包含在哪个音频流中的流对应关系信息被插入。

基于属性信息和流对应关系信息，服务接收器200对包括具有适用于扬声器配置和用户选择信息的属性的组的编码数据项的音频流执行选择性解码处理，并获取3D音频的音频输出。

[服务发送器的流生成单元]

图9示出包括在服务发送器100中的流生成单元110的配置实例。流生成单元110包括视频编码器112、音频编码器113和复用器114。这里，音频发送数据项包括一个编码声道数据项和两个对象编码数据项，如在图3中所示。

视频编码器112输入视频数据SV，对视频数据SV进行编码，并且生成视频流(视频基本流)。音频编码器113输入作为音频数据项SA的沉浸式音频和语音对话对象数据项连同声道数据项。

音频编码器113编码音频数据项SA且获取3D音频发送数据项。如图3所示，3D音频发送数据项包括声道编码数据项(CD)、沉浸式音频对象编码数据项(IAO)和语音对话对象编码数据项(SDO)。

音频编码器113生成包括多个组(这里为四个组)的编码数据项的一个或多个音频流(音频基本流)(参见图4(a)、(b))。此时，如上所述，音频编码器113在“SYNC”和“Config”之间插入包括属性信息、流对应关系信息和流标识符信息的描述符信息(“Desc”)。

复用器114对从视频编码器112输出的视频流和从音频编码器113输出的预定数量音频流进行PES封包化，进一步将音频流传输封包化以便复用，并且获取作为复用流的传输流TS。

此外，复用器114将表示多个组的编码数据项的相应属性的属性信息和表示多个组中的编码数据项分别包括在哪个音频流中的流对应关系信息插入到节目映射表(PMT)之下。复用器114使用3D音频流配置描述符(3Daudio_stream_config_descriptor)将信息插入到与预定数量的音频流当中的至少一个或多个音频流对应的音频基本流循环中。稍后将描述描述符的细节。

此外，复用器114将表示预定数量的音频流的相应流标识符的流标识符信息插入节目映射表(PMT)之下。复用器114使用3D音频流ID描述符(3Daudio_substreamID_descriptor)将信息插入到与相应预定数量的音频流对应的音频基本流循环中。稍后将描述描述符的细节。

将简要描述图9所示的流生成单元110的操作。视频数据项被供应至视频编码器112。在视频编码器112中，视频数据项SV被编码，并且生成包括编码视频数据项的视频流。视频流被供应至复用器114。

音频数据项SA被供应至音频编码器113。音频数据项SA包括声道数据项、沉浸式音频和语音对话的对象数据项。在音频编码器113中，编码音频数据项SA，并且获得3D音频传输数据项。

除了声道编码数据项(CD)之外，3D音频发送数据项还包括沉浸式音频对象编码数据项(IAO)和语音对话对象编码数据项(SDO)(参见图3)。在音频编码器113中，生成包括四组编码数据项的一个或多个音频流(参见图4(a)，(b))。

此时，如上所述，音频编码器113在“SYNC”和“Config”之间插入包括属性信息、流对应关系信息和流标识符信息的描述符信息(“Desc”)。

在视频编码器112生成的视频流被供应至复用器114。另外，在音频编码器113生成的音频流被供应至复用器114。在复用器114中，从每个编码器供应的流经过PES封包化和传输封包化以便复用，且获取作为复用流的传输流TS。

此外，在复用器114中，例如，3D音频流配置描述符被插入到与预定数量音频流中的至少一个或多个音频流对应的音频基本流循环中。描述符包括表示多个组的编码数据项的相应属性的属性信息，以及表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息。

此外，在复用器114中，3D音频流ID描述符被插入到与相应预定数量音频对应的音频基本流循环中。描述符包括表示预定数量的音频流的相应流标识符的流标识符信息。

[3D音频流配置描述符的细节]

图10示出3D音频流配置描述符的结构实例(语法)。此外，图11示出在配置实例中的主要信息的内容(语义)。

8位字段“descriptor_tag”表示描述符类型。这里，它示出它是3D音频流配置描述符。8位字段“descriptor_length”表示描述符长度(大小)，并且示出作为描述符长度的随后字节数量。

8位字段“NumOfGroups，N”表示组的数量。8位字段NumOfPresetGroups,P”表示预设组的数量。对于组的数量，重复8位字段“groupID”、8位字段“attribute_of_groupID”、8位字段“SwitchGroupID”和8位字段“audio_streamID”。

字段“groupID”表示组的标识符。字段“attribute_of_groupID”表示组的编码数据项的相关属性。字段“SwitchGroupID”是表示相关组所属的切换组的标识符。“0”表示它不属于任何切换组。非“0”表示它所属的切换组。8位字段“contentKind”表示组的内容的种类。“audio_streamID”是表示包括相关组的音频流的标识符。图12示出在“contentKind”中定义的内容的种类。

对于预设组的数量，重复8位字段“presetGroupID”和8位字段“NumOfGroups_in_preset，R”。字段“presetGroupID”是表示预设组的束的标识符。字段“NumOfGroups_in_preset，R”表示属于预设组的组的编号。每个预设组(对于属于其的组的编号)重复8位字段“groupID”，并且示出属于预设组的组。描述符可以设置在扩展描述符下。

[3D音频流ID描述符的细节]

图13(a)示出3D音频流ID描述符(3Daudio_substreamID_descriptor)的配置实例(语法)。图13(b)示出在配置实例中的主要信息的内容(语义)。

8位字段“descriptor_tag”表示描述符类型。这里，它示出它是3D音频流ID描述符。8位字段“descriptor_length”表示描述符长度(大小)，并且将随后字节数量表示为描述符长度。8位字段“audio_streamID”表示音频流的标识符。描述符可以设置在扩展描述符下。

[传输流TS的配置]

图14示出传输流TS的配置实例。该配置实例对应于通过两个流发送3D音频发送数据项的情况(参见图5)。在该配置实例中，存在由PID1标识的视频流PES包“视频PES”。另外，在该配置实例中，存在分别由PID2和PID3标识的两个音频流PES包“音频PES”。PES包包括PES报头(PES_header)和PES有效载荷(PES_payload)。DTS和PTS时间戳被插入到PES报头中。在复用时，PID2和PID3时间戳经匹配以提供精度，由此可以在整个系统中确保它们之间的同步。

这里，由PID2标识的音频流PES包“音频PES”包括分类为组1的声道编码数据项(CD)和分类为组2的沉浸式音频对象编码数据项(IAO)。另外，由PID3标识的音频流PES包“音频PES”包括分类成组3的根据第一语言的语音对话对象编码数据项(SDO)，以及分类为组4的根据第二语言的语音对话对象编码数据项(SDO)。

另外，传输流TS包括作为PSI(节目特定信息，Program Specific Information)的PMT(节目映射表，Program Map Table)。PSI是描述包括在传输流中的基本流分别属于哪个节目的信息。描述关于整个节目的信息的节目循环(Program loop)存在于PMT。

另外，具有关于每个基本流的信息的基本流循环存在于PMT。在该配置实例中，存在与视频流对应的视频基本流循环(视频ES循环)，并且存在与两个音频流对应的音频基本流循环(音频ES循环)。

在视频基本流循环(视频ES循环)，对应于视频流设置关于流类型、PID(包标识符)等的信息，并且也设置描述与视频流有关的信息的描述符。视频流“Stream_type”的值被设定为“0x24”，并且PID信息表示被添加到视频流PES包“视频PES”的PID1，如上所述。作为描述符之一，设置HEVC描述符。

在每个音频基本流循环(音频ES循环)处，对应于音频流设置关于流类型、PID(分组标识符)等的信息，并且也设置描述与音频流有关的信息的描述符。PID2是主音频流，并且“Stream_type”的值被设定为“0x2C”，且PID信息表示被添加到音频流PES包“音频PES”的PID，如上所述。另外，PID3是子音频流，并且“Stream_type”的值被设定为“0x2D”，且PID信息表示被添加到音频流PES包“音频PES”的PID，如上所述。

此外，在每个音频基本流循环(Audio ES loop)处，设置上述3D音频流配置描述符和3D音频流ID描述符这两者。

另外，描述符信息被插入到每个音频基本流的PES包的PES有效载荷中。描述符信息是如上所述插入在“SYNC”和“Config”之间的“Desc”(见图4)。假设包括在3D音频流配置描述符中的信息表示为D1，并且包括在3D音频流ID描述符中的信息表示为D2，则描述符信息包括“D1+D2”信息。

[服务接收器的配置实例]

图15示出服务接收器200的配置实例。服务接收器200包括接收单元201、解复用器202、视频解码器203、视频处理电路204、面板驱动电路205和显示面板206。此外，服务接收器200包括复用缓冲器211-1至211-N、组合器212、3D音频解码器213、声音输出处理电路214和扬声器系统215。此外，服务接收器200包括CPU 221、闪存ROM 222、DRAM 223、内部总线224、遥控接收单元225和遥控发送器226。

CPU 221控制服务接收器200中的每个单元的操作。闪存ROM 222存储控制软件并保存数据。DRAM 223配置CPU 221的工作区域。CPU 221将从闪存ROM 222读取的软件或数据解压缩到DRAM 223上以启动软件，并且控制服务接收器200中的每个单元。

遥控接收单元225接收从遥控发送器226发送的遥控信号(遥控代码)，并将其供应至CPU 221。CPU 221基于遥控器代码控制服务接收器200中的每个单元。CPU 221、闪存ROM222和DRAM 223被连接到内部总线224。

接收单元201接收从服务发送器100在广播波或网络包上发送的传输流TS。除了视频流之外，传输流TS包括预定数量的音频流，该音频流包括多个组的编码数据项，其配置3D音频发送数据项。

图16示出所接收音频流的实例。图16(a)示出一个流(主流)的实例。该流包括声道编码数据项(CD)、沉浸式音频对象编码数据项(IAO)和语音对话对象编码数据项(SDO)连同“SYNC”和“Config”。流由PID2标识。

另外，在“SYNC”和“Config”之间，包括描述符信息(“Desc”)。将表示多个组的编码数据项的相应属性的属性信息，表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息以及表示自身流标识符的流标识符信息插入到描述符信息中。

图16(b)示出了两个流的实例。由PID2标识的主流包括声道编码数据项(CD)和沉浸式音频对象编码数据项(IAO)以及“SYNC”和“Config”。另外，由PID3标识的子流包括语音对话对象编码数据项(SDO)以及“SYNC”和“Config”。

另外，每个流在“SYNC”和“Config”之间均包括描述符信息(“Desc”)。将表示多个组的编码数据项的相应属性的属性信息，表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息以及表示自身流标识符的流标识符信息插入到该描述符信息中。

解复用器202从传输流TS中提取视频流包，并将其发送到视频解码器203。视频解码器203重新配置在解复用器202提取的视频包的视频流，并且执行解码处理以获得未压缩的视频数据项。

视频处理电路204对在视频解码器203获得的视频数据项执行缩放处理、图像质量调整处理等，从而获得用于显示的视频数据项。面板驱动电路205基于在视频处理电路204处获得的用于显示的图像数据项驱动显示面板206。显示面板206包括例如LCD(液晶显示器)、有机EL显示器(有机电致发光显示器)等。

另外，解复用器202从传输流TS提取诸如描述符信息的各种信息，并将其发送到CPU 221。各种信息还包括关于3D音频流配置描述符(3Daudio_stream_config_descriptor)和3D音频流ID描述符(3Daudio_substreamID_descriptor)的上述信息(参见图14)。

基于在描述符信息中包括的表示每个组的编码数据项的属性的属性信息和表示组分别包含在哪个视频流中的流关系信息，CPU 221识别包括组的编码数据项的视频流，该组的编码数据项具有适用于扬声器配置和观看者及观众(用户)选择信息的属性。

此外，解复用器202在CPU 221控制下通过PID滤波器在传输流TS具有的预定数量音频流中选择性地取出一个或多个音频流包，该音频流包包括具有适用于扬声器配置和观看者及观众(用户)选择信息的属性的组的编码数据项。

复用缓冲器211-1至211-N各自收取在多路分解器202处取出的每个音频流。这里，N个复用缓冲器211-1至211-N是必要的且足够的。在实际操作中，将使用在解复用器202取出的多个音频流。

组合器212从复用缓冲器211-1至211-N中的接收在解复用器202取出的各个音频流的复用缓冲器中读取音频流每个音频帧，并将其发送到3D音频解码器213。

在从组合器212供应的音频流包括描述符信息(“Desc”)的情况下，3D音频解码器213将描述符信息发送到CPU 221。3D音频解码器213在CPU 221的控制下选择性地取出具有适用于扬声器配置和观看者及观众(用户)选择信息的属性的组的编码数据项，执行解码处理，获得用于驱动扬声器系统215的每个扬声器的音频数据项。

这里，应用了解码处理的编码数据项可以具有三种模式：仅包括声道编码数据项，仅包括对象编码数据项，或者包括声道编码数据项和对象编码数据项这两者。

当解码声道编码数据项时，3D音频解码器213对扬声器系统215的扬声器配置执行下混或上混处理，获得用于驱动每个扬声器的音频数据项。此外，当解码对象编码数据项时，3D音频解码器213基于对象信息(元数据项)计算扬声器渲染(用于每个扬声器的混合比率)，并且根据计算结果将对象音频数据项混合到音频数据项中以便驱动每个扬声器。

声音输出处理电路214对在3D音频解码器213处获得的用于驱动每个扬声器的音频数据项执行诸如D/A转换、放大等的必要处理，并将其供应至扬声器系统215。扬声器系统215包括具有多个声道例如2声道、5.1声道、7.1声道或22.2声道的多个扬声器。

将简要描述图15所示的服务接收器200的操作。接收设备201接收服务发送器100在广播波或网络包上发送的传输流TS。除了视频流之外，传输流TS包括预定数量的音频流，该音频流包括多个组的编码数据项，其配置3D音频发送数据项。传输流TS供应至解复用器202。

在解复用器202中，从传输流TS提取视频流包，视频流包被供应至视频解码器203。在视频解码器203中，通过在解复用器202处提取的视频包重新配置视频流，执行解码处理，并且获得未压缩的视频数据项。视频数据项被供应至视频处理电路204。

视频处理电路204对在视频解码器203获得的视频数据项执行缩放处理、图像质量调整处理等，从而获得用于显示的视频数据项。用于显示的视频数据项供应至面板驱动电路205。面板驱动电路205基于用于显示的图像数据项驱动显示面板206。以这种方式，与用于显示的图像数据项对应的图像被显示在显示面板206上。

另外，解复用器202从传输流TS提取诸如描述符信息的各种信息，该各种信息被传递到CPU 221。各种信息还包括关于3D音频流配置描述符和3D音频流ID描述符的信息(参见图14)。基于在描述符信息中包含的属性信息和流关系信息，CPU 221识别包括组的编码数据项的视频流，该组的编码数据项具有适用于扬声器配置和观看者及观众(用户)选择信息的属性。

此外，解复用器202在CPU 221控制下通过PID滤波器从传输流TS具有的预定数量音频流中选择性地取出一个或多个音频流分组，该音频流分组包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项。

在解复用器202处取出的音频流被接收到复用缓冲器211-1至211-N中的相应复用缓冲器中。在组合器212中，从接收音频流的每个复用缓冲器的每个音频帧读出音频流，并将该音频流供应至3D音频解码器213。

在从组合器212供应的音频流包括描述符信息(“Desc”)的情况下，提取描述符信息并将其发送到3D音频解码器213中的CPU 221。3D音频解码器213在CPU 221的控制下选择性地取出具有适用于扬声器配置和观看者及观众(用户)选择信息的属性的组的编码数据项，执行解码处理，获得用于驱动扬声器系统215的每个扬声器的音频数据项。

这里，当解码声道编码数据项时，对扬声器系统215的扬声器配置执行下混或上混处理，并且获得用于驱动每个扬声器的音频数据项。此外，当解码对象编码数据项时，基于对象信息(元数据项)计算扬声器渲染(用于每个扬声器的混合比率)，并且根据计算结果将对象音频数据项混合到音频数据项中以便驱动每个扬声器。

在3D音频解码器213处获取的用于驱动每个扬声器的音频数据项供应至声音输出处理电路214。声音输出处理电路214对用于驱动每个扬声器的音频数据项执行诸如D/A转换、放大等的必要处理。处理后的音频数据项被供应至扬声器系统215。以这种方式，从扬声器系统215获得与显示面板206的显示图像对应的音频输出。

图17示意性地示出在音频流内不存在描述符信息的情况下的解码处理。作为复用流的传输流TS被输入到解复用器202。在解复用器202中，分析系统层，并且将描述符信息1(关于3D音频流配置描述符或3D音频流ID描述符的信息)供应至CPU 221。

在CPU 221中，基于描述符信息1识别包括组的编码数据项的音频流，该组的编码数据项具有适用于扬声器配置和观看者及观众(用户)选择信息的属性。在解复用器202中，在CPU 221的控制下执行流之间的选择。

换句话说，在解复用器202中，PID滤波器在传输流TS的预定数量的音频流中选择性地取出一个或多个音频流包，其所取出的一个或多个音频流包包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项。如此取出的音频流被接收到复用缓冲器211(211-1至211-N)中。

3D音频解码器213对在复用缓冲器211接收的每个音频流执行包类型分析。然后，在解复用器202中，在CPU 221的控制下，基于上述描述符信息1，执行在流内的选择。

具体地，从每个音频流中选择性地取出具有适用于扬声器配置和观看者和观众(用户)选择信息的属性的组的编码数据项作为解码对象，并且对其施加解码处理和混合渲染处理，从而获得用于驱动每个扬声器的音频数据项(未压缩音频)。

图18示出在音频流内不存在描述符信息的情况下的音频流的音频访问单元(音频帧)的配置实例。这里，示出两个流的实例。

关于由PID2标识的音频流，在“Config”中包含的“FrWork#ch＝2，#obj＝1”的信息表示存在包括在两个声道中的声道编码数据项和一个对象编码数据项的“帧”。在包含在“Config”中的“AudioSceneInfo()”内以此顺序登记的“GroupID[0]＝1，GroupID[1]＝2”的信息表示以此顺序设置具有组1的编码数据项的“帧”和具有组2的编码数据项的“帧”。需注意，包标签(PL)的值被认为在“Config”和与其对应的每个“帧”中是相同的。

这里，具有组1的编码数据项的“帧”包括CPE(声道对元素)的编码样本数据项。此外，具有组2的编码数据项的“帧”包括具有作为扩展元素(Ext_element)的元数据项的“帧”，以及具有SCE(单声道元素)的编码样本数据项的“帧”。

关于由PID3标识的音频流，在“Config”中包括的“FrWork#ch＝0，#obj＝2”的信息表示存在包括两个对象编码数据项的“帧”。在包含在“Config”中的“AudioSceneInfo()”内以如下顺序登记的“GroupID[2]＝3，GroupID[3]＝4，SW_GRPID[0]＝1”的信息表示，以此顺序设置具有组3的编码数据项的“帧”和具有组4的编码数据项的“帧”和这些组配置切换组1。需注意，分组标签(PL)的值被认为在“Config”和与其对应的每个“帧”中是相同的。

这里，具有组3的编码数据项的“帧”包括具有作为扩展元素(Ext_element)的元数据项的“帧”以及具有SCE(单声道元素)的编码样本数据项的“帧”。相似地，具有组4的编码数据项的“帧”包括具有作为扩展元素(Ext_element)的元数据项的“帧”以及具有SCE(单声道元素)的编码样本数据项的“帧”。

图19示意性地示出在音频流内存在描述符信息的情况下的解码处理的示图。作为复用流的传输流TS被输入到解复用器202。在解复用器202中，分析系统层，并且将描述符信息1(关于3D音频流配置描述符或3D音频流ID描述符的信息)供应至CPU 221。

在CPU 221中，基于描述符信息1识别包括组的编码数据项的音频流，该组的编码数据项具有适用于扬声器配置和观看者及观众(用户)选择信息的属性。在解复用器202，在CPU 221的控制下执行流之间的选择。

换句话说，解复用器202通过PID滤波器在传输流TS所具有的预定数量音频流中选择性地取出一个或多个音频流包，其所取出的个音频流包包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项。如此取出的音频流被接收到复用缓冲器211(211-1至211-N)中。

3D音频解码器213对在复用缓冲器211接收的每个音频流执行包类型分析，并且将存在于音频流内的描述符信息2发送到CPU 221。基于描述符信息2识别具有适用于扬声器配置和观看者及观众(用户)选择信息的属性的组的编码数据项的存在。然后，在解复用器202中，在CPU 221的控制下，基于描述符信息2，执行在流内的选择。

图20示出在音频流内存在描述符信息的情况下的音频流的音频访问单元(音频帧)的配置实例。这里，示出两个流的实例。图20类似于图18，除了在“SYNC”和“Config”之间插入有“Desc”，即描述符信息。

关于由PID2标识的音频流，包含在“Desc”中的“GroupID[0]＝1，channeldata”的信息表示组1的编码数据项为声道编码数据项。包含在“Desc”中的“GroupID[1]＝2，对象声音(object sound)”的信息表示组2的编码数据项是用于沉浸式声音的对象编码数据项。此外，“Stream_ID”的信息表示音频流的流标识符。

关于由PID3识别的音频流，包含在“Desc”中的“GroupID[2]＝3，object lang1”的信息表示组3的编码数据项是根据第一语言的语音语言的对象编码数据项。包含在“Desc”中的“GroupID[3]＝4，object lang2”的信息表示组4的编码数据项是根据第二语言的语音语言的对象编码数据项。此外，包含在“Desc”中的“SW_GRPID[0]＝1”的信息表示组3和4配置切换组1。此外，“Stream_ID”的信息表示音频流的流标识符。

图21示出在音频流内存在描述符信息的情况下的音频流的音频访问单元(音频帧)的配置实例。这里，示出一个流的实例。

在“Config”中包含的“FrWork#ch＝2，#obj＝3”的信息表示存在包括在两个声道中的声道编码数据项和三个对象编码数据项的“帧”。在包含在“Config”中“AudioSceneInfo()”顺序登记的“GroupID[0]＝1，GroupID[1]＝2，GroupID[2]＝3，GroupID[3]＝4，SW_GRPID[0]＝1”的信息表示，具有组1的编码数据项的“帧”和具有组2的编码数据项的“帧”，具有组3的编码数据项的“帧”和具有组4的编码数据项的“帧”被以该顺序设置，以及这些组3和组4配置切换组1。需注意，包标签(PL)的值被认为在“Config”和与其对应的每个“帧”中是相同的。

这里，具有组1的编码数据项的“帧”包括CPE(声道对元素)的编码样本数据项。此外，具有组2至组4的编码数据项的“帧”包括具有作为扩展元素(Ext_element)的元数据项的“帧”，以及具有SCE(单声道元素)的编码样本数据项的“帧”。

包含在“Desc”中的“GroupID[0]＝1，channeldata”的信息表示组1的编码数据项是声道编码数据项。包含在“Desc”中的“GroupID[1]＝2，对象声音(object sound)”的信息表示组2的编码数据项是用于沉浸式声音的对象编码数据项。

包含在“Desc”中的“GroupID[2]＝3，object lang1”的信息表示组3的编码数据项是根据第二语言的语音语言的对象编码数据项。包含在“Desc”中的“GroupID[3]＝4，object lang2”的信息表示组4的编码数据项是根据第二语言的语音语言的对象编码数据项。另外，包含在“Desc”中的“SW_GRPID[0]＝1”的信息表示组3和4构成切换组1。此外，“Stream_ID”的信息表示音频流的流标识符。

图22和图23中的流程图示出在图15所示服务接收器200中的CPU 221的音频解码控制处理的实例。CPU 221在步骤ST1开始处理。然后，CPU 221在步骤ST2检测接收器扬声器配置，即扬声器系统215的扬声器配置。接下来，CPU 221在步骤ST3获取关于由观看者和观众(用户)输出的音频的选择信息。

接下来，在步骤ST4，CPU 221读取PMT内关于主流的描述符信息，选择具有适用于扬声器配置以及观看者及观众选择信息的属性的组所属于的音频流，并将其接收到缓冲器中。然后，在步骤ST5，CPU 221检查描述符类型包是否存在于音频流中。

接下来，在步骤ST6，CPU 221确定是否存在描述符类型包。如果存在，在步骤ST7，则CPU 221读取相关包的描述符信息，检测“groupID”、“attribute”、“switchGroupID”和“presetGroupID”的信息，然后前进到步骤ST9中的处理。另一方面，如果不存在，则CPU 221在步骤ST8从PMT的描述符信息中检测“groupID”、“attribute”、“switchGroupID”和“presetGroupID”的信息，然后前进到步骤ST9。需注意，可以不执行步骤ST8，以及可以解码待进行的整个音频流。

在步骤ST9中，CPU 221确定是否解码对象编码数据项。如果解码，则CPU 221在步骤ST10中解码对象编码数据项，然后前进到步骤ST11中的处理。另一方面，如果不解码，则CPU 221立即前进到步骤ST11中的处理。

在步骤ST11中，CPU 221确定是否解码声道编码数据项。如果解码，则CPU 221在步骤ST12根据需要解码声道编码数据项，对扬声器系统215的扬声器配置执行下混或上混处理，并且获得用于驱动每个扬声器的音频数据项。此后，CPU 221前进到步骤ST13中的处理。另一方面，如果不解码，则CPU 221立即前进到步骤ST13中的处理。

在步骤ST13中，在CPU 221解码对象编码数据项的情况下，基于该信息，其与声道数据项混合或计算扬声器渲染。在扬声器渲染计算中，通过方位角(方位角信息)和仰角(仰角信息)计算扬声器渲染(每个扬声器的混合比率)。根据计算结果，对象音频数据项与声道数据混合用于驱动每个扬声器。

接下来，CPU 221执行用于驱动每个扬声器的音频数据项的动态范围控制，并在步骤ST14中输出。此后，CPU 221在步骤ST15结束处理。

如上所述，在图1所示的发送/接收系统10中，服务发送器100将表示包括在预定数量音频流中的多个组的编码数据项的相应属性的属性信息插入到容器的层和/或音频流的层中。因此，在接收侧在对编码数据项进行解码之前，可以容易地识别多个组的编码数据项的相应属性，并且可以仅对必要组的编码数据项进行选择性地解码和使用，由此可以减少处理负载。

在图1所示的发送/接收系统10中，服务发送器100将表示多个组的编码数据项分别包含在哪个音频流中的流对应关系信息插入到容器的层和/或音频流的层中。因此，可以在接收侧容易地识别包括必要组的编码数据项的音频流，从而可以减少处理负荷。

<2.变型例>

在上述实施方式中，服务接收器200从经由服务发送器100发送的多个音频流中选择性地取出包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项的音频流，执行解码处理，并获得用于驱动扬声器的预定数量的音频数据项。

然而，可以设想，服务接收器从经由服务发送器100发送的多个音频流中选择性地取出包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项的一个或多个音频流，重新配置包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项的音频流，并将经重新配置的音频流传送到连接到内部网络的设备(还包括DLNA设备)。

图24示出将重新配置的音频流发送到连接至室内网络的设备的服务接收器200A的配置实例，如上所述。对应于图15中的那些的图24中组件以相同附图标记表示，因此下文将省略其详细描述。

解复用器202在CPU 221控制下通过PID滤波器在传输流TS具有的预定数量音频流中选择性地取出一个或多个音频流的包，所取出的音频流包括具有适用于扬声器配置和观看者及观众选择信息的属性的组的编码数据项。

由解复用器202取出的音频流被接收到复用缓冲器211-1至211-N中的相应复用缓冲器中。在组合器212中，从接收音频的每个复用缓冲器的每个音频帧读出音频流，并将该音频流供应至流重新配置单元231。

在流重新配置单元231中，在描述符信息(“Desc”)包含在从组合器212供应的音频流中的情况下，提取描述符信息，并将其发送到CPU 221。在流重新配置单元231中，在CPU221的控制下选择性地获取具有适用于扬声器配置和观看者及观众(用户)选择信息的属性的组的编码数据项，并且重新配置具有该编码数据项的音频流。重新配置的音频流被供应至传送接口232。然后，它们从传送接口232传送(发送)到连接到室内网络的设备300。

室内网络连接包括以太网连接和“WiFi”或“Bluetooth”的无线连接。“WiFi”和“Bluetooth”是注册商标。

另外，设备300包括附接到网络终端的环绕扬声器、第二显示器和音频输出设备。向齐传送了经重新配置的音频流的设备200执行与在图15中的服务接收器200中的3D音频解码器213类似的解码处理，并且获得用于驱动预定数量扬声器的音频数据项。

此外，作为服务接收器，可以设想将上述重新配置的音频流发送到以诸如“HDMI(高清晰度多媒体接口)”、“MHL(移动电话高清链接)”和“DisplayPort”的数字接口连接的设备。“HDMI”和“MHL”是注册商标。

另外，在上述实施方式中，插入到容器的层等中的流对应关系信息是表示在组ID和子流ID之间对应关系的信息。具体地，子流ID用于将组与音频流关联。然而，可以设想，使用包标识符(PID：包ID)或者流类型(stream_type)，以便使该组与音频流关联。在使用流类型的情况下，应当改变每个音频流的流类型。

另外，上述实施方式示出了实例：通过设置“attribute_of_groupID”字段发送每个组的编码数据项的属性信息(参见图10)。然而，本技术还包括方法，如果通过在发送器和接收器之间的组ID(GroupID)的值本身中定义特定含义来识别特定组ID，则该方法可以识别编码数据项的类型(属性)。在这种情况下，组ID用作组的标识符，而且还用作组的编码数据项的属性信息，从而字段“attribute_of_groupID”变得不必要。

另外，上述实施方式示出了实例：多个组的编码数据项包括声道编码数据项和对象编码数据项这两者(参见图3)。然而，本技术也可类似地应用于多个组的编码数据项仅包括声道编码数据项或仅包括对象编码数据项的情况。

另外，上述实施方式示出实例：容器是传输流(MPEG-2TS)。然而，本技术也可类似地应用于由MP4等格式的容器传送流的系统。例如，该系统包括MPEG-DASH基本流传送系统，或处理MMT(MPEG媒体传输)结构发送流的发送/接收系统。

本技术还可以具有如下配置。

1.一种发送装置，包括：

发送单元，发送具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项；和

信息插入单元，将表示所述多个组的编码数据项的相应属性的属性信息插入到所述容器的层和/或音频流的层中。

(2)根据(1)所述的发送装置，其中，

所述信息插入单元还将流对应关系信息插入到所述容器的所述层和/或音频流的所述层中，所述流对应关系信息表示所述多个组的所述编码数据项分别包含在哪个音频流中。

(3)根据(2)所述的发送装置，其中，

所述流对应关系信息是表示标识所述多个组的所述编码数据项中的每个的组标识符与标识所述预定数量音频流中的每个的流标识符之间的对应关系的信息。

(4)根据(3)所述的发送装置，其中，

所述信息插入单元还将流标识符信息插入到所述容器的层和/或所述音频流的层中，所述流标识符信息表示所述预定数量的音频流中的每个的所述流标识符。

(5)根据(4)所述的发送装置，其中，

所述容器是MPEG2-TS，以及

在所述流标识符信息被插入到所述容器中的情况下，所述信息插入单元将所述流标识符信息插入到与存在于节目映射表下的所述预定数量的音频流中的每一个对应的音频基本流循环中。

(6)根据以上(4)或(5)所述的发送装置，其中，

在所述流标识符信息被插入到所述音频流中的情况下，所述信息插入单元将所述流标识符信息插入到所述预定数量的音频流中的每一个的PES包的PES有效载荷中。

(7)根据(2)所述的发送装置，其中，

所述流对应关系信息是表示标识所述多个组的所述编码数据项中的每个的组标识符与在所述预定数量音频流中的每个被封包化的情况下所添加的包标识符之间的对应关系的信息。

(8)根据(2)所述的发送装置，其中，

所述流对应关系信息是表示标识所述多个组的所述编码数据项中的每个的组标识符与表示所述预定数量音频流中的每个的流类型的类型信息之间的对应关系的信息。

(9)根据以上(2)至(8)中任一项所述的发送装置，其中，

所述容器是MPEG2-TS，以及

在所述属性信息和所述流对应关系信息被插入到所述容器中的情况下，所述信息插入单元将所述属性信息和所述流对应关系信息插入到与在所述节目映射表之下存在的所述预定数量的音频流中的至少一个或多个音频流对应的所述音频基本流循环中。

(10)根据以上(2)至(8)中任一项所述的发送装置，其中，

在所述属性信息和所述流对应关系被插入到所述音频流中的情况下，所述信息插入单元将所述属性信息和所述流对应关系信息插入到所述预定数量的音频流中的至少一个或多个音频流中的PES包的PES有效载荷中。

(11)根据以上(1)至(10)所述的发送装置，其中，

所述多个组的所述编码数据项包括声道编码数据项和对象编码数据项中的一者或两者。

(12)一种发送方法，包括：

发送步骤，由发送单元发送具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项；以及

信息插入步骤，将表示所述多个组的所述编码数据项的相应属性的属性信息插入到所述容器的层和/或音频流的层中。

(13)一种接收装置，包括：

接收单元，接收具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项，

表示所述多个组的所述编码数据项的相应属性的属性信息被插入到所述容器的层和/或音频流的层中；以及

处理单元，基于所述属性信息处理包含在所述接收的容器中的所述预定数量的音频流。

(14)根据以上(13)所述的接收装置，其中，

表示所述多个组的所述编码数据项分别包含在哪个音频流中的流对应关系信息进一步被插入到所述容器的层和/或所述音频流的层中，以及

除了所述属性信息之外，所述处理单元还基于所述流对应关系信息处理所述预定数量的音频流。

(15)根据以上(14)所述的接收装置，其中，

基于所述属性信息和所述流对应关系信息，所述处理单元对包含具有适用于扬声器配置和用户选择信息的属性的组的编码数据项的音频流执行选择性解码处理。

(16)根据以上(13)至(15)中任一项所述的接收装置，其中，

(17)一种接收方法，包括：

接收步骤，由接收单元接收具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项，

处理步骤，基于所述属性信息处理包括在所接收的容器中的所述预定数量的音频流。

(18)一种接收装置，包括：

接收单元，接收具有预定数量的音频流的预定格式的容器，所述预定数量的音频流包括多个组的编码数据项，

表示所述多个组的所述编码数据项的相应属性的属性信息被插入到所述容器的层和/或音频流的层中；

处理单元，基于所述属性信息从包含在所述接收的容器中的所述预定数量的音频流选择性地获取预定组的编码数据项，并且重新配置包括所述预定组的所述编码数据项的音频流；以及

流发送单元，将由所述处理单元重新配置的所述音频流发送到外部设备。

(19)根据以上(18)所述的接收装置，其中

除了所述属性信息之外，所述处理单元还基于所述流对应关系信息从所述预定数量的音频流中选择性地获取所述预定组的所述编码数据项。

(20)一种接收方法，包括：

处理步骤，基于所述属性信息从包括在所接收的容器中的所述预定数量的音频流选择性地获取预定组的编码数据项，并且重新配置包括所述预定组的编码数据项的音频流；以及

流发送步骤，将在所述处理步骤中重新配置的所述音频流发送到外部设备。

本技术的主要特征在于，流对应关系信息插入到容器的层和/或音频流的层中，流对应关系信息表示哪个音频流包括每个属性信息，属性信息表示在预定数量音频流中包括的多个组的编码数据项和多个组的编码数据项的相应属性，从而可以减少在接收侧处的处理负荷(参见图14)。

符号说明

10 发送/接收系统

100 服务发送器

100 流生成单元

112 视频编码器

113 音频编码器

114 复用器

200，200A 服务接收器

201 接收单元

202 解复用器

203 视频解码器

204 视频处理电路

205 面板驱动电路

206 显示面板

211-1至211-N 复用缓冲器

212 组合器

213 3D音频解码器

214 声音输出处理电路

215 扬声器系统

221 CPU

222 闪存ROM

223 DRAM

224 内部总线

225 遥控接收单元

226 遥控发送器

231 流重新配置单元

232 发送接口

300 设备。

Claims

1.一种发送装置，包括：

发送单元，被配置成发送具有预定数量的音频流的预定格式的容器，所述音频流包括多个组的编码数据项；以及

信息插入单元，被配置成将表示所述多个组的编码数据项的相应属性的属性信息插入到所述容器的层和/或音频流的层中。

2.根据权利要求1所述的发送装置，其中

所述信息插入单元还将流对应关系信息插入到所述容器的所述层和/或所述音频流的所述层中，所述流对应关系信息表示所述多个组的所述编码数据项分别包含在哪个音频流中。

3.根据权利要求2所述的发送装置，其中

所述流对应关系信息是表示标识所述多个组的所述编码数据项中的每个的组标识符与标识所述预定数量的音频流中的每个的流标识符之间的对应关系的信息。

4.根据权利要求3所述的发送装置，其中

所述信息插入单元还将流标识符信息插入到所述容器的所述层和/或所述音频流的所述层中，所述流标识符信息表示所述预定数量的音频流中的每个的所述流标识符。

5.根据权利要求4所述的发送装置，其中

所述容器是MPEG2-TS，以及

6.一种发送方法，包括：

7.一种接收装置，包括：

处理单元，基于所述属性信息处理包含在所接收的容器中的所述预定数量的音频流。

8.一种接收方法，包括：

9.一种接收装置，包括：

处理单元，基于所述属性信息从包含在所接收的容器中的所述预定数量的音频流选择性地获取预定组的编码数据项，并且重新配置包括所述预定组的编码数据项的音频流；以及

10.一种接收方法，包括：