CN107533846B

CN107533846B - 发送装置、发送方法、接收装置与接收方法

Info

Publication number: CN107533846B
Application number: CN201680022172.6A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-04-24
Filing date: 2016-04-08
Publication date: 2022-09-16
Anticipated expiration: 2036-04-08
Also published as: US10304467B2; US20180114534A1; JP2023030183A; US10978080B2; US20210210105A1; EP3288025A4; JP2021103335A; CN107533846A; US11636862B2; EP3288025A1; JP7207447B2; US20190318749A1; JPWO2016171002A1; WO2016171002A1; US20230230601A1; PH12017501893A1

Abstract

为了在发送多个种类的音频数据时减小接收侧的处理负荷。生成包括多个组的编码数据的预定数量的音频流，并且发送具有该预定数量的音频流的预定格式的容器。用于生成从多个组中指定要解码的组的命令的命令信息插入到容器和/或音频流内。例如，预定数量的音频流中的至少一个音频流设置有用于在接收侧插入用于指定要解码的组的命令的命令插入区域。

Description

发送装置、发送方法、接收装置与接收方法

技术领域

本技术涉及一种发送装置、发送方法、接收装置以及接收方法，特别涉及一种发送多个种类的音频数据的发送装置等。

背景技术

通常，作为一种立体(3D)声学技术，已经提出了以下一种技术，其中，将编码的采样数据映射到位于任意位置的扬声器并且基于元数据来渲染(rendering，呈现)(例如，参见专利文献1)。

参考文献

专利文献

专利文献1：国际专利申请的日本国家公布No.2014-520491

发明内容

本发明解决的问题

可以设想将由编码采样数据和元数据组成的对象编码数据与用于5.1声道、7.1声道等的声道编码数据一起发送，以支持接收侧的具有增强的逼真感的声音再生。

本技术的目的在于，在发送多个种类的音频数据的情况下，减少接收侧的处理负荷。

问题的解决方案

本技术的构思是：

一种发送装置，包括：

音频编码单元，其被配置为生成包括多个组的编码数据的预定数量的音频流；

发送单元，其被配置为发送具有预定数量的音频流的预定格式的容器；以及

信息插入单元，其被配置为将用于产生指定多个组中的待要解码的组的命令的命令信息插入容器和/或部分音频流内。

在本技术中，由音频编码单元生成包括多个组的编码数据的预定数量(即，一个或多个)的音频流。由发送单元发送具有预定数量的音频流的预定格式的容器。例如，该容器可以是数字广播标准中采用的传送流(MPEG-2TS)。可替代地，例如，容器可以是用于在互联网等中进行分发的MP4或除了MP4之外的格式的容器。

由信息插入单元将用于产生指定多个组中的待要解码的组的命令的命令信息插入容器和/或部分音频流内。例如，所述命令信息可以是表示命令与组的对应关系的信息或表示命令与由预定数量的组的组合构成的预设组的对应关系的信息。

如上所述，在本技术中，将用于产生指定多个组中的待要解码的组的命令的命令信息插入容器和/或部分音频流内。因此，参考该命令信息，使接收侧容易对指定待要解码的组的命令执行产生处理。

注意，在本技术中，例如，预定数量的音频流可以由主流和预定数量的子流组成或仅由主流组成，并且信息插入单元可以将命令信息插入主流和/或与主流对应的容器位置内。通过以这种方式将命令信息插入主流等内，接收侧可以容易地获取命令信息。

此外，在本技术中，例如，音频编码单元可以在多个音频流中的至少一个音频流中设置命令插入区域，用于在接收侧插入指定待要解码的组的命令。由于以这种方式预先设置命令插入区域，所以在接收侧将命令插入到音频流内变得容易。

另外，本技术的另一构思是：

一种发送装置，包括：

音频编码单元，其被配置为生成包括多个组的编码数据的预定数量的音频流；以及

发送单元，其被配置为发送具有预定数量的音频流的预定格式的容器，其中，

所述音频编码单元在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于在接收侧插入指定待要解码的组的命令。

在本技术中，音频编码单元生成包括多个组的编码数据的预定数量(即，一个或多个)的音频流。发送单元发送具有预定数量的音频流的预定格式的容器。例如，该容器可以是数字广播标准中采用的传送流(MPEG-2TS)。可替代地，例如，容器可以是用于在互联网等中分发的MP4或除了MP4之外的格式的容器。

在音频编码单元中，用于在接收侧插入指定待要解码的组的命令的命令插入区域设置在预定数量的音频流中的至少一个音频流中。例如，所述预定数量的音频流可以由主流和预定数量的子流组成或仅由主流组成，并且所述音频编码单元可以在主流中设置命令插入区域。

如上所述，在本技术中，在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于在接收侧插入指定要解码的组的命令。因此，在接收侧在音频流内插入命令的情况下，可以使用该命令插入区域，并且命令插入处理变得容易。

此外，本技术的另一构思是一种接收装置，包括：

接收单元，其被配置为接收具有包括多个组的编码数据的预定数量的音频流的预定格式的容器；

流获取单元，其被配置为从所述预定数量的音频流中取出包括待要解码的组的所有音频流，并获得通过整合所取出的所有音频流而构成的一个音频流；

命令产生单元，其被配置为产生在包括在所述一个音频流中的预定数量的组中指定待要解码的组的命令；

命令插入单元，其被配置为将由所述命令产生单元产生的命令插入到由所述流获取单元获取的一个音频流内；以及

音频解码单元，其被配置为接收已经插入了所述命令的一个音频流的输入，并且对包括在一个音频流中的预定数量的组中的由所述命令指定的组的编码数据应用解码处理。

在本技术中，接收单元接收具有包括多个组的编码数据的预定数量的音频流的预定格式的容器。流获取单元从所述预定数量的音频流中取出包括要解码的组的所有音频流，并获得通过整合所提取的所有音频流而构成的一个音频流。在这种情况下，当预定数量的音频流包括一个音频流时，照原样获得该音频流。

命令产生单元产生在包括在所述一个音频流中的预定数量的组中指定待要解码的组的命令。例如，所述命令产生单元可以根据用户在用户界面屏幕上的选择操作，产生命令。结果，用户可以容易地选择所需的组作为待要解码的组。

命令插入单元将由所述命令产生单元产生的命令插入到由所述流获取单元获取的一个音频流内。音频解码单元对包括在一个音频流中的预定数量的组中的由所述命令指定的组的编码数据应用解码处理。

如上所述，在本技术中，将用于指定要解码的组的命令插入到音频流中，并发送到音频解码单元。因此，在音频解码单元中，可以选择性地仅解码要解码的组的编码图像数据。此外，在这种情况下，使音频解码单元执行组选择处理，能够进行有效的处理。

注意，在本技术中，例如，用于产生指定多个组中的要解码的组的命令的命令信息可以插入由所述接收单元接收的一些音频流和/或容器中，并且所述命令产生单元可以参考所述命令信息产生命令。在这种情况下，参考命令信息来产生命令，因此，用于指定要解码的组的命令的产生处理变得容易。

此外，在本技术中，例如，可以在由所述接收单元接收的预定数量的音频流中的至少一个音频流中设置命令插入区域，用于插入指定要解码的组的命令，由所述流获取单元获取的一个音频流可以具有命令插入区域，并且所述命令插入单元可以将命令插入到所述一个音频流的命令插入区域内。在这种情况下，将命令插入到提前设置的命令插入区域中，从而插入命令的处理变得容易。

本发明的效果

根据本技术，在发送多个种类的音频数据的情况下，可以减少接收侧的处理负荷。注意，本说明书中描述的效果仅用作示例，而不被解释为限制。也会存在额外效果。

附图说明

[图1]是示出用作实施方式的发送/接收系统的配置示例的方框图。

[图2]是示出用于3D音频的传输数据的音频帧的结构的示图。

[图3]是示出用于3D音频的传输数据的配置示例的示图。

[图4]是示意性地示出使用各组的编码数据进行声场再现的示例的示图。

[图5]是示意性地示出在一个流中发送用于3D音频的传输数据的情况下以及在多个流中发送用于3D音频的传输数据的情况下的音频帧的配置示例的示图。

[图6]是示出在三个流中进行发送的情况下的组与流之间的对应关系等的示图。

[图7]是示出命令(命令标识符：CommandID)与组和预设组的对应关系的示例的示图。

[图8]是示出用于3D音频的传输数据的另一配置示例的示图。

[图9]是示出在三个流中进行发送的情况下的组和流等之间的对应关系的示图。

[图10]是示出命令(命令标识符：CommandID)与组和预设组的对应关系的示例的示图。

[图11]是示出用户执行选择操作的用户界面(UI)屏幕的示例的示图。

[图12]是示出服务发送器中包含的流生成单元的配置示例的方框图。

[图13]是示出3D音频流配置描述符(1/2)的结构的示例的示图。

[图14]是示出3D音频流配置描述符(2/2)的结构的示例的示图。

[图15]是示出3D音频流配置描述符的结构的示例中的主要信息的内容的示图。

[图16]是示出3D音频流ID描述符的结构的示例以及该结构的示例中的主要信息的内容的示图。

[图17]是示出3D音频命令描述符的结构的示例和该结构的示例中的主要信息的内容的示图。

[图18]是示出在三个流中发送用于3D音频的传输数据的情况下的传送流TS的配置示例的示图。

[图19]是示出在一个流中发送用于3D音频的传输数据的情况下的传送流TS的配置示例的示图。

[图20]是示出服务接收器的配置示例的方框图。

[图21]是示出接收的音频流的示例的示图。

[图22]是用于说明在接收的音频流具有一个流的情况下对解码对象的选择处理的示例的示图。

[图23]是用于说明在接收的音频流具有三个流的情况下对解码对象的选择处理的示例(1/2)的示图。

[图24]是用于说明接收的音频流具有三个流的情况下对解码对象的选择处理的示例(2/2)的示图。

[图25]是示出3D音频解码器的配置示例的方框图。

具体实施方式

下面将描述用于执行本发明的模式(以下称为“实施方式”)。注意，将按照以下顺序给出描述。

1、实施方式

2、变形例

<1、实施方式>

[发送/接收系统的配置示例]

图1示出了用作实施方式的发送/接收系统10的配置示例。该发送/接收系统10由服务发送器100和服务接收器200构成。服务发送器100将传送流TS载入广播波或网络中的分组内用以发送。该传送流TS具有视频流和预定数量(即，一个或多个)的包括多个组的编码数据的音频流。

图2示出了在本实施方式中处理的用于3D音频的传输数据的音频帧的结构的示例。该音频帧由多个MPEG音频流分组(mpeg Audio Stream Packet)组成。每个MPEG音频流分组由报头(Header)和有效载荷(Payload)构成。

报头具有诸如分组类型(Packet Type)、分组标记(Packet Label)和分组长度(Packet Length)等信息。在有效载荷中，设置了由报头中的分组类型定义的信息。在该有效载荷信息中，存在相当于同步起始码的“SYNC”、作为3D音频的传输数据的实际数据的“Frame”、以及表示该“Frame”的配置的“Config”。

“Frame”包括构成3D音频的传输数据的声道编码数据和对象编码数据。在此处，声道编码数据由诸如单声道元素(SCE)、声道对元素(CPE)和低频元素(LFE)等的编码采样数据构成。此外，对象编码数据由单声道元素(SCE)的编码采样数据和用于通过将其映射到存在于任意位置处的扬声器来对其渲染的元数据构成。该元数据作为扩展元素(Ext_element)而包含在其中。

图3示出了3D音频的传输数据的配置示例。在该配置示例中，用于3D音频的传输数据由一条声道编码数据和四条对象编码数据组成。一条声道编码数据是5.1声道的声道编码数据(CD)。

四条对象编码数据是沉浸式音频对象(IAO：Immersive audio object)、语音对话对象(SDO：Speech Dialog object)、声音对象(SUO：Sound object)和音频描述对象(ADO：Sound object)的编码数据。

沉浸式音频对象编码数据是针对沉浸式声音的对象编码数据。语音对话对象编码数据是针对语音语言的对象编码数据。在该配置示例中，存在对应于第一和第二语言中的每一种的语音对话对象编码数据。

声音对象编码数据是针对声音的对象编码数据。在该示例中，存在对应于第一类型和第二类型中的每一种的声音对象编码数据。音频描述对象编码数据是用于音频描述的对象编码数据。在该示例中，存在对应于第一和第二描述中的每一个的音频描述对象编码数据。

编码数据按照种类由组(Group)的概念区分。在该配置示例中，将5.1声道的声道编码数据分配给第1组(Group 1)，将沉浸式音频对象编码数据分配给第2组(Group 2)，将与第一语言相关联的语音对话对象编码数据分配给第3组(Group 3)，并将与第二语言相关联的语音对话对象编码数据分配给第6组(Group 6)。

此外，在该配置示例中，将与第一类型相关联的声音对象编码数据分配给第4组(Group 4)，将与第二类型相关联的声音对象编码数据分配给第5组(Group 5)，将与第一描述相关联的音频描述对象编码数据分配给第7组(Group 7)，并且将与第二描述相关联的音频描述对象编码数据分配给第8组(Group 8)。

同时，可以在接收侧从组中能够选择的项目登记在待被编码的开关组(SW Group)中。在本配置示例中，第3组和第6组分配给第1开关组(SW Group 1)，第4组和第5组分配给第2开关组(SW Group 2)，第7组和第8组分配给第3开关组(SW Group 3)。

此外，组被捆绑，以分配给预设组(preset Group)，使得可以根据使用情况进行再生。在该配置示例中，捆绑第1组、第2组、第3组、第4组、第5组和第6组，以分配给第1预设组(preset Group 1)，而捆绑第1组、第2组、第3组、第6组、第7组和第8组，以分配给第2预设组(preset Group 2)。

在此处，在管1(Tube 1)中包括第1预设组和第2预设组。注意，当选择预设组时，从每个管(Tube)中选择一个预设组。

图4示意性地示出了使用各组的编码数据进行的声场再现的示例。通过第1组的声道编码数据再现反映场景的整体情况的声音。仅仅该声音被编码为用于目标扬声器(SP)位置的声道数据。其他语音和声音被编码为对象音频并且根据在视听环境中的扬声器位置进行渲染，而不在编码时指定扬声器位置，使得所渲染的音频被混合并最终从每个扬声器输出。

通过第2组的沉浸式音频对象编码数据再现产生场景的兴奋的效果声音。通过与第一语言相关联的第3组的语音对话对象编码数据再现会话语音1。会话语音2由与第二语言相关联的第6组的语音对话对象编码数据再现。

环境BGM 1(背景音乐1)由与第一类型相关联的声音对象编码数据再现。环境BGM2(背景音乐2)由与第二类型相关联的声音对象编码数据再现。叙述1由与第一描述相关联的音频描述对象编码数据再现。叙述2由与第二描述相关联的音频描述对象编码数据再现。

返回到图1，服务发送器100在一个流或多个流(数个流)中发送包含如上所述的多个组的编码数据的3D音频的传输数据。

图5(a)示意性地示出在图3中用于3D音频的传输数据的配置示例中的一个流(主流)进行发送情况下的音频帧的配置示例。在这种情况下，声道编码数据(CD)、沉浸式音频对象编码数据(IAO)、语音对话对象编码数据(SDO)、声音对象编码数据(SUO)和音频描述对象编码数据(ADO)与“SYNC”和“Config”一起包括在该一个流内。

图5(b)示意性地示出了在图3中用于3D音频的传输数据的配置示例中，在多个流中发送的情况下的音频帧的配置示例，在此处，是三个流。在这种情况下，声道编码数据(CD)和沉浸式音频对象编码数据(IAO)与“SYNC”和“Config”一起包括在主流中。

语音对话对象编码数据(SDO)和声音对象编码数据(SUO)与“SYNC”和“Config”一起包括在子流(辅助流)1中。语音对话对象编码数据(SDO)和音频描述对象编码数据(ADO)与“SYNC”和“Config”一起包括在子流(辅助流)2中。

在这种情况下，如图3所示，例如，在主流中包括第1组和第2组，在子流1中包括第3、4和5组，并且在子流2中包括第6、7和8组。

图6示出了在三个流中发送的情况下的组和流等之间的对应关系。在此处，组ID(group ID)是用于识别组的标识符。属性(attribute)表示每个组的编码数据的属性。开关组ID(switch Group ID)是用于识别开关组的标识符。预设组ID(preset Group ID)是用于识别预设组的标识符。流ID(preset Group ID)是用于识别流的标识符。种类(Kind)表示每个组的内容的种类。

图6所示的对应关系表示属于第1组的编码数据是声道编码数据，不构成开关组，而是包括在流1(主流)中。图6所示的对应关系还表示属于第2组的编码数据是沉浸式音频对象编码数据，不构成开关组，而是包括在流1(主流)中。

图6所示的对应关系还表示属于第3组的编码数据是与第一语言相关联的语音对话对象编码数据，构成第1开关组，并且包括在流2(子流1)中。图6所示的对应关系还表示属于第4组的编码数据是与第一类型相关联的声音对象编码数据，构成第2开关组，并且包括在流2(子流1)中。

图6所示的对应关系还表示属于第5组的编码数据是与第二类型相关联的声音对象编码数据，构成第2开关组，并且包括在流2(子流1)中。图6所示的对应关系还表示属于第6组的编码数据是与第二语言相关联的语音对话对象编码数据，构成第1开关组，并且包括在流3(子流2)中。

图6所示的对应关系还表示属于第7组的编码数据是与第一描述相关联的音频描述对象编码数据，构成第3开关组，并且包括在流3(子流2)中。图6所示的对应关系还表示属于第8组的编码数据是与第二描述相关联的音频描述对象编码数据，构成第3开关组，并且包括在流3(子流2)中。

另外，图6所示的对应关系表示第1预设组包括第1组、第2组、第3组、第4组、第5组和第6组。此外，图6所示的对应关系表示第2预设组包括第1组、第2组、第3组、第6组、第7组和第8组。

注意，在一个流中发送的情况下，由于所有组的编码数据都包括在流1(主流)中，所以给图6中的所有“流ID”赋予“1”。

返回到图1，服务发送器100将关于3D音频的传输数据配置信息，即，表示“groupID”和“attribute”、“switchGroupID”、“presetGroupID”、“StreamID”等之间的对应关系的信息，插入容器(传送流TS)内(参考图6)。此外，服务接收器100将用于产生指定多个组中的要解码的组的命令的命令信息插入到容器中。该命令信息包括表示命令和组之间的对应关系的信息、表示命令和预设组之间的对应关系的信息等。

图7示出了命令(命令标识符：CommandID)与组和预设组的对应关系的示例。命令“1”至“18”的各部分表示命令与由该命令表示的作为解码对象的组(组的集合)的对应关系。例如，命令“7”表示第1、2、3、4和8组应被分配作为解码对象。此外，命令“19”和“20”的各个部分表示命令与由该命令表示的作为解码对象的预设组的对应关系。例如，命令“19”表示应分配第1预设组作为解码对象。

服务发送器100将传输数据配置信息和命令信息插入到例如存在于节目映射表(PMT：Program Map Table)下的与主流对应的音频基本流环路。在这种情况下，服务发送器100通过将3D音频流配置描述符(3Daudio_stream_config_descriptor)插入到与该主流对应的音频基本流环路中来插入传输数据配置信息和命令信息。理所当然，也可以将传输数据配置信息和命令信息额外插入到与子流对应的音频基本流环路中。

此外，服务发送器100将表示预定数量的音频流中的每一个音频流的流标识符的流标识符信息插入到例如容器中存在于节目映射表(PMT：Program Map Table)下的与预定数量的音频流中的每一个对应的音频基本流环路内。在这种情况下，服务发送器100通过将3D音频流ID描述符(3Daudio_streamID_descriptor)插入到与每个音频流对应的音频基本流环路中来插入流标识符信息。

此外，服务发送器100将传输数据配置信息和命令信息插入到音频流中。服务发送器100将传输数据配置信息和命令信息插入到例如主流的PES分组的PES有效载荷中。理所当然，还可以将传输数据配置信息和命令信息额外插入到子流的PES分组的PES有效载荷中。

如图5(a)和5(b)所示，服务发送器100通过在“SYNC”和“Config”之间插入3D音频流配置描述符(3Daudio_stream_config_descriptor)作为描述符信息“Desc”来插入传输数据配置信息和命令信息。

注意，该实施方式表示了如上所述将传输数据配置信息和命令信息插入容器和音频流这两者内的示例，但是也可以想到将这些信息仅插入容器内或仅插入音频流内。

此外，服务发送器100在预定数量的音频流中的至少一个音频流中，设置命令插入区域，用于接收侧插入用于指定要解码的组的命令(命令标识符：CommandID)。服务发送器100将命令插入区域插入到例如主流的PES包的PES有效载荷中。

如图5(a)和(b)所示，服务发送器100通过在“SYNC”和“Config”之间插入3D音频命令描述符(3Daudio_command_descriptor)作为描述符信息“Desc”来设置命令插入区域。

图8示出了3D音频的传输数据的另一配置示例。在该配置示例中，预设组的设置与图3中的3D音频的传输数据的配置示例不同。其他设置是相同的。

即，在该配置示例中，捆绑第1组、第2组和第3组，以分配给第1预设组(presetGroup 1)，而捆绑第1组、第2组和第6组，以分配给第2预设组(preset Group 2)。另外，这些第1预设组和第2预设组包括在管1(Tube 1)中。

同时，捆绑第4组和第5组，以分配给第3预设组(preset Group 3)，而捆绑第7组和第8组，以分配给第4预设组(preset Group 4)。另外，这些第3预设组和第4预设组包括在管2(Tube 2)中。

图9示出在三个流中发送的情况下的组和流等之间的对应关系，这与图8中的3D音频的传输数据的配置示例对应。图9与图6相同，但预设组ID(preset Group ID)的项目的一部分除外。注意，在一个流中发送的情况下，由于所有组的编码数据都包括在流1(主流)中，所以在图9中向所有“流ID”赋予“1”。

图10示出命令(命令标识符：CommandID)与组和预设组的对应关系的示例，这与图8中的3D音频的传输数据的配置示例对应。图10与图7相同，但与预设组的对应关系的一部分除外。

即，命令“19”到“24”的每个部分表示命令与由该命令表示的作为解码对象的预设组的对应关系。例如，命令“19”表示应分配第1预设组作为解码对象。此外，例如，命令“21”表示应分配第1预设组和第3预设组作为解码对象。

返回到图1，服务接收器200通过载入广播波或网络中的分组来接收从服务发送器100发送的传送流TS。如上所述，除了视频流之外，该传送流TS还具有预定数量的音频流，包括构成3D音频的传输数据的多个组的编码数据。传输数据配置信息和命令信息插入容器和/或音频流中。

服务接收器200基于传输数据配置信息和用户选择操作以及系统的处理功能等来确定要解码的组。此时，服务接收器200基于传输数据配置信息显示用户进行选择操作的用户界面(UI)屏幕。用户在此UI屏幕上执行选择操作。

图11示出了与图3和图8所示的3D音频的传输数据的配置示例对应的UI屏幕的示例。对于用户，用户选择对于由第1组区分的声道编码数据再现的“反映场景的整体情况的声音”是不可用的，因此，第1组被确定为要解码的组。此外，用户选择对于由第2组区分的沉浸式音频对象编码数据再现的“产生场景的兴奋的效果声音”是不可用的，因此，第1组被确定为要解码的组。

同时，用户选择对于由第3组区分的与第一语言相关联的语音对话对象编码数据再现的“会话语音1(第一语言)”以及由第6组区分的与第二语言相关联的语音对话对象编码数据再现的“会话语音2(第二语言)”是可用的。在用户对会话语音1进行选择操作的情况下，第3组被确定为要解码的组，而在用户对会话语音2进行选择操作的情况下，第6组被确定为要解码的组。

此外，用户选择对于由第4组区分的与第一类型相关联的声音对象编码数据再现的“环境BGM 1”以及由第5组区分的与第二类型相关联的声音对象编码数据再现的“环境BGM 2”是可用的。在这种情况下，也可以使用“无环境BGM”作为选项。

在用户对环境BGM 1进行选择操作的情况下，将第4组确定为要解码的组，而在用户对环境BGM 2进行选择操作的情况下，将第5组确定为要解码的组。此外，在用户对无环境BGM进行选择操作的情况下，第4组和5都不被确定为要解码的组。

此外，用户选择对于由第7组区分的与第一描述相关联的音频描述对象编码数据再现的“叙述1”以及由第8组区分的与第二描述相关联的音频描述对象编码数据再现的“叙述2”是可用的。在这种情况下，也可以使用“无叙述”作为选项。

在用户执行对叙述1的选择操作的情况下，将第7组确定为要解码的组，而在用户执行对叙述2的选择操作的情况下，将第8组确定为要解码的组。此外，在用户进行无叙述的选择操作的情况下，第7组和8都不被确定为要解码的组。

服务接收器200从所接收到的预定数量的音频流中取出并整合包括确定为要解码的组的所有音频流，并获取一个音频流。在这种情况下，当预定数量的音频流仅包括一个音频流时，该音频流原样成为所述一个音频流。

在接收到的预定数量的音频流中的至少一个音频流中设置命令插入区域，其用于接收侧插入用于指定要解码的组的命令(命令标识符：CommandID)。因此，在该一个音频流中具有命令插入区域。

服务接收器200将用于指定已经如上所述确定的要解码的组的命令插入到该一个音频流中。在这种情况下，服务接收器200将命令插入该命令插入区域。

服务接收器200例如参考命令信息生成要插入的命令(参考图7和图10)。例如，当第1、2、3、4和8组是要解码的组时，插入“命令ID”＝“7”。注意，服务接收器200还可以独立地和个别地产生要插入的命令，而不使用包括在命令信息中的命令或连同包括在命令信息中的命令一使用该命令。

服务接收器200将已经插入该命令的一个音频流发送到音频解码器，使得解码处理被应用于由该命令指定的这一个音频流中所包含的预定数量的组中的要解码的组的编码数据，并且获得用于3D音频的音频输出。

[服务发送器的流生成单元]

图12示出了包括在服务发送器100中的流生成单元110的配置示例。该流生成单元110具有视频编码器112、音频编码器113和多路复用器114。如图3和图8所示，在此处使用以下一个示例，其中，音频的传输数据由一条编码声道数据和四条对象编码数据组成。

视频编码器112接收视频数据SV的输入，以对该视频数据SV进行编码，并生成视频流(视频基本流)。音频编码器113接收连同声道数据输入的沉浸式音频、语音对话、声音对象和音频描述对象的对象数据作为音频数据SA。

音频编码器113对音频数据SA应用编码，以获得3D音频的传输数据。如图3和图8所示，声道编码数据(CD)、沉浸式音频对象编码数据(IAO)、语音对话对象编码数据(SDO)、声音对象编码数据(SUO)和音频描述对象编码数据(ADO)包括在3D音频的传输数据中。

音频编码器113生成包括多个组的编码数据的一个或多个音频流(音频基本流)，在此处是八个组(参见图5(a)和5(b))。此时，音频编码器113将传输数据配置信息和命令信息插入到预定数量的音频流(中的至少一个或多个音频流例如，主流)中，并且还在其中设置命令插入区域。

具体地，音频编码器113在“SYNC”和“Config”之间插入包含传输数据配置信息和命令信息的3D音频流配置描述符(3Daudio_stream_config_descriptor)，并且另外将构成命令插入区域的3D音频命令描述符(3Daudio_command_descriptor)插入，作为描述符信息(“Desc”)。

多路复用器114将从视频编码器112输出的视频流和从音频编码器113输出的预定数量的音频流独立转换为PES分组，并将PES分组转换为传送分组以进行多路复用，从而获得传送流TS，作为多路复用流。

此时，多路复用器114将传输数据配置信息和命令信息插入作为容器的传送流TS中。具体地，多路复用器114将3D音频流配置描述符(3Daudio_stream_config_descriptor)插入到预定数量的音频流中的至少一个或多个音频流中，例如，插入到与主流对应的音频基本流环路中。

此外，多路复用器114将表示预定数量的音频流的相应流标识符的流标识符信息插入到作为容器的传送流TS中。具体地，多路复用器114将3D音频流ID描述符(3Daudio_streamID_descriptor)插入到与预定数量的音频流中的每一个对应的音频基本流环路中。

将简要描述图12所示的流生成单元110的动作。视频数据被提供给视频编码器112。在该视频编码器112中，将编码应用于视频数据SV，使得生成包括编码视频数据的视频流。该视频流被提供给多路复用器114。

音频数据SA被提供给音频编码器113。该音频数据SA包括声道数据和沉浸式音频、语音对话、声音对象和音频描述对象的对象数据。在音频编码器113中，对音频数据SA应用编码，以获得用于3D音频的传输数据。

除了声道编码数据(CD)外，沉浸式音频对象编码数据(IAO)、语音对话对象编码数据(SDO)、声音对象编码数据(SUO)和音频描述对象编码数据(ADO)也包括在3D音频的该传输数据中(参考图3和图8)。在该音频编码器113中，生成包括8组的编码数据的一个或多个音频流(参考图5(a)和5(b))。

此时，在音频编码器113中，插入包含传输数据配置信息和命令信息的3D音频流配置描述符(3Daudio_stream_config_descriptor)，另外，构成命令插入区域的3D音频命令描述符(3Daudio_command_descriptor)插入在“SYNC”和“Config”之间，作为描述符信息(“Desc”)。

由视频编码器112生成的视频流被提供给多路复用器114。同时由音频编码器113生成的音频流被提供给多路复用器114。在多路复用器114中，从各编码器提供的流被转换成PES分组，并进一步转换为进行多路复用的传送分组，由此获得作为多路复用流的传送流TS。

此外，在多路复用器114中，例如，将包括传输数据配置信息和命令信息的3D音频流配置描述符(3Daudio_stream_config_descriptor)插入到与主流对应的音频基本流环路中。此外，在多路复用器114中，将包括流标识符信息的3D音频流ID描述符(3Daudio_streamID_descriptor)插入到与预定数量的音频流中的每一个对应的音频基本流环路中。

[3D音频流配置描述符的结构]

图13和图14示出了3D音频流配置描述符(3Daudio_stream_config_descriptor)的结构(语法)的示例。同时，图15示出了上述结构示例中的主要信息(语义)的内容。

8位字段的“descriptor_tag”表示描述符类型。“descriptor_tag”在此处表示其为3D音频流配置描述符。8位字段的“descriptor_length”表示描述符的长度(大小)，并指出后续字节数作为描述符的长度。

8位字段的“NumOfGroups，N”表示组的数量N。8位字段的“NumOfPresetGroups，P”表示预设组的数量P。8位字段的“NumOfCommand；Q”表示命令数Q。具有重复次数与组的数量N一样多的8位字段的“groupID”、8位字段的“attribute_of_groupID”、8位字段的“SwitchGroupID”、8位字段的“audio_streamID”和8位字段的“content_kind”。

“groupID”字段表示组的标识符。“attribute_of_groupID”字段表示对应组的编码数据的属性。“SwitchGroupID”字段是表示对应组属于哪个开关组的标识符。“0”表示对应组不属于任何开关组。“0”以外的值表示对应组所属的开关组。8位字段的“content_Kind”表示组的内容的种类。“Audio_streamID”是表示包括相应组的音频流的标识符。

此外，具有重复次数与预设组P的数量一样多的8位字段的“presetGroupID”和8位字段的“NumOfGroups_in_preset，R”。“presetGroupID”字段是表示其中的组是预设的捆绑(bundle)的标识符。“NumOfGroups_in_preset，R”字段表示属于预设组的组的数量R。此外，对于每个预设组，具有重复次数与属于该预设组的组的数量R一样多的8位字段的“groupID”，并且表示属于预设组的所有组被表示出。

此外，存在重复次数与命令的数量Q一样多的8位字段的“CommandID”和一位字段的“selection_type”。“CommandID”字段是命令标识符，并且表示解码对象。“selection_type”表示命令指定类型。“1”表示组的直接指定，而“0”表示通过指定预设组来间接对组指定。

当“selection_type”为“0”时，即，当将预设组指定为解码对象时，每个命令具有8位字段的“Max_NumOfPresetGroups_in_command；W”。该字段表示一个命令中包含的预设组的数量W。在此处，建立了W≤“NumOfTubePresetGroup”的关系。注意，“NumOfTubePresetGroup”表示预设组的管(bundles:Tubes)的数量，并且与可同时指定的预设组的数量对应。假设所有预设组都属于这些管中的一个。通过重复设置8位字段的“presetGroupID”，被指定为解码对象的所有预设组被表示。

同时，当“selection_type”为“1”时，即当将组直接指定为解码对象时，每个命令具有8位字段的“Max_NumOfGroups_in_command；S”。该字段表示一个命令中包含的组的数量S。此外，存在重复次数与组的数量S一样多的8位字段的“groupID”，并且表示了被指定为解码对象的所有组。

[3D音频流ID描述符的结构]

图16(a)示出了3D音频流ID描述符(3Daudio_streamID_descriptor)的结构(语法)的示例。同时，图16(b)示出了上述结构示例中的主要信息(语义)的内容。

8位字段的“descriptor_tag”表示描述符类型。“descriptor_tag”在此处表示其为3D音频流ID描述符。8位字段的“descriptor_length”表示描述符的长度(大小)，并指出随后字节的数量为描述符的长度。8位字段的“audio_streamID”表示音频流的标识符。

[3D音频命令描述符的结构]

图17(a)示出了3D音频命令描述符(3Daudio_command_descriptor)的结构(语法)的示例。此外，图17(b)表示上述结果示例中的主要信息(语义)的内容。

8位字段的“descriptor_tag”表示描述符类型。“descriptor_tag”在此处表示其为3D音频命令描述符。8位字段的“descriptor_length”表示描述符的长度(大小)，并指出随后的字节数为描述符的长度。8位字段的“NumOfCommands，N”表示命令的数量N。另外，具有的8位字段的“CommandID”的重复数量与命令的数量N一样多。

注意，在服务发送器100将3D音频命令描述符插入到音频流中时，考虑在接收侧待插入的命令的最大数量来确定“N”的值，而无效值(例如，全零)插入到“CommandID”的字段中。

[传送流TS的配置]

图18示出了在三个流(即，主流、子流1和子流2)中发送3D音频的传输数据的情况下(参见图3和5(b))的传送流TS的配置示例。根据该配置示例，存在由PID1识别的视频流的PES分组“video PES”。此外，在该配置示例中，存在分别由PID100、PID200和PID300识别的三个音频流的PES分组“audio PES”。PES分组由PES报头(PES_header)和PES有效载荷(PES_payload)组成。

区分为第1组的声道编码数据(CD)和区分为第2组的沉浸式音频对象编码数据(IAO)包括在由PID100(主流)识别的音频流的PES分组的PES有效载荷内。然后，将关于3D音频流配置描述符(3Daudio_stream_config_descriptor)和3D音频命令描述符(3Daudio_command_descriptor)的描述符信息“Desc”插入该PES有效载荷(参见图5(b))。

同时，区分为第3组的语音对话对象编码数据(SDO)和区分为第4和5组的声音对象编码数据(SUO)包括在由PID200识别的音频流(子流1)的PES分组的PES有效载荷内。此外，区分为第6组的语音对话对象编码数据(SDO)和区分为第7和8组的音频描述对象编码数据(ADO)包括在由PID300识别的音频流(子流2)的PES分组的PES有效载荷内。

另外，节目映射表(PMT)作为节目特定信息(PSI)包括在传送流TS中。PSI是提及哪个节目是包含在传送流中的每个基本流所属的节目的信息。PMT有一个节目环路(Programloop)，记述与整个节目有关的信息。

另外，PMT具有包括与每个基本流相关的信息的基本流环路。在该配置示例中，存在与视频流对应的视频基本流环路(video ES loop)，并且另外存在与这三个音频流对应的音频基本流环路(audio ES loop)。

诸如流类型和分组标识符(PID)等信息设置在视频基本流环路(video ES loop)中，以对应于视频流，并且同时，记述与该视频流有关的信息的描述符也设置在其中。该视频流的“Stream_type”的值被设置为“0x24”，而PID信息被配置为表示如上所述赋予视频流的“video PES”的PES分组的PID1。

诸如流类型和分组标识符(PID)等信息设置在每个音频基本流环路(audio ESloops)中，以对应于音频流，并且同时，记述与该音频流有关的信息的描述符也设置在其中。主流的“Stream_type”的值被设置为“0x2C”，而PID信息被配置为表示如上所述赋予给主流的“音频PES”的PES分组的PID100。

同时，子流1的“Stream_type”的值被设置为“0x2D”，而PID信息被配置为表示如上所述赋予子流1的PES分组“音频PES”的PID200。此外，子流2的“Stream_type”的值被设置为“0x2D”，而PID信息被配置为表示如上所述赋予子流2的PES分组“音频PES”的PID300。

3D音频流配置描述符(3Daudio_stream_config_descriptor)和3D音频流ID描述符(3Daudio_streamID_descriptor)设置在对应于主流的音频基本流环路(音频ES环路)中。此外，3D音频流ID描述符设置在对应于每个子流1和2的音频基本流环路(音频ES环路)中。

图19示出了在主流一个流中发送用于3D音频的传输数据(参见图3和图5(a))的情况下的传送流TS的配置示例。根据该配置示例，存在由PID1识别的视频流的PES分组“videoPES”。此外，在该配置示例中，存在由PID100识别的一个音频流的PES分组“audio PES”。PES分组由PES报头(PES_header)和PES有效载荷(PES_payload)组成。

区分为第1组的声道编码数据(CD)、区分为第2组的沉浸式音频对象编码数据(IAO)、区分为第3和6组的语音对话对象编码数据(SDO)、区分为第4和5组的声音对象编码数据(SUO)、以及区分为第7和8组的音频描述对象编码数据(ADO)包括在由PID100识别的音频流(主流)的PES分组的PES有效载荷内。关于3D音频流配置描述符和3D音频命令描述符的描述符信息“Desc”(参考图5(a))被插入该PES有效负载中。

另外，PMT具有包括与每个基本流相关的信息的基本流环路。在该配置示例中，存在与视频流对应的视频基本流环路(video ES loop)，并且还存在与所述一个音频流对应的音频基本流环路(audio ES loop)。

诸如流类型和分组标识符(PID)等信息设置在每个音频基本流环路(audio ESloop)中，以对应于音频流(主流)，并且同时，记述与该音频流有关的信息的描述符也设置在其中。该音频流的“Stream_type”的值被设置为“0x2C”，而PID信息被配置为表示如上所述赋予主流的“audio PES”的PES分组的PID100。在该音频基本流环路(audio ES loop)中设置3D音频流配置描述符和3D音频流ID描述符。

[服务接收器的配置示例]

图20示出了服务接收器200的配置示例。该服务接收器200具有接收单元201、解多路复用器202、视频解码器203、视频处理电路204、面板驱动电路205和显示面板206。该服务接收器200还具有多路复用缓冲器211-1至211-N、组合器212、命令插入单元213、3D音频解码器214、音频输出处理电路215和扬声器系统216。此外，该服务接收器200具有CPU 221、闪存ROM 222、DRAM 223、内部总线224、遥控接收单元225和遥控发送器226。

CPU 221控制服务接收器200的各部件的动作。闪存ROM 222存储控制软件并保存数据。DRAM 223构成CPU 221的工作区域。CPU 221在DRAM 223上展开(develop)从闪存ROM222读取的软件和数据，以激活软件并控制服务接收器200的各部件。

遥控接收单元225接收从遥控发送器226发送的遥控信号(遥控码)，以提供给CPU221。CPU 221基于该遥控码控制服务接收器200的各部件。CPU 221、闪存ROM 222和DRAM223连接到内部总线224。

接收单元201通过载入广播波或网络中的分组来接收从服务发送器100发送的传送流TS。除了视频流之外，该传送流TS还具有预定数量的音频流，包括构成用于3D音频的传输数据的多个组的编码数据。

图21示出要接收的音频流的示例。图21(a)示出了一个流(主流)的示例。该主流由标识符PID100标识。声道编码数据(CD)、沉浸式音频对象编码数据(IAO)、语音对话对象编码数据(SDO)、声音对象编码数据(SUO)和音频描述对象编码数据(ADO)与“SYNC”和“Config”(参考图3)一起包括在该主流内。

此外，包括传输数据配置信息和命令信息(参考图13和图14)的3D音频流配置描述符和包括命令信息(参考图17(a))的3D音频命令描述符)插入“SYNC”和“Config”之间，作为描述符信息(“Desc”)。

图21(b)示出了多个流的示例，在此处是三个流。声道编码数据(CD)和沉浸式音频对象编码数据(IAO)与“SYNC”和“Config”(参见图3)一起包括在由PID100识别的主流中。

同时，语音对话对象编码数据(SDO)和声音对象编码数据(SUO)与“SYNC”和“Config”(参考图3)一起包括在由PID200识别的子流1中。此外，语音对话对象编码数据(SDO)和音频描述对象编码数据(ADO)与“SYNC”和“Config”(参考图3)一起包括在由PID300识别的子流2中。

包括传输数据配置信息和命令信息(参见图13和14)的3D音频流配置描述符和包括命令信息(参见图17(a))的3D音频命令描述符在“SYNC”和“Config”之间插入主流内，作为描述符信息(“Desc”)。

解多路复用器202从传送流TS提取视频流的分组，以发送给视频解码器203。视频解码器203从解多路复用器202提取的视频的分组中重构视频流，并执行解码处理，以获得解压缩的视频数据。

视频处理电路204对由视频解码器203获得的视频数据执行缩放处理、图像质量调整处理等，以获得用于显示的视频数据。面板驱动电路205基于由视频处理电路204获得的用于显示的图像数据来驱动显示面板206。显示面板206由例如液晶显示器(LCD)或有机电致发光显示器(organic EL display)构成。

此外，解多路复用器202从传送流TS中提取诸如描述符信息等各种信息项，以发送给CPU 221。这些各种信息项包括在上述3D音频流配置描述符和3D音频流ID描述符中的信息(参考图18和图19)。

根据3D音频流配置描述符中的信息，CPU 221识别命令与组和预设组的对应关系(参见图7和图10)以及传输数据配置(参见图3和8)。CPU 221还从3D音频流ID描述符中的信息中识别每个组包括在哪个音频流中。

CPU 221基于传输数据配置信息和用户选择操作以及系统的处理功能来确定要解码的组，并且产生用于指定该组的命令(命令标识符：CommandID)。在这种情况下，CPU 221基于传输数据配置信息(参考图11)，显示用户进行选择操作的用户界面(UI)屏幕。用户在此UI屏幕上执行选择操作。

此外，在CPU 221的控制下，解多路复用器202使用PID滤波器从包括在传送流TS中的预定数量的音频流中选择性地取出包括确定为要解码的组的所有音频流。注意，在预定数量的音频流包括一个流(参考图21(a))的情况下，始终取出该音频流。同时，在预定数量的音频流包括多个流的情况下(参考图21(b))，总是取出包括声道编码数据(CD)的主流。

多路复用缓冲器211-1至211-N中的每一个将由解多路复用器202提取的每个音频流取出到其内。在此处，采用必要且足够的数量，作为多路复用缓冲器211-1至211-N的数量N，但在实际动作中，使用与解多路复用器202取出的音频流的数量一样多的多路复用缓冲器。

组合器212以音频帧为单位，从多路复用缓冲器211-1至211-N之中的已经分别取出由解多路复用器202取出的每个音频流的多路复用缓冲器中读取音频流，以整合，从而获得一个音频流。在这种情况下，当由解多路复用器202取出一个音频流时，该音频流被原样用作一个音频流。

与所述一个流(主流)(参考图21(a))或多个流中的主流(参见图21(b))类似，包括传输数据配置信息和命令信息的3D音频流配置描述符以及构成命令插入区域的3D音频命令描述符已在“SYNC”和“Config”之间被插入到这个音频流中，作为描述符信息(“Desc”)。

命令插入单元213将由CPU 221产生的用于指定确定为要解码的组的命令插入到由组合器212获得的一个音频流的命令插入区域中，即，在3D音频命令描述符中描述命令。

CPU 221产生包括在命令信息中的命令，或者连同命令信息中包括的命令一起还独立地产生个别命令，或者仅独立地产生个别的命令，作为用于指定被确定为要解码的组的命令。

例如，考虑在图3所示的3D音频的传输数据的配置示例中，CPU 221将第1、2、3和4组确定为要解码的组的情况。首先，描述在接收到的音频流具有一个流的情况下对解码对象的选择处理的示例(参考图21(a))。

在这种情况下，如图22(a)所示，作为接收到的音频流的主流被原样提供给命令插入单元213。在该主流中，包括第1到8组的所有编码数据。在这种情况下，例如，如图22(b)所示，CPU 221仅产生指定第1、2、3和4组作为解码对象的一个命令“13”(参考图7)，作为命令(命令标识符：CommandID)。

可替代地，如图22(b)所示，例如，CPU 221产生指定第1预设组作为解码对象的“19”(参考图7)、指定第1开关组中的第3组作为解码对象的个别命令“A”以及指定第2开关组中的第4组作为解码对象的个别命令“B”，作为命令(命令标识符：CommandID)。

然后，如图22(c)所示，命令插入单元213将由CPU 221产生的命令(命令标识符：CommandID)插入到要提供给3D音频解码器214的一个音频流的命令插入区域内。结果，3D音频解码器214被通知：在一个音频流中包括的第1至8组中，第1、2、3和4组是分配作为解码对象的组。

接下来，将描述在接收的音频流具有多个流的情况下对解码对象的选择处理的示例，在此处是三个流(参见图21(b))。图23示出了解多路复用器202中的流取出处理。解多路复用器202取出由来自CPU 221的流选择信号“Stream select”指定的流，作为获取目标。

在这种情况下，由于主流包括第1和2组，所以主流被CPU 221指定为取出目标，并且该主流由解多路复用器202取出。另外，由于子流1包括第3和4组，所以子流1被CPU 221指定为取出目标，并且该子流1也由解多路复用器202取出。

如图24(a)所示，通过整合由解多路复用器202取出的主流和子流1而获得的一个音频流被提供给命令插入单元213。在这种情况下，如图24(b)所示，CPU 221仅产生指定第1、2、3和4组作为解码对象(参考图7)的一个命令“13”，作为命令(命令标识符：CommandID)。可替代地，如图24(b)所示，例如，CPU 221产生在第2开关组中指定第4组作为解码对象的个别命令“B”。

然后，如图24(c)所示，命令插入单元213将由CPU 221产生的命令(命令标识符：CommandID)插入到要提供给3D音频解码器214的一个音频流的命令插入区域内。结果，通知3D音频解码器214：在一个音频流中包括的第1至5组中，第1、2、3和4组是分配作为解码对象的组。

返回到图20，3D音频解码器214对由插入命令从包含在经由命令插入单元213提供给其的一个音频流中的多个组的编码数据中指定作为解码对象的组的编码数据应用解码处理，从而获得用于驱动每个扬声器的音频数据。

在这种情况下，当解码声道编码数据时，3D音频解码器214对扬声器系统216的扬声器配置执行下混或上混的处理，以获得用于驱动每个扬声器的音频数据。同时，当解码对象编码数据时，3D音频解码器214基于对象信息(元数据)来计算扬声器渲染(到每个扬声器的混合比)，并且根据计算结果，将对象的音频数据混合成用于驱动每个扬声器的音频数据。

音频输出处理电路215对由3D音频解码器214获得的用于驱动每个扬声器的音频数据执行诸如D/A转换和放大等必要处理，并将音频数据提供给扬声器系统216。扬声器系统216包括用于多声道的多个扬声器，例如，2声道、5.1声道、7.1声道和22.2声道。

图25示出了3D音频解码器214的配置示例。3D音频解码器214具有音频传送分析单元214a、配置(Config)处理单元214b、帧选择单元214c、帧解码单元214d和渲染/混合单元214e。

音频传送分析单元214a对音频流进行分组分析，以检索描述符的分组，并进一步执行命令分析，以获得关于分配作为解码对象的组的信息。配置处理单元214b参考在配置(Config)分组中提供的音频场景信息(AudioSceneInfo)中的信息，即，组ID(GroupID)、开关组ID(SwitchGroupID)、预设组ID(PresetGroupID)等，以选择要解码的帧，并将其通知帧解码单元214d。

帧解码单元214d对作为解码对象而分配的帧的编码数据进行解码处理。渲染/混合单元214e使用由帧解码单元214d获得的解码输出来执行诸如渲染和混合等处理，以获得用于驱动每个扬声器的音频数据(解压缩音频)。

将简要描述图20所示的服务接收器200的动作。在接收单元201中，通过载入广播波或网络中的分组，接收从服务发送器100发送的传送流TS。除了视频流之外，该传送流TS还具有预定数量的音频流，包括构成用于3D音频的传输数据的多个组的编码数据。该传送流TS被提供给解多路复用器202。

在解多路复用器202中，从传送流TS中提取视频流的分组，以提供给视频解码器203。在视频解码器203中，从由解多路复用器202提取的视频分组中重构视频流，并对其进行解码处理，以获得解压缩的视频数据。该视频数据被提供给视频处理电路204。

在视频处理电路204中，对由视频解码器203获得的视频数据执行缩放处理、图像质量调整处理等，以获得用于显示的视频数据。该用于显示的视频数据被提供给面板驱动电路205。在面板驱动电路205中，基于用于显示的视频数据来驱动显示面板206。结果，在显示面板206上显示与用于显示的视频数据对应的图像。

此外，在解多路复用器202中，从传送流TS中提取诸如描述符信息等各种信息项，并发送到CPU 221。这些各种信息项还包括包含数据配置信息和命令信息的3D音频流配置描述符以及包含流标识符信息的3D音频流ID描述符中的信息(参见图18和图19)。

在CPU 221中，从3D音频流配置描述符中的信息中识别命令与组和预设组(参考图7和图10)的对应关系以及传输数据配置(参见图3和图8)。此外，CPU 221根据3D音频流ID描述符中的信息，识别每个组包括在哪个音频流内。

在CPU 221中，基于传输数据配置信息和用户选择操作以及系统的处理功能等来确定要解码的组，并且产生用于指定该组的命令(命令标识符：CommandID)。在这种情况下，例如，通过CPU 221的控制(参考图11)，在显示面板206上显示用户进行选择操作的用户界面(UI)屏幕。

另外，在解多路复用器202中，在CPU 221的控制下，使用PID滤波器从包括在传送流TS中的预定数量的音频流中选择性地提取包括确定为要解码的组的所有音频流。在这种情况下，流选择信号“Stream select”从CPU 221提供给解多路复用器202，并且指定分配作为提取对象的流。

由解多路复用器202提取的音频流被提取到多路复用缓冲器211-1至211-N中的对应多路复用缓冲器中。在组合器212中，从已经提取音频流的每个多路复用缓冲器中以音频帧为单位读取音频流，然后，整合到一个音频流中。这一个音频流被提供给命令插入单元213。

在命令插入单元213中，将由CPU 221产生的用于指定确定为要解码的组的命令插入到由组合器212获得的一个音频流的命令插入区域中。在这种情况下，在插入到由组合器212获得的一个音频流中的3D音频命令描述符中记述命令(命令标识符：CommandID)。

将该命令插入其中的一个音频流被提供给3D音频解码器214。在该3D音频解码器214中，解码处理被应用于包括在这一个音频流中的多个组的编码数据中的由插入命令指定作为解码对象的组的编码数据，并且获得用于驱动每个扬声器的音频数据。

用于驱动每个扬声器的该音频数据被提供给音频处理电路215。在音频输出处理电路215中，对该音频数据执行诸如D/A转换和放大等必要处理。然后，将处理之后获得的音频数据提供给扬声器系统216。结果，从扬声器系统216获得与显示面板206上的显示图像对应的声音输出。

如上所述，在图1所示的发送/接收系统10中，服务发送器100将用于产生指定多个组中的要解码的组的命令的命令信息插入到容器(传送流TS)。因此，参考该命令信息，使接收侧容易地对指定要解码的组的命令执行产生处理。

此外，在图1所示的发送/接收系统10中，服务发送器100在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于接收侧插入用于指定要解码的组的命令。因此，在接收侧在音频流中插入命令的情况下，可以使用该命令插入区域，并且命令插入处理变得容易。

此外，在图1所示的发送/接收系统10中，服务接收器200将用于指定要解码的组的命令插入到要发送给3D音频解码器214的音频流。因此，在3D音频解码器214中，可以仅选择性解码要解码的组的编码图像数据。

在这种情况下，组合器212不需要执行组选择处理，能够进行有效的处理。换言之，在将处理留给3D音频解码器214的情况下，可以更有效地执行进入音频帧(音频帧)内部和查找组信息和组之间的边界的处理。

<2、变形例>

注意，上述实施方式示出了以下示例：除了要发送的容器(传送流TS)之外，包括传输数据配置信息和命令信息的3D音频流配置描述符还插入到音频流中，但是也可以想到将3D音频流配置描述符仅插入其中一个，以进行发送。

此外，上述实施方式已经指出通过将命令插入区域插入到音频流中来发送的示例。然而，本技术不限于此，而是也可以考虑在接收侧设置命令插入区域，以插入命令。

此外，上述实施方式已经示出了以下示例：在多个组的编码数据中包括声道编码数据和对象编码数据(参见图3和图8)。然而，本技术可以同样应用于在多个组的编码数据中仅包括声道编码数据或仅包含对象编码数据的情况。

另外，上述实施方式已经示出了传送流(MPEG-2TS)用作容器的示例。然而，本技术可以类似应用于由MP4或除MP4之外的格式的容器执行分配的系统。其示例包括基于MPEG-DASH的流分发系统或处理具有MPEG媒体传送(MMT)结构的传输流的发送/接收系统。

注意，也可以如下所述配置本技术。

(1)一种发送装置，包括：

信息插入单元，其被配置为将用于产生指定多个组中的要解码的组的命令的命令信息插入容器和/或一些音频流内。

(2)根据以上(1)所述的发送装置，其中，

所述命令信息是表示命令与组的对应关系的信息或表示命令与由预定数量的组的组合组成的预设组的对应关系的信息。

(3)根据以上(1)或(2)所述的发送装置，其中，

所述预定数量的音频流由主流和预定数量的子流组成或仅由主流组成，并且

所述信息插入单元将命令信息插入主流和/或与主流对应的容器位置内。

(4)根据以上(1)到(3)中任一项所述的发送装置，其中，

所述音频编码单元在多个音频流中的至少一个音频流中设置命令插入区域，用于在接收侧插入指定要解码的组的命令。

(5)一种发送方法，包括：

音频编码步骤，用于生成包括多个组的编码数据的预定数量的音频流；

发送步骤，用于使用发送单元发送具有预定数量的音频流的预定格式的容器；以及

信息插入步骤，用于将用于产生指定多个组中的要解码的组的命令的命令信息插入容器和/或一些音频流内。

(6)一种发送装置，包括：

所述音频编码单元在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于在接收侧插入指定要解码的组的命令。

(7)根据以上(6)所述的发送装置，其中，

所述音频编码单元在主流中设置命令插入区域。

(8)一种发送方法，包括：

音频编码步骤，用于生成包括多个组的编码数据的预定数量的音频流；以及

发送步骤，用于使用发送单元发送具有预定数量的音频流的预定格式的容器，其中，

在所述音频编码步骤中，在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于接收侧插入指定要解码的组的命令。

(9)一种接收装置，包括：

流获取单元，其被配置为从所述预定数量的音频流中提取包括要解码的组的所有音频流，并获得通过整合所提取的所有音频流而构成的一个音频流；

命令产生单元，其被配置为产生指定在包括在所述一个音频流中的预定数量的组中的要解码的组的命令；

(10)根据以上(9)所述的接收装置，其中，

所述命令产生单元根据用户在用户界面屏幕上的选择操作，产生命令。

(11)根据以上(9)或(10)所述的接收装置，其中，

用于产生指定多个组中的要解码的组的命令的命令信息插入由所述接收单元接收的一些音频流和/或容器中，并且

所述命令产生单元参考所述命令信息产生命令。

(12)根据以上(9)到(11)中任一项所述的接收装置，其中，

用于插入指定要解码的组的命令的命令插入区域设置在由所述接收单元接收的预定数量的音频流中的至少一个音频流中，

由所述流获取单元获取的一个音频流具有命令插入区域，并且

所述命令插入单元将命令插入到所述一个音频流的命令插入区域内。

(13)一种接收方法，包括：

接收步骤，用于使用接收单元接收具有包括多个组的编码数据的预定数量的音频流的预定格式的容器；

流获取步骤，用于从所述预定数量的音频流中提取包括要解码的组的所有音频流，并获得通过整合所提取的所有音频流而构成的一个音频流；

命令产生步骤，用于产生指定在包括在所述一个音频流中的预定数量的组中的要解码的组的命令；

命令插入步骤，用于将在所述命令产生步骤产生的命令插入到在所述流获取步骤获取的一个音频流内；以及

音频解码步骤，用于接收已经插入了所述命令的一个音频流的输入，并且对包括在一个音频流中的预定数量的组中的由所述命令指定的组的编码数据应用解码处理。

本技术的主要特征在于，将用于产生指定多个组中的要解码的组的命令的命令信息插入到容器和/或音频流中，由此指定要解码的组的命令的产生处理在接收侧变得容易(参考图18和图19)。此外，本技术的主要特征在于，在预定数量的音频流中的至少一个音频流中设置命令插入区域，用于接收侧插入指定要解码的组的命令，由此命令插入在接收侧处理变得容易(参考图5)。此外，本技术的主要特征在于，采用将用于指定要解码的组的命令插入到要发送给3D音频解码器的音频流中的配置，从而在接收侧提高组选择处理的效率(参考图20和图25)。

附图标记列表

10 发送/接收系统

100 服务发送器

110 流生成单元

112 视频编码器

113 音频编码器

114 多路复用器

200 服务接收器

201 接收单元

202 解多路复用器

203 视频解码器

204 视频处理电路

205 面板驱动电路

206 显示面板

211-1到211-N 多路复用缓冲器

212 组合器

213 命令插入单元

214 3D音频解码器

214a 音频传送分析单元

214b 配置处理单元

214c 帧选择单元

214d 帧解码单元

214e 渲染/混合单元

215 音频输出处理电路

216 扬声器系统

221 CPU

222 闪存ROM

223 DRAM

224 内部总线

225 遥控接收单元

226 遥控发送器

Claims

1.一种发送装置，包括：

音频编码单元，被配置为生成预定数量的音频流，所述预定数量的音频流包括多个组的编码数据并且在所述预定数量的音频流中的至少一个音频流内设置用于在接收侧插入指定待要解码的组的命令的命令插入区域；

发送单元，被配置为发送具有所述预定数量的音频流的预定格式的容器；以及

信息插入单元，被配置为将用于在所述接收侧产生从所述多个组之中指定待要解码的组的命令的命令信息插入所述容器和/或音频流内，使得在所述接收侧将所述接收侧参考所述命令信息所产生的命令插入在所述命令插入区域中，其中

所述命令信息是表示命令与所述命令所指示的要解码的组的对应关系的信息或者表示命令与由所述命令所指示的要解码的预定数量的组的组合构成的预设组的对应关系的信息。

2.根据权利要求1所述的发送装置，其中

所述预定数量的音频流由主流和预定数量的子流构成或者仅由主流组成，并且

所述信息插入单元将所述命令信息插入所述主流和/或与所述主流对应的容器位置内。

3.一种发送方法，包括：

生成预定数量的音频流的音频编码步骤，所述预定数量的音频流包括多个组的编码数据并且在所述预定数量的音频流中的至少一个音频流内设置用于在接收侧插入指定待要解码的组的命令的命令插入区域；

利用发送单元发送具有所述预定数量的音频流的预定格式的容器的发送步骤；以及

将用于在所述接收侧产生从所述多个组之中指定待要解码的组的命令的命令信息插入所述容器和/或音频流内，使得在所述接收侧将所述接收侧参考所述命令信息所产生的命令插入在所述命令插入区域中的信息插入步骤，

其中，所述命令信息是表示命令与所述命令所指示的要解码的组的对应关系的信息或者表示命令与由所述命令所指示的要解码的预定数量的组的组合构成的预设组的对应关系的信息。

4.一种发送装置，包括：

音频编码单元，被配置为生成预定数量的音频流，所述预定数量的音频流包括多个组的编码数据并且在所述预定数量的音频流中的至少一个音频流内设置用于在接收侧插入指定待要解码的组的命令的命令插入区域；以及

发送单元，被配置为发送具有所述预定数量的音频流的预定格式的容器，其中，

所述音频编码单元在所述预定数量的音频流中的至少一个音频流内设置用于在接收侧插入用于指定待要解码的组的命令的命令插入区域，使得在所述接收侧将所述接收侧参考所述命令信息所产生的命令插入在所述命令插入区域中，

用于产生所述命令的命令信息是表示命令与所述命令所指示的要解码的组的对应关系的信息或者表示命令与由所述命令所指示的要解码的预定数量的组的组合构成的预设组的对应关系的信息。

5.根据权利要求4所述的发送装置，其中

所述音频编码单元在所述主流内设置所述命令插入区域。

6.一种发送方法，包括：

生成预定数量的音频流的音频编码步骤，所述预定数量的音频流包括多个组的编码数据并且在所述预定数量的音频流中的至少一个音频流内设置用于在接收侧插入指定待要解码的组的命令的命令插入区域；以及

利用发送单元发送具有所述预定数量的音频流的预定格式的容器的发送步骤，其中，

在所述音频编码步骤中，用于在接收侧插入用于指定待要解码的组的命令的命令插入区域设置在所述预定数量的音频流中的至少一个音频流内，使得在所述接收侧将所述接收侧参考所述命令信息所产生的命令插入在所述命令插入区域中，

7.一种接收装置，包括：

接收单元，被配置为接收具有预定数量的音频流的预定格式的容器，所述预定数量的音频流包括多个组的编码数据；

流获取单元，被配置为从所述预定数量的音频流中取出包括待要解码的组的所有音频流，并且获得通过整合所取出的所有音频流而构成的一个音频流；

命令产生单元，被配置为产生用于从所述一个音频流中所包括的预定数量的组之中指定所述待要解码的组的命令；

命令插入单元，被配置为将由所述命令产生单元参考命令信息产生的所述命令插入到由所述流获取单元获取的所述一个音频流的命令插入区域中，其中，在所述接收单元接收的所述预定数量的音频流中的至少一个音频流内设置用于插入指定待要解码的组的命令的所述命令插入区域；以及

音频解码单元，被配置为接收已插入有所述命令的所述一个音频流的输入，并且对由所述命令从所述一个音频流中所包括的所述预定数量的组之中指定的组的编码数据应用解码处理，

用于产生所述命令的所述命令信息是表示命令与所述命令所指示的要解码的组的对应关系的信息或者表示命令与由所述命令所指示的要解码的预定数量的组的组合构成的预设组的对应关系的信息。

8.根据权利要求7所述的接收装置，其中

所述命令产生单元根据用户在用户界面屏幕上的选择操作来产生命令。

9.根据权利要求7所述的接收装置，其中

所述命令信息插入由所述接收单元接收的音频流和/或所述容器中。

10.根据权利要求7所述的接收装置，其中

由所述流获取单元获取的所述一个音频流具有所述命令插入区域，并且

所述命令插入单元将所述命令插入到所述一个音频流的所述命令插入区域内。

11.一种接收方法，包括：

利用接收单元接收具有预定数量的音频流的预定格式的容器的接收步骤，所述预定数量的音频流包括多个组的编码数据；

从所述预定数量的音频流中取出包括待要解码的组的所有音频流，并且获得通过整合所取出的所有音频流而构成的一个音频流的流获取步骤；

参考命令信息产生用于从所述一个音频流中所包括的预定数量的组之中指定所述待要解码的组的命令的命令产生步骤；

将在所述命令产生步骤产生的所述命令插入到在所述流获取步骤获取的所述一个音频流的命令插入区域中的命令插入步骤，其中，在所述接收单元接收的所述预定数量的音频流中的至少一个音频流内设置用于插入指定待要解码的组的命令的所述命令插入区域；以及

接收已插入有所述命令的所述一个音频流的输入，并且对由所述命令从所述一个音频流中所包括的所述预定数量的组之中指定的组的编码数据应用解码处理的音频解码步骤，