CN106796793B

CN106796793B - 传输设备、传输方法、接收设备以及接收方法

Info

Publication number: CN106796793B
Application number: CN201580045713.2A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-09-04
Filing date: 2015-08-31
Publication date: 2020-09-22
Anticipated expiration: 2035-08-31
Also published as: CN106796793A; JP7238925B2; EP3196876B1; US20170249944A1; JP6724782B2; WO2016035731A1; JP2020182221A; US11670306B2; EP3799044B1; RU2698779C2; EP4318466A2; JP7567953B2; JP2021177638A; RU2017106022A3; EP3799044A1; JPWO2016035731A1; JP6908168B2; JP2023085253A; US20230260523A1; EP4318466A3

Abstract

本发明减少在传输多个种类的音频数据时在接收侧上的处理负荷。传输具有包括多组编码数据的预定数量的音频流的预定格式的容器。例如，多组编码数据包括信道编码数据和对象编码数据中的一个或两个。表示多组编码数据中的每一个的属性的属性信息被插入到容器的层中。例如，表示在哪个音频流中包括多组编码数据中的每一个的流对应关系信息进一步被插入到容器的层中。

Description

传输设备、传输方法、接收设备以及接收方法

技术领域

本公开涉及传输设备、传输方法、接收设备以及接收方法，并且具体涉及用于传输多种类型的音频数据的传输设备等。

背景技术

常规地，作为立体(3D)声技术，已经设计了用于通过基于元数据将编码采样数据映射到存在于任意位置的扬声器来执行渲染的技术(例如参见专利文献1)。

引用列表

专利文献

专利文献1：日本专利申请国家公布(公开)第2014-520491号

发明内容

本发明要解决的问题

可以认为包括编码采样数据和元数据的对象编码数据与5.1信道、7.1信道等的信道编码数据一起传输，并且可以在接收侧实现具有增强的真实感的声再现。

本技术的目的是当传输多种类型的音频数据时减少接收侧的处理负荷。

问题的解决方案

本技术的概念在于

传输设备，包括：

传输单元，用于传输具有包括多个组编码数据的预定数量的音频流的预定格式的容器；以及

信息插入单元，用于将表示多个组编码数据中的每一个的属性的属性信息插入到容器的层中。

在本技术中，具有包括多个组编码数据的预定数量的音频流的预定格式的容器通过传输单元传输。例如，多个组编码数据可以包括信道编码数据和对象编码数据中的任一个或两个。

通过信息插入单元将表示多个组编码数据中的每一个的属性的属性信息插入到容器的层中。例如，容器可以是在数字广播标准中采用的传送流(MPEG-2TS)。另外，例如，容器可以是在因特网传递等中使用的MP4的容器，或者是另一种格式的容器。

如上所述，在本技术中，表示包括在预定数量的音频流中的多个组编码数据中的每一个的属性的属性信息插入到容器的层中。因此，在接收侧，可以在对编码数据进行解码之前容易地辨识多个组编码数据中的每一个的属性，并且可以选择性地仅解码必要的组编码数据以使用，并且可以减少处理负荷。

顺便提及，在本技术中，例如，信息插入单元可以进一步将表示音频流的流对应信息插入到容器的层中，音频流包括多个组编码数据中的每一个。在这种情况下，例如，容器可以是MPEG2-TS，并且信息插入单元可以将属性信息和流对应信息插入到与存在于节目映射表之下的预定数量的音频流中的任何一个音频流对应的音频基本流循环。如上所述，流对应信息插入到容器的层中，从而可以容易地辨识包括必要的组编码数据的音频流，并且可以在接收侧减少处理负荷。

例如，流对应信息可以是表示用于识别多个组编码数据中的每一个的组标识符与用于识别预定数量的音频流中的每一个的流的流标识符之间的对应性的信息。在这种情况下，例如，信息插入单元可以进一步将表示预定数量的音频流中的每一个的流标识符的流标识符信息插入到容器的层中。例如，容器可以是MPEG2-TS，并且信息插入单元可以将流标识符信息插入到与存在于节目映射表之下的预定数量的音频流中的每一个对应的音频基本流循环中。

另外，例如，流对应信息可以是表示用于识别多个组编码数据中的每一个的组标识符与在对预定数量的音频流中的每一个进行分包期间要附加的数据包标识符之间的对应性的信息。另外，例如，流对应信息可以是表示用于识别多个组编码数据中的每一个的组标识符与表示预定数量的音频流中的每一个的流类型的类型信息之间的对应性的信息。

另外，本技术的另一个概念在于

接收设备，包括：

接收单元，用于接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中；以及

处理单元，用于基于属性信息处理包括在所接收的容器中的预定数量的音频流。

在本技术中，具有包括多个组编码数据的预定数量的音频流的预定格式的容器由接收单元接收。例如，多个组编码数据可以包括信道编码数据和对象编码数据中的任一个或两个。表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中。通过处理单元基于属性信息处理包括在所接收的容器中的预定数量的音频流。

如上所述，在本技术中，基于表示插入到容器的层中的多个组编码数据中的每一个的属性的属性信息，对包括在所接收的容器中的预定数量的音频流执行处理。为此，可以选择性地仅解码必要的组编码数据以使用，并且可以减少处理负荷。

顺便提及，在本技术中，例如，表示包括多个组编码数据中的每一个的音频流的流对应信息可以进一步被插入到容器的层中，并且处理单元可以基于除了属性信息之外的流对应信息处理预定数量的音频流。在这种情况下，可以容易地辨识包括必要的组编码数据的音频流，并且可以减少处理负荷。

另外，在本技术中，例如，处理单元可以基于属性信息和流对应信息，对包括组编码数据的音频流选择性地执行解码处理，该组编码数据保持符合扬声器配置的属性和用户选择信息。

另外，本技术的又一个概念在于

接收设备，包括：

接收单元，用于接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中；

处理单元，用于从包含在所接收的容器中的预定数量的音频流中基于属性信息选择性地获取预定组编码数据，并且重新配置包括预定组编码数据的音频流；以及

流传输单元，用于将在处理单元中重新配置的音频流传输到外部设备。

在本技术中，具有包括多个组编码数据的预定数量的音频流的预定格式的容器由接收单元接收。表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中。通过处理单元从预定数量的音频流中基于属性信息选择性地获取预定组编码数据，并且重新配置包括预定组编码数据的音频流。然后，通过流传输单元将重新配置的音频流传输到外部设备。

如上所述，在本技术中，基于表示插入到容器的层中的多个组编码数据中的每一个的属性的属性信息，从预定数量的音频流中选择性地获取预定组编码数据，并且重新配置要传输到外部设备的音频流。可以容易地获取必要的组编码数据，并且可以减少处理负荷。

顺便提及，在本技术中，例如，表示包括多个组编码数据中的每一个的音频流的流对应信息可以进一步被插入到容器的层中，并且处理单元可以基于除了属性信息之外的流对应信息从预定数量的音频流中选择性地获取预定组编码数据。在这种情况下，可以容易地辨识包括预定组编码数据的音频流，并且可以减少处理负荷。

本发明的效果

根据本技术，当传输多种类型的音频数据时，可以减少接收侧的处理负荷。顺便提及，本说明书中描述的有利效果仅仅是示例，并且本技术的有利效果不限于此，并且可以包括额外的效果。

附图说明

图1是示出作为实施方式的传输/接收系统的示例配置的框图。

图2是示出3D音频传输数据中的音频帧(1024个采样)的结构的图。

图3是示出3D音频传输数据的示例配置的图。

图4(a)和图4(b)是分别示意性地示出当以一个流执行3D音频传输数据的传输时以及当以多个流执行传输时的音频帧的示例配置的图。

图5是示出当在3D音频传输数据的示例配置中以三个流执行传输时的组划分实例的图。

图6是示出在组划分实例(三个划分)等中的组和子流之间的对应性的图。

图7是示出在3D音频传输数据的示例配置中以两个流执行传输的组划分实例的图。

图8是示出在组划分实例(两个划分)等中的组和子流之间的对应性的图。

图9是示出服务传输器中包括的流生成单元的示例配置的框图。

图10是示出3D音频流配置描述符的结构实例的图。

图11是示出3D音频流配置描述符的结构实例中的主要信息的细节的图。

图12(a)和图12(b)是分别示出3D音频子流ID描述符的结构实例和结构实例中的主要信息的细节的图。

图13是示出传送流的示例配置的图。

图14是示出服务接收器的示例配置的框图。

图15是示出服务接收器中的CPU的音频解码控制处理的实例的流程图。

图16是示出服务接收器的另一示例配置的框图。

具体实施方式

以下是对实现本发明的模式的描述(在下文中将该模式称为“实施方式”)。顺便提及，将按照以下顺序进行说明。

1.实施方式

2.变形

<1.实施方式>

[传输/接收系统的示例配置]

图1示出作为实施方式的传输/接收系统10的示例配置。传输/接收系统10由服务传输器100和服务接收器200配置。服务传输器100传输加载在广播波或网络数据包上的传送流TS。传送流TS具有视频流和包括多个组编码数据的预定数量的音频流。

图2示出了在该实施方式中处理的3D音频传输数据中的音频帧(1024个采样)的结构。音频帧包括多个MPEG音频流数据包(mpeg Audio Stream Packet)。MPEG音频流数据包中的每一个通过报头(Header)和有效载荷(Payload)配置。

报头保持诸如数据包类型(Packet Type)、数据包标签(Packet Label)以及数据包长度(Packet Length)的信息。由报头的数据包类型定义的信息布置在有效载荷中。在有效载荷信息中，存在与同步开始码对应的“SYNC”信息、作为3D音频传输数据的实际数据的“帧(Frame)”信息以及表示“帧”信息的配置的“Config”信息。

“帧”信息包括配置3D音频传输数据的对象编码数据和信道编码数据。这里，信道编码数据通过诸如单信道元素(SCE)、信道对元素(CPE)以及低频元素(LFE)的编码采样数据配置。另外，对象编码数据通过单通道元素(SCE)的编码采样数据以及用于通过将编码采样数据映射到存在于任意位置的扬声器而执行渲染的元数据来配置。元数据包括为扩展元素(Ext_element)。

图3示出3D音频传输数据的示例配置。该实例包括一个信道编码数据和两个对象编码数据。该一个信道编码数据是5.1信道的信道编码数据(CD)，并且包括SCE1、CPE1.1、CPE1.2、LFE1的编码采样数据。

两个对象编码数据是沉浸式音频对象(Immersive audio object：IAO)编码数据和语音对话对象(Speech Dialog object：SDO)编码数据。沉浸式音频对象编码数据是用于沉浸式声音的对象编码数据，并且包括编码采样数据SCE2以及用于通过将编码采样数据映射到存在于任意位置的扬声器来执行渲染的元数据EXE_E1(Object metadata(对象元数据))2。

语音对话对象编码数据是用于语音语言的对象编码数据。在该实例中，存在分别对应于语言1和语言2的语音对话对象编码数据。对应于语言1的语音对话对象编码数据包括编码采样数据SCE3以及用于通过将编码采样数据映射到存在于任意位置的扬声器来执行渲染的元数据EXE_E1(Object metadata)3。另外，对应于语言2的语音对话对象编码数据包括编码采样数据SCE4以及用于通过将编码采样数据映射到存在于任意位置的扬声器来执行渲染的元数据EXE_E1(Object metadata)4。

编码数据通过组(Group)以类型的概念来区分。在所示的实例中，5.1信道的编码信道数据在组1中，沉浸式音频对象编码数据在组2中，语言1的语音对话对象编码数据在组3中，并且语言2的语音对话对象编码数据在组4中。

另外，可以在接收侧的组之间选择的数据注册到切换组(SW Group)，并对该数据进行编码。另外，可以将组捆绑到预设组(preset Group)中，并且可以根据用户情况来再现组。在所示实例中，组1、组2和组3捆绑到预设组1中，并且组1、组2和组4捆绑到预设组2中。

返回图1，如上所述，服务传输器100以一个流或多个流(Multiple stream)传输包括多个组编码数据的3D音频传输数据。

图4(a)示意性地示出在图3的3D音频传输数据的示例配置中当以一个流执行传输时的音频帧的示例配置。在这种情况下，该一个流包括信道编码数据(CD)、沉浸式音频对象编码数据(IAO)、和语音对话对象编码数据(SDO)、以及“SYNC”信息和“Config”信息。

图4(b)示意性地示出在图3的3D音频传输数据的示例配置中当以多个流(如果适当的话，流中的每一个称为“子流”)(这里是三个流)执行传输时的音频帧的示例配置。在这种情况下，子流1包括信道编码数据(CD)以及“SYNC”信息和“Config”信息。另外，子流2包括沉浸式音频对象编码数据(IAO)以及“SYNC”信息和“Config”信息。此外，子流3包括语音对话对象编码数据(SDO)以及“SYNC”信息和“Config”信息。

图5示出在图3的3D音频传输数据的示例配置中当以三个流执行传输时的组划分实例。在这种情况下，子流1包括区分为组1的信道编码数据(CD)。此外，子流2包括区分为组2的沉浸式音频对象编码数据(IAO)。此外，子流3包括区分为组3的语言1的语音对话对象编码数据(SDO)以及区分为组4的语言2的语音对话对象编码数据(SDO)。

图6示出图5的组划分实例(三个划分)中的组和子流之间的对应性等。这里，组ID(group ID)是用于识别组的标识符。属性(attribute)表示组编码数据中的每一个的属性。切换组ID(switch Group ID)是用于识别切换组的标识符。预设组ID(preset Group ID)是用于识别预设组的标识符。子流ID(sub Stream ID)是用于识别子流的标识符。

所示的对应表示属于组1的编码数据是信道编码数据、不配置切换组、并且数据包括在子流1中。另外，所示的对应表示属于组2的编码数据是用于沉浸式声音的对象编码数据(沉浸式音频对象编码数据)、不配置切换组、并且数据包括在子流2中。

另外，所示的对应表示属于组3的编码数据是用于语言1的语音语言的对象编码数据(语音对话对象编码数据)、配置切换组1、并且数据包括在子流3中。另外，所示的对应表示属于组4的编码数据是用于语言2的语音语言的对象编码数据(语音对话对象编码数据)、配置切换组1、并且数据包括在子流3中。

另外，所示的对应表示预设组1包括组1、组2和组3。此外，所示的对应表示预设组2包括组1、组2和组4。

图7示出在图3的3D音频传输数据的示例配置中以两个流执行传输的组划分实例。在这种情况下，子流1包括区分为组1的信道编码数据(CD)以及区分为组2的沉浸式音频对象编码数据(IAO)。另外，子流2包括区分为组3的语言1的语音对话对象编码数据(SDO)以及区分为组4的语言2的语音对话对象编码数据(SDO)。

图8示出图7的组划分实例(两个划分)中的组和子流之间的对应性等。所示的对应表示属于组1的编码数据是信道编码数据、不配置切换组、并且数据包括在子流1中。另外，所示的对应表示属于组2的编码数据是用于沉浸式声音的对象编码数据(immersive audioobject encoded data(沉浸式音频对象编码数据))、不配置切换组、并且数据包括在子流1中。

另外，所示的对应表示属于组3的编码数据是用于语言1的语音语言的对象编码数据(speech dialog object encoded data(语音对话对象编码数据))、配置切换组1、并且数据包括在子流2中。另外，所示的对应表示属于组4的编码数据是用于语言2的语音语言的对象编码数据(speech dialog object encoded data(语音对话对象编码数据))、配置切换组1、并且数据包括在子流2中。

返回图1，服务传输器100将表示包括在3D音频传输数据中的多个组编码数据中的每一个的属性的属性信息插入到容器的层中。另外，服务传输器100将表示包括多个组编码数据中的每一个的音频流的流对应信息插入到容器的层中。在本实施方式中，例如，流对应信息是表示组ID与流标识符之间的对应性的信息。

例如，服务传输器100将这些属性信息和流对应信息作为描述符插入存在于节目映射表(Program Map Table：PMT)之下的预定数量的音频流中的任何一个音频流(例如对应于最基础流的音频基本流循环)内。

另外，服务传输器100将表示预定数量的音频流中的每一个的流标识符的流标识符信息插入到容器的层中。例如，服务传输器100将流标识符信息作为描述符插入到与存在于节目映射表(Program Map Table：PMT)之下的预定数量的音频流中的每一个对应的音频基本流循环中。

服务接收器200接收加载在广播波或网络数据包上并从服务传输器100传输的传送流TS。如上所述，除了视频流之外，传送流TS还具有预定数量的音频流，音频流包括配置3D音频传输数据的多个组编码数据。然后，表示包括在3D音频传输数据中的多个组编码数据中的每一个的属性的属性信息以及表示包括多个组编码数据中的每一个的音频流的流对应信息插入到容器的层中。

服务接收器200基于属性信息和流对应信息对包括组编码数据的音频流选择性地执行解码处理并且获得3D音频的音频输出，其中该组编码数据保持符合扬声器配置的属性和用户选择信息。

[服务传输器的流生成单元]

图9示出包括在服务传输器100中的流生成单元110的示例配置。流生成单元110具有视频编码器112、音频编码器113以及复用器114。这里，假设音频传输数据由一个编码信道数据和两个对象编码数据构成，如图3所示。

视频编码器112输入视频数据SV，并且对视频数据SV执行编码以生成视频流(视频基本流)。音频编码器113输入信道数据和沉浸式音频和语音对话对象数据作为音频数据SA。

音频编码器113对音频数据SA执行编码，并获得3D音频传输数据。3D音频传输数据包括信道编码数据(CD)、沉浸式音频对象编码数据(IAO)以及语音对话对象编码数据(SDO)，如图3所示。然后，音频编码器113生成包括多个(这里是四个)组编码数据(参见图4(a)、图4(b))的一个或多个音频流(音频基本流)。

复用器114将从音频编码器113输出的预定数量的音频流和从视频编码器112输出的视频流中的每一个分包为PES数据包，并且进一步分包为传送数据包以对流进行复用，并获得传送流TS作为复用流。

另外，复用器114将表示多个组编码数据中的每一个的属性的属性信息和表示包括多个组编码数据中的每一个的音频流的流对应信息插入到节目映射表(PMT)之下。例如，复用器114通过使用3D音频流配置描述符(3Daudio_stream_config_descriptor)将这些条信息插入到对应于最基础流的音频基本流循环中。稍后将详细描述描述符。

另外，复用器114将表示预定数量的音频流中的每一个的流标识符的流标识符信息插入到节目映射表(PMT)之下。复用器114通过使用3D音频子流ID描述符(3Daudio_substreamID_descriptor)将信息插入到与预定数量的音频流中的每一个对应的音频基本流循环中。稍后将详细描述描述符。

现在简要描述图9所示的流生成单元110的操作。将视频数据提供给视频编码器112。在视频编码器112中，对视频数据SV执行编码，并且生成包括编码视频数据的视频流。将视频流提供给复用器114。

音频数据SA提供给音频编码器113。音频数据SA包括信道数据以及沉浸式音频和语音对话对象数据。在音频编码器113中，对音频数据SA执行编码，并且获得3D音频传输数据。

除了信道编码数据(CD)(参见图3)之外，3D音频传输数据还包括沉浸式音频对象编码数据(IAO)和语音对话对象编码数据(SDO)。然后，在音频编码器113中，生成包括四个组编码数据的一个或多个音频流(参见图4(a)、图4(b))。

由视频编码器112生成的视频流提供给复用器114。另外，由音频编码器113生成的音频流提供给复用器114。在复用器114中，将从每个编码器提供的流分包为PES数据包，并且进一步分包为要进行复用的传送数据包，并且获得传送流TS作为复用流。

另外，在复用器114中，例如，3D音频流配置描述符插入到对应于最基础流的音频基本流循环中。描述符包括表示多个组编码数据中的每一个的属性的属性信息以及表示包括多个组编码数据中的每一个的音频流的流对应信息。

另外，在复用器114中，3D音频子流ID描述符插入到与预定数量的音频流中的每一个对应的音频基本流循环中。描述符包括表示预定数量的音频流中的每一个的流标识符的流标识符信息。

[3D音频流配置描述符的细节]

图10示出3D音频流配置描述符(3Daudio_stream_config_descriptor)的结构实例(语法)。另外，图11示出结构实例中的主要信息(语义)的细节。

“descriptor_tag”的8位字段表示描述符类型。这里，表示描述符是3D音频流配置描述符。“descriptor_length”的8位字段表示描述符的长度(大小)，并且表示后续字节的数量作为描述符的长度。

“NumOfGroups，N”的8位字段表示组的数量。“NumOfPresetGroups，P”的八位字段表示预设组的数量。“groupID”的8位字段、“attribute_of_groupID”的8位字段、“SwitchGroupID”的8位字段以及“audio_substreamID”的8位字段按组的数量重复。

“groupID”的字段表示组标识符。“attribute_of_groupID”的字段表示组编码数据的属性。“SwitchGroupID”的字段是表示该组所属的切换组的标识符。“0”表示该组不属于任何切换组。除了“0”之外的，表示被引起属于的切换组。“audio_substreamID”是表示包括该组的音频子流的标识符。

另外，“presetGroupID”的8位字段和“NumOfGroups_in_preset，R”的8位字段按预设组的数量重复。“presetGroupID”的字段是表示预先设置组的捆绑的标识符。“NumOfGroups_in_preset，R”的字段表示属于预设组的组的数量。然后，对于每个预设组，“groupID”的8位字段按属于该预设组的组的数量重复，并且表示了属于预设组的组。描述符可以布置在扩展描述符之下。

[3D音频子流ID描述符的细节]

图12(a)示出3D音频子流ID描述符(3Daudio_substreamID_descriptor)的结构实例(语法)。另外，图12(b)示出结构实例中的主要信息(语义)的细节。

“descriptor_tag”的8位字段表示描述符类型。这里，表示描述符是3D音频子流ID描述符。“descriptor_length”的8位字段表示描述符的长度(大小)，并且表示后续字节的数量作为描述符的长度。“audio_substreamID”的8位字段表示音频子流标识符。描述符可以布置在扩展描述符之下。

[传送流TS的配置]

图13示出传送流TS的示例配置。该示例配置对应于在3D音频传输数据的两个流中执行传输的情况(参见图7)。在示例配置中，存在由PID1识别的视频流PES数据包“视频PES”。另外，在示例配置中，存在分别由PID2、PID3识别的两个音频流(音频子流)PES数据包“音频PES”。PES数据包包括PES报头(PES_header)和PES有效载荷(PES_payload)。在PES报头中，插入DTS、PTS的时间戳。适当地附加PID2和PID3的时间戳，使得在复用期间时间戳彼此匹配，从而可以为整个系统确保时间戳之间的同步。

这里，由PID2识别的音频流PES数据包“音频PES”包括区分为组1的信道编码数据(CD)和区分为组2的沉浸式音频对象编码数据(IAO)。此外，由PID3识别的音频流PES数据包“音频PES”包括区分为组3的语言1的语音对话对象编码数据(SDO)和区分为组4的语言2的语音对话对象编码数据(SDO)。

另外，传送流TS包括作为节目特定信息(PSI)的节目映射表(PMT)。PSI是表示包括在传送流中的每个基本流所属的节目的信息。在PMT中，存在描述与整个节目相关的信息的节目循环(节目循环(Program loop))。

另外，在PMT中，存在保持与每个基本流相关的信息的基本流循环。在示例配置中，存在对应于视频流的视频基本流循环(video ES loop)，并且分别存在对应于两个音频流的音频基本流循环(audio ES loop)。

在视频基本流循环(video ES loop)中，布置对应于视频流的诸如流类型和PID(数据包标识符)的信息，并且还布置描述与视频流相关的信息的描述符。如上所述，视频流的“Stream_type”的值设为“0x24”，并且PID信息表示被赋予视频流PES数据包“video PES”的PID1。HEVC描述符布置为描述符之一。

另外，在音频基本流循环(audio ES loop)中，布置对应于音频流的诸如流类型和PID(数据包标识符)的信息，并且还布置描述与音频相关的信息的描述符。如上所述，音频流的“Stream_type”的值设为“0x2C”，并且PID信息表示被赋予音频流PES数据包“audioPES”的PID2。

在与由PID2识别的音频流对应的音频基本流循环(audio ES loop)中，布置上述3D音频流配置描述符和3D音频子流ID描述符两者。另外，在与由PID2识别的音频流对应的音频基本流循环(audio ES loop)中，仅布置上述3D音频子流ID描述符。

[服务接收器的示例配置]

图14示出服务接收器200的示例配置。服务接收器200具有接收单元201、解复用器202、视频解码器203、视频处理电路204、面板驱动电路205以及显示面板206。另外，服务接收器200具有复用缓冲器211-1至211-N、组合器212、3D音频解码器213、音频输出处理电路214以及扬声器系统215。另外，服务接收器200具有CPU 221、闪速ROM 222、DRAM 223、内部总线224、远程控制接收单元225以及远程控制传输器226。

CPU 221控制服务接收器200中的每个单元的操作。闪速ROM 222存储控制软件并保持数据。DRAM 223配置CPU 221的工作区域。CPU 221将从闪速ROM 222读取的软件和数据部署在DRAM 223上，并激活软件以控制服务接收器200的每个单元。

远程控制接收单元225接收从远程控制传输器226传输的远程控制信号(远程控制代码)，并将该信号提供给CPU 221。CPU 221基于远程控制代码控制服务接收器200的每个单元。CPU 221、闪速ROM 222以及DRAM 223连接到内部总线224。

接收单元201接收加载在广播波或网络数据包上并从服务传输器100传输的传送流TS。除了视频流之外，传送流TS还具有预定数量的音频流，音频流包括配置3D音频传输数据的多个组编码数据。

解复用器202从传送流TS提取视频流数据包，并将数据包传输到视频解码器203。视频解码器203对来自通过解复用器202提取的视频数据包的视频流进行重新配置，并且执行解码处理以获得未压缩的视频数据。

视频处理电路204对通过视频解码器203获得的视频数据执行缩放处理、图像质量调节处理等，并获得用于显示的视频数据。面板驱动电路205基于通过视频处理电路204获得的用于显示的图像数据来驱动显示面板206。例如，显示面板206由液晶显示器(LCD)、有机电致发光(EL)显示器配置。

另外，解复用器202从传送流TS提取诸如各种描述符的信息，并将该信息传输到CPU 221。各种描述符包括上述3D音频流配置描述符(3Daudio_stream_config_descriptor)和3D音频子流ID描述符(3Daudio_substreamID_descriptor)(参见图13)。

CPU 221基于包括在这些描述符中的表示组编码数据中的每一个的属性的属性信息、表示包括每个组的音频流(子流)的流关系信息等，辨识包括保持符合扬声器配置的属性和观看者(用户)选择信息的组编码数据的音频流。

另外，在CPU 221的控制下，解复用器202通过PID过滤器选择性地提取包括在传送流TS中的预定数量的音频流中的一个或多个音频流数据包，其中音频流数据包包括保持符合扬声器配置的属性和观看者(用户)选择信息的组编码数据。

复用缓冲器211-1至211-N分别接纳由解复用器202提取的音频流。这里，复用缓冲器211-1至211-N的数量N是必要且充分的数量，并且由解复用器202提取的音频流的数量在实际操作中使用。

组合器212从分别接纳由复用缓冲器211-1至211-N的解复用器202提取的音频流的复用缓冲器中的每一个读取对于每个音频帧的音频流，并将音频流作为保持符合扬声器配置的属性和观看者(用户)选择信息的组编码数据提供给3D音频解码器213。

3D音频解码器213对从组合器212提供的编码数据执行解码处理，并且获得用于驱动扬声器系统215中的每个扬声器的音频数据。这里可以考虑三种情况，其中要经历解码处理的编码数据仅包括信道编码数据的情况、编码数据仅包括对象编码数据的情况以及进一步编码数据包括信道编码数据和对象编码数据两者的情况。

当对信道编码数据进行解码时，3D音频解码器213对扬声器系统215的扬声器配置执行下混和上混的处理，并获得用于驱动每个扬声器的音频数据。另外，当对对象编码数据进行解码时，3D音频解码器213基于对象信息(元数据)计算扬声器渲染(对于每个扬声器的混合比率)，并且根据计算结果将对象音频数据与用于驱动每个扬声器的音频数据混合。

音频输出处理电路214对通过3D音频解码器213获得的用于驱动每个扬声器的音频数据执行必要的处理(诸如D/A转换和放大)，并将音频数据提供给扬声器系统215。扬声器系统215包括多个信道的多个扬声器，例如2信道、5.1信道、7.1信道以及22.2信道。

现在简要描述图14所示的服务接收器200的操作。在接收单元201中，接收加载在广播波或网络数据包上并从服务传输器100传输的传送流TS。除了视频流之外，传送流TS还具有预定数量的音频流，音频流包括配置3D音频传输数据的多个组编码数据。传送流TS提供给解复用器202。

在解复用器202中，从传送流TS提取视频流数据包，并且将频流数据包提供给视频解码器203。在视频解码器203中，从由解复用器202提取的视频数据包重新配置视频流，并且执行解码处理，并获得未压缩的视频数据。视频数据提供给视频处理电路204。

在视频处理电路204中，对通过视频解码器203获得的视频数据执行缩放处理、图像质量调节处理等，并且获得用于显示的视频数据。用于显示的视频数据提供给面板驱动电路205。在面板驱动电路205中，基于用于显示的视频数据来驱动显示面板206。因此，在显示面板206上显示与用于显示的视频数据对应的图像。

另外，在解复用器202中，从传送流TS提取诸如各种描述符的信息，并且将该信息传输到CPU 221。各种描述符包括3D音频流配置描述符和3D音频子流ID描述符。在CPU 221中，基于包括在这些描述符中的属性信息、流关系信息等，辨识包括保持符合扬声器配置的属性和观看者(用户)选择信息的组编码数据的音频流(子流)。

另外，在解复用器202中，在CPU 221的控制下，通过PID过滤器选择性地提取包括在传送流TS中的预定数量的音频流中的一个或多个音频流数据包，音频流数据包包括保持符合扬声器配置的属性和观看者选择信息的组编码数据。

通过解复用器202提取的音频流分别接纳在复用缓冲器211-1至211-N的对应的复用缓冲器中。在组合器212中，从分别接纳音频流的复用缓冲器中的每一个对于每个音频帧读取音频流，并且将音频流作为保持符合扬声器配置的属性和观看者选择信息的组编码数据提供给3D音频解码器213。

在3D音频解码器213中，对从组合器212提供的编码数据执行解码处理，并且获得用于驱动扬声器系统215中的每个扬声器的音频数据。

这里，当解码了信道编码数据时，对扬声器系统215的扬声器配置执行下混和上混的处理，并且获得用于驱动每个扬声器的音频数据。另外，当解码了对象编码数据时，基于对象信息(元数据)计算扬声器渲染(对于每个扬声器的混合比率)，并且根据计算结果将对象音频数据与用于驱动每个扬声器的音频数据混合。

通过3D音频解码器213获得的用于驱动每个扬声器的音频数据提供给音频输出处理电路214。在音频输出处理电路214中，对用于驱动每个扬声器的音频数据执行必要的处理(诸如D/A转换和放大)。然后，处理之后的音频数据提供给扬声器系统215。因此，从扬声器系统215获得与显示面板206上的显示图像对应的音频输出。

图15示出图14所示的服务接收器200中的CPU 221的音频解码控制处理的实例。在步骤ST1中，CPU 221开始处理。然后，在步骤ST2中，CPU 221检测接收器扬声器配置，即扬声器系统215的扬声器配置。接下来，在步骤ST3中，CPU 221获得与观看者(用户)输出的音频相关的选择信息。

接下来，在步骤ST4中，CPU 221读取3D音频流配置描述符(3Daudio_stream_config_descriptor)的“groupID”、“attribute_of_GroupID”、“switchGroupID”、“presetGroupID”以及“Audio_substreamID”。然后，在步骤ST5中，CPU 221辨识保持符合扬声器配置的属性和观看者选择信息的组所属的音频流(子流)的子流ID(subStreamID)。

接下来，在步骤ST6中，CPU 221将所辨识的子流ID(subStreamID)与每个音频流(子流)的3D音频子流ID描述符(3Daudio_substreamID_descriptor)的子流ID(subStreamID)进行核对，并且通过PID滤波器(PID filter)选择匹配的一个子流ID，并且在复用缓冲器中的每一个内获取该子流ID。然后，在步骤ST7中，CPU 221从复用缓冲器中的每一个内读取对于每个音频帧的音频流(子流)，并将必要的组编码数据提供给3D音频解码器213。

接下来，在步骤ST8中，CPU 221确定是否对对象编码数据进行解码。当对对象编码数据进行解码时，在步骤ST9中，CPU 221基于对象信息(元数据)，通过方位(方位信息)和仰角(仰角信息)计算扬声器渲染(对于每个扬声器的混合比)。之后，CPU 221进行到步骤ST10。顺便提及，当在步骤ST8中不对对象编码数据进行解码时，CPU 221立即进行到步骤ST10。

在步骤ST10中，CPU 221确定是否对信道编码数据进行解码。当对信道编码数据进行解码时，在步骤ST11中，CPU 221对扬声器系统215的扬声器配置执行下混和上混的处理，并获得用于驱动每个扬声器的音频数据。之后，CPU 221进行到步骤ST12。顺便提及，当在步骤ST10中不对对象编码数据进行解码时，CPU 221立即进行到步骤ST12。

当对对象编码数据进行解码时，CPU 221根据步骤ST9中的计算结果将对象音频数据与用于驱动每个扬声器的音频数据混合，并然后在步骤ST12中执行动态范围控制。之后，在步骤ST13中，CPU 21结束处理。顺便提及，当不对对象编码数据进行解码时，CPU 221跳过步骤ST12。

如上所述，在图1所示的传输/接收系统10中，服务传输器100将表示包括在预定数量的音频流中的多个组编码数据中的每一个的属性的属性信息插入到容器的层中。因此，在接收侧，可以在编码数据的解码之前容易地辨识多个组编码数据中的每一个的属性，并且可以选择性地仅解码必要的组编码数据以使用，并且可以减少处理负荷。

另外，在图1所示的传输/接收系统10中，服务传输器100将表示包括多个组编码数据中的每一个的音频流的流对应信息插入到容器的层中。因此，在接收侧，可以容易地辨识包括必要的组编码数据的音频流，并且可以减少处理负荷。

<2.变形>

顺便提及，在上述实施方式中，服务接收器200配置为从自服务传输器100传输的多个音频流(子流)中选择性地提取包括保持符合扬声器配置的属性和观看者选择信息的组编码数据的音频流，并且执行解码处理以获得用于驱动预定数量的扬声器的音频数据。

然而，也可以考虑作为服务接收器从自服务传输器100传输的多个音频流(子流)中选择性地提取一个或多个音频流，该音频流保持符合扬声器配置的属性和观看者选择信息的组编码数据，以重新配置具有保持符合扬声器配置的属性和观看者选择信息的组编码数据的音频流，并将重新配置的音频流传递到连接至本地网络的设备(包括DLNA设备)。

图16示出用于将重新配置的音频流传递到如上所述连接至本地网络的设备的服务接收器200A的示例配置。在图16中，等同于图14所示的部件的部件由与图14中所使用的参考标号相同的参考标号来表示，并且这里不再重复对它们进行详细说明。

在解复用器202中，在CPU 221的控制下，通过PID过滤器选择性地提取包括在传送流TS中的预定数量的音频流中的一个或多个音频流数据包，音频流数据包包括保持符合扬声器配置的属性和观看者选择信息的组编码数据。

由解复用器202提取的音频流分别接纳在复用缓冲器211-1至211-N中的对应的复用缓冲器内。在组合器212中，从分别接纳音频流的复用缓冲器中的每一个内对于每个音频帧读取音频流，并且将该音频流提供给流重配置单元231。

在流重配置单元231中，选择性地获取保持符合扬声器配置的属性和观看者选择信息的预定组编码数据，并且重新配置保持预定组编码数据的音频流。重新配置的音频流提供给传递接口232。然后，从传递接口232到连接至本地网络的设备300执行传递(传输)。

本地网络连接包括以太网连接和诸如“WiFi”或“Bluetooth”的无线连接。顺便提及，“WiFi”和“Bluetooth”是注册商标。

另外，设备300包括附接到网络终端的环绕扬声器、第二显示器以及音频输出设备。接收重新配置的音频流的传递的设备300执行与图14的服务接收器200中的3D音频解码器213类似的解码处理，并获得用于驱动预定数量的扬声器的音频数据。

另外，作为服务接收器，还可以考虑这样的配置，其中上述重新配置的音频流传输到经由数字接口(诸如“高清晰度多媒体接口(HDMI)”、“移动高清晰度链接(MHL)”或“DisplayPort”)连接的设备。顺便提及，“HDMI”和“MHL”是注册商标。

另外，在上述实施方式中，插入到容器的层中的流对应信息是表示组ID与子流ID之间的对应性的信息。也就是说，子流ID用于将组和音频流(子流)彼此关联。然而，还可以考虑使用用于将组和音频流(子流)彼此关联的数据包标识符(Packet ID：PID)或流类型(stream_type)。顺便提及，当使用流类型时，需要改变每个音频流(子流)的流类型。

另外，在上述实施方式中，已示出了通过提供“attribute_of_groupID”(参见图10)的字段来传输组编码数据中的每一个的属性信息的实例。然而，本技术包括这样的方法，其中通过定义传输器与接收器之间的组ID(GroupID)本身的值的特定含义，当辨识了特定组ID时，可以辨识编码数据的类型(属性)。在这种情况下，组ID用作组标识符，并且还用作组编码数据的属性信息，使得“attribute_of_groupID”的字段是不必要的。

另外，在上述实施方式中，已示出了多个组编码数据包括信道编码数据和对象编码数据两者的实例(参见图3)。然而，本技术也可以类似地应用于其中多个组编码数据仅包括信道编码数据或仅包括对象编码数据的情况。

另外，在上述实施方式中，已示出了容器是传送流(MPEG-2TS)的实例。然而，本技术也可以类似地应用于通过MP4或另一格式的容器执行传递的系统。例如，其是基于MPEG-DASH的流传递系统、或处理MPEG媒体传输(MMT)结构传输流的传输/接收系统。

顺便提及，本技术还可以以下面描述的结构体现。

(1)一种传输设备，包括：

(2)根据(1)所述的传输设备，其中，

信息插入单元进一步将表示包括多个组编码数据中的每一个的音频流的流对应信息插入到容器的层中。

(3)根据(2)所述的传输设备，其中，

流对应信息是表示用于识别多个组编码数据中的每一个的组标识符与用于识别预定数量的音频流中的每一个的流标识符之间的对应性的信息。

(4)根据(3)所述的传输设备，其中，

信息插入单元进一步将表示预定数量的音频流中的每一个的流标识符的流标识符信息插入到容器的层中。

(5)根据(4)所述的传输设备，其中，

容器是MPEG2-TS，并且

信息插入单元将流标识符信息插入到与存在于节目映射表之下的预定数量的音频流中的每一个对应的音频基本流循环中。

(6)根据(2)所述的传输设备，其中，

流对应信息是表示用于识别多个组编码数据中的每一个的组标识符与在预定数量的音频流中的每一个的分包期间要附加的数据包标识符之间的对应性的信息。

(7)根据(2)所述的传输设备，其中，

流对应信息是表示用于识别多个组编码数据中的每一个的组标识符与表示预定数量的音频流中的每一个的流类型的类型信息之间的对应性的信息。

(8)根据(2)至(7)中任一项所述的传输设备，其中，

容器是MPEG2-TS，并且

信息插入单元将属性信息和流对应信息插入到与存在于节目映射表之下的预定数量的音频流中的任何一个音频流对应的音频基本流循环中。

(9)根据(1)至(8)中任一项所述的传输设备，其中，

多个组编码数据包括信道编码数据和对象编码数据中的任一个或两个。

(10)一种传输方法，包括：

传输步骤，用于从传输单元传输具有包括多个组编码数据的预定数量的音频流的预定格式的容器；以及

信息插入步骤，用于将表示多个组编码数据中的每一个的属性的属性信息插入到容器的层中。

(11)一种接收设备，包括：

(12)根据(11)所述的接收设备，其中，

表示包括多个组编码数据中的每一个的音频流的流对应信息进一步被插入到容器的层中，并且

除了属性信息之外，处理单元基于流对应信息处理预定数量的音频流。

(13)根据(12)所述的接收设备，其中，

处理单元基于属性信息和流对应信息，对包括组编码数据的音频流选择性地执行解码处理，该组编码数据保持符合扬声器配置的属性和用户选择信息。

(14)根据(11)至(13)中任一项所述的接收设备，其中，

(15)一种接收方法，包括：

接收步骤，用于通过接收单元接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中；以及

处理步骤，用于基于属性信息处理包括在所接收的容器中的预定数量的音频流。

(16)一种接收设备，包括：

处理单元，用于基于属性信息从包括在所接收的容器中的预定数量的音频流中选择性地获取预定组编码数据，并且重新配置包括预定组编码数据的音频流；以及

(17)根据(16)所述的接收设备，其中，

除了属性信息之外，处理单元基于流对应信息从预定数量的音频流中选择性地获取预定组编码数据。

(18)一种接收方法，包括：

接收步骤，用于通过接收单元接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示多个组编码数据中的每一个的属性的属性信息被插入到容器的层中；

处理步骤，用于基于属性信息从包括在所接收的容器中的预定数量的音频流中选择性地获取预定组编码数据，并且重新配置包括预定组编码数据的音频流；以及

流传输步骤，用于将在处理步骤中重新配置的音频流传输到外部设备。

本技术的主要特征在于，通过将表示包括在预定数量的音频流中的多个组编码数据中的每一个的属性的属性信息以及表示包括多个组编码数据中的每一个的音频流的流对应信息插入到容器的层中(参见图13)，可以减少接收侧的处理负荷。

参考符号列表

10 传输/接收系统

100 服务传输器

110 流生成单元

112 视频编码器

113 音频编码器

114 复用器

200、200A 服务接收器

201 接收单元

202 解复用器

203 视频解码器

204 视频处理电路

205 面板驱动电路

206 显示面板

211-1至211-N 复用缓冲器

212 组合器

213 3D音频解码器

214 音频输出处理电路

215 扬声器系统

221 CPU

222 闪速ROM

223 DRAM

224 内部总线

225 远程控制接收单元

226 远程控制传输器

231 流重配置单元

232 传递接口

300 设备

Claims

1.一种传输设备，包括：

信息插入单元，用于将表示所述多个组编码数据中的每一个的属性的属性信息插入到所述容器的层中，其中

所述信息插入单元进一步将表示包括所述多个组编码数据中的每一个的音频流的流对应信息插入到所述容器的所述层中，并且

所述流对应信息是表示用于识别所述多个组编码数据中的每一个的组标识符与在所述预定数量的音频流中的每一个的分包期间要附加的数据包标识符之间的对应性的信息。

2.根据权利要求1所述的传输设备，其中，

所述流对应信息是表示用于识别所述多个组编码数据中的每一个的组标识符与用于识别所述预定数量的音频流中的每一个的流标识符之间的对应性的信息。

3.根据权利要求2所述的传输设备，其中，

所述信息插入单元进一步将表示所述预定数量的音频流中的每一个的流标识符的流标识符信息插入到所述容器的所述层中。

4.根据权利要求3所述的传输设备，其中，

所述容器是MPEG2-TS，并且

所述信息插入单元将所述流标识符信息插入到与存在于节目映射表之下的所述预定数量的音频流中的每一个对应的音频基本流循环中。

5.根据权利要求1所述的传输设备，其中，

所述流对应信息是表示用于识别所述多个组编码数据中的每一个的组标识符与表示所述预定数量的音频流中的每一个的流类型的类型信息之间的对应性的信息。

6.根据权利要求1所述的传输设备，其中，

所述容器是MPEG2-TS，并且

所述信息插入单元将所述属性信息和所述流对应信息插入到与存在于节目映射表之下的所述预定数量的音频流中的任何一个音频流对应的音频基本流循环中。

7.根据权利要求1所述的传输设备，其中，

所述多个组编码数据包括信道编码数据和对象编码数据中的任一个或两个。

8.一种传输方法，包括：

信息插入步骤，用于将表示所述多个组编码数据中的每一个的属性的属性信息插入到所述容器的层中，其中

进一步将表示包括所述多个组编码数据中的每一个的音频流的流对应信息插入到所述容器的所述层中，并且

9.一种接收设备，包括：

接收单元，用于接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示所述多个组编码数据中的每一个的属性的属性信息被插入到所述容器的层中；以及

处理单元，用于基于所述属性信息处理包括在接收的所述容器中的所述预定数量的音频流，其中

表示包括所述多个组编码数据中的每一个的音频流的流对应信息进一步被插入到所述容器的所述层中，并且

10.根据权利要求9所述的接收设备，其中，

除了属性信息之外，所述处理单元基于所述流对应信息处理所述预定数量的音频流。

11.根据权利要求10所述的接收设备，其中，

所述处理单元基于所述属性信息和所述流对应信息，对包括组编码数据的音频流选择性地执行解码处理，所述组编码数据保持符合扬声器配置的属性和用户选择信息。

12.根据权利要求9所述的接收设备，其中，

13.一种接收方法，包括：

接收步骤，用于通过接收单元接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示所述多个组编码数据中的每一个的属性的属性信息被插入到所述容器的层中；以及

处理步骤，用于基于属性信息处理包括在接收的所述容器中的所述预定数量的音频流，其中

14.一种接收设备，包括：

接收单元，用于接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示所述多个组编码数据中的每一个的属性的属性信息被插入到所述容器的层中；

处理单元，用于基于所述属性信息从包括在接收的所述容器中的所述预定数量的音频流中选择性地获取预定组编码数据，并且重新配置包括所述预定组编码数据的音频流；以及

流传输单元，用于将在所述处理单元中重新配置的音频流传输到外部设备，其中

15.根据权利要求14所述的接收设备，其中，

除了所述属性信息之外，所述处理单元基于所述流对应信息从所述预定数量的音频流中选择性地获取所述预定组编码数据。

16.一种接收方法，包括：

接收步骤，用于通过接收单元接收具有包括多个组编码数据的预定数量的音频流的预定格式的容器，表示所述多个组编码数据中的每一个的属性的属性信息被插入到所述容器的层中；

处理步骤，用于基于所述属性信息从包括在接收的所述容器中的所述预定数量的音频流中选择性地获取预定组编码数据，并且重新配置包括所述预定组编码数据的音频流；以及

流传输步骤，用于将在所述处理步骤中重新配置的音频流传输到外部设备，其中