CN113035214A

CN113035214A - 发送装置、发送方法、接收装置以及接收方法

Info

Publication number: CN113035214A
Application number: CN202110320813.9A
Authority: CN
Inventors: 塚越郁夫
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-09-12
Filing date: 2015-09-07
Publication date: 2021-06-25
Anticipated expiration: 2035-09-07
Also published as: HUE042582T2; RU2017106965A3; HUE059748T2; JP2022065098A; RU2017106965A; CN113035214B; WO2016039287A1; CN113077800B; EP3196875A1; CN113077800A; EP3196875A4; JP7294472B2; EP3196875B1; CN112951250A; EP3509064A1; RU2701126C2; US20170263259A1; JP6724783B2; CN106663431A; EP3509064B1

Abstract

本申请涉及发送装置、发送方法、接收装置以及接收方法。为了在发送多个类型的音频数据时，降低接收侧上的处理负载。具有元信息的元文件被发送，该元信息用于在接收装置获取包含多个组的编码数据的规定数量的音频流。表示多个组的编码数据的各自属性的属性信息被插入元文件中。例如，表示多个组中的每一组的编码数据包括在哪个音频流中的流对应关系信息被进一步插入至元文件。

Description

发送装置、发送方法、接收装置以及接收方法

本申请为国际申请日为2015年9月7日、国际申请号为PCT/JP2015/075318、发明名称为“发送装置、发送方法、接收装置以及接收方法”的中国国家阶段申请的分案申请，该中国国家阶段申请的进入国家阶段日为2017年3月3日、申请号为201580047469.3、发明名称为“发送装置、发送方法、接收装置以及接收方法”。

技术领域

本技术涉及发送装置、发送方法、接收装置以及接收方法，并且更具体地，涉及用于发送多个类型的音频数据的技术的发送装置等。

背景技术

传统地，作为立体声(3D)音效技术，已提出用于基于待渲染的元数据将编码样本数据与存在于任意位置处的扬声器映射的技术(例如，参见专利文献1)。

引文列表

专利文献

专利文献1：日本专利申请国家公布(公开)第2014-520491号

发明内容

本发明要解决的问题

当由编码样本数据和元数据组成的对象编码数据与诸如5.1信道和7.1信道的信道编码数据一起发送时，这可在接收侧中提供具有更逼真的环绕效果的声音再现。

本技术的目的是当发送多个类型的编码数据时，降低接收侧中的处理负载。

本技术的概念在于，一种发送装置，该发送装置包括：

发送单元，被配置为发送具有元信息的元文件，该元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流；以及

信息插入单元，被配置为将表示多个组的编码数据的每个属性的属性信息插入至元文件。

问题的解决方案

在本技术中，发送单元发送具有元信息的元文件，该元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流。例如，多个组的编码数据可包括信道编码数据和对象编码数据中的一个或两个。

信息插入单元将表示多个组的编码数据的每个属性的属性信息插入至元文件。例如，元文件可以是媒体展现描述(MPD)文件。在这种情况下，例如，信息插入单元可通过使用“补充描述符”将属性信息插入至元文件。

此外，例如，发送单元可经由RF传输路径或通信网络传输路径发送元文件。此外，例如，发送单元可进一步发送具有包括多个组的编码数据的预定数量的音频流的预定格式的容器。例如，容器是MP4。根据本技术报告，MP4表示ISO基本媒体文件格式(ISOBMFF)(ISO/IEC14496-12:2012)。

以此方式，根据本技术，将表示多个组的编码数据的每个属性的属性信息插入至具有元信息的元文件，该元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流。因此，接收侧可在相关编码数据被解码之前轻易识别多个组的编码数据的每个属性，使得必要组的编码数据可被选择性地解码并使用，并且处理负载可降低。

本文中，根据本技术，例如，信息插入单元可进一步将流对应关系信息插入至元文件，该流对应关系信息表示多个组的编码数据分别包括在哪个音频流中。在这种情况下，例如，流对应关系信息可以是表示标识多个组的各自编码数据的组标识符与标识预定数量的音频流的相应流的标识符之间的对应关系的信息。在这种情况下，接收侧可轻易识别包括必要组的编码数据的音频流，并且这可降低处理负载。

此外，本技术的另一概念在于，一种接收装置，该接收装置包括：

接收单元，被配置为接收具有元信息的元文件，该元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

在元文件中插入有表示多个组的编码数据的每个属性的属性信息；以及

处理单元，被配置为基于属性信息处理预定数量的音频流。

根据本技术，接收单元接收元文件。元文件包括用于在接收装置中获取包括多个组的编码数据的预定数量的音频流的元信息。例如，多个组的编码数据可包括信道编码数据和对象编码数据中的一个或两个。表示多个组的编码数据的每个属性的属性信息插入至元文件。处理单元基于属性信息处理预定数量的音频流。

以此方式，根据本技术，基于插入在元文件中的表示多个组的编码数据的每个属性的属性信息，对预定数量的音频流执行处理。因此，只有必要组的编码数据可被选择性解码并使用，并且这可降低处理负载。

本文中，根据本技术，例如，元文件可进一步包括流对应关系信息，该流对应关系信息表示多个组的编码数据分别包括在哪个音频流中，并且处理单元可基于流对应关系信息以及属性信息处理预定数量的音频流。在这种情况下，包括必要组的编码数据的音频流可被轻易识别，并且这可降低处理负载。

此外，根据本技术，例如，处理单元可基于属性信息和流对应关系信息，对包括具有与扬声器配置和用户选择信息兼容的属性的组的编码数据的音频流选择性地执行解码处理。

此外，本技术的又一概念在于，一种接收装置，该接收装置包括：

在元文件中插入有表示多个组的编码数据的每个属性的属性信息；

处理单元，被配置为基于属性信息从预定数量的音频流中选择性获取预定组的编码数据，并且重新配置包括预定组的编码数据的音频流；以及

流发送单元，被配置为将重新配置的音频流发送至外部装置。

根据本技术，接收单元接收元文件。元文件包括用于在接收装置中获取包括多个组的编码数据的预定数量的音频流的元信息。表示多个组的编码数据的每个属性的属性信息插入至元文件。

处理单元基于属性信息从预定数量的音频流中选择性获取预定组的编码数据，并且重新配置包括预定组的编码数据的音频流。随后，流发送单元将重新配置的音频流发送至外部装置。

以此方式，根据本技术，基于插入在元文件中的表示多个组的编码数据的每个属性的属性信息，从预定数量的音频流中选择性获取预定组的编码数据，并且待发送至外部装置的音频流被重新配置。必要组的编码数据可轻易获取，并且这可降低处理负载。

本文中，根据本技术，例如，表示多个组的编码数据分别包括在哪个音频流中的流对应关系信息被进一步插入至元文件，并且处理单元可基于流对应关系信息以及属性信息从预定数量的音频流中选择性获取预定组的编码数据。在这种情况下，包括预定组的编码数据的音频流可轻易识别，并且这可降低处理负载。

本发明的效果

根据本技术，当发送多个类型的编码数据时，接收侧中的处理负载可降低。本文中，在本说明书中描述的效果仅是实例并且不设置任意限制，并且可存在其他效果。

附图说明

图1中(a)和(b)是示出基于MPEG-DASH的流传送系统的示例性配置的框图。

图2中(a)至(d)是示出分层布置在MPD文件中的结构之间的关系的实例的示图。

图3是示出作为一实施方式的收发系统的示例性配置框图。

图4是示出3D音频发送数据的音频帧(1024个样本)的结构的示图。

图5是示出3D音频发送数据的示例性配置的示图。

图6中(a)和(b)是示意性示出在利用一个轨道(一个音频流)发送3D音频发送数据的情况下的音频帧以及在利用多个轨道(不止一个音频流)发送的情况下的音频帧的示例性配置的示图。

图7是示出在3D音频发送数据的示例性配置中，利用四个轨道发送的情况的组划分实例的示图。

图8是示出组划分实例(被划分为四组)中的组与轨道之间的对应关系等的示图。

图9是示出在3D音频发送数据的示例性配置中利用两个轨道发送的情况的组划分实例的示图。

图10是示出组划分实例(被划分为两组)中的组与轨道之间的对应关系等的示图。

图11是示出MPD文件的描述实例的示图。

图12是示出MPD文件的另一描述实例的示图。

图13是示出由“SupplementaryDescriptor”定义的“schemeIdUri”的实例的示图。

图14中(a)至(c)是说明由“<baseURL>”表示的位置目的地的媒体文件实质的示图。

图15中(a)和(b)是说明“moov”框中的轨道标识符(轨道ID)与级别标识符(级别ID)之间的对应的描述的示图。

图16中(a)和(b)是示出在发送系统的情况下每个框的发送实例等的示图。

图17是示出包括在服务发送系统中的DASH/MP4生成单元的示例性配置的框图。

图18是示出服务接收器的示例性配置的框图。

图19是示出在服务接收器中通过CPU的音频解码控制处理的实例的流程图。

图20是示出服务接收器的另一示例性配置的框图。

具体实施方式

在下文中，将描述用于执行本发明的模式(在下文中，被称为“实施方式”)。应注意，将按以下顺序给出描述。

1.实施方式

2.变型例

<1.实施方式>

[基于MPEG-DASH的流传送系统的概述]

首先，将描述可应用本技术的基于MPEG-DASH的流传送系统的概述。

图1中(a)示出基于MPEG-DASH的流传送系统30A的示例性配置。在该示例性配置中，媒体流和MPD文件经由通信网络传输路径发送。流传送系统30A被配置为使得N个服务接收器33-1，33-2，…，以及33-N经由内容传送网络(CDN)34连接至DASH流文件服务器31和DASH MPD服务器32。

DASH流文件服务器31基于预定内容的媒体数据(视频数据、音频数据、字幕数据等)生成DASH规范的流片段(在下文中，被适当称为“DASH片段”)，并且根据服务接收器作出的HTTP请求发送该片段。DASH流文件服务器31可以是专用于流的服务器，并且也用作网络服务器。

此外，响应于经由CDN 34从服务接收器33(33-1，33-2，…，以及33-N)发送的预定流片段的请求，DASH流文件服务器31经由CDN 34将流片段发送至作为请求源的接收器。在这种情况下，服务接收器33参考在媒体表现描述(MPD)文件中描述的速率值根据客户端所在的网络环境的状态选择最佳速率的流，并且做出请求。

DASH MPD服务器32是生成用于获取DASH流文件服务器31中生成的DASH片段的MPD文件的服务器。MPD文件是基于从内容管理服务器(未示出)接收的内容元数据和DASH流文件服务器31中生成的片段的地址(url)生成的。此处，DASH流文件服务器31与DASH MPD服务器32可物理上相同。

在MPD格式中，使用诸如用于每个流(诸如，视频流或音频流)的表示(Representation)的元素描述每个属性。例如，表示被划分以用于具有不同速率的每多个视频数据流，并且在MPD文件中描述其每个速率。服务接收器33可以考虑如上所述的速率值根据服务接收器33所在的网络环境的状态选择最佳流。

图1中(b)示出基于MPEG-DASH的流传送系统30B的示例性配置。在该示例性配置中，媒体流和MPD文件经由RF传输路径传输。流传送系统30B配置有广播发送系统36，该广播发送系统连接至DASH流文件服务器31、DASH MPD服务器32和M个服务接收器35-1，35-2，…，以及35-M。

在流传送系统30B的情况下，广播发送系统36通过广播波发送DASH流文件服务器31生成的DASH规范的流片段(DASH片段)和DASH MPD服务器32生成的MPD文件。

图2中(a)至(d)示出分层布置在MPD文件中的结构的关系的实例。如图2中(a)所示，整个MPD文件的媒体表现(Media Presentation)包括以时间间隔界定的多个周期。例如，第一周期从第0秒开始，然后下一个周期从第100秒开始。

如图2中(b)所示，周期包括多个表示(Representations)。在多个表示中，具有根据自适应集(AdaptationSet)分组、涉及具有不同流属性的相同实质的媒体流的一组表示，不同流属性例如是不同速率。

如图2中(c)所示，表示包括片段信息(SegmentInfo)。在片段信息中，如图2中(d)所示，具有初始化片段(Initialization Segment)以及多个媒体片段(Media Segment)，其中，描述通过更精细界定周期所获得的片段(Segment)的信息。媒体片段包括例如用于实际获取诸如视频或音频的片段数据的地址(url)的信息。

此外，在根据自适应集分组的多个表示中，可自由执行流切换。因此，能够根据服务接收器所在的网络环境的状态选择最佳速率的流，并且执行无缝传送。

[收发系统的示例性配置]

图3示出作为实施方式的收发系统10的示例性配置。收发系统10由服务发送系统100和服务接收器200组成。在收发系统10中，服务发送系统100与上述图1中(a)的流传送系统30A中的DASH流文件服务器31和DASH MPD服务器32相对应。此外，在收发系统10中，服务发送系统100与上述图1中(b)的流传送系统30B中的DASH流文件服务器31、DASH MPD服务器32以及广播发送系统36相对应。

此外，在收发系统10中，服务接收器200与上述图1中(a)的流传送系统30A中的服务接收器33(33-1，33-2，…，33-N)相对应。此外，在收发系统10中，服务接收器200与上述图1中(b)的流传送系统30B中的服务接收器35(35-1，35-2，…，35-M)相对应。

服务发送系统100经由RF传输路径(参见图1中(b))或通信网络传输路径(参见图1中(a))发送DASH/MP4，即，用作元文件的MPD文件以及包括诸如视频或音频的媒体流(媒体片段)的MP4。

图4示出在本实施方式中处理的3D音频(MPEGH)的发送数据中的音频帧(1024个样本)的结构。音频帧配置有多个MPEG音频流数据包(mpeg Audio Stream Packets)。每个MPEG音频流数据包配置有报头(Header)和有效载荷(Payload)。

报头包括诸如数据包类型(Packet Type)、数据包标签(Packet Label)以及数据包长度(Packet Length)的信息。由报头的数据包类型定义的信息布置在有效载荷中。有效载荷信息包括与同步启动代码相对应的“SYNC”信息、用作3D音频发送数据的实际数据的“帧”信息以及表示“帧”信息的配置的“Config”信息。

“帧”信息包括配置3D音频发送数据的信道编码数据和对象编码数据。此处，信道编码数据配置有诸如单信道元素(SCE)、信道对元素(CPE)以及低频元素(LFE)的编码样本数据。此外，对象编码数据配置有单信道元素(SCE)以及元数据的编码样本数据，该元数据用于将编码样本数据与位于任意位置处的扬声器映射并且渲染编码样本数据。元数据作为扩展元素(Ext_element)被包括。

图5示出3D音频发送数据的示例性配置。在该实例中，3D音频发送数据由一个信道编码数据和两个对象编码数据组成。该条信道编码数据是5.1信道的信道编码数据(CD)，并且配置有SCE1、CPE1.1、CPE1.2以及LFE1中的每条编码样本数据。

两条对象编码数据是沉浸式音频对象(IAO)和语音对话对象(SDO)的编码数据。沉浸式音频对象编码数据是用于沉浸式声音的对象编码数据，并且由编码样本数据SCE2以及元数据EXE_El(对象元数据)2组成，该元数据用于将编码样本数据SCE2与位于任意位置处的扬声器映射并且渲染编码样本数据SCE2。

语音对话对象编码数据是用于说话语言的对象编码数据。在该实例中，存在分别与第一语言和第二语言相对应的语音对话对象编码数据。与第一语言相对应的语音对话对象编码数据由编码样本数据SCE3和元数据EXE_El(对象元数据)3组成，该元数据用于将编码样本数据SCE3与位于任意位置处的扬声器映射并且渲染编码样本数据SCE3。此外，与第二语言相对应的语音对话对象编码数据由编码样本数据SCE4和元数据EXE_El(对象元数据)4组成，该元数据用于将编码样本数据SCE4与位于任意位置处的扬声器映射并且渲染编码样本数据SCE4。

根据数据类型，通过组(Group)的概念区分编码数据。在所示实例中，5.1信道的编码信道数据被限定为组1(Group 1)，沉浸式音频对象编码数据被限定为组2(Group 2)，涉及第一语言的语音对话对象编码数据被限定为组3(Group 3)，并且涉及第二语言的语音对话对象编码数据被限定为组4(Group 4)。

此外，可在接收侧可切换的组被登记在切换组(SW Group)中并且被编码。在所示实例中，组3和组4被登记在切换组1(SW Group 1)中。此外，一些组可被分组为预设组(preset Group)并且根据使用情况再现。在所示实例中，组1、组2和组3被分组为预设组1，并且组1、组2和组4被分组为预设组2。

返回参考图3，服务发送系统100利用作为一个音频流的一个轨道或利用作为多个音频流的多个轨道，发送如上所述的包括多个组的编码数据的3D音频发送数据。

图6中(a)示意性示出关于图5中的3D音频发送数据的示例性配置利用一个轨道(一个音频流)来发送数据的情况的音频帧的示例性配置。在这种情况下，音轨1包括“SYNC”信息和“Config”信息以及信道编码数据(CD)、沉浸式音频对象编码数据(IAO)以及语音对话对象编码数据(SDO)。

图6中(b)示意性示出关于图5中的3D音频发送数据的示例性配置利用多个轨道(多个音频流)来发送数据的情况的音频帧的示例性配置，在该实例中利用三个轨道。在这种情况下，音轨1包括“SYNC”信息和“Config”信息以及信道编码数据(CD)。此外，音轨2包括“SYNC”信息和“Config”信息以及沉浸式音频对象编码数据(IAO)。此外，音轨3包括“SYNC”信息和“Config”信息以及语音对话对象编码数据(SDO)。

图7示出关于图5中的3D音频发送数据的示例性配置利用四个轨道来发送数据的情况的组划分实例。在这种情况下，音轨1包括限定为组1的信道编码数据(CD)。此外，音轨2包括限定为组2的沉浸式音频对象编码数据(IAO)。此外，音轨3包括限定为组3的第一语言的语音对话对象编码数据(SDO)。此外，音轨4包括限定为组4的第二语言的语音对话对象编码数据(SDO)。

图8示出图7中的组划分实例(被划分为四组)的组与音轨等之间的对应关系。此处，组ID(groupID)是区分组的标识符。属性(attribute)表示每个组的编码数据的属性。切换组ID(switchGroupID)是区分切换组的标识符。预设组ID(presetGroupID)是区分预设组的标识符。轨道ID(trackID)是区分音轨的标识符。

示出的对应关系表示组1的编码数据是不组成切换组且被包括在音轨1中的信道编码数据。此外，示出的对应关系表示组2的编码数据是不组成切换组且被包括在音轨2中的沉浸式声音(沉浸式音频对象编码数据)的对象编码数据。

此外，示出的对应关系表示组3的编码数据是组成切换组1且被包括在音轨3中的用于第一语言的说话语言的对象编码数据(语音对话对象编码数据)。此外，示出的对应关系表示组4的编码数据是组成切换组1且被包括在音轨4中的用于第二语言的说话语言的对象编码数据(语音对话对象编码数据)。

此外，示出的对应关系表示，预设组1包括组1、组2和组3。此外，示出的对应关系表示预设组2包括组1、组2和组4。

图9示出关于图5的3D音频发送数据的示例性配置的利用两个轨道来发送数据的情况的组划分实例。在这种情况下，音轨1包括限定为组1的信道编码数据(CD)以及限定为组2的沉浸式音频对象编码数据(IAO)。此外，音轨2包括限定为组3的第一语言的语音对话对象编码数据(SDO)以及限定为组4的第二语言的语音对话对象编码数据(SDO)。

图10示出图9的组划分实例(被划分为两组)的组与子流之间的对应关系。示出的对应关系表示组1的编码数据是不组成切换组且包括在音轨1中的信道编码数据。此外，示出的对应关系表示组2的编码数据是不组成切换组且包括在音轨1中的用于沉浸式声音的对象编码数据(沉浸式音频对象编码数据)。

此外，示出的对应关系表示组3的编码数据是组成切换组1且被包括在音轨2中的用于第一语言的说话语言的对象编码数据(语音对话对象编码数据)。此外，示出的对应关系表示组4的编码数据是组成切换组1且被包括在音轨2中的用于第二语言的说话语言的对象编码数据(语音对话对象编码数据)。

此外，示出的对应关系表示预设组1包括组1、组2和组3。此外，示出的对应关系表示预设组2包括组1、组2和组4。

返回参考图3，服务发送系统100将表示包括在3D音频发送数据中的多个组的编码数据的每个属性的属性信息插入至MPD文件。此外，服务发送系统100将流对应关系信息插入至MPD文件，该流对应关系信息表示多个组的编码数据分别包括在哪个音轨(音频流)中。在本实施方式中，假定流对应关系信息为例如，表示组ID与轨道ID之间的对应关系的信息。

服务发送系统100将属性信息和流对应关系信息插入至MPD文件。与现有标准中的现有定义分开，在“SupplementaryDescriptor”可以将“schemeIdUri”新定义为广播或任意其他应用的本实施方式中，服务发送系统100通过使用“SupplementaryDescriptor”将属性信息和流对应关系信息插入至MPD文件。

图11示出与图7的组划分实例(被划分为四组)相对应的MPD文件的描述实例。图12示出与图9的组划分实例(被划分为两组)相对应的MPD文件的描述实例。此处，为了简化描述的目的，描述了仅涉及音频流的信息的实例；然而，实际上，还描述涉及诸如视频流的其他媒体流的信息。图13是示出由“SupplementaryDescriptor”定义的“schemeIdUri”的实例的示图。

首先，将说明图11的MPD文件的描述实例。“<AdaptationSet mimeType＝"audio/mp4"group＝"1">”的描述表示具有用于音频流的自适应集(AdaptationSet)，在MP4文件结构中提供该音频流，并且组1被分配。

“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是MPEGH(3D音频)。如图13所示，“schemeIdUri＝"urn:brdcst:codecType"”表示编码解码器的类型。在该实例中，表示“mpegh”。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group1"/>”的描述表示组1“group1”的编码数据包括在音频流中。如图13所示，“schemeIdUri＝"urn:brdcst:3dAudio:groupId"”表示组标识符。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"channeldata"/>”的描述表示组1“group1”的编码数据是信道编码数据“channeldata”。如图13所示，“schemeIdUri＝"urn:brdcst:3dAudio:attribute"”表示对应组的编码数据的属性。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"0"/>”的描述表示组1“group1”的编码数据不属于任意切换组。如图13所示，“schemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"”表示对应组所属的切换组的标识符。例如，当“value”是“0”时，这表示对应组不属于任意切换组。当“value”是“0”以外的值时，这表示属于切换组。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset1"/>”的描述表示组1“group1”的编码数据属于预设组1“preset1”。此外，“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset2"/>”的描述表示组1“group1”的编码数据属于预设组2“preset2”。如图13所示，“schemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"”表示对应组所属的预设组的标识符。

“<Representation id＝"1"bandwidth＝"128000">”的描述表示存在具有128kbps的比特率的音频流，该音频流包括组1的自适应集中的组1“group1”的编码数据作为由“Representation id＝"1"”标识的表示。随后，“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp1/128.mp4”。

“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level1"/>”的描述表示利用与级别1“Level1”相对应的轨道来发送音频流。如图13所示，“schemeIdUri＝"urn:brdcst:3dAudio:levelId”表示与发送包括对应组的编码数据的音频流的轨道的标识符相对应的级别的标识符。此处，如以下描述的，描述例如，在“moov”框中的轨道标识符(轨道ID)与级别标识符(级别ID)之间的对应。

此外，“<AdaptationSet mimeType＝"audio/mp4"group＝"2">”的描述表示存在音频流的自适应集(AdaptationSet)，在MP4文件结构中提供音频流，并且组2被分配。

“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是“MPEGH(3D音频)”。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group2"/>”的描述表示组2“group2”的编码数据包括在音频流中。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectSound"/>”的描述表示组2“group2”的编码数据是用于沉浸式声音的对象编码数据“objectSound”。“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"0"/>”的描述表示组2“group2”的编码数据不属于任何切换组。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset1"/>”的描述表示组2“group2”的编码数据属于预设组1“preset1”。“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset2"/>”的描述表示组2“group2”的编码数据属于预设组2“preset2”。

“<Representation id＝"1"bandwidth＝"128000">”的描述表示存在具有128kbps的比特率的音频流，该音频流包括组2的自适应集中的组2“group2”的编码数据作为由“Representation id＝"2"”标识的表示。随后，“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp2/128.mp4”。随后，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level2"/>”的描述表示利用与级别2“level2”相对应的轨道来发送音频流。

此外，“<AdaptationSet mimeType＝"audio/mp4"group＝"3">”的描述表示存在与音频流相对应的自适应集(AdaptationSet)，在MP4文件结构中提供音频流，并且组3被分配。

“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是“MPEGH(3D音频)”。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group3"/>”的描述表示组3“group3”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectLang1"/>”的描述表示组3“group3”的编码数据是用于第一语言的说话语言的对象编码数据“objectLang1”。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"1"/>”的描述表示组3“group3”的编码数据属于切换组1(switchgroup 1)。“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset1"/>”的描述表示组3“group3”的编码数据属于预设组1“preset1”。

“<Representation id＝"3"bandwidth＝"128000">”的描述表示存在具有128kbps的比特率的音频流，该音频流包括组3的自适应集中的组3“group3”的编码数据作为由“<Representation id＝"3"”标识的表示。随后，“<baseURL>audio/jp3/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp3/128.mp4”。随后，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level3"/>”的描述表示利用与级别3“level3”相对应的轨道来发送音频流。

进一步，“<AdaptationSet mimeType＝"audio/mp4"group＝"4">”的描述表示存在与音频流相对应的自适应集(AdaptationSet)，并且以MP4文件结构提供音频流，并且组4被分配。

“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是“MPEGH(3D音频)”。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group4"/>”的描述表示组4“group4”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectLang2"/>”的描述表示组4“group4”的编码数据是用于第二语言的说话语言的对象编码数据“objectLang 2”。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"1"/>”的描述表示组4“group4”的编码数据属于切换组1(switchgroup 1)。“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset2"/>”的描述表示组4“group4”的编码数据属于预设组2“preset2”。

“<Representation id＝"4"bandwidth＝"128000">”的描述表示存在具有128kbps的比特率的音频流，该音频流包括组4的自适应集中的组4“group4”的编码数据作为由“<Representation id＝"4"”标识的表示。随后，“<baseURL>audio/jp4/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp4/128.mp4”。随后，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level4"/>”的描述表示利用与级别4“level4”相对应的轨道来发送音频流。

接下来，将说明图12的MPD文件的描述实例。“<AdaptationSet mimeType＝"audio/mp4"group＝"1">”的描述表示存在音频流的自适应集(AdaptationSet)，在MP4文件结构中提供音频流，并且组1被分配。随后，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是“MPEGH(3D音频)”。

“<Representation id＝"1"bandwidth＝"128000">”的描述表示在组1的自适应集中存在具有128kbps的比特率的音频流作为由“Representation id＝"1"”标识的表示。随后，“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp1/128.mp4”。此外，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level1"/>”的描述表示利用与级别1“level1”相对应的轨道来发送音频流。

“<SubRepresentation id＝"11"subgroupSet＝"1">”的描述表示在由“Representation id＝"1"”标识的表示中，存在由“SubRepresentation id＝"11"”标识的子表示，并且子组1被分配。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group1"/>”的描述表示组1“group1”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"channeldata"/>”的描述表示组1“group1”的编码数据是信道编码数据“channeldata”。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"0"/>”的描述表示组1“group1”的编码数据不属于任意切换组。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset1"/>”的描述表示组1“group1”的编码数据属于预设组1“preset1”。此外，“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset2"/>”的描述表示组1“group1”的编码数据属于预设组2“preset2”。

“<SubRepresentation id＝"12"subgroupSet＝"2">”的描述表示在由“Representation id＝"1"”标识的表示中，存在由“SubRepresentation id＝"12"”标识的子表示，并且子组集2被分配。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group2"/>”的描述表示组2“group2”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectSound"/>”的描述表示组2“group2”的编码数据是用于沉浸式声音的对象编码数据“objectSound”。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:switchGroupId"value＝"0"/>”的描述表示组2“group2”的编码数据不属于任何切换组。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset1"/>”的描述表示组2“group2”的编码数据属于预设组1“preset1”。<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:presetGroupId"value＝"preset2"/>”的描述表示组2“group2”的编码数据属于预设组2“preset2”。

进一步，“<AdaptationSet mimeType＝"audio/mp4"group＝"2">”的描述表示存在与音频流相对应的自适应集(AdaptationSet)，并且以MP4文件结构提供音频流，并且组2被分配。随后，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:codecType"value＝"mpegh"/>”的描述表示音频流的编码解码器是“MPEGH(3D音频)”。

“<Representation id＝"2"bandwidth＝"128000">”的描述表示在组1的自适应集中存在具有128kbps的比特率的音频流作为由“Representation id＝"2"”标识的表示。随后，“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音频流的位置目的地是“audio/jp2/128.mp4”。此外，“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:levelId"value＝"level2"/>”的描述表示利用与级别2“level2”相对应的轨道来发送音频流。

“<SubRepresentation id＝"21"subgroupSet＝"3">”的描述表示在由"Representation id＝"2"”标识的表示中，存在由“SubRepresentation id＝"21"”标识的子表示，并且子组集3被分配。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group3"/>”的描述表示组3“group3”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectLang1"/>”的描述表示组3“group3”的编码数据是用于第一语言的说话语言的对象编码数据“objectLang1”。

“<SubRepresentation id＝"22"subgroupSet＝"4">”的描述表示在由“Representation id＝"2"”标识的表示中，存在由“SubRepresentation id＝"22"”标识的子表示，并且子组集4被分配。

“<SupplementaryDescriptorschemeIdUri＝"urn:brdcst:3dAudio:groupId"value＝"group4"/>”的描述表示组4“group4”的编码数据包括在音频流中。“<SupplementaryDescriptor schemeIdUri＝"urn:brdcst:3dAudio:attribute"value＝"objectLang2"/>”的描述表示组4“group4”的编码数据是用于第二语言的说话语言的对象编码数据“objectLang2”。

在下文中，将描述由“<baseURL>”(即，包含在每个音轨中的文件)表示的位置目的地的媒体文件实质。如图14中(a)所示，在未分段MP4(Non-Fragmented MP4)的情况下，例如，媒体文件实质有时被定义为“url1”。在这种情况下，首先布置描述文件类型的“ftyp”框。“ftyp”框表示文件是未分段MP4文件。随后，布置“moov”框和“mdat”框。“moov”框包括所有元数据，例如，每个轨道的报头信息、内容实质的元描述、时间信息等。“mdat”框包括媒体数据主体。

如图14中(b)所示，在分段MP4(Fragmented MP4)的情况下，例如，媒体文件实质有时被定义为“url 2”。在这种情况下，首先布置描述片段类型的“styp”框。随后，布置描述片段索引的“sidx”框。随后，布置预定数量的电影片段(Movie Fragment)。此处，电影片段配置有包括控制信息的“moof”框以及包括媒体数据主体的“mdat”框。由于通过分段发送媒体所获得的片段包括在一个电影片段的“mdat”框中，所以包括在“moof”框中的控制信息是涉及该片段的控制信息。“styp”、“sidx”、“moof”以及“mdat”是组成片段的单元。

此外，还考虑上述“url 1”和“url 2”的组合。在这种情况下，例如，“url 1”可被设为初始化片段，并且“url 1”和“url 2”可被设为一个服务的MP4。替换地，如图14中(c)所示，“url 1”和“url 2”可结合为一个并被定义为“url 3”。

如上所述，在“moov”框中，写入轨道标识符(轨道ID)与级别标识符(级别ID)之间的对应。如图15中(a)所示，“ftyp”框和“moov”框组成初始化片段(Initializationsegment)。在“moov”框中存在“mvex”框，并且在“mvex”框中进一步存在“leva”框。

如图15中(b)所示，在“leva”框中，定义轨道标识符(轨道ID)与级别标识符(级别ID)之间的对应。在所示实例中，“level0”与“track0”相关联，“level1”与“track1”相关联，并且“level2”与“track2”相关联。

图16中(a)示出在广播系统的情况下，发送每个框的实例。一个片段配置有第一初始化片段(is)，接下来“styp”，接下来“sidx”框，并且接下来预定数量的电影片段(配置有“moof”框和“mdat”框)。在所示实例中，预定数量为一。

如上所述，在组成初始化片段(is)的“moov”框中，写入轨道标识符(轨道ID)与级别标识符(级别ID)之间的对应。此外，如图16中(b)所示，在“sidx”框中，由级别(level)定义每个轨道，并且存在每个轨道的注册范围信息。换言之，对应于每个级别，在文件中记录轨道的再现时间信息和开始位置信息。在接收侧中，关于音频，基于范围信息选择性提取期望音轨的音频流。

返回参考图3，服务接收器200从服务发送系统100接收经由RF传输路径或通信网络传输路径传输的DASH/MP4，其是包括作为元文件的MPD文件以及诸如视频、音频等的媒体流(媒体片段)的MP4。

如上所述，除了视频流以外，MP4包括组成3D音频发送数据的包括多个组的编码数据的预定数量的音轨(音频流)。随后，在MPD文件中，插入表示包括在3D音频发送数据中的多个组的编码数据的每个属性的属性信息以及表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息。

服务接收器200基于属性信息和流对应关系信息，对包括具有与扬声器配置和用户选择信息兼容的属性的组的编码数据的音频流选择性执行解码过程，并且获得3D音频的音频输出。

[服务发送系统的DASH/MP4生成单元]

图17示出包括在服务发送系统100中的DASH/MP4生成单元110的示例性配置。DASH/MP4生成单元110包括控制单元111、视频编码器112、音频编码器113以及DASH/MP4格式器114。

视频编码器112输入视频数据SV，对视频数据SV执行诸如MPEG2、H.264/AVC以及H.265/HEVC的编码，并且生成视频流(视频基本流)。音频编码器113输入沉浸式音频和语音对话的对象数据以及信道数据作为音频数据SA。

音频编码器113对音频数据SA执行MPEGH的编码，并且获得3D音频发送数据。如图5所示，3D音频发送数据包括信道编码数据(CD)、沉浸式音频对象编码数据(IAO)以及语音对话对象编码数据(SDO)。音频编码器113生成包括多个组(即，在该实例中，四组)的编码数据的一个或多个音频流(音频基本流)(参见图6中(a)和图6中(b))。

DASH/MP4格式器114基于在视频编码器112中生成的视频流以及在音频编码器113中生成的预定数量的音频流，生成包括视频和音频的媒体流(媒体片段)的MP4作为内容。此处，每个视频流或音频流被存储在MP4中以分别作为独立轨道(tracks)。

此外，DASH/MP4格式器114通过使用内容元数据、片段URL信息等生成MPD文件。在本实施方式中，DASH/MP4格式器114在MPD文件中插入表示包括在3D音频发送数据中的多个组的编码数据的每个属性的属性信息，并且还插入表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息(参见图11和图12)。

将简要说明图17所示的DASH/MP4生成单元110的操作。视频数据SV被提供至视频编码器112。视频编码器112对视频数据SV执行H.264/AVC、H.265/HEVC等的编码，并且生成包括编码视频数据的视频流。视频流被提供至DASH/MP4格式器114。

音频数据SA被提供至音频编码器113。音频数据SA包括信道数据和沉浸式音频和语音对话的对象数据。音频编码器113对音频数据SA执行MPEGH的编码，并且获得3D音频发送数据。

除了信道编码数据(CD)以外，3D音频发送数据包括沉浸式音频对象编码数据(IAO)和语音对话对象编码数据(SDO)(参见图5)。随后，音频编码器113生成包括四组编码数据的一个或多个音频流(参见图6中(a)和图6中(b))。音频流被提供至DASH/MP4格式器114。

DASH/MP4格式器114基于在视频编码器112中生成的视频流以及在音频编码器113中生成的预定数量的音频流，生成包括视频、音频等的媒体流(媒体片段)的MP4作为内容。此处，每个视频流或音频流被存储在MP4中以分别作为单独轨道(tracks)。

此外，DASH/MP4格式器114通过使用内容元数据、片段URL信息等生成MPD文件。在MPD文件中，插入表示包括在3D音频发送数据中的多个组的编码数据的每个属性的属性信息，并且还插入表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息。

[服务接收器的示例性配置]

图18示出服务接收器200的示例性配置。服务接收器200包括接收单元201、DASH/MP4分析单元202、视频解码器203、图像处理电路204、面板驱动电路205以及显示面板206。此外，服务接收器200包括容器缓冲器211-1至211-N、组合器212、3D音频解码器213、音频输出处理电路214以及扬声器系统215。此外，服务接收器200包括CPU 221、闪存ROM 222、DRAM223、内部总线224、远程控制接收单元225以及远程控制发送器226。

CPU 221控制服务接收器200中的每个单元的操作。闪存ROM 222存储控制软件并保存数据。DRAM 223组成CPU 221的工作区域。CPU 221通过在DRAM 223中开发软件或从闪存ROM 222读取的数据激活软件，并且控制服务接收器200中的每个单元。

远程控制接收单元225接收从远程控制发送器226发送的远程控制信号(远程控制代码)，并且将该信号提供至CPU 221。CPU 221基于远程控制代码控制服务接收器200中的每个单元。CPU 221、闪存ROM 222以及DRAM 223连接至内部总线224。

接收单元201接收经由RF传输路径或通信网络传输路径从服务发送系统100发送的DASH/MP4，其是作为元文件的MPD文件以及包括诸如视频和音频的媒体流(媒体片段)的MP4。

除了视频流以外，MP4包括预定数量的音轨(音频流)，该音轨(音频流)包括组成3D音频发送数据的多组编码数据。此外，在MPD文件中，插入表示包括在3D音频发送数据中的多组编码数据的每个属性的属性信息，并且还插入表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息。

DASH/MP4分析单元202分析由接收单元201接收的MPD文件和MP4。DASH/MP4分析单元202从MP4提取视频流，并且将视频流发送至视频解码器203。视频解码器203对视频流执行解码过程，并且获得未压缩的视频数据。

图像处理电路204对通过视频解码器203获得的视频数据执行缩放处理和图像质量调整处理，并且获得用于显示的视频数据。面板驱动电路205基于由图像处理电路204获得的待显示视频数据驱动显示面板206。显示面板206配置有例如，液晶显示器(LCD)、有机场致发光显示器(有机EL显示器)等。

此外，DASH/MP4分析单元202提取包括在MPD文件中的MPD信息，并且将MPD信息发送至CPU 221。CPU 221基于MPD信息控制视频流或音频流的获得过程。此外，DASH/MP4分析单元202例如，从MP4提取诸如每个轨道的报头信息、内容实质的元描述、时间信息的元数据，并且将元数据发送至CPU 221。

CPU 221基于表示每个组的编码数据的属性的属性信息以及表示每个组包括在MPD文件中的哪个音轨(音频流)的流对应关系信息，来识别包括具有与扬声器配置和观看者(用户)选择信息兼容的属性的组的编码数据的音轨(音频流)。

此外，在CPU 221的控制下，换言之，DASH/MP4分析单元202参考级别ID(levelID)、轨道ID(track ID)，并且在包括在MP4中的预定数量的音频流中，选择性地提取包括具有与扬声器配置和观看者(用户)选择信息兼容的属性的组的编码数据的一个或多个音频流。

容器缓冲器211-1至211-N分别输入通过DASH/MP4分析单元202提取的每个音频流。此处，容器缓冲器211-1至211-N的数量N是必要和足够的数量，并且在实际操作中，该数量等于在DASH/MP4分析单元202中提取的音频流的数量。

组合器212从容器缓冲器211-1至211-N中的输入了通过DASH/MP4分析单元202提取的每个音频流的容器缓冲器读取每个音频帧的音频流，并且将具有与扬声器配置和观看者(用户)选择信息兼容的属性的组的编码数据提供至3D音频解码器213。

3D音频解码器213对从组合器212提供的编码数据执行解码过程，并且获得音频数据以驱动扬声器系统215的每个扬声器。此处，对其执行解码处理的编码数据可存在三种情况，这三种情况是仅包括信道编码数据的情况，仅包括对象编码数据的情况，以及包括信道编码数据和对象编码数据这两者的情况。

当解码信道编码数据时，3D音频解码器213通过执行用于扬声器系统215的扬声器配置的下混音和上混音，获得音频数据以驱动每个扬声器。此外，当解码对象编码数据时，3D音频解码器213基于对象信息(元数据)计算扬声器渲染(用于每个扬声器的混合率)，并且根据计算结果，将对象的音频数据混合至用于驱动每个扬声器的音频数据。

音频输出处理电路214对从3D音频解码器213获得的驱动每个扬声器的音频数据执行诸如D/A转换、放大等的必要处理，并且将数据提供至扬声器系统215。扬声器系统215包括诸如多个信道(例如，2信道、5.1信道、7.1信道、22.2信道等)的多个扬声器。

将说明图18所示的服务接收器200的操作。在接收单元201中，经由RF传输路径或通信网络传输路径从服务发送系统100接收DASH/MP4，其是作为元文件的MPD文件以及包括诸如视频和音频的媒体流(媒体片段)的MP4。以此方式接收的MPD文件和MP4被提供至DASH/MP4分析单元202。

在DASH/MP4分析单元202中，分析在接收单元201中接收的MPD文件和MP4。随后，在DASH/MP4分析单元202中，从MP4提取视频流，并且将该视频流发送至视频解码器203。在视频解码器203中，对视频流执行解码处理，并且获得未压缩的视频数据。视频数据被提供至图像处理电路204。

在图像处理电路204中，对在视频解码器203中获得的视频数据执行缩放处理、图像质量调整处理等，并且获得待显示的视频数据。待显示的视频数据被提供至面板驱动电路205。在面板驱动电路205中，基于待显示的视频数据驱动显示面板206。利用该配置，在显示面板206上，显示与待显示的视频数据相对应的图像。

此外，在DASH/MP4分析单元202中，包括在MPD文件中的MPD信息被提取并被发送至CPU 221。此外，在DASH/MP4分析单元202中，从MP4提取元数据，例如，每个轨道的报头信息、内容实质的元描述、时间信息等，并且该元数据被发送至CPU 221。在CPU 221中，基于包括在MPD文件中的属性信息、流对应关系信息等，识别其中组的编码数据具有与扬声器配置和观看者(用户)选择信息兼容的属性的音轨(音频流)。

此外，在CPU 221的控制下，在DASH/MP4分析单元202中，通过参考轨道ID(trackID)从包括在MP4中的预定数量的音频流选择性提取包括与扬声器配置和观看者(用户)选择信息兼容的属性的组的编码数据的一个或多个音频流。

在DASH/MP4分析单元202中提取的音频流被输入至容器缓冲器211-1至211-N中的对应容器缓冲器。在组合器212中，从输入了音频流的容器缓存器的每个音频帧中读取音频流，并经该音频流提供至3D音频解码器213作为具有与扬声器配置和观看者选择信息兼容的属性的组的编码数据。在3D音频解码器213中，对由组合器212提供的编码数据执行解码处理，并且获得用于驱动扬声器系统215的每个扬声器的音频数据。

此处，当解码信道编码数据时，执行用于扬声器系统215的扬声器配置的下混音和上混音的处理，并且获得用于驱动每个扬声器的音频数据。此外，当解码对象编码数据时，基于对象信息(元数据)计算扬声器渲染(用于每个扬声器的混合率)，并且根据计算结果，将对象的音频数据混合至用于驱动每个扬声器的音频数据。

在3D音频解码器213中获得的用于驱动每个扬声器的音频数据被提供至音频输出处理电路214。在音频输出处理电路214中，对用于驱动每个扬声器的音频数据执行诸如D/A转换、放大等的必要处理。随后，处理过的音频数据被提供至扬声器系统215。利用该配置，从扬声器系统215获得与显示面板206的显示图像相对应的声音输出。

图19示出图18所示的服务接收器200中的通过CPU 221的音频解码控制处理的实例。在步骤ST1中，CPU 221开始处理。随后，在步骤ST2中，CPU 221检测接收器的扬声器配置，即，扬声器系统215的扬声器配置。接下来，在步骤ST3中，CPU 221获取来自观看者(用户)的有关音频输出的选择信息。

接下来，在步骤ST4中，CPU 221读取有关MPD信息的每个音频流的信息，其是“groupID”、“attribute”、“switchGroupID”、“presetGroupID”以及“levelID”。随后，在步骤ST5中，CPU 221识别具有与扬声器配置和观看者选择信息兼容的属性的编码数据组所属的音轨的轨道ID(track ID)。

接下来，在步骤ST6中，CPU 221基于识别结果选择每个音轨，并且将存储的音频流输入至容器缓冲器。随后，在步骤ST7中，CPU 221从容器缓冲器读取用于每个音频帧的音频流，并且将必要组的编码数据提供至3D音频解码器213。

接下来，在步骤ST8中，CPU 221确定是否解码对象编码数据。在步骤ST9中，当解码对象编码数据时，CPU 221基于对象信息(元数据)，通过使用方位角(方位信息)和海拔(仰角信息)计算扬声器渲染(用于每个扬声器的混合率)。此后，CPU 221进行至步骤ST10中的处理。此处，在步骤ST8中当对象编码数据不被解码时，CPU 221立即进行至步骤ST10中的处理。

在步骤ST10中，CPU 221确定是否解码信道编码数据。在步骤ST11中，当解码信道编码数据时，CPU 221执行用于扬声器系统215的扬声器配置的下混音和上混音的处理，并且获得用于驱动每个扬声器的音频数据。此后，CPU 221进行至步骤ST12中的处理。此处，在步骤ST10中当对象编码数据不被解码时，CPU 221立即进行至步骤ST12中的处理。

在步骤ST12中，当解码对象编码数据时，CPU 221根据在步骤ST9中的计算结果，将对象的音频数据混合至用于驱动每个扬声器的音频数据，并且此后执行动态范围控制。随后，在步骤ST13中，CPU 221结束处理。本文中，当对象编码数据不被解码时，CPU 221跳过步骤ST12中的处理。

如上所述，在图3所示的收发系统10中，服务发送系统100将表示包括在预定数量的音频流中的多个组的编码数据的每个属性的属性信息插入至MPD文件。因此，接收侧可在解码编码数据之前，轻易识别多个组的编码数据的每个属性，使得必要组的编码数据可被选择性解码和使用，并且这可降低处理负载。

此外，在图3所示的收发系统10中，服务发送系统100将表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息插入至MPD文件。因此，接收侧可轻易识别包括必要组的编码数据的音轨(音频流)，并且处理负载可降低。

<2.变型例>

本文中，在以上实施方式中，服务接收器200被配置为从由服务发送系统100发送的多个音频流中选择性提取其中具有与扬声器配置和观看者选择信息兼容的属性的组的编码数据的音频流，并且通过执行解码处理获得用于驱动预定数量的扬声器的音频数据。

本文中，作为服务接收器，它可被视为从由服务发送系统100发送的多个音频流中选择性提取包括具有与扬声器配置和观看者选择信息兼容的属性的组的编码数据的一个或多个音频流，重新配置具有与扬声器配置和观看者选择信息兼容的属性的组的编码数据的音频流，并且将重新配置的音频流分配至连接至内部网络的装置(包括DLNA装置)。

图20示出如上所述的将重新配置的音频流分配至连接至内部网络的装置的服务接收器200A的示例性配置。在图20中，相同参考标号应用至与图18中的部件相对应的部件，并且其详细解释将根据需要省去。

在通过CPU 221的控制下，DASH/MP4分析单元202参考级别ID(level ID)，即，轨道ID(track ID)，并且从包括在MP4中的预定数量的音频流中，选择性提取包括具有与扬声器配置和观看者(用户)选择信息兼容的属性的组的编码数据的一个或多个音频流。

在DASH/MP4分析单元202中提取的音频流被输入至容器缓冲器211-1至211-N中的对应容器缓冲器。在组合器212中，从输入了音频流的每个容器缓冲器读取用于每个音频帧的音频流，并将该音频流提供至流重新配置单元231。

在流重新配置单元231中，选择性获取具有与扬声器配置和观看者选择信息兼容的属性的预定组的编码数据，并且重新配置具有预定组的编码数据的音频流。重新配置的音频流被提供至传送接口232。随后，重新配置的音频流从传送接口232传送(发送)至连接至内部网络的装置300。

内部网络连接包括以太网连接以及诸如“WiFi”和“Bluetooth”无线连接。本文中，“WiFi”和“Bluetooth”是注册商标。

此外，装置300包括附接至网络终端的环绕声扬声器、第二显示器、音频输出装置。接收重新配置的音频流的传送的装置300执行与图18的服务接收器200中的3D音频解码器213相似的解码处理，并且获得用于驱动预定数量的扬声器的音频数据。

此外，服务接收器可具有将上述重新配置的音频流发送至由诸如，“高清多媒体接口(HDMI)”、“移动高清链路(MHL)”、“DisplayPort”等的数字接口连接的装置的配置。本文中，“HDMI”和“MHL”是注册商标。

此外，上述实施方式描述了提供“属性”的字段以及发送每个组的编码数据的属性信息的实例(参见图11至图13)。然而，本技术包括在发送器与接收器之间定义组ID(GroupID)的值本身使得可通过识别特定组ID来识别编码数据的类型(属性)的特定方法。在这种情况下，除了用作组的标识符以外，组ID用作组的编码数据的属性信息，并且不需要“属性”字段。

此外，上述实施方式描述了信道编码数据和对象编码数据被包括在多个组的编码数据中的实例(参见图5)。然而，本技术可以以类似方式应用至多个组的编码数据仅包括信道编码数据或仅包括对象编码数据的情况。

本文中，本技术可具有以下配置。

(1)一种发送装置，包括：

发送单元，被配置为发送具有元信息的元文件，元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流；以及

(2)根据(1)所述的发送装置，其中，信息插入单元进一步将流对应关系信息插入至元文件，流对应关系信息表示多个组的编码数据分别包括在哪个音频流中。

(3)根据(2)所述的发送装置，其中，流对应关系信息是表示分别标识多个组的编码数据中的每一个的组标识符与分别标识预定数量的音频流中的每一个的标识符之间的对应关系的信息。

(4)根据(1)至(3)中任一项所述的发送装置，其中，元文件是MPD文件。

(5)根据(4)所述的发送装置，其中，信息插入单元通过使用“补充描述符”将属性信息插入至元文件。

(6)根据(1)至(5)中任一项所述的发送装置，其中，发送单元经由RF传输路径或通信网络传输路径发送元文件。

(7)根据(1)至(6)中任一项所述的发送装置，其中，发送单元进一步发送具有包括多个组的编码数据的预定数量的音频流的预定格式的容器。

(8)根据(7)所述的发送装置，其中，容器是MP4。

(9)根据(1)至(8)中任一项所述的发送装置，其中，多个组的编码数据包括信道编码数据和对象编码数据中的一个或两个。

(10)一种发送方法，包括：

发送步骤，通过发送单元发送具有元信息的元文件，该元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流；以及

信息插入步骤，将表示多个组的编码数据的每个属性的属性信息插入至元文件。

(11)一种接收装置，包括：

接收单元，被配置为接收具有元信息的元文件，元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

处理单元，被配置为基于属性信息处理预定数量的音频流。

(12)根据(11)所述的接收装置，

其中，

表示多个组的编码数据分别包括在哪个音频流中的流对应关系信息被进一步插入至元文件，并且

处理单元基于流对应关系信息以及属性信息处理预定数量的音频流。

(13)根据(12)所述的接收装置，其中，处理单元基于属性信息和流对应关系信息，对包括具有与扬声器配置和用户选择信息兼容的属性的组的编码数据的音频流选择性执行解码处理。

(14)根据(11)至(13)中任一项所述的接收装置，其中，多个组的编码数据包括信道编码数据和对象编码数据中的一个或两个。

(15)一种接收方法，包括：

接收步骤，通过接收单元接收具有元信息的元文件，元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

处理步骤，基于属性信息处理预定数量的音频流。

(16)一种接收装置，包括：

流发送单元，被配置为将所重新配置的音频流发送至外部装置。

(17)根据(16)所述的接收装置，其中，

处理单元基于流对应关系信息以及属性信息从预定数量的音频流中选择性获取预定组的编码数据。

(18)一种接收方法，包括：

接收步骤，由接收单元接收具有元信息的元文件，元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

在元文件中插入表示多个组的编码数据的每个属性的属性信息；

处理步骤，基于属性信息从预定数量的音频流中选择性获取预定组的编码数据，并且重新配置包括预定组的编码数据的音频流；以及

流发送步骤，将所重新配置的音频流发送至外部装置。

本技术的主要特征可以通过将表示包括在预定数量的音频流中的多个组的编码数据的相应属性的属性信息以及表示多个组的编码数据分别包括在哪个音轨(音频流)中的流对应关系信息插入至MPD文件(参见图11、图12和图17)，来降低接收侧中的处理负载。

符号说明

10 收发系统

30A、30B 基于MPEG-DASH的流传送系统

31 DASH流文件服务器

32 DASH MPD服务器

33、33-1至33-N) 服务接收器

34 CDN

35、35-1至35-M) 服务接收器

36 广播发送系统

100 服务发送系统

110 DASH/MP4生成单元

112 视频编码器

113 音频编码器

114 DASH/MP4格式器

200 服务接收器

201 接收单元

202 DASH/MP4分析单元

203 视频解码器

204 图像处理电路

205 面板驱动电路

206 显示面板

211-1至211-N 容器缓冲器

212 组合器

213 3D音频解码器

214 音频输出处理电路

215 扬声器系统

221 CPU

222 闪存ROM

223 DRAM

224 内部总线

225 远程控制接收单元

226 远程控制发送器

231 流重新配置单元

232 传送接口

300 装置。

Claims

1.一种发送装置，包括：

发送单元，被配置为发送具有元信息的元文件，所述元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流；以及

信息插入单元，被配置为将表示所述多个组的编码数据的每个属性的属性信息插入至所述元文件。

2.根据权利要求1所述的发送装置，其中，所述信息插入单元进一步将流对应关系信息插入至所述元文件，所述流对应关系信息表示所述多个组的编码数据分别包括在哪个音频流中。

3.根据权利要求2所述的发送装置，其中，所述流对应关系信息是表示分别标识所述多个组的编码数据中的每一个的组标识符与分别标识所述预定数量的音频流中的每一个的标识符之间的对应关系的信息。

4.一种发送方法，包括：

发送步骤，通过发送单元发送具有元信息的元文件，所述元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流；以及

信息插入步骤，将表示所述多个组的编码数据的每个属性的属性信息插入至所述元文件。

5.一种接收装置，包括：

接收单元，被配置为接收具有元信息的元文件，所述元信息用于在所述接收装置中获取包括多个组的编码数据的预定数量的音频流，

在所述元文件中插入有表示所述多个组的编码数据的每个属性的属性信息；以及

处理单元，被配置为基于所述属性信息处理所述预定数量的音频流。

6.根据权利要求5所述的接收装置，

其中，

表示所述多个组的编码数据分别包括在哪个音频流中的流对应关系信息被进一步插入至所述元文件，并且

所述处理单元基于所述流对应关系信息以及所述属性信息处理所述预定数量的音频流。

7.一种接收方法，包括：

接收步骤，通过接收单元接收具有元信息的元文件，所述元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

处理步骤，基于所述属性信息处理所述预定数量的音频流。

8.一种接收装置，包括：

在所述元文件中插入有表示所述多个组的编码数据的每个属性的属性信息；

处理单元，被配置为基于所述属性信息从所述预定数量的音频流中选择性获取预定组的编码数据，并且重新配置包括所述预定组的编码数据的音频流；以及

9.根据权利要求8所述的接收装置，其中，

所述处理单元基于所述流对应关系信息以及所述属性信息从所述预定数量的音频流中选择性获取所述预定组的编码数据。

10.一种接收方法，包括：

接收步骤，由接收单元接收具有元信息的元文件，所述元信息用于在接收装置中获取包括多个组的编码数据的预定数量的音频流，

处理步骤，基于所述属性信息从所述预定数量的音频流中选择性获取预定组的编码数据，并且重新配置包括所述预定组的编码数据的音频流；以及

流发送步骤，将所重新配置的音频流发送至外部装置。