JP6724783B2

JP6724783B2 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: JP6724783B2
Application number: JP2016547428A
Authority: JP
Inventors: 塚越　郁夫; 郁夫塚越
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-09-12
Filing date: 2015-09-07
Publication date: 2020-07-15
Anticipated expiration: 2035-09-07
Also published as: CN106663431A; JP2022065098A; RU2017106965A3; HUE059748T2; HUE042582T2; EP3196875B1; RU2701126C2; WO2016039287A1; JP2023113872A; CN113077800A; CN112951250A; CN106663431B; JP2020170183A; US20170263259A1; EP3196875A1; EP3509064A1; US10878828B2; JP7294472B2; EP3509064B1; PL3196875T3

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、複数種類のオーディオデータを送信する技術に関連した送信装置等に関する。

従来、立体（３Ｄ）音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている（例えば、特許文献１参照）。

特表２０１４−５２０４９１号公報

５．１チャネル、７．１チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなるオブジェクト符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。

本技術の目的は、複数種類の符号化データを送信する場合にあって受信側の処理負荷を軽減することにある。

本技術の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置にある。

本技術において、送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルが送信される。例えば、複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる、ようにされてもよい。

情報挿入部により、メタファイルに、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入される。例えば、メタファイルは、ＭＰＤ（Media Presentation Description）ファイルである、ようにされてもよい。この場合、例えば、情報挿入部は、“Supplementary Descriptor”を用いて、メタファイルに属性情報を挿入する、ようにされてもよい。

また、例えば、送信部は、メタファイルをＲＦ伝送路または通信ネットワーク伝送路を通じて送信する、ようにされてもよい。また、例えば、送信部は、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する、ようにされてもよい。例えば、コンテナは、ＭＰ４である。本発明報告では、ＭＰ４は、ISO base media file format（ISOBMFF）（ISO/IEC 14496-12:2012 ）を指すものとする。

このように本技術においては、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルに、その複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入される。そのため、受信側では、複数のグループの符号化データのそれぞれの属性を当該符号化データのデコード前に容易に認識でき、必要なグループの符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。

なお、本技術において、例えば、情報挿入部は、メタファイルに、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する、ようにされてもよい。この場合、例えば、ストリーム対応関係情報は、複数のグループの符号化データのそれぞれを識別するグループ識別子と所定数のオーディオストリームのそれぞれのストリームを識別する識別子との対応関係を示す情報である、ようにされてもよい。この場合、受信側では、必要なグループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。

また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置にある。

本技術において、受信部により、メタファイルが受信される。このメタファイルは、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つものである。例えば、複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる、ようにされてもよい。メタファイルには、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されている。処理部により、所定数のオーディオストリームが、その属性情報に基づいて処理される。

このように本技術においては、メタファイルに挿入されている複数のグループの符号化データのそれぞれの属性を示す属性情報に基づいて、所定数のオーディオストリームの処理が行われる。そのため、必要なグループの符号化データのみを選択的に復号化して用いることができ、処理負荷を軽減することが可能となる。

なお、本技術において、例えば、メタファイルには、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、処理部は、属性情報の他に、ストリーム対応関係情報に基づいて所定数のオーディオストリームを処理する、ようにされてもよい。この場合、必要なグループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。

また、本技術において、例えば、処理部は、属性情報およびストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す、ようにされてもよい。

また、本技術のさらに他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置にある。

本技術において、受信部により、メタファイルが受信される。このメタファイルは、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つものである。メタファイルには、複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されている。

処理部により、所定数のオーディオストリームから属性情報に基づいて所定のグループの符号化データが選択的に取得され、この所定のグループの符号化データを含むオーディオストリームが再構成される。そして、ストリーム送信部により、再構成されたオーディオストリームが外部機器に送信される。

このように本技術においては、メタファイルに挿入されている複数のグループの符号化データのそれぞれの属性を示す属性情報に基づいて、所定数のオーディオストリームから所定のグループの符号化データが選択的に取得されて、外部機器に送信すべきオーディオストリームが再構成される。必要なグループの符号化データの取得を容易に行うことができ、処理負荷を軽減することが可能となる。

なお、本技術において、例えば、メタファイルには、複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、処理部は、属性情報の他に、ストリーム対応関係情報に基づいて、所定数のオーディオストリームから所定のグループの符号化データを選択的に取得する、ようにされてもよい。この場合、所定グループの符号化データが含まれるオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。

本技術によれば、複数種類の符号化データを送信する場合にあって受信側の処理負荷を軽減することが可能となる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システムの構成例を示すブロック図である。ＭＰＤファイルに階層的に配置されている各構造体の関係の一例を示す図である。実施の形態としての送受信システムの構成例を示すブロック図である。３Ｄオーディオの伝送データにおけるオーディオフレーム（１０２４サンプル）の構造を示す図である。３Ｄオーディオの伝送データの構成例を示す図である。３Ｄオーディオの伝送データを１トラック（１オーディオストリーム）で送信する場合および複数トラック（複数オーディオストリーム）で送信する場合におけるオーディオフレームの構成例を概略的に示す図である。３Ｄオーディオの伝送データの構成例において、４トラックで送信する場合のグループ分割例を示す図である。グループ分割例（４分割）におけるグループとトラックの対応関係などを示す図である。３Ｄオーディオの伝送データの構成例において、２トラックで送信する場合のグループ分割例を示す図である。グループ分割例（２分割）におけるグループとトラックの対応関係などを示す図である。ＭＰＤファイル記述例を示す図である。ＭＰＤファイル他の記述例を示す図である。「SupplementaryDescriptor」による「schemeIdUri」の定義例を示す図である。「<baseURL>」で示されるロケーション先のメディアファイル実体について説明するための図である。 “ｍｏｏｖ”ボックスにおけるトラック識別子（track ID）とレベル識別子（level ID）との対応付けの記述について説明するための図である。放送系の場合における各ボックスの送信例などを示す図である。サービス送信システムが備えるＤＡＳＨ/ＭＰ４生成部の構成例を示すブロック図である。サービス受信機の構成例を示すブロック図である。サービス受信機におけるＣＰＵのオーディオデコード制御処理の一例を示すフローチャートである。サービス受信機の他の構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システムの概要］
最初に、本技術を適用し得るＭＰＥＧ−ＤＡＳＨベースのストリーム配信システムの概要を説明する。

図１（ａ）は、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム３０Ａの構成例を示している。この構成例では、メディアストリームとＭＰＤファイルが、通信ネットワーク伝送路を通じて送信される。このストリーム配信システム３０Ａは、ＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２に、Ｎ個のサービス受信機３３-1，３３-2，・・・，３３-Nが、ＣＤＮ（Content Delivery Network）３４を介して、接続された構成となっている。

ＤＡＳＨストリームファイルサーバ３１は、所定のコンテンツのメディアデータ（ビデオデータ、オーディオデータ、字幕データなど）に基づいて、ＤＡＳＨ仕様のストリームセグメント（以下、適宜、「ＤＡＳＨセグメント」という）を生成し、サービス受信機からのＨＴＴＰ要求に応じてセグメントを送出する。このＤＡＳＨストリームファイルサーバ３１は、ストリーミング専用のサーバであってもよいし、また、ウェブ（Web）サーバで兼用されることもある。

また、ＤＡＳＨストリームファイルサーバ３１は、サービス受信機３３（３３-1，３３-2，・・・，３３-N）からＣＤＮ３４を介して送られてくる所定ストリームのセグメントの要求に対応して、そのストリームのセグメントを、ＣＤＮ３４を介して、要求元の受信機に送信する。この場合、サービス受信機３３は、ＭＰＤ（Media Presentation Description）ファイルに記載されているレートの値を参照して、クライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択して要求を行う。

ＤＡＳＨＭＰＤサーバ３２は、ＤＡＳＨストリームファイルサーバ３１において生成されるＤＡＳＨセグメントを取得するためのＭＰＤファイルを生成するサーバである。コンテンツマネジメントサーバ（図示せず）からのコンテンツメタデータと、ＤＡＳＨストリームファイルサーバ３１において生成されたセグメントのアドレス（url）をもとに、ＭＰＤファイルを生成する。なお、ＤＡＳＨストリームファイルサーバ３１とＤＡＳＨＭＰＤサーバ３２は、物理的に同じものであってもよい。

ＭＰＤのフォーマットでは、ビデオやオーディオなどのそれぞれのストリーム毎にリプレゼンテーション（Representation）という要素を利用して、それぞれの属性が記述される。例えば、ＭＰＤファイルには、レートの異なる複数のビデオデータストリーム毎に、リプレゼンテーションを分けてそれぞれのレートが記述される。サービス受信機３３では、そのレートの値を参考にして、上述したように、サービス受信機３３の置かれているネットワーク環境の状態に応じて、最適なストリームを選択できる。

図１（ｂ）は、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム３０Ｂの構成例を示している。この構成例では、メディアストリームとＭＰＤファイルが、ＲＦ伝送路を通じて送信される。このストリーム配信システム３０Ｂは、ＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２が接続された放送送出システム３６と、Ｍ個のサービス受信機３５-1，３５-2，・・・，３５-Mとで構成されている。

このストリーム配信システム３０Ｂの場合、放送送出システム３６は、ＤＡＳＨストリームファイルサーバ３１で生成されるＤＡＳＨ仕様のストリームセグメント（ＤＡＳＨセグメント）およびＤＡＳＨＭＰＤサーバ３２で生成されるＭＰＤファイルを、放送波に載せて送信する。

図２は、ＭＰＤファイルに階層的に配置されている各構造体の関係の一例を示している。図２（ａ）に示すように、ＭＰＤファイル全体としてのメディア・プレゼンテーション（Media Presentation）には、時間間隔で区切られた複数のピリオド（Period）が存在する。例えば、最初のピリオドはスタートが０秒から、次のピリオドはスタートが１００秒から、などとなっている。

図２（ｂ）に示すように、ピリオドには、複数のリプレゼンテーション（Representation）が存在する。この複数のリプレゼンテーションには、アダプテーションセット（AdaptationSet）でグルーピングされる、ストリーム属性、例えばレートの異なる同一内容のメディアストリームに係るリプレゼンテーション群が存在する。

図２（ｃ）に示すように、リプレゼンテーションには、セグメントインフォ（SegmentInfo）が含まれている。このセグメントインフォには、図２（ｄ）に示すように、イニシャライゼーションセグメント（Initialization Segment）と、ピリオドをさらに細かく区切ったセグメント（Segment）毎の情報が記述される複数のメディアセグメント（Media Segment）が存在する。メディアセグメントには、ビデオやオーディオなどのセグメントデータを実際に取得するためのアドレス(url)の情報等が存在する。

なお、アダプテーションセットでグルーピングされている複数のリプレゼンテーションの間では、ストリームのスイッチングを自由に行うことができる。これにより、サービス受信機が置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択でき、途切れのない配信が可能となる。

［送受信システムの構成例］
図３は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信システム１００とサービス受信機２００により構成されている。この送受信システム１０において、サービス送信システム１００は、上述の図１（ａ）に示すストリーム配信システム３０ＡのＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２に対応する。また、この送受信システム１０において、サービス送信システム１００は、上述の図１（ｂ）に示すストリーム配信システム３０ＢのＤＡＳＨストリームファイルサーバ３１、ＤＡＳＨＭＰＤサーバ３２および放送送出システム３６に対応する。

また、この送受信システム１０において、サービス受信機２００は、上述の図１（ａ）に示すストリーム配信システム３０Ａのサービス受信機３３（３３-1，３３-2，・・・，３３-N）に対応する。また、この送受信システム１０において、サービス受信機２００は、上述の図１（ｂ）に示すストリーム配信システム３０Ｂのサービス受信機３５（３５-1，３５-2，・・・，３５-M）に対応する。

サービス送信システム１００は、ＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれるＭＰ４を、ＲＦ伝送路（図１（ｂ）参照）または通信ネットワーク伝送路（図１（ａ）参照）を通じて、送信する。

図４は、この実施の形態で取り扱う３Ｄオーディオ（ＭＰＥＧＨ）の伝送データにおけるオーディオフレーム（１０２４サンプル）の構造を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”情報と、３Ｄオーディオの伝送データの実際のデータである“Ｆｒａｍｅ”情報と、この“Ｆｒａｍｅ”情報の構成を示す“Ｃｏｎｆｉｇ”情報が存在する。

“Ｆｒａｍｅ”情報には、３Ｄオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

図５は、３Ｄオーディオの伝送データの構成例を示している。この例では、１つのチャネル符号化データと２つのオブジェクト符号化データとからなっている。１つのチャネル符号化データは、５．１チャネルのチャネル符号化データ（ＣＤ）であり、ＳＣＥ１，ＣＰＥ１．１，ＣＰＥ１．２，ＬＦＥ１の各符号化サンプルデータからなっている。

２つのオブジェクト符号化データは、イマーシブオーディオオブジェクト（ＩＡＯ：Immersive audio object）およびスピーチダイアログオブジェクト（ＳＤＯ：Speech Dialog object）の符号化データである。イマーシブオーディオオブジェクト符号化データは、イマーシブサウンドのためのオブジェクト符号化データであり、符号化サンプルデータＳＣＥ２と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）２とからなっている。

スピーチダイアログオブジェクト符号化データは、スピーチランゲージのためのオブジェクト符号化データである。この例では、第１、第２の言語のそれぞれに対応したスピーチダイアログオブジェクト符号化データが存在する。第１の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータＳＣＥ３と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）３とからなっている。また、第２の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータＳＣＥ４と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）４とからなっている。

符号化データは、種類別にグループ（Group）という概念で区別される。図示の例では、５．１チャネルの符号化チャネルデータはグループ１（Group 1）とされ、イマーシブオーディオオブジェクト符号化データはグループ２（Group 2）とされ、第１の言語に係るスピーチダイアログオブジェクト符号化データはグループ３（Group 3）とされ、第２の言語に係るスピーチダイアログオブジェクト符号化データはグループ４（Group 4）とされている。

また、受信側においてグループ間で選択できるものはスイッチグループ（SW Group）に登録されて符号化される。図示の例では、グループ３およびグループ４が、スイッチグループ１（SW Group 1）に登録されている。また、グループを束ねてプリセットグループ（preset Group）とされ、ユースケースに応じた再生が可能とされる。図示の例では、グループ１、グループ２およびグループ３が束ねられてプリセットグループ１とされ、グループ１、グループ２およびグループ４が束ねられてプリセットグループ２とされている。

図３に戻って、サービス送信システム１００は、上述したように複数のグループの符号化データを含む３Ｄオーディオの伝送データを、１オーディオストリームとして１トラック（1 track）で送信するか、あるいは複数オーディオストリームとして複数トラック（Multiple track）で送信する。

図６（ａ）は、図５の３Ｄオーディオの伝送データの構成例において、１トラック（１オーディオストリーム）で送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、オーディオトラック１（Audio track 1）に、“ＳＹＮＣ”情報と“Ｃｏｎｆｉｇ”情報と共に、チャネル符号化データ（ＣＤ）、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。

図６（ｂ）は、図５の３Ｄオーディオの伝送データの構成例において、複数トラック（複数オーディオストリーム）、ここでは３トラックで送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、オーディオトラック１（Audio track 1）に、“ＳＹＮＣ”情報と“Ｃｏｎｆｉｇ”情報と共に、チャネル符号化データ（ＣＤ）が含まれる。また、オーディオトラック２（Audio track 2）に、“ＳＹＮＣ”情報と“Ｃｏｎｆｉｇ”情報と共に、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれる。さらに、オーディオトラック３（Audio track 3）に、“ＳＹＮＣ”情報と“Ｃｏｎｆｉｇ”情報と共に、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。

図７は、図５の３Ｄオーディオの伝送データの構成例において、４トラックで送信する場合のグループ分割例を示している。この場合、オーディオトラック１には、グループ１として区別されるチャネル符号化データ（ＣＤ）が含まれる。また、オーディオトラック２には、グループ２として区別されるイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれる。また、オーディオトラック３には、グループ３として区別される第１の言語のスピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。さらに、オーディオトラック４には、グループ４として区別される第２の言語のスピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。

図８は、図７のグループ分割例（４分割）におけるグループとオーディオトラックの対応関係などを示している。ここで、グループＩＤ（group ID）は、グループを識別するための識別子である。アトリビュート（attribute）は、各グループの符号化データの属性を示している。スイッチグループＩＤ（switch Group ID）は、スイッチンググループを識別するための識別子である。プリセットグループＩＤ（preset Group ID）は、プリセットグループを識別するための識別子である。トラックＩＤ（track ID）は、オーディオトラックを識別するための識別子である。

図示の対応関係は、グループ１に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、オーディオトラック１に含まれている、ことを示している。また、図示の対応関係は、グループ２に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ（イマーシブオーディオオブジェクト符号化データ）であって、スイッチグループを構成しておらず、オーディオトラック２に含まれている、ことを示している。

また、図示の対応関係は、グループ３に属する符号化データは、第１の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、オーディオトラック３に含まれている、ことを示している。また、図示の対応関係は、グループ４に属する符号化データは、第２の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、オーディオトラック４に含まれている、ことを示している。

また、図示の対応関係は、プリセットグループ１は、グループ１、グループ２およびグループ３を含む、ことが示されている。さらに、図示の対応関係は、プリセットグループ２は、グループ１、グループ２およびグループ４を含む、ことが示されている。

図９は、図５の３Ｄオーディオの伝送データの構成例において、２トラックで送信する場合のグループ分割例を示している。この場合、オーディオトラック１には、グループ１として区別されるチャネル符号化データ（ＣＤ）と、グループ２として区別されるイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれる。また、オーディオトラック２には、グループ３として区別される第１の言語のスピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、グループ４として区別される第２の言語のスピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。

図１０は、図９のグループ分割例（２分割）におけるグループとサブストリームの対応関係などを示している。図示の対応関係は、グループ１に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、オーディオトラック１に含まれている、ことを示している。また、図示の対応関係は、グループ２に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ（イマーシブオーディオオブジェクト符号化データ）であって、スイッチグループを構成しておらず、オーディオトラック１に含まれている、ことを示している。

また、図示の対応関係は、グループ３に属する符号化データは、第１の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、オーディオトラック２に含まれている、ことを示している。また、図示の対応関係は、グループ４に属する符号化データは、第２の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、オーディオトラック２に含まれている、ことを示している。

図３に戻って、サービス送信システム１００は、ＭＰＤファイルに、３Ｄオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する。また、サービス送信システム１００は、ＭＰＤファイルに、この複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報を挿入する。この実施の形態において、このストリーム対応関係情報は、例えば、グループＩＤ（group ID）とトラックＩＤ（track ID）との対応関係を示す情報とされる。

サービス送信システム１００は、これらの属性情報およびストリーム対応関係情報をＭＰＤファイルに挿入する。“SupplementaryDescriptor”により、「schemeIdUri」を、従来の規格における既定義とは別に、放送その他のアプリケーションとして新規に定義することが可能である、この実施の形態において、サービス送信システム１００は、“SupplementaryDescriptor”を用いて、これらの属性情報およびストリーム対応関係情報をＭＰＤファイルに挿入する。

図１１は、図７のグループ分割例（４分割）に対応したＭＰＤファイル記述例を示している。図１２は、図９のグループ分割例（２分割）に対応したＭＰＤファイル記述例を示している。ここでは、説明の簡単化のためにオーディオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームなどその他のメディアストリームに関する情報も記述されている。図１３は、“SupplementaryDescriptor”による「schemeIdUri」の定義例を示す図である。

最初に、図１１のＭＰＤファイル記述例を説明する。「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ１が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:codecType”」は、コーデックの種類を示す。ここでは、“mpegh”とされる。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group1”/>」の記述により、オーディオストリームにグループ１“group1”の符号化データが含まれていることが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:3dAudio:groupId”」は、グループの識別子を示す。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “channeldata”/>」の記述により、グループ１“group1”の符号化データがチャネル符号化データ“channeldata”であることが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:3dAudio:attribute”」は、該当グループの符号化データの属性を示す。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ１“group1”の符号化データがいずれのスイッチグループにも属さないことが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:3dAudio:switchGroupId”」は、該当グループが属するスイッチグループの識別子を示す。例えば、「value」が“０”であるときは、いずれのスイッチグループにも属さないことを示す。「value」が“０”以外であるときは、属するスイッチグループを示す。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ１“group1”の符号化データがプリセットグループ１“preset1”に属することが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ１“group1”の符号化データがプリセットグループ２“preset2”に属することが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:3dAudio:presetGroupId”」は、該当グループが属するプリセットグループの識別子を示す。

「<Representation id=“1” bandwidth=“128000”>」の記述により、グループ１のアダプテーションセットの中に、「Representation id=“1”」で識別されるリプレゼンテーションとして、グループ１“group1”の符号化データを含むビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp1/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp1/128.mp4」として示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level1”/>」の記述により、そのオーディオストリームが、レベル１“level1”に対応したトラックで送信されることが示されている。図１３に示すように、「schemeIdUri=“urn:brdcst:3dAudio:levelId」は、該当グループの符号化データを含むオーディオストリームを送信するトラックの識別子に対応するレベルの識別子を示す。なお、トラック識別子（track ID）とレベル識別子（level ID）との対応付けは、後述するように、例えば、“ｍｏｏｖ”ボックスに記述されている。

また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ２が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group2”/>」の記述により、オーディオストリームにグループ２“group2”の符号化データが含まれていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectSound”/>」の記述により、グループ２“group2”の符号化データがイマーシブサウンドのためのオブジェクト符号化データ“objectSound”であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ２“group2”の符号化データがいずれのスイッチグループにも属さないことが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ２“group2”の符号化データがプリセットグループ１“preset1”に属することが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ２“group2”の符号化データがプリセットグループ２“preset2”に属することが示されている。

「<Representation id=“2” bandwidth=“128000”>」の記述により、グループ２のアダプテーションセットの中に、「Representation id=“2”」で識別されるリプレゼンテーションとして、グループ２“group2”の符号化データを含むビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp2/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp2/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level2”/>」の記述により、そのオーディオストリームがレベル２“level2”に対応したトラックで送信されることが示されている。

また、「<AdaptationSet mimeType=“audio/mp4” group=“3”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ３が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group3”/>」の記述により、オーディオストリームにグループ３“group3”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang1”/>」の記述により、グループ３“group3”の符号化データが第１の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang1”であることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ３“group3”の符号化データがスイッチグループ１（switch group 1）に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ３“group3”の符号化データがプリセットグループ１“preset1”に属することが示されている。

「<Representation id=“3” bandwidth=“128000”>」の記述により、グループ３のアダプテーションセットの中に、「Representation id=“3”」で識別されるリプレゼンテーションとして、グループ３“group3”の符号化データを含むビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp3/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp3/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level3”/>」の記述により、そのオーディオストリームがレベル３“level3”に対応したトラックで送信されることが示されている。

また、「<AdaptationSet mimeType=“audio/mp4” group=“4”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ４が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group4”/>」の記述により、オーディオストリームにグループ４“group4”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang2”/>」の記述により、グループ４“group4”の符号化データが第２の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang2”であることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “1”/>」の記述により、グループ４“group4”の符号化データがスイッチグループ１（switch group 1）に属していることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ４“group4”の符号化データがプリセットグループ２“preset2”に属することが示されている。

「<Representation id=“4” bandwidth=“128000”>」の記述により、グループ４のアダプテーションセットの中に、「Representation id=“4”」で識別されるリプレゼンテーションとして、グループ４“group4”の符号化データを含むビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp4/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp4/128.mp4」として示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level4”/>」の記述により、そのオーディオストリームがレベル４“level4”に対応したトラックで送信されることが示されている。

次に、図１２のＭＰＤファイル記述例を説明する。「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ１が割り当てられていることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。

「<Representation id=“1” bandwidth=“128000”>」の記述により、グループ１のアダプテーションセットの中に、「Representation id=“1”」で識別されるリプレゼンテーションとして、ビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp1/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp1/128.mp4」として示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level1”/>」の記述により、そのオーディオストリームがレベル１“level1”に対応したトラックで送信されることが示されている。

「<SubRepresentation id=“11” subgroupSet=“1”>」の記述により、「Representation id=“1”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“11”」で識別されるサブリプレゼンテーションが存在し、サブグループセット１が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group1”/>」の記述により、オーディオストリームにグループ１“group1”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “channeldata”/>」の記述により、グループ１“group1”の符号化データがチャネル符号化データ“channeldata”であることが示されている。

<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ１“group1”の符号化データがいずれのスイッチグループにも属さないことが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ１“group1”の符号化データがプリセットグループ１“preset1”に属することが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ１“group1”の符号化データがプリセットグループ２“preset2”に属することが示されている。

「<SubRepresentation id=“12” subgroupSet=“2”>」の記述により、「Representation id=“1”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“12”」で識別されるサブリプレゼンテーションが存在し、サブグループセット２が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group2”/>」の記述により、オーディオストリームにグループ２“group2”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectSound”/>」の記述により、グループ２“group2”の符号化データがイマーシブサウンドのためのオブジェクト符号化データ“objectSound”であることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:switchGroupId” value= “0”/>」の記述により、グループ２“group2”の符号化データがいずれのスイッチグループにも属さないことが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset1”/>」の記述により、グループ２“group2”の符号化データがプリセットグループ１“preset1”に属することが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:presetGroupId” value= “preset2”/>」の記述により、グループ２“group2”の符号化データがプリセットグループ２“preset2”に属することが示されている。

また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ２が割り当てられていることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>の記述により、オーディオストリームのコーデックが「ＭＰＥＧＨ（３Ｄオーディオ）」であることが示されている。

「<Representation id=“2” bandwidth=“128000”>」の記述により、グループ１のアダプテーションセットの中に、「Representation id=“2”」で識別されるリプレゼンテーションとして、ビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp2/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp2/128.mp4」として示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:levelId” value= “level2”/>」の記述により、そのオーディオストリームがレベル２“level2”に対応したトラックで送信されることが示されている。

「<SubRepresentation id=“21” subgroupSet=“3”>」の記述により、「Representation id=“2”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“21”」で識別されるサブリプレゼンテーションが存在し、サブグループセット３が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group3”/>」の記述により、オーディオストリームにグループ３“group3”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang1”/>」の記述により、グループ３“group3”の符号化データが第１の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang1”であることが示されている。

「<SubRepresentation id=“22” subgroupSet=“4”>」の記述により、「Representation id=“2”」で識別されるリプレゼンテーションの中に、「SubRepresentation id=“22”」で識別されるサブリプレゼンテーションが存在し、サブグループセット４が割り当てられていることが示されている。

「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:groupId” value= “group4”/>」の記述により、オーディオストリームにグループ４“group4”の符号化データが含まれていることが示されている。「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:3dAudio:attribute” value= “objectLang2”/>」の記述により、グループ４“group4”の符号化データが第２の言語のスピーチランゲージのためのオブジェクト符号化データ“objectLang2”であることが示されている。

ここで、「<baseURL>」で示されるロケーション先のメディアファイル実体、すなわち、各オーディオトラックでコンテナされるファイルについて説明する。ノンフラグメンテッドＭＰ４（Non-Fragmented MP4）の場合、例えば、図１４（ａ）に示すように、“url 1”として定義される場合がある。この場合、最初にファイルタイプが記述される“ｆｔｙｐ”ボックスが配置される。この“ｆｔｙｐ”ボックスにより、断片化されていないＭＰ４ファイルであることが示される。続いて、“ｍｏｏｖ”ボックスおよび“ｍｄａｔ”ボックスが配置される。“ｍｏｏｖ”ボックスには、全てのメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などが含まれる。“ｍｄａｔ”ボックスには、メディアデータ本体が入る。

また、フラグメンテッドＭＰ４（Fragmented MP4）の場合、例えば、図１４（ｂ）に示すように、“url 2”として定義される場合がある。この場合、最初にセグメントタイプが記述される“ｓｔｙｐ”ボックスが配置される。続いて、セグメントインデックスが記述される“ｓｉｄｘ”ボックスが配置される。それに続いて、所定個数のムービーフラグメント（Movie Fragment）が配置される。ここで、ムービーフラグメントは、制御情報が入る“ｍｏｏｆ”ボックスと、メディアデータ本体が入る“ｍｄａｔ”ボックスから構成される。一つのムービーフラグメントの“ｍｄａｔ”ボックスには、伝送メディアが断片化されて得られた断片が入るので、ボックスに入る制御情報はその断片に関する制御情報となる。“ｓｔｙｐ”、“ｓｉｄｘ”、“ｍｏｏｆ”、“ｍｄａｔ”がセグメントを構成する単位となる。

また、上述の“url 1”と“url 2”の組み合わせも考えられる。この場合、例えば、“url 1”がイニシャライゼーションセグメント（initialization segment）として、“url 1”と“url 2”を１サービスのＭＰ４とすることも可能である。あるいは、“url 1”と“url 2”を一つにまとめて、図１４（ｃ）に示すように、“url 3”として定義することも可能である。

上述したように、“ｍｏｏｖ”ボックスには、トラック識別子（track ID）とレベル識別子（level ID）との対応付けが記述されている。図１５（ａ）に示すように、“ｆｔｙｐ”ボックスと“ｍｏｏｖ”ボックスはイニシャライゼーションセグメント（Initialization segment）を構成している。“ｍｏｏｖ”ボックスの中には、“mvex”ボックスが存在し、さらにその中に“leva”ボックスが存在する。

図１５（ｂ）に示すように、この“leva”ボックスに、トラック識別子（track ID）とレベル識別子（level ID）との対応付けが定義されている。図示の例では、“level0”が“track0”に対応付けられ、“level1”が“track1”に対応付けられ、“level2”に“track2”が対応付けられている。

図１６（ａ）は、放送系の場合における各ボックスの送信例を示している。先頭のイニシャライゼーションセグメント（is）と、それに続く“ｓｔｙｐ” 、そして“ｓｉｄｘ”ボックスと、それに続く所定数のムービーフラグメント（“ｍｏｏｆ”ボックスと“ｍｄａｔ”ボックスからなる）により、１セグメントが構成されている。図示の例は、所定数が１の場合を示している。

上述したように、イニシャライゼーションセグメント（is）を構成する“ｍｏｏｖ”ボックスには、トラック識別子（track ID）とレベル識別子（level ID）との対応付けが記述されている。また、図１６（ｂ）に示すように、“sidx”ボックスには、各トラックがレベル（level）で示され、各トラックのレンジ情報が登録されて存在する。すなわち、各レベルに対応して、再生時間情報やファイル上のトラック開始位置情報が登録されている。受信側では、オーディオに関して、このレンジ情報に基づいて、所望のオーディオトラックのオーディオストリームを選択的に取り出すことが可能となる。

図３に戻って、サービス受信機２００は、サービス送信システム１００から、ＲＦ伝送路または通信ネットワーク伝送路を通じて送られてくるＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれるＭＰ４を受信する。

ＭＰ４は、上述したように、ビデオストリームの他に、３Ｄオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオトラック（オーディオストリーム）を有している。そして、ＭＰＤファイルには、３Ｄオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されていると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報が挿入されている。

サービス受信機２００は、属性情報およびストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を行って、３Ｄオーディオのオーディオ出力を得る。

［サービス送信システムのＤＡＳＨ/ＭＰ４生成部］
図１７は、サービス送信システム１００が備えるＤＡＳＨ/ＭＰ４生成部１１０の構成例を示している。このＤＡＳＨ/ＭＰ４生成部１１０は、制御部１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、ＤＡＳＨ/ＭＰ４フォーマッタ１１４を有している。

ビデオエンコーダ１１２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対してＭＰＥＧ２、Ｈ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。オーディオエンコーダ１１３は、オーディオデータＳＡとして、チャネルデータと共に、イマーシブオーディオおよびスピーチダイアログのオブジェクトデータを入力する。

オーディオエンコーダ１１３は、オーディオデータＳＡに対してＭＰＥＧＨの符号化を施し、３Ｄオーディオの伝送データを得る。この３Ｄオーディオの伝送データには、図５に示すように、チャネル符号化データ（ＣＤ）と、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）と、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる。オーディオエンコーダ１１３は、複数のグループ、ここでは４つのグループの符号化データ含む１つまたは複数のオーディオストリーム（オーディオエレメンタリストリーム）を生成する（図６（ａ），（ｂ）参照）。

ＤＡＳＨ/ＭＰ４フォーマッタ１１４は、ビデオエンコーダ１１２で生成されるビデオストリームおよびオーディオエンコーダ１１３で生成される所定数のオーディオストリームに基づいて、コンテンツであるビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれるＭＰ４を生成する。ここで、ビデオやオーディオの各ストリームは、ＭＰ４に、それぞれ別個のトラック（track）として格納される。

また、ＤＡＳＨ/ＭＰ４フォーマッタ１１４は、コンテンツメタデータやセグメントＵＲＬ情報等を利用してＭＰＤファイルを生成する。この実施の形態において、ＤＡＳＨ/ＭＰ４フォーマッタ１１４は、このＭＰＤファイルに、３Ｄオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入すると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報を挿入する（図１１、図１２参照）。

図１７に示すＤＡＳＨ/ＭＰ４生成部１１０の動作を簡単に説明する。ビデオデータＳＶはビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、そのビデオデータＳＶに対してＨ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、ＤＡＳＨ/ＭＰ４フォーマッタ１１４に供給される。

オーディオデータＳＡは、オーディオエンコーダ１１３に供給される。このオーディオデータＳＡには、チャネルデータと、イマーシブオーディオおよびスピーチダイアログのオブジェクトデータが含まれる。オーディオエンコーダ１１３では、オーディオデータＳＡに対して、ＭＰＥＧＨの符号化が施され、３Ｄオーディオの伝送データが得られる。

この３Ｄオーディオの伝送データには、チャネル符号化データ（ＣＤ）の他に、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）と、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）が含まれる（図５参照）。そして、このオーディオエンコーダ１１３では、４つのグループの符号化データ含む１つまたは複数のオーディオストリームが生成される（図６（ａ），（ｂ）参照）。このオーディオストリームは、ＤＡＳＨ/ＭＰ４フォーマッタ１１４に供給される。

ＤＡＳＨ/ＭＰ４フォーマッタ１１４では、ビデオエンコーダ１１２で生成されるビデオストリームおよびオーディオエンコーダ１１３で生成される所定数のオーディオストリームに基づいて、コンテンツであるビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれるＭＰ４が生成される。ここで、ビデオやオーディオの各ストリームは、ＭＰ４に、それぞれ別個のトラック（track）として格納される。

また、ＤＡＳＨ/ＭＰ４フォーマッタ１１４では、コンテンツメタデータやセグメントＵＲＬ情報等を利用してＭＰＤファイルが生成される。このＭＰＤファイルには、３Ｄオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報が挿入される。

［サービス受信機の構成例］
図１８は、サービス受信機２００の構成例を示している。このサービス受信機２００は、受信部２０１と、ＤＡＳＨ/ＭＰ４解析部２０２と、ビデオデコーダ２０３と、映像処理回路２０４と、パネル駆動回路２０５と、表示パネル２０６を有している。また、このサービス受信機２００は、コンテナバッファ２１１-1〜２１１-Nと、コンバイナ２１２と、３Ｄオーディオデコーダ２１３と、音声出力処理回路２１４と、スピーカシステム２１５を有している。また、このサービス受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６を有している。

ＣＰＵ２２１は、サービス受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、サービス受信機２００の各部を制御する。

リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、サービス受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

受信部２０１は、サービス送信システム１００から、ＲＦ伝送路または通信ネットワーク伝送路を通じて送られてくるＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれるＭＰ４を受信する。

ＭＰ４は、ビデオストリームの他に、３Ｄオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオトラック（オーディオストリーム）を有している。また、ＭＰＤファイルには、３Ｄオーディオの伝送データに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されていると共に、この複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報が挿入されている。

ＤＡＳＨ/ＭＰ４解析部２０２は、受信部２０１で受信されたＭＰＤファイルおよびＭＰ４を解析する。ＤＡＳＨ/ＭＰ４解析部２０２は、ＭＰ４からビデオストリームを抽出し、ビデオデコーダ２０３に送る。ビデオデコーダ２０３は、ビデオストリームに復号化処理を行って非圧縮のビデオデータを得る。

映像処理回路２０４は、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路２０５は、映像処理回路２０４で得られる表示用のビデオデータに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

また、ＤＡＳＨ/ＭＰ４解析部２０２は、ＭＰＤファイルに含まれるＭＰＤ情報を抽出し、ＣＰＵ２２１に送る。ＣＰＵ２２１は、このＭＰＤ情報に基づいて、ビデオ、オーディオのストリームの取得処理を制御する。また、ＤＡＳＨ/ＭＰ４解析部２０２は、ＭＰ４からメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などを抽出し、ＣＰＵ２２１に送る。

ＣＰＵ２１は、ＭＰＤファイルに含まれている、各グループの符号化データの属性を示す属性情報、各グループがどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報などに基づいて、スピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データが含まれるオーディオトラック（オーディオストリーム）を認識する。

また、ＤＡＳＨ/ＭＰ４解析部２０２は、ＣＰＵ２２１の制御のもと、ＭＰ４が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームを、レベルＩＤ（level ID）、従ってトラックＩＤ（track ID）を参照して、選択的に取り出す。

コンテナバッファ２１１-1〜２１１-Nは、それぞれ、ＤＡＳＨ/ＭＰ４解析部２０２で取り出される各オーディオストリームを取り込む。ここで、コンテナバッファ２１１-1〜２１１-Nの個数Ｎとしては必要十分な個数とされるが、実際の動作では、ＤＡＳＨ/ＭＰ４解析部２０２で取り出されるオーディオストリームの数だけ用いられることになる。

コンバイナ２１２は、コンテナバッファ２１１-1〜２１１-NのうちＤＡＳＨ/ＭＰ４解析部２０２で取り出される各オーディオストリームがそれぞれ取り込まれたコンテナバッファから、オーディオフレーム毎に、オーディオストリームを読み出し、３Ｄオーディオデコーダ２１３にスピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データとして供給する。

３Ｄオーディオデコーダ２１３は、コンバイナ２１２から供給される符号化データに対してデコード処理を施し、スピーカシステム２１５の各スピーカを駆動するためのオーディオデータを得る。ここで、デコード処理される符号化データは、チャネル符号化データのみを含む場合、オブジェクト符号化データのみを含む場合、さらにはチャネル符号化データおよびオブジェクト符号化データの双方を含む場合の３通りが考えられる。

３Ｄオーディオデコーダ２１３は、チャネル符号化データをデコードするときは、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。また、３Ｄオーディオデコーダ２１３は、オブジェクト符号化データをデコードするときは、オブジェクト情報（メタデータ）に基づきスピーカレンダリング（各スピーカへのミキシング割合）を計算し、その計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングする。

音声出力処理回路２１４は、３Ｄオーディオデコーダ２１３で得られた各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を行って、スピーカシステム２１５に供給する。スピーカシステム２１５は、複数チャネル、例えば２チャネル、５．１チャネル、７．１チャネル、２２．２チャネルなどの複数のスピーカを備える。

図１８に示すサービス受信機２００の動作を簡単に説明する。受信部２０１では、サービス送信システム１００から、ＲＦ伝送路または通信ネットワーク伝送路を通じて送られてくるＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリーム（メディアセグメント）とを含むＭＰ４が受信される。このように受信されるＭＰＤファイルおよびＭＰ４は、ＤＡＳＨ/ＭＰ４解析部２０２に供給される。

ＤＡＳＨ/ＭＰ４解析部２０２では、受信部２０１で受信されたＭＰＤファイルおよびＭＰ４が解析される。そして、ＤＡＳＨ/ＭＰ４解析部２０２では、ＭＰ４からビデオストリームが抽出され、ビデオデコーダ２０３に送られる。ビデオデコーダ２０３では、ビデオストリームに復号化処理が施されて非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路２０４に供給される。

映像処理回路２０４では、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、表示用のビデオデータに対応した画像が表示される。

また、ＤＡＳＨ/ＭＰ４解析部２０２では、ＭＰＤファイルに含まれるＭＰＤ情報が抽出され、ＣＰＵ２２１に送られる。また、ＤＡＳＨ/ＭＰ４解析部２０２では、ＭＰ４からメタデータ、例えば、各トラックのヘッダ情報やコンテンツ内容のメタ記述、時刻情報などが抽出され、ＣＰＵ２２１に送られる。ＣＰＵ２２１では、ＭＰＤファイルに含まれている属性情報、ストリーム対応関係情報などに基づいて、スピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データが含まれるオーディオトラック（オーディオストリーム）が認識される。

また、ＤＡＳＨ/ＭＰ４解析部２０２では、ＣＰＵ２２１の制御のもと、ＭＰ４が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームが、トラックＩＤ（track ID）を参照して、選択的に取り出される。

ＤＡＳＨ/ＭＰ４解析部２０２で取り出されたオーディオストリームは、コンテナバッファ２１１-1〜２１１-Nのうち対応するコンテナバッファに取り込まれる。コンバイナ２１２では、オーディオストリームが取り込まれた各コンテナッファから、オーディオフレーム毎に、オーディオストリームが読み出され、３Ｄオーディオデコーダ２１３にスピーカ構成および視聴者選択情報に適合する属性を持つグループの符号化データとして供給される。３Ｄオーディオデコーダ２１３では、コンバイナ２１２から供給される符号化データに対してデコード処理が施され、スピーカシステム２１５の各スピーカを駆動するためのオーディオデータが得られる。

ここで、チャネル符号化データがデコードされるときは、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理が行われて、各スピーカを駆動するためのオーディオデータが得られる。また、オブジェクト符号化データがデコードされるときは、オブジェクト情報（メタデータ）に基づきスピーカレンダリング（各スピーカへのミキシング割合）が計算され、その計算結果に応じて、オブジェクトのオーディオデータが各スピーカを駆動するためのオーディオデータにミキシングされる。

３Ｄオーディオデコーダ２１３で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路２１４に供給される。この音声出力処理回路２１４では、各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム２１５に供給される。これにより、スピーカシステム２１５からは表示パネル２０６の表示画像に対応した音響出力が得られる。

図１９は、図１８に示すサービス受信機２００におけるＣＰＵ２２１のオーディオデコード制御処理の一例を示している。ＣＰＵ２２１は、ステップＳＴ１において、処理を開始する。そして、ＣＰＵ２２１は、ステップＳＴ２において、受信機スピーカ構成、つまりスピーカシステム２１５のスピーカ構成を検知する。次に、ＣＰＵ２２１は、ステップＳＴ３において、視聴者（ユーザ）によるオーディオ出力に関する選択情報を得る。

次に、ＣＰＵ２２１は、ステップＳＴ４において、ＭＰＤ情報の各オーディオストリームに関係する情報、すなわち「groupID」、「attribute」、「switchGroupID」、「presetGroupID」、「levelID」を読む。そして、ＣＰＵ２２１は、ステップＳＴ５において、スピーカ構成、視聴者選択情報に適合する属性を持つ符号化データグループが属するオーディオトラックのトラックＩＤ（track ID）を認識する。

次に、ＣＰＵ２２１は、ステップＳＴ６において、認識結果に基づき、各オーディオトラックを選択し、格納されているオーディオストリームをコンテナバッファに取り込む。そして、ＣＰＵ２２１は、ステップＳＴ７において、コンテナバッファからオーディオフレーム毎に、オーディオストリームを読み出し、３Ｄオーディデコーダ２１３へ必要なグループの符号化データを供給する。

次に、ＣＰＵ２２１は、ステップＳＴ８において、オブジェクト符号化データをデコードするか否かを判断する。オブジェクト符号化データをデコードするとき、ＣＰＵ２２１は、ステップＳＴ９において、オブジェクト情報（メタデータ）に基づき、アジマス（方位情報）とエレベーション（仰角情報）によりスピーカレンダリング（各スピーカへのミキシング割合）を計算する。その後に、ＣＰＵ２２１は、ステップＳＴ１０に進む。なお、ステップＳＴ８において、オブジェクト符号化データをデコードしないとき、ＣＰＵ２２１は、直ちに、ステップＳＴ１０に進む。

このステップＳＴ１０において、ＣＰＵ２２１は、チャネル符号化データをデコードするか否かを判断する。チャネル符号化データをデコードするとき、ＣＰＵ２２１は、ステップＳＴ１１において、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。その後に、ＣＰＵ２２１は、ステップＳＴ１２に進む。なお、ステップＳＴ１０において、オブジェクト符号化データをデコードしないとき、ＣＰＵ２２１は、直ちに、ステップＳＴ１２に進む。

このステップＳＴ１２において、ＣＰＵ２２１は、オブジェクト符号化データをデコードするとき、ステップＳＴ９の計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングし、その後にダイナミックレンジ制御を行う。その後、ＣＰＵ２１はステップＳＴ１３において、処理を終了する。なお、オブジェクト符号化データをデコードしないとき、ＣＰＵ２２１は、ステップＳＴ１２をスキップする。

上述したように、図３に示す送受信システム１０において、サービス送信システム１００は、ＭＰＤファイルに、所定数のオーディオストリームに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する。そのため、受信側では、複数のグループの符号化データのそれぞれの属性を当該符号化データのデコード前に容易に認識でき、必要なグループの符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。

また、図３に示す送受信システム１０において、サービス送信システム１００は、ＭＰＤファイルに、複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報を挿入する。そのため、受信側では、必要なグループの符号化データが含まれるオーディオトラック（オーディオストリーム）を容易に認識でき、処理負荷を軽減することが可能となる。

＜２．変形例＞
なお、上述実施の形態において、サービス受信機２００は、サービス送信システム１００から送信されてくる複数のオーディオストリームから、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データが含まれるオーディオストリームを選択的に取り出し、デコード処理を行って所定数のスピーカ駆動用のオーディオデータを得る構成となっている。

しかし、サービス受信機として、サービス送信システム１００から送信されてくる複数のオーディオストリームから、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データを持つ１つまたは複数のオーディオストリームを選択的に取り出し、スピーカ構成、視聴者選択情報に適合する属性を持つグループの符号化データを持つオーディオストリームを再構成し、その再構成オーディオストリームを、構内ネットワーク接続されたデバイス（ＤＬＮＡ機器も含む）に配信することも考えられる。

図２０は、上述したように再構成オーディオストリームを構内ネットワーク接続されたデバイスに配信するサービス受信機２００Ａの構成例を示している。この図２０において、図１８と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。

ＤＡＳＨ/ＭＰ４解析部２０２は、ＣＰＵ２２１の制御のもと、ＭＰ４が有する所定数のオーディオストリームのうち、スピーカ構成および視聴者（ユーザ）選択情報に適合する属性を持つグループの符号化データを含む一つまたは複数のオーディオストリームが、レベルＩＤ（level ID）、従ってトラックＩＤ（track ID）が参照されて、選択的に取り出される。

ＤＡＳＨ/ＭＰ４解析部２０２で取り出されたオーディオストリームは、コンテナバッファ２１１-1〜２１１-Nのうち対応するコンテナバッファに取り込まれる。コンバイナ２１２では、オーディオストリームが取り込まれた各コンテナバッファから、オーディオフレーム毎に、オーディオストリームが読み出され、ストリーム再構成部２３１に供給される。

ストリーム再構成部２３１では、スピーカ構成、視聴者選択情報に適合する属性を持つ所定グループの符号化データが選択的に取得され、この所定グループの符号化データを持つオーディオストリームが再構成される。この再構成オーディオストリームは配信インタフェース２３２に供給される。そして、この配信インタフェース２３２から、構内ネットワーク接続されたデバイス３００に配信（送信）される。

この構内ネットワーク接続には、イーサネット接続、“ＷｉＦｉ”あるいは“Ｂｌｕｅｔｏｏｔｈ”などのワイヤレス接続が含まれる。なお、「ＷｉＦｉ」、「Ｂｌｕｅｔｏｏｔｈ」は、登録商標である。

また、デバイス３００には、サラウンドスピーカ、セカンドディスプレイ、ネットワーク端末に付属のオーディオ出力装置が含まれる。再構成オーディオストリームの配信を受けるデバイス３００は、図１８のサービス受信機２００における３Ｄオーディオデコーダ２１３と同様のデコード処理を行って、所定数のスピーカを駆動するためのオーディオデータを得ることになる。

また、サービス受信機としては、上述した再構成オーディオストリームを、“ＨＤＭＩ（High-Definition Multimedia Interface）”、“ＭＨＬ（Mobile High definition Link）”、“ＤｉｓｐｌａｙＰｏｒｔ”などのデジタルインタフェースで接続されたデバイスに送信する構成も考えられる。なお、「ＨＤＭＩ」、「ＭＨＬ」は、登録商標である。

また、上述実施の形態においては、各グループの符号化データの属性情報を「attribute」のフィールドを設けて送信する例を示した（図１１〜図１３参照）。しかし、本技術は、送受信機間でグループＩＤ（GroupID）の値自体に特別な意味を定義することで、特定のグループＩＤを認識すれば符号化データの種類（属性）が認識できるような方法も含むものである。この場合、グループＩＤは、グループの識別子として機能する他に、そのグループの符号化データの属性情報として機能することとなり、「attribute」のフィールドは不要となる。

また、上述実施の形態においては、複数のグループの符号化データに、チャネル符号化データおよびオブジェクト符号化データの双方が含まれる例を示した（図５参照）。しかし、本技術は、複数のグループの符号化データに、チャネル符号化データのみ、あるいはオブジェクト符号化データのみが含まれる場合にも同様に適用できる。

なお、本技術は、以下のような構成もとることができる。
（１）複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部とを備える
送信装置。
（２）上記情報挿入部は、
上記メタファイルに、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する
前記（１）に記載の送信装置。
（３）上記ストリーム対応関係情報は、
上記複数のグループの符号化データのそれぞれを識別するグループ識別子と上記所定数のオーディオストリームのそれぞれを識別する識別子との対応関係を示す情報である
前記（２）に記載の送信装置。
（４）上記メタファイルは、ＭＰＤファイルである
前記（１）から（３）のいずれかに記載の送信装置。
（５）上記情報挿入部は、
“Supplementary Descriptor”を用いて、上記メタファイルに上記属性情報を挿入する
前記（４）に記載の送信装置。
（６）上記送信部は、
上記メタファイルをＲＦ伝送路または通信ネットワーク伝送路を通じて送信する
前記（１）から（５）のいずれかに記載の送信装置。
（７）上記送信部は、
上記複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する
前記（１）から（６）のいずれかに記載の送信装置。
（８）上記コンテナは、ＭＰ４である
前記（７）に記載の送信装置。
（９）上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記（１）から（８）のいずれかに記載の送信装置。
（１０）送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信ステップと、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入ステップとを有する
送信方法。
（１１）複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理部をさらに備える
受信装置。
（１２）上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームを処理する
前記（１１）に記載の受信装置。
（１３）上記処理部は、
上記属性情報および上記ストリーム対応関係情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す
前記（１２）に記載の受信装置。
（１４）上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
前記（１１）から（１３）のいずれかに記載の受信装置。
（１５）受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報に基づいて処理する処理ステップをさらに有する
受信方法。
（１６）複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置。
（１７）上記メタファイルには、上記複数のグループの符号化データがそれぞれどのオーディオストリームに含まれるかを示すストリーム対応関係情報がさらに挿入されており、
上記処理部は、
上記属性情報の他に、上記ストリーム対応関係情報に基づいて、上記所定数のオーディオストリームから上記所定のグループの符号化データを選択的に取得する
前記（１６）に記載の受信装置。
（１８）受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの属性を示す属性情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理ステップと、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信ステップとをさらに有する
受信方法。

本技術の主な特徴は、ＭＰＤファイルに、所定数のオーディオストリームに含まれる複数のグループの符号化データのそれぞれの属性を示す属性情報や複数のグループの符号化データがそれぞれどのオーディオトラック（オーディオストリーム）に含まれるかを示すストリーム対応関係情報を挿入することで、受信側の処理負荷を軽減可能としたことである（図１１、図１２、図１７参照）。

１０・・・送受信システム
３０Ａ，３０Ｂ・・・ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム
３１・・・ＤＡＳＨストリームファイルサーバ
３２・・・ＤＡＳＨＭＰＤサーバ
３３，３３-1〜３３-N）・・・サービス受信機
３４・・・ＣＤＮ
３５，３５-1〜３５-M）・・・サービス受信機
３６・・・放送送出システム
１００・・・サービス送信システム
１１０・・・ＤＡＳＨ/ＭＰ４生成部
１１２・・・ビデオエンコーダ
１１３・・・オーディオエンコーダ
１１４・・・ＤＡＳＨ/ＭＰ４フォーマッタ
２００・・・サービス受信機
２０１・・・受信部
２０２・・・ＤＡＳＨ/ＭＰ４解析部
２０３・・・ビデオデコーダ
２０４・・・映像処理回路
２０５・・・パネル駆動回路
２０６・・・表示パネル
２１１-1〜２１１-N・・・コンテナバッファ
２１２・・・コンバイナ
２１３・・・３Ｄオーディオデコーダ
２１４・・・音声出力処理回路
２１５・・・スピーカシステム
２２１・・・ＣＰＵ
２２２・・・フラッシュＲＯＭ
２２３・・・ＤＲＡＭ
２２４・・・内部バス
２２５・・・リモコン受信部
２２６・・・リモコン送信機
２３１・・・ストリーム再構成部
２３２・・・配信インタフェース
３００・・・デバイス

Claims

複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信部と、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報を挿入する情報挿入部とを備える
送信装置。
上記ストリーム対応関係情報は、
上記複数のグループの符号化データのそれぞれを識別するグループ識別子と上記所定数のオーディオストリームのそれぞれを識別する識別子との対応関係を示す情報である
請求項１に記載の送信装置。
上記メタファイルは、ＭＰＤファイルである
請求項１に記載の送信装置。
上記情報挿入部は、
“Supplementary Descriptor”を用いて、上記メタファイルに上記属性情報を挿入する
請求項３に記載の送信装置。
上記送信部は、
上記メタファイルをＲＦ伝送路または通信ネットワーク伝送路を通じて送信する
請求項１に記載の送信装置。
上記送信部は、
上記複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナをさらに送信する
請求項１に記載の送信装置。
上記コンテナは、ＭＰ４である
請求項６に記載の送信装置。
上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
請求項１に記載の送信装置。
送信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを送信する送信ステップと、
上記メタファイルに、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報を挿入する情報挿入ステップとを有する
送信方法。
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報、上記ストリーム対応関係情報および上記スイッチグループ情報に基づいて処理する処理部をさらに備える
受信装置。
上記処理部は、
上記属性情報、上記ストリーム対応関係情報および上記スイッチグループ情報に基づいて、スピーカ構成およびユーザ選択情報に適合する属性を持つグループの符号化データを含むオーディオストリームに対して選択的にデコード処理を施す
請求項１０に記載の受信装置。
上記複数のグループの符号化データには、チャネル符号化データおよびオブジェクト符号化データのいずれかまたは双方が含まれる
請求項１０に記載の受信装置。
受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報が挿入されており、
上記所定数のオーディオストリームを、上記属性情報、上記ストリーム対応関係情報および上記スイッチグループ情報に基づいて処理する処理ステップをさらに有する
受信方法。
複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信部を備え、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報、上記ストリーム対応関係情報および上記スイッチグループ情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理部と、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信部とをさらに備える
受信装置。
受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを受信装置で取得するためのメタ情報を持つメタファイルを受信する受信ステップを有し、
上記メタファイルには、上記複数のグループの符号化データのそれぞれの、属性を示す属性情報、どのオーディオストリームに含まれるかを示すストリーム対応関係情報およびどのスイッチグループに属するかを示すスイッチグループ情報が挿入されており、
上記所定数のオーディオストリームから上記属性情報、上記ストリーム対応関係情報および上記スイッチグループ情報に基づいて所定のグループの符号化データを選択的に取得し、該所定のグループの符号化データを含むオーディオストリームを再構成する処理ステップと、
上記再構成されたオーディオストリームを外部機器に送信するストリーム送信ステップとをさらに有する
受信方法。