JP6729382B2

JP6729382B2 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: JP6729382B2
Application number: JP2016554075A
Authority: JP
Inventors: 塚越　郁夫; 郁夫塚越
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-10-16
Filing date: 2015-10-13
Publication date: 2020-07-22
Anticipated expiration: 2035-10-13
Also published as: US20170289720A1; JPWO2016060101A1; MX2017004602A; EP3208801A1; RU2700405C2; EP3208801A4; MX368685B; CN106796797A; CA2963771A1; KR20170070004A; RU2017111691A; US10142757B2; RU2017111691A3; WO2016060101A1; CN106796797B

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、複数種類のオーディオデータを送信する送信装置等に関する。

従来、立体（３Ｄ）音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている（例えば、特許文献１参照）。

特表２０１４−５２０４９１号公報

例えば、５．１チャネル、７．１チャネルなどのチャネルデータと共に、符号化サンプルデータおよびメタデータからなるオブジェクトデータを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。従来、チャネルデータおよびオブジェクトデータを３Ｄオーディオ（MPEG-H 3D Audio）の符号化方式で符号化して得られた符号化データを含むオーディオストリームを受信側に送信することが提案されている。

３Ｄオーディオの符号化方式とＭＰＥＧ４ＡＡＣ等の符号化方式との間にストリーム構造的な互換性はない。そのため、従来のオーディオの受信機との互換性をもたせて３Ｄオーディオをサービスする場合、サイマルキャストをする方法が考えられる。しかし、同じコンテンツを異なる符号化方法で伝送するのは伝送帯域の有効利用にならない。

本技術の目的は、伝送帯域の有効利用を損なうことなく、従来のオーディオの受信機との互換性をもたせて、新規サービスを提供可能とすることにある。

本技術の概念は、
第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを生成するエンコード部と、
上記生成された所定数のオーディオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記エンコード部は、上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームを生成する
送信装置にある。

本技術において、エンコード部により、第１の符号化データおよびこの第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームが生成される。ここで、第２の符号化データがこの第２の符号化データに対応していない受信機では捨てられるように所定数のオーディオストリームが生成される。

例えば、第１の符号化データの符号化方式と第２の符号化データの符号化方式とは異なる、ようにされてもよい。この場合、例えば、第１の符号化データはチャネル符号化データであり、第２の符号化データはオブジェクト符号化データである、ようにされてもよい。そして、この場合、例えば、第１の符号化データの符号化方式はＭＰＥＧ４ＡＡＣであり、第２の符号化データの符号化方式はＭＰＥＧ−Ｈ３ＤＡｕｄｉｏである、ようにされてもよい。

送信部により、生成された所定数のオーディオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ−２ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。

このように本技術においては、第１の符号化データおよびこの第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームが送信され、この所定数のオーディオストリームは第２の符号化データがこの第２の符号化データに対応していない受信機では捨てられるように生成される。そのため、伝送帯域の有効利用を損なうことなく、従来のオーディオの受信機との互換性をもたせて、新規サービスを提供することが可能となる。

なお、本技術において、例えば、エンコード部は、第１の符号化データを持つオーディオストリームを生成すると共に、このオーディオストリームのユーザデータ領域に第２の符号化データを埋め込む、ようにされてもよい。この場合、従来のオーディオの受信機では、ユーザデータ領域に埋め込まれた第２の符号化データは読み捨てられる。

この場合、例えば、コンテナのレイヤに、このコンテナに含まれる第１の符号化データを持つオーディオストリームのユーザデータ領域に、この第１の符号化データに関連した第２の符号化データの埋め込みがあることを識別する識別情報を挿入する情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、オーディオストリームのデコード処理を行う前に、このオーディオストリームのユーザデータ領域に第２の符号化データの埋め込みがあることを容易に把握可能となる。

また、この場合、例えば、第１の符号化データはチャネル符号化データであり、第２の符号化データはオブジェクト符号化データであり、オーディオストリームのユーザデータ領域には、所定数のグループのオブジェクト符号化データが埋め込まれ、コンテナのレイヤに、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定数のグループのオブジェクト符号化データのそれぞれの属性を当該オブジェクト符号化データのデコード前に容易に認識でき、必要なグループのオブジェクト符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。

また、本技術において、例えば、エンコード部は、第１の符号化データを含む第１のオーディオストリームを生成すると共に、第２の符号化データを含む所定数の第２のオーディオストリームを生成する、ようにされてよい。この場合、従来のオーディオの受信機では、所定数の第２のオーディオストリームはデコード対象から除かれる。あるいは、５．１チャンネルの第１の符号化データをＡＡＣ方式で符号化し、その５．１チャンネルのデータから得られる２チャンネルのデータとオブジェクトデータの符号化とを第２の符号化データとしてＭＰＥＧ−Ｈ方式で符号化することも本方式で可能である。この場合、第２の符号化方式に対応しない受信機は、第１の符号化データのみをデコードする。

この場合、例えば、所定数の第２のオーディオストリームには、所定数のグループのオブジェクト符号化データが含まれ、コンテナのレイヤに、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定数のグループのオブジェクト符号化データのそれぞれの属性を当該オブジェクト符号化データのデコード前に容易に認識でき、必要なグループのオブジェクト符号化データのみを選択的にデコードして用いることができ、処理負荷を軽減することが可能となる。

そして、この場合、例えば、情報挿入部は、コンテナのレイヤに、所定数のグループのオブジェクト符号化データ、あるいは所定数のグループのチャンネル符号化データおよびオブジェクト符号化データがそれぞれどの第２のオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する、ようにされてもよい。例えば、ストリーム対応関係情報は、複数のグループの符号化データのそれぞれを識別するグループ識別子と所定数のオーディオストリームのそれぞれのストリームを識別するストリーム識別子との対応関係を示す情報である、ようにされてもよい。この場合、例えば、情報挿入部は、コンテナのレイヤに、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報をさらに挿入する、ようにされてもよい。これにより、受信側では、必要なグループのオブジェクト符号化データ、あるいは所定数のグループのチャンネル符号化データおよびオブジェクト符号化データが含まれる第２のオーディオストリームを容易に認識でき、処理負荷を軽減することが可能となる。

また、本技術の他の概念は、
第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームが生成されており、
上記コンテナに含まれる上記所定数のオーディオストリームから上記第１の符号化データおよび上記第２の符号化データを抽出して処理する処理部をさらに備える
受信装置にある。

本技術において、受信部により、第１の符号化データおよびこの第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを含む所定フォーマットのコンテナが受信される。ここで、所定数のオーディオストリームは、第２の符号化データがこの第２の符号化データに対応していない受信機では捨てられるように生成されている。そして、処理部により、所定数のオーディオストリームから第１の符号化データおよび第２の符号化データが抽出されて処理される。

例えば、第１の符号化データの符号化方式と第２の符号化データの符号化方式とは異なる、ようにされてもよい。また、例えば、第１の符号化データはチャネル符号化データであり、第２の符号化データはオブジェクト符号化データである、ようにされてもよい。

例えば、コンテナには、第１の符号化データを持つと共に、ユーザデータ領域に第２の符号化データが埋め込まれたオーディオストリームが含まれている、ようにされてもよい。また、例えば、コンテナには、第１の符号化データを含む第１のオーディオストリームと第２の符号化データを含む所定数の第２のオーディオストリームが含まれている、ようにされてもよい。

このように本技術においては、所定数のオーディオストリームから第１の符号化データおよび第２の符号化データが抽出されて処理される。そのため、第１の符号化データの他に第２の符号化データを利用した新規サービスによる高品質な音声再生が可能となる。

本技術によれば、伝送帯域の有効利用を損なうことなく、従来のオーディオの受信機との互換性をもたせて、新規サービスを提供できる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。送信オーディオストリームの構成（ストリーム構成（１）、ストリーム構成（２））を説明するための図である。送信オーディオストリームの構成がストリーム構成（１）の場合におけるサービス送信機のストリーム生成部の構成例を示すブロック図である。３Ｄオーディオの伝送データを構成するオブジェクト符号化データの構成例を示す図である。送信オーディオストリームの構成がストリーム構成（１）の場合におけるグループと属性の対応関係などを示す図である。ＭＰＥＧ４ＡＡＣのオーディオフレームの構造を示す図である。メタデータが挿入されるＤＳＥ（data stream element）の構成を示す図である。「metadata ()」の構成およびその構成主要な情報の内容を示す図である。ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのオーディオフレームの構造を示す図である。オブジェクト符号化データのパケット構成例を示す図である。アンシラリ・データ・デスクリプタの構造例を示す図である。「ancillary_data_identifier」の８ビットフィールドにおける現状のビットとデータ種類との対応関係を示す図である。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例を示す図である。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例における主要な情報の内容を示している。「contentKind」に定義されているコンテンツの種類を示す図である。送信オーディオストリームの構成がストリーム構成（１）の場合におけるトランスポートストリームの構成例を示す図である。送信オーディオストリームの構成がストリーム構成（２）の場合におけるサービス送信機のストリーム生成部の構成例を示すブロック図である。３Ｄオーディオの伝送データを構成するオブジェクト符号化データの構成例（２分割）を示す図である。送信オーディオストリームの構成がストリーム構成（２）の場合におけるグループと属性の対応関係などを示す図である。３Ｄオーディオ・ストリームＩＤ・デスクリプタの構造例を示す図である。送信オーディオストリームの構成がストリーム構成（２）の場合におけるトランスポートストリームの構成例を示す図である。サービス受信機の構成例を示すブロック図である。受信オーディオストリームの構成（ストリーム構成（１）、ストリーム構成（２））を説明するための図である。受信オーディオストリームの構成がスストリーム構成（１）の場合のデコード処理を概略的に示す図である。受信オーディオストリームの構成がスストリーム構成（２）の場合のデコード処理を概略的に示す図である。ＡＣ３のフレーム（AC3 Synchronization Frame）の構造を示す図である。ＡＣ３のオグジャリデータ（Auxiliary Data）の構成例を示す図である。ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示す図である。ＴＯＣ（ac4_toc()）およびサブストリーム（ac4_substream_data()）の概略構成を示す図である。ＴＯＣ（ac4_toc()）の中に存在する「umd_info()」の構成例を示す図である。サブストリーム（ac4_substream_data()）の中に存在する「umd_payloads_substream()）」の構成例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［送受信システムの構成例］
図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信機１００とサービス受信機２００により構成されている。サービス送信機１００は、トランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて送信する。このトランスポートストリームＴＳは、ビデオストリームと、所定数、つまり一つまたは複数のオーディオストリームを有している。

この所定数のオーディオストリームには、チャネル符号化データと、所定数のグループのオブジェクト符号化データが含まれている。この所定数のオーディオストリームは、オブジェクト符号化データが、当該オブジェクト符号化データに対応していない受信機では捨てられるように生成される。

第１の方法では、図２（ａ）のストリーム構成（１）で示すように、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むオーディオストリーム（メインストリーム）が生成されると共に、このオーディオストリームのユーザデータ領域にＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データが埋め込まれる。

第２の方法では、図２（ｂ）のストリーム構成（２）で示すように、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むオーディオストリーム（メインストリーム）が生成されると共に、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データを含む所定数のオーディオストリーム（サブストリーム１〜Ｎ）が生成される。

サービス受信機２００は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、上述したように、ビデオストリームの他に、チャネル符号化データおよび所定数のグループのオブジェクト符号化データが含まれた所定数のオーディオストリームを有している。サービス受信機２００は、ビデオストリームにデコード処理を行って、ビデオ出力を得る。

また、サービス受信機２００は、オブジェクト符号化データに対応している場合には、所定数のオーディストリームからチャネル符号化データおよびオブジェクト符号化データを抽出してデコード処理を行って、ビデオ出力に対応したオーディオ出力を得る。一方、サービス受信機２００は、オブジェクト符号化データに対応していない場合には、所定数のオーディストリームからチャネル符号化データのみを抽出してデコード処理を行って、ビデオ出力に対応したオーディオ出力を得る。

［サービス送信機のストリーム生成部］
「ストリーム構成（１）を採る場合」
最初に、オーディオストリームが、図２（ａ）のストリーム構成（１）を採る場合について説明する。図３は、その場合におけるサービス送信機１００が備えるストリーム生成部１１０Ａの構成例を示している。

このストリーム生成部１１０は、ビデオエンコーダ１１２と、オーディオチャネルエンコーダ１１３と、オーディオオブジェクトエンコーダ１１４と、ＴＳフォーマッタ１１５を有している。ビデオエンコーダ１１２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対して符号化を施し、ビデオストリームを生成する。

オーディオオブジェクトエンコーダ１１４は、オーディオデータＳＡを構成するオブジェクトデータを入力し、このオブジェクトデータに対してＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの符号化を施してオーディオストリーム（オブジェクト符号化データ）を生成する。オーディオチャネルエンコーダ１１３は、オーディオデータＳＡを構成するチャネルデータを入力し、このチャネルデータに対してＭＰＥＧ４ＡＡＣの符号化を施してオーディオストリームを生成すると共に、そのユーザデータ領域にオーディオオブジェクトエンコーダ１１４で生成されたオーディオストリームを埋め込む。

図４は、オブジェクト符号化データの構成例を示している。この構成例では、２つのオブジェクト符号化データからなっている。２つのオブジェクト符号化データは、イマーシブオーディオオブジェクト（ＩＡＯ：Immersive audio object）およびスピーチダイアログオブジェクト（ＳＤＯ：Speech Dialog object）の符号化データである。

イマーシブオーディオオブジェクト符号化データは、イマーシブサウンドのためのオブジェクト符号化データであり、符号化サンプルデータＳＣＥ１と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）１とからなっている。

スピーチダイアログオブジェクト符号化データは、スピーチランゲージのためのオブジェクト符号化データである。この例では、第１、第２の言語のそれぞれに対応したスピーチダイアログオブジェクト符号化データが存在する。第１の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータＳＣＥ２と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）２とからなっている。また、第２の言語に対応したスピーチダイアログオブジェクト符号化データは、符号化サンプルデータＳＣＥ３と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータＥＸＥ＿Ｅｌ（Object metadata）３とからなっている。

オブジェクト符号化データは、種類別にグループ（Group）という概念で区別される。図示の例では、イマーシブオーディオオブジェクト符号化データはグループ１とされ、第１の言語に係るスピーチダイアログオブジェクト符号化データはグループ２とされ、第２の言語に係るスピーチダイアログオブジェクト符号化データはグループ３とされている。

また、受信側においてグループ間で選択できるものはスイッチグループ（SW Group）に登録されて符号化される。また、グループを束ねてプリセットグループ（preset Group）とされ、ユースケースに応じた再生が可能とされる。図示の例では、グループ１およびグループ２が束ねられてプリセットグループ１とされ、グループ１およびグループ３が束ねられてプリセットグループ２とされている。

図５は、グループと属性の対応関係などを示している。ここで、グループＩＤ（group ID）は、グループを識別するための識別子である。アトリビュート（attribute）は、各グループの符号化データの属性を示している。スイッチグループＩＤ（switch Group ID）は、スイッチンググループを識別するための識別子である。リセットグループＩＤ（preset Group ID）は、プリセットグループを識別するための識別子である。ストリームＩＤ（sub Stream ID）は、ストリームを識別するための識別子である。カインド（Kind）は、各グループのコンテンツの種類を示している。

図示の対応関係は、グループ１に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ（イマーシブオーディオオブジェクト符号化データ）であって、スイッチグループを構成しており、チャネル符号化データを含むオーディオストリームのユーザデータ領域に埋め込まれていること、を示している。

また、図示の対応関係は、グループ２に属する符号化データは、第１の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、チャネル符号化データを含むオーディオストリームのユーザデータ領域に埋め込まれていること、を示している。また、図示の対応関係は、グループ３に属する符号化データは、第２の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、チャネル符号化データを含むオーディオストリームのユーザデータ領域に埋め込まれていること、を示している。

また、図示の対応関係は、プリセットグループ１は、グループ１およびグループ２を含む、ことが示されている。さらに、図示の対応関係は、プリセットグループ２は、グループ１およびグループ３を含む、ことが示されている。

図６は、ＭＰＥＧ４ＡＡＣのオーディオフレームの構造を示している。このオーディオフレームは、複数のエレメントからなっている。各エレメント（element）の先頭には、「id_syn_ele」の３ビットの識別子（ＩＤ）が存在し、エレメント内容が識別可能とされている。

このオーディオフレームには、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）、ＤＳＥ（Data Stream Element）、ＰＣＥ（Program Config Element）、ＦＩＬ（Fill Element）などのエレメントが含まれる。ＳＣＥ、ＣＰＥ、ＬＦＥのエレメントは、チャネル符号化データを構成する符号化サンプルデータを含むエレメントである。例えば、５．１チャネルのチャネル符号化データの場合には、一個のＳＣＥ、２個のＣＰＥ、一個のＬＦＥが存在する。

ＰＣＥのエレメントは、チャネルエレメント数やダウンミックス（down_mix）係数を含むエレメントである。ＦＩＬのエレメントは、エクステンション（extension）情報の定義に用いられるエレメントである。ＤＳＥのエレメントは、ユーザデータを置くことできるエレメントであり、このエレメントの「id_syn_ele」が“０ｘ４”である。このＤＳＥのエレメントに、オブジェクト符号化データが埋め込まれる。

図７は、ＤＳＥ（Data Stream Element()）の構成（Syntax）を示している。「element_instance_tag」の４ビットフィールドは、ＤＳＥの中のデータ種別を示すが、ＤＳＥを統一したユーザデータとして利用する場合は、この値を“０”としてもよい。「data_byte_align_flag」は、“１”とされ、ＤＳＥの全体がバイトアラインされるようにする。「count」、あるいは、その追加バイト数を意味する「esc_count」は、ユーザデータのサイズによって適宜、値が決められる。「count」および「esc_count」により最大で５１０バイトまでカウント可能となっている。つまり、１つのＤＳＥエレメントに配置できるデータは５１０バイトまでとなる。「data_stream_byte」のフィールドに、「metadata ()」が挿入される。

図８（ａ）は「metadata ()」の構成（Syntax）を示し、図８（ｂ）はその構成における主要な情報の内容（semantics）を示している。「metadata_type」の８ビットフィールドは、メタデータの種類を示す。例えば、“０ｘ１０”は、ＭＰＥＧ−Ｈ方式（MPEG-H 3D Audio）のオブジェクト符号データであることを示す。

「count」の８ビットフィールドは、メタデータの時系列的な昇順のカウント数を示す。上述したように１つのＤＳＥエレメントに配置できるデータは５１０バイトまでであるが、オブジェクト符号化データのサイズが５１０バイトより大きくなることも考えられる。その場合には、複数のＤＳＥエレメントが使用され、「count」で示されるカウント数はその複数のＤＳＥエレメントの連結関係を示すものとなる。「data_byte」の領域に、オブジェクト符号化データが配置される。

図９は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのオーディオフレームの構造を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

この実施の形態において、“Ｆｒａｍｅ”には、３Ｄオーディオの伝送データを構成するオブジェクト符号化データが含まれる。３Ｄオーディオの伝送データを構成するチャネル符号化データに関しては、上述したようにＭＰＥＧ４ＡＡＣのオーディオフレームに含まれる。オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される（図４参照）。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

図１０（ａ）は、オブジェクト符号化データのパケット構成例を示している。この例では、１つのグループのオブジェクト符号化データが含まれている。“Ｃｏｎｆｉｇ”に含まれる「#obj=1」の情報で、１つのグループのオブジェクト符号化データを持つ“Ｆｒａｍｅ”の存在が示されている。

“Ｃｏｎｆｉｇ”に含まれる「AudioSceneInfo()」内に登録された”GroupID[0]=1”の情報で、グループ１の符号化データを持つ“Ｆｒａｍｅ”が配置されていることが示されている。なお、パケットラベル（ＰＬ）の値は、“Ｃｏｎｆｉｇ”とそれに対応した各“Ｆｒａｍｅ”とで同じ値とされる。ここで、グループ１の符号化データを持つ“Ｆｒａｍｅ”は、エクステンションエレメント（Ext_element）としてのメタデータを含む“Ｆｒａｍｅ”と、ＳＣＥ（Single Channel Element）の符号化サンプルデータを含む“Ｆｒａｍｅ”とからなっている。

図１０（ｂ）は、オブジェクト符号化データの他のパケット構成例を示している。この例では、２つのグループのオブジェクト符号化データが含まれている。“Ｃｏｎｆｉｇ”に含まれる「#obj=2」の情報で、２つのグループのオブジェクト符号化データを持つ“Ｆｒａｍｅ”の存在が示されている。

“Ｃｏｎｆｉｇ”に含まれる「AudioSceneInfo()」内に順に登録された”GroupID[1]=2, GroupID[2]=3, SW_GRPID[0]=1 ”の情報で、グループ２の符号化データを持つ“Ｆｒａｍｅ”と、グループ３の符号化データを持つ“Ｆｒａｍｅ”とが、この順に配置されており、これらのグループはスイッチグループ１を構成していることが示されている。なお、パケットラベル（ＰＬ）の値は、“Ｃｏｎｆｉｇ”とそれに対応した各“Ｆｒａｍｅ”とで同じ値とされる。

ここで、グループ２の符号化データを持つ“Ｆｒａｍｅ”は、エクステンションエレメント（Ext_element）としてのメタデータを含む“Ｆｒａｍｅ”と、ＳＣＥ（Single Channel Element）の符号化サンプルデータを含む“Ｆｒａｍｅ”とからなっている。同様に、グループ３の符号化データを持つ“Ｆｒａｍｅ”は、エクステンションエレメント（Ext_element）としてのメタデータを含む“Ｆｒａｍｅ”と、ＳＣＥ（Single Channel Element）の符号化サンプルデータを含む“Ｆｒａｍｅ”とからなっている。

図３に戻って、ＴＳフォーマッタ１１５は、ビデオエンコーダ１１２から出力されるビデオストリームおよびオーディオチャネルエンコーダ１１３から出力されるオーディオストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

また、ＴＳフォーマッタ１１５は、コンテナのレイヤ、この実施の形態ではプログラムマップテーブル（ＰＭＴ）の配下に、オーディオストリームのユーザデータ領域に、このオーディオストリームに含まれるチャネル符号化データに関連したオブジェクト符号化データの埋め込みがあることを識別する識別情報を挿入する。ＴＳフォーマッタ１１５は、この識別情報を、オーディオストリームに対応したオーディオ・エレメンタリストリームループ内に、既存のアンシラリ・データ・デスクリプタ（Ancillary_data_descriptor）を用いて挿入する。

図１１は、アンシラリ・データ・デスクリプタの構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、アンシラリ・データ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「ancillary_data_identifier」の８ビットフィールドは、オーディオストリームのユーザデータ領域にいかなる種類のデータが埋め込まれているかを示す。この場合、各ビットに“１”がセットされることで、そのビットに対応した種類のデータが埋め込まれていることが示される。図１２は、現状におけるビットとデータ種類との対応関係を示している。この実施の形態においては、ビット７にデータ種類としてオブジェクト符号化データ（Object data）を新規定義し、このビット７に“１”をセットすることで、オーディオストリームのユーザデータ領域にオブジェクト符号化データの埋め込みがあることを識別させる。

また、ＴＳフォーマッタ１１５は、コンテナのレイヤ、この実施の形態ではプログラムマップテーブル（ＰＭＴ）の配下に、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報などを挿入する。ＴＳフォーマッタ１１５は、この属性情報などを、オーディオストリームに対応したオーディオ・エレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）を用いて挿入する。

図１３は、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例（Syntax）を示している。また、図１４は、その構造例における主要な情報の内容（Semantics）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「NumOfGroups, N」の８ビットフィールドは、グループの数を示す。「NumOfPresetGroups, P」の８ビットフィールドは、プリセットグループの数を示す。グループの数だけ、「groupID」の８ビットフィールド、「attribute_of_groupID」の８ビットフィールド、「SwitchGroupID」の８ビットフィールドおよび「audio_streamID」の８ビットフィールドが、繰り返えされる。

「groupID」のフィールドは、グループの識別子を示す。「attribute_of_groupID」のフィールドは、該当グループのオブジェクト符号化データの属性を示す。「SwitchGroupID」のフィールドは、該当グループがどのスイッチグループに属すかを示す識別子である。“０”は、いずれのスイッチグループにも属さないことを示す。“０”以外は、配属するスイッチグループを示す。「contentKind」の８ビットフィールドは、グループのコンテンツの種類を示す。「audio_streamID」は、該当グループが含まれるオーディオストリームを示す識別子である。図１５は、「contentKind」に定義されているコンテンツの種類を示している。

また、プリセットグループの数だけ、「presetGroupID」の８ビットフィールドおよび「NumOfGroups_in_preset, R」の８ビットフィールドが、繰り返される。「presetGroupID」のフィールドは、グループをプリセットした束を示す識別子である。「NumOfGroups_in_preset, R」のフィールドは、プリセットグループに属するグループの数を示す。そして、プリセットグループ毎に、それに属するグループの数だけ、「groupID」の８ビットフィールドが繰り返され、プリセットグループに属するグループが示される。

図１６は、トランスポートストリームＴＳの構成例を示している。この構成例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」が存在する。また、この構成例では、ＰＩＤ２で識別されるオーディオストリームのＰＥＳパケット「audio PES」が存在する。ＰＥＳパケットは、ＰＥＳヘッダ（PES_header）とＰＥＳペイロード（PES_payload）からなっている。

ここで、オーディオストリームのＰＥＳパケット「audio PES」には、ＭＰＥＧ４ＡＡＣのチャネル符号化データが含まれていると共に、そのユーザデータ領域にＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのオブジェクト符号化データが埋め込まれている。

また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。ＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）が存在すると共に、オーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）が存在する。

ビデオエレメンタリストリームループ（video ES loop）には、ビデオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「０ｘ２４」に設定され、ＰＩＤ情報は、上述したようにビデオストリームのＰＥＳパケット「video PES」に付与されるＰＩＤ１を示すものとされる。デスクリプタの一つして、ＨＥＶＣデスクリプタが配置される。

オーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ１１」に設定され、ＰＩＤ情報は、上述したようにオーディオストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ２を示すものとされる。このオーディオエレメンタリストリームループには、上述したアンシラリ・データ・デスクリプタおよび３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの双方が配置される。

図３に示すストリーム生成部１１０Ａの動作を簡単に説明する。ビデオデータＳＶは、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、ＴＳフォーマッタ１１５に供給される。

オーディオデータＳＡを構成するオブジェクトデータは、オーディオオブジェクトエンコーダ１１４に供給される。このオーディオオブジェクトエンコーダ１１４では、このオブジェクトデータに対してＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの符号化が施されてオーディオストリーム（オブジェクト符号化データ）が生成される。このオーディオストリームは、オーディオチャネルエンコーダ１１３に供給される。

オーディオデータＳＡを構成するチャネルデータは、オーディオチャネルエンコーダ１１３に供給される。このオーディオチャネルエンコーダ１１３では、このチャネルデータに対してＭＰＥＧ４ＡＡＣの符号化が施されてオーディオストリーム（チャネル符号化データ）が生成される。この際、オーディオチャネルエンコーダ１１３では、そのユーザデータ領域にオーディオオブジェクトエンコーダ１１４で生成されたオーディオストリーム（オブジェクト符号化データ）が埋め込まれる。

ビデオエンコーダ１１２で生成されたビデオストリームは、ＴＳフォーマッタ１１５に供給される。また、オーディオチャネルエンコーダ１１３で生成されたオーディオストリームは、ＴＳフォーマッタ１１５に供給される。ＴＳフォーマッタ１１５では、各エンコーダから供給されるストリームがＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

また、ＴＳフォーマッタ１１５では、オーディオ・エレメンタリストリームループ内に、アンシラリ・データ・デスクリプタが挿入される。このデスクリプタには、オーディオストリームのユーザデータ領域にオブジェクト符号化データの埋め込みがあることを識別する識別情報が含まれている。

また、ＴＳフォーマッタ１１５では、オーディオ・エレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタが挿入される。このデスクリプタには、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報などが含まれている。

「ストリーム構成（２）を採る場合」
次に、オーディオストリームが、図２（ｂ）のストリーム構成（２）を採る場合について説明する。図１７は、その場合におけるサービス送信機１００が備えるストリーム生成部１１０Ｂの構成例を示している。

このストリーム生成部１１０Ｂは、ビデオエンコーダ１２２と、オーディオチャネルエンコーダ１２３と、オーディオオブジェクトエンコーダ１２４-1〜１２４-Nと、ＴＳフォーマッタ１２５を有している。ビデオエンコーダ１２２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対して符号化を施し、ビデオストリームを生成する。

オーディオチャネルエンコーダ１２３は、オーディオデータＳＡを構成するチャネルデータを入力し、このチャネルデータに対してＭＰＥＧ４ＡＡＣの符号化を施して、メインストリームとしてのオーディオストリーム（チャネル符号化データ）を生成する。オーディオオブジェクトエンコーダ１２４-1〜１２４-Nは、それぞれオーディオデータＳＡを構成するオブジェクトデータを入力し、このオブジェクトデータに対してＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの符号化を施して、サブストリームとしてのオーディオストリーム（オブジェクト符号化データ）を生成する。

例えば、Ｎ＝２である場合、オーディオオブジェクトエンコーダ１２４-1はサブストリーム１を生成し、オーディオオブジェクトエンコーダ１２４-2はサブストリーム２を生成する。例えば、図１８に示すように、２つのオブジェクト符号化データからなるオブジェクト符号化データの構成例では、サブストリーム１にはイマーシブオーディオオブジェクト（ＩＡＯ：Immersive audio object）が含まれ、サブストリーム２にはスピーチダイアログオブジェクト（ＳＤＯ：Speech Dialog object）の符号化データが含まれる。

図１９は、グループと属性の対応関係などを示している。ここで、グループＩＤ（group ID）は、グループを識別するための識別子である。アトリビュート（attribute）は、各グループの符号化データの属性を示している。スイッチグループＩＤ（switch Group ID）は、相互に切り替え可能なグループを識別するための識別子である。プリセットグループＩＤ（preset Group ID）は、プリセットグループを識別するための識別子である。ストリームＩＤ（Stream ID）は、ストリームを識別するための識別子である。カインド（Kind）は、各グループのコンテンツの種類を示している。

図示の対応関係は、グループ１に属する符号化データは、イマーシブサウンドのためのオブジェクト符号化データ（イマーシブオーディオオブジェクト符号化データ）であって、スイッチグループを構成しておらず、サブストリーム１に含まれている、ことを示している。

また、図示の対応関係は、グループ２に属する符号化データは、第１の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、サブストリーム２に含まれている、ことを示している。また、図示の対応関係は、グループ３に属する符号化データは、第２の言語のスピーチランゲージのためのオブジェクト符号化データ（スピーチダイアログオブジェクト符号化データ）であって、スイッチグループ１を構成しており、サブストリーム２に含まれている、ことを示している。

図１７に戻って、ＴＳフォーマッタ１２５は、ビデオエンコーダ１１２から出力されるビデオストリーム、オーディオチャネルエンコーダ１２３から出力されるオーディオストリーム、さらにはオーディオオブジェクトエンコーダ１２４-1〜１２４-Nから出力されるオーディオストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

また、ＴＳフォーマッタ１２５は、コンテナのレイヤ、この実施の形態ではプログラムマップテーブル（ＰＭＴ）の配下に、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報と、所定数のグループのオブジェクト符号化データがそれぞれどのサブストリームに含まれるかを示すストリーム対応関係情報などを挿入する。ＴＳフォーマッタ１２５は、これらの情報を、所定数のサブストリームのうち少なくとも１つ以上のサブストリームに対応したオーディオ・エレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）（図１３参照）を用いて挿入する。

また、ＴＳフォーマッタ１２５は、コンテナのレイヤ、この実施の形態ではプログラムマップテーブル（ＰＭＴ）の配下に、所定数のサブストリームのそれぞれのストリーム識別子を示すストリーム識別子情報を挿入する。ＴＳフォーマッタ１２５は、この情報を、所定数のサブストリームのそれぞれに対応したオーディオ・エレメンタリストリームループ内に、３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_substreamID_descriptor）を用いて挿入する。

図２０（ａ）は、３Ｄオーディオ・ストリームＩＤ・デスクリプタの構造例（Syntax）を示している。また、図２０（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。

「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、３Ｄオーディオ・ストリームＩＤ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。「audio_streamID」の８ビットフィールドは、サブストリームの識別子を示す。

図２１は、トランスポートストリームＴＳの構成例を示している。この構成例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」が存在する。また、この構成例では、ＰＩＤ２，ＰＩＤ３でそれぞれ識別される２つのオーディオストリームのＰＥＳパケット「audio PES」が存在する。ＰＥＳパケットは、ＰＥＳヘッダ（PES_header）とＰＥＳペイロード（PES_payload）からなっている。ＰＥＳヘッダには、ＤＴＳ，ＰＴＳのタイムスタンプが挿入されている。多重化の際にＰＩＤ２とＰＩＤ３のタイムスタンプを合致させるなど、的確に付すことで両者の間の同期をシステム全体で確保することが可能である。

ＰＩＤ２で識別されるオーディオストリーム（メインストリーム）のＰＥＳパケット「audio PES」には、ＭＰＥＧ４ＡＡＣのチャネル符号化データが含まれている。一方、ＰＩＤ３で識別されるオーディオストリーム（サブストリーム）のＰＥＳパケット「audio PES」には、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのオブジェクト符号化データが含まれている。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）が存在すると共に、２つのオーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）が存在する。

ビデオエレメンタリストリームループ（video ES loop）には、ビデオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「０ｘ２４」に設定され、ＰＩＤ情報は、上述したようにビデオストリームのＰＥＳパケット「video PES」に付与されるＰＩＤ１を示すものとされる。デスクリプタとして、ＨＥＶＣデスクリプタも配置される。

オーディオストリーム（メインストリーム）に対応したオーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ１１」に設定され、ＰＩＤ情報は、上述したようにオーディオストリーム（メインストリーム）のＰＥＳパケット「audio PES」に付与されるＰＩＤ２を示すものとされる。

また、オーディオストリーム（サブストリーム）に対応したオーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ２Ｄ」に設定され、ＰＩＤ情報は、上述したようにオーディオストリーム（メインストリーム）のＰＥＳパケット「audio PES」に付与されるＰＩＤ３を示すものとされる。デスクリプタとして、上述した３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタおよび３Ｄオーディオ・ストリームＩＤ・デスクリプタも配置される。

図１７に示すストリーム生成部１１０Ｂの動作を簡単に説明する。ビデオデータＳＶは、ビデオエンコーダ１２２に供給される。このビデオエンコーダ１２２では、ビデオデータＳＶに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。

オーディオデータＳＡを構成するチャネルデータは、オーディオチャネルエンコーダ１２３に供給される。このオーディオチャネルエンコーダ１２３では、このチャネルデータに対してＭＰＥＧ４ＡＡＣの符号化が施されてメインストリームとしてのオーディオストリーム（チャネル符号化データ）が生成される。

また、オーディオデータＳＡを構成するオブジェクトデータは、オーディオオブジェクトエンコーダ１２４-1〜１２４-Nに供給される。このオーディオオブジェクトエンコーダ１２４-1〜１２４-Nでは、それぞれ、このオブジェクトデータに対してＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの符号化が施されてサブストリームとしてのオーディオストリーム（オブジェクト符号化データ）が生成される。

ビデオエンコーダ１２２で生成されたビデオストリームは、ＴＳフォーマッタ１２５に供給される。また、オーディオチャネルエンコーダ１１３で生成されたオーディオストリーム（メインストリーム）は、ＴＳフォーマッタ１２５に供給される。さらに、オーディオオブジェクトエンコーダ１２４-1〜１２４-Nで生成されたオーディオストリーム（サブストリーム）は、ＴＳフォーマッタ１２５に供給される。ＴＳフォーマッタ１２５では、各エンコーダから供給されるストリームがＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

また、ＴＳフォーマッタ１１５では、所定数のサブストリームのうち少なくとも１つ以上のサブストリームに対応したオーディオ・エレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタが挿入される。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタには、所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報と、所定数のグループのオブジェクト符号化データがそれぞれどのサブストリームに含まれるかを示すストリーム対応関係情報などが含まれている。

また、ＴＳフォーマッタ１１５では、サブストリームに対応したオーディオ・エレメンタリストリームループ内に、所定数のサブストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に、３Ｄオーディオ・ストリームＩＤ・デスクリプタが挿入される。このデスクリプタには、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報が含まれている。

［サービス受信機の構成例］
図２２は、サービス受信機２００の構成例を示している。このサービス受信機２００は、受信部２０１と、ＴＳ解析部２０２と、ビデオデコーダ２０３と、映像処理回路２０４と、パネル駆動回路２０５と、表示パネル２０６を有している。また、このサービス受信機２００は、多重化バッファ２１１-1〜２１１-Mと、コンバイナ２１２と、３Ｄオーディオデコーダ２１３と、音声出力処理回路２１４と、スピーカシステム２１５を有している。また、このサービス受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６を有している。

ＣＰＵ２２１は、サービス受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、サービス受信機２００の各部を制御する。

リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、サービス受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

受信部２０１は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビデオストリームの他に、所定数のオーディオストリームを有している。

図２３は、受信されるオーディオストリームの一例を示している。図２３（ａ）は、ストリーム構成（１）の場合の例を示している。この場合、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むと共に、そのユーザデータ領域にＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データが埋め込まれているメインストリームのみが存在する。メインストリームはＰＩＤ２で識別される。

図２３（ｂ）は、ストリーム構成（２）の場合の例を示している。この場合、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むメインストリームが存在すると共に、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データを含む所定数のサブストリーム、ここでは１つのサブストリームが存在する。メインストリームはＰＩＤ２で識別され、サブストリームはＰＩＤ３で識別される。なお、ストリーム構成は、メインをＰＩＤ３に、サブをＰＩＤ２にすることも可能なことは当然である。

ＴＳ解析部２０２は、トランスポートストリームＴＳからビデオストリームのパケットを抽出し、ビデオデコーダ２０３に送る。ビデオデコーダ２０３は、ＴＳ解析部２０２で抽出されたビデオのパケットからビデオストリームを再構成し、復号化処理を行って非圧縮の画像データを得る。

映像処理回路２０４は、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路２０５は、映像処理回路２０４で得られる表示用の画像データに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

また、ＴＳ解析部２０２は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ２２１に送る。ストリーム構成（１）の場合、各種情報には、アンシラリ・データ・デスクリプタ（Ancillary_data_descriptor）および３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）の情報も含まれる（図１６参照）。ＣＰＵ２２１は、これらのデスクリプタ情報から、チャネル符号化データを含むメインストリームのユーザデータ領域にオブジェクト符号化データが埋め込まれていることを認識でき、また、各グループのオブジェクト符号化データの属性などを認識する。

また、ストリーム構成（２）の場合、各種情報には、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）および３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_substreamID_descriptor）の情報も含まれる（図２１参照）。ＣＰＵ２２１は、これらのデスクリプタ情報から、各グループのオブジェクト符号化データの属性や、各グループのオブジェクト符号化データがどのサブストリームに含まれているか等を認識する。

また、ＴＳ解析部２０２は、ＣＰＵ２２１の制御のもと、トランスポートストリームＴＳが有する所定数のオーディオストリームをＰＩＤフィルタで選択的に取り出す。すなわち、ストリーム構成（１）の場合は、メインストリームを取り出す。一方、ストリーム構成（２）の場合は、メインストリームを取り出すと共に、所定数のサブストリームを取り出す。

多重化バッファ２１１-1〜２１１-Mは、それぞれ、ＴＳ解析部２０２で取り出されるオーディオストリーム（メインストリームのみ、あるいはメインストリームおよびサブストリーム）を取り込む。ここで、多重化バッファ２１１-1〜２１１-Mの個数Ｍとしては必要十分な個数とされるが、実際の動作では、ＴＳ解析部２０２で取り出されるオーディオストリームの数だけ用いられることになる。

コンバイナ２１２は、多重化バッファ２１１-1〜２１１-MのうちＴＳ解析部２０２で取り出される各オーディオストリームがそれぞれ取り込まれた多重化バッファから、オーディオフレーム毎に、オーディオストリームを読み出し、３Ｄオーディオデコーダ２１３に送る。

３Ｄオーディオデコーダ２１３は、ＣＰＵ２２１の制御のもと、チャネル符号化データおよびオブジェクト符号化データを取り出して、デコード処理を施し、スピーカシステム２１５の各スピーカを駆動するためのオーディオデータを得る。この場合、ストリーム構成（１）の場合は、メインストリームからチャネル符号化データを取り出すと共に、そのユーザデータ領域からオブジェクト符号化データを取り出す。一方、ストリーム構成（２）の場合は、メインストリームからチャネル符号化データを取り出すと共に、サブストリームからオブジェクト符号化データを取り出す。

３Ｄオーディオデコーダ２１３は、チャネル符号化データをデコードするときは、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理を必要に応じて行って、各スピーカを駆動するためのオーディオデータを得る。また、３Ｄオーディオデコーダ２１３は、オブジェクト符号化データをデコードするときは、オブジェクト情報（メタデータ）に基づきスピーカレンダリング（各スピーカへのミキシング割合）を計算し、その計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングする。

音声出力処理回路２１４は、３Ｄオーディオデコーダ２１３で得られた各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を行って、スピーカシステム２１５に供給する。スピーカシステム２１５は、複数チャネル、例えば２チャネル、５．１チャネル、７．１チャネル、２２．２チャネルなどの複数のスピーカを備える。

図２２に示すサービス受信機２００の動作を簡単に説明する。受信部２０１では、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、ビデオストリームの他に、所定数のオーディオストリームを有している。

例えば、ストリーム構成（１）の場合、オーディオストリームとして、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むと共に、そのユーザデータ領域にＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データが埋め込まれているメインストリームのみが存在する。

また、例えば、ストリーム構成（２）の場合、オーディオストリームとして、ＭＰＥＧ４ＡＡＣで符号化されたチャネル符号化データを含むメインストリームが存在すると共に、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏで符号化された所定数のグループのオブジェクト符号化データを含む所定数のサブストリームが存在する。

ＴＳ解析部２０２では、トランスポートストリームＴＳからビデオストリームのパケットが抽出され、ビデオデコーダ２０３に供給される。ビデオデコーダ２０３では、ＴＳ解析部２０２で抽出されたビデオのパケットからビデオストリームが再構成され、デコード処理が行われて、非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路２０４に供給される。

映像処理回路２０４では、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、表示用のビデオデータに対応した画像が表示される。

また、ＴＳ解析部２０２では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ２２１に送られる。ストリーム構成（１）の場合、各種情報には、アンシラリ・データ・デスクリプタおよび３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの情報も含まれる（図１６参照）。ＣＰＵ２２１では、これらのデスクリプタ情報から、チャネル符号化データを含むメインストリームのユーザデータ領域にオブジェクト符号化データが埋め込まれていることが認識され、また、各グループのオブジェクト符号化データの属性などが認識される。

また、ストリーム構成（２）の場合、各種情報には、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタおよび３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報も含まれる（図２１参照）。ＣＰＵ２２１は、これらのデスクリプタ情報から、各グループのオブジェクト符号化データの属性や、各グループのオブジェクト符号化データがどのサブストリームに含まれているか等が認識される。

ＴＳ解析部２０２では、ＣＰＵ２２１の制御のもと、トランスポートストリームＴＳが有する所定数のオーディオストリームがＰＩＤフィルタで選択的に取り出される。すなわち、ストリーム構成（１）の場合は、メインストリームが取り出される。一方、ストリーム構成（２）の場合は、メインストリームが取り出されると共に、所定数のサブストリームが取り出される。

多重化バッファ２１１-1〜２１１-Mでは、それぞれ、ＴＳ解析部２０２で取り出されるオーディオストリーム（メインストリームのみ、あるいはメインストリームおよびサブストリーム）が取り込まれる。コンバイナ２１２では、オーディオストリームが取り込まれた各多重化バッファから、オーディオフレーム毎に、オーディオストリームが読み出され、３Ｄオーディオデコーダ２１３に供給される。

３Ｄオーディオデコーダ２１３では、ＣＰＵ２２１の制御のもと、チャネル符号化データおよびオブジェクト符号化データが取り出されて、デコード処理が施され、スピーカシステム２１５の各スピーカを駆動するためのオーディオデータが得られる。この場合、ストリーム構成（１）の場合は、メインストリームからチャネル符号化データが取り出されると共に、そのユーザデータ領域からオブジェクト符号化データが取り出される。一方、ストリーム構成（２）の場合は、メインストリームからチャネル符号化データが取り出されると共に、サブストリームからオブジェクト符号化データが取り出される。

ここで、チャネル符号化データがデコードされるときは、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理が必要に応じて行われて、各スピーカを駆動するためのオーディオデータが得られる。また、オブジェクト符号化データがデコードされるときは、オブジェクト情報（メタデータ）に基づきスピーカレンダリング（各スピーカへのミキシング割合）が計算され、その計算結果に応じて、オブジェクトのオーディオデータが各スピーカを駆動するためのオーディオデータにミキシングされる。

３Ｄオーディオデコーダ２１３で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路２１４に供給される。この音声出力処理回路２１４では、各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム２１５に供給される。これにより、スピーカシステム２１５からは表示パネル２０６の表示画像に対応した音響出力が得られる。

図２４は、ストリーム構成（１）の場合のオーディオデコード処理を概略的に示している。多重化ストリームであるトランスポートストリームＴＳがＴＳ解析部２０２に入力される。ＴＳ解析部２０２では、システムレイヤの解析が行われ、デスクリプタ情報（アンシラリ・データ・デスクリプタおよび３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの情報）がＣＰＵ２２１に供給される。

ＣＰＵ２２１では、このデスクリプタ情報に基づいて、チャネル符号化データを含むメインストリームのユーザデータ領域にオブジェクト符号化データが埋め込まれていることが認識され、また、各グループのオブジェクト符号化データの属性などが認識される。ＴＳ解析部２０２では、ＣＰＵ２２１の制御のもと、メインストリームのパケットがＰＩＤフィルタで選択的に取り出され、多重化バッファ２１１（２１１-1〜２１１-M）に取り込まれる。

３Ｄオーディオデコーダ２１３のオーディオチャネルデコーダでは、多重化バッファ２１１に取り込まれたメインストリームに対する処理が行われる。すなわち、オーディオチャネルデコーダでは、メインストリームからオブジェクト符号化データが配置されたＤＳＥが取り出され、ＣＰＵ２２１に送られる。なお、従来の受信機のオーディオチャネルデコーダでは、このＤＳＥは読み捨てられるので、互換性が確保される。

また、オーディオチャネルデコーダでは、メインストリームからチャネル符号化データが取り出されてデコード処理が施され、各スピーカを駆動するためのオーディオデータが得られる。この際、オーディオチャネルデコーダとＣＰＵ２２１との間でチャネル数の情報の送受が行われ、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理が必要に応じて行われる。

ＣＰＵ２２１では、ＤＳＥの解析が行われ、その中に配置されているオブジェクト符号化データが３Ｄオーディオデコーダ２１３のオーディオオブジェクトデコーダに送られる。オーディオオブジェクトデコーダでは、オブジェクト符号化データがデコードされ、オブジェクトのメタデータおよびオーディオデータが得られる。

オーディオチャネルエンコーダで得られた各スピーカを駆動するためのオーディオデータはミキシング/レンダリング部に供給される。また、オーディオオブジェクトデコーダで得られたオブジェクトのメタデータおよびオーディオデータもミキシング/レンダリング部に供給される。

ミキシング/レンダリング部では、オブジェクトのメタデータに基づき、オブジェクトのオーディオデータのスピーカ出力ターゲットに対する音声空間へのマッピングを計算し、その計算結果をチャンネルデータに加算合成することで、デコード出力とされる。

図２５は、ストリーム構成（２）の場合のオーディオデコード処理を概略的に示している。多重化ストリームであるトランスポートストリームＴＳがＴＳ解析部２０２に入力される。ＴＳ解析部２０２では、システムレイヤの解析が行われ、デスクリプタ情報（３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタおよび３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報）がＣＰＵ２２１に供給される。

ＣＰＵ２２１では、このデスクリプタ情報に基づいて、これらのデスクリプタ情報から、各グループのオブジェクト符号化データの属性や、各グループのオブジェクト符号化データがどのサブストリームに含まれているか等が認識される。ＴＳ解析部２０２では、ＣＰＵ２２１の制御のもと、メインストリームおよび所定数のサブストリームのパケットがＰＩＤフィルタで選択的に取り出され、多重化バッファ２１１（２１１-1〜２１１-M）に取り込まれる。なお、従来の受信機では、サブストリームのパケットはＰＩＤフィルタで取り出されず、メインストリームのみが取り出されるので、互換性が確保される。

３Ｄオーディオデコーダ２１３のオーディオチャネルデコーダでは、多重化バッファ２１１に取り込まれたメインストリームからチャネル符号化データが取り出されてデコード処理が施され、各スピーカを駆動するためのオーディオデータが得られる。この際、オーディオチャネルデコーダとＣＰＵ２２１との間でチャネル数の情報の送受が行われ、スピーカシステム２１５のスピーカ構成へのダウンミックスやアップミックスの処理が必要に応じて行われる。

また、３Ｄオーディオデコーダ２１３のオーディオオブジェクトデコーダでは、多重化バッファ２１１に取り込まれた所定数のサブストリームから、ユーザの選択などに基づいて必要とされる所定数のグループのオブジェクト符号化データが取り出されてデコード処理が施され、オブジェクトのメタデータおよびオーディオデータが得られる。

上述したように、図１に示す送受信システム１０において、サービス送信機１００は３Ｄオーディオの伝送データを構成するチャネル符号化データおよびオブジェクト符号化データを持つ所定数のオーディオストリームを送信し、この所定数のオーディオストリームはオブジェクト符号化データがこのオブジェクト符号化データに対応していない受信機では捨てられるように生成されている。そのため、伝送帯域の有効利用を損なうことなく、従来のオーディオの受信機との互換性をもたせて、３Ｄオーディオの新規サービスを提供することが可能となる。

＜２．変形例＞
なお、上述実施の形態において、チャネル符号化データの符号化方式がＭＰＥＧ４ＡＡＣである例を示したが、その他の符号化方式、例えばＡＣ３，ＡＣ４なども同様に考えられる。図２６は、ＡＣ３のフレーム（AC3 Synchronization Frame）の構造を示している。「Audblock ５」の“mantissa data”と、「ＡＵＸ」と、「ＣＲＣ」との合計サイズが全体の３／８を超えないように、チャネルデータがエンコードされる。ＡＣ３の場合、「ＡＵＸ」のエリアにメタデータＭＤが挿入される。図２７は、ＡＣ３のオグジャリデータ（Auxiliary Data）の構成（syntax）を示している。

「auxdatae」が“１”のとき、「aux data」がイネーブルされ、「auxdatal」の１４ビット（ビット単位）で示されるサイズのデータが、「auxbits」の中に定義される。その際の「auxbits」のサイズは「nauxbits」に記載される。ストリーム構成（１）の場合、この「auxbits」のフィールドに、上述の図８（ａ）に示す「metadata ()」が挿入され、その「data_byte」のフィールドに、オブジェクト符号化データが配置される。

図２８（ａ）は、ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示している。このＡＣ４は、ＡＣ３の次世代のオーディオ符号化フォーマットの一つとされている。シンクワード（syncWord）のフィールドと、フレームレングス（frame Length）のフィールドと、符号化データのフィールドとしての「RawAc4Frame」のフィールドと、ＣＲＣフィールドが存在する。「RawAc4Frame」のフィールドには、図２８（ｂ）に示すように、先頭にＴＯＣ（Table Of Content）のフィールドが存在し、その後の所定数のサブストリーム（Substream）のフィールドが存在する。

図２９（ｂ）に示すように、サブストリーム（ac4_substream_data()）の中には、メタデータ領域（metadata）が存在し、その中に「umd_payloads_substream()」のフィールドが設けられる。ストリーム構成（１）の場合、この「umd_payloads_substream()」のフィールドに、オブジェクト符号化データが配置される。

なお、図２９（ａ）に示すように、ＴＯＣ（ac4_toc()）の中には「ac4_presentation_info()」のフィールドが存在し、さらにその中に「umd_info()」のフィールドが存在し、その中に上述の「umd_payloads_substream()）」のフィールドにメタデータの挿入があることが示される。

図３０は、「umd_info()」の構成（syntax）を示している。「umd_version」のフィールドは、ｕｍｄシンタクスのバージョン番号を示す。「K_id」は、‘０ｘ６’として任意の情報をコンテナすることを示す。バージョン番号と「k_id」の値の組み合わせで「umd_payloads_substream()」のペイロードにメタデータの挿入があることを示すものとして定義される。

図３１は、「umd_payloads_substream()」の構成（syntax）を示している。「umd_payload_id」の５ビットフィールドは、「object_data_byte」がコンテナされることを示すＩＤ値とし、“０”以外の値とされる。「umd_payload_size」の１６ビットフィールドは、そのフィールド以後のバイト数を示す。「userdata_synccode」の８ビットフィールドは、メタデータのスタートコードであり、メタデータの内容を示す。例えば、“０ｘ１０”は、ＭＰＥＧ−Ｈ方式（MPEG-H 3D Audio）のオブジェクト符号データであることを示す。「object_data_byte」の領域に、オブジェクト符号化データが配置される。

また、上述実施の形態においては、チャネル符号化データの符号化方式がＭＰＥＧ４ＡＡＣであり、オブジェクト符号化データの符号化方式がＭＰＥＧ−Ｈ３ＤＡｕｄｉｏであり、チャネル符号化データとオブジェクト符号化データの符号化方式が異なる例を示した。しかし、これら２つの符号化データの符号化方式が同じである場合も考えられる。例えば、チャネル符号化データの符号化方式がＡＣ４とされ、オブジェクト符号化データの符号化方式もＡＣ４とされる場合などである。

また、上述実施の形態においては、第１の符号化データがチャネル符号化データであり、この第１の符号化データに関連した第２の符号化データがオブジェクト符号化データである例を示した。しかし、第１の符号化データと第２の符号化データの組み合わせは、これに限定されるものではない。本技術は、種々のスケーラブル拡張、例えば、チャンネル数拡張、サンプリングレート拡張を行う場合にも同様に適用できる。

「チャネル数拡張の例」
第１の符号化データとして従来の５．１チャンネルの符号化データを送信し、第２の符号化データとして追加チャンネル分の符号化データを送信する。従来のデコーダは５．１チャネルのエレメントのみデコードし、追加チャンネル対応のデコーダはすべてをデコードする。

「サンプリングレート拡張」
第１の符号化データとして従来のオーディオサンプリングレートによるオーディオサンプルデータの符号化データを送信し、第２の符号化データとしてより高サンプリングレートのオーディオサンプルデータの符号化データを送信する。従来のデコーダは従来のサンプリングレートデータのみデコードし、高サンプリングレート対応のデコーダはすべてをデコードする。

また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ−２ＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

また、上述実施の形態においては、第１の符号化データがチャネル符号化データであり、第２の符号化データがオブジェクト符号化データである例を示した。しかし、第２の符号化データが、他のチャネル符号化データ、あるいは、オブジェクト符号化データおよびチャネル符号化データである場合も考えられる。

なお、本技術は、以下のような構成もとることができる。
（１）第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを生成するエンコード部と、
上記生成された所定数のオーディオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記エンコード部は、上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームを生成する
送信装置。
（２）上記第１の符号化データの符号化方式と上記第２の符号化データの符号化方式とは異なる
前記（１）に記載の送信装置。
（３）上記第１の符号化データはチャネル符号化データであり、上記第２の符号化データはオブジェクト符号化データである
前記（２）に記載の送信装置。
（４）上記第１の符号化データの符号化方式はＭＰＥＧ４ＡＡＣであり、上記第２の符号化データの符号化方式はＭＰＥＧ−Ｈ３ＤＡｕｄｉｏである
前記（３）に記載の送信装置。
（５）上記エンコード部は、
上記第１の符号化データを持つオーディオストリームを生成すると共に、該オーディオストリームのユーザデータ領域に上記第２の符号化データを埋め込む
前記（１）から（４）のいずれかに記載の送信装置。
（６）上記コンテナのレイヤに、該コンテナに含まれる上記第１の符号化データを持つオーディオストリームのユーザデータ領域に、該第１の符号化データに関連した第２の符号化データの埋め込みがあることを識別する識別情報を挿入する情報挿入部をさらに備える
前記（５）に記載の送信装置。
（７）上記第１の符号化データはチャネル符号化データであり、上記第２の符号化データはオブジェクト符号化データであり、
上記オーディオストリームのユーザデータ領域には、所定数のグループのオブジェクト符号化データが埋め込まれ、
上記コンテナのレイヤに、上記所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部をさらに備える
前記（５）または（６）に記載の送信装置。
（８）上記エンコード部は、
上記第１の符号化データを含む第１のオーディオストリームを生成すると共に、上記第２の符号化データを含む所定数の第２のオーディオストリームを生成する
前記（１）から（４）のいずれかに記載の送信装置。
（９）上記所定数の第２のオーディオストリームには、所定数のグループのオブジェクト符号化データが含まれ、
上記コンテナのレイヤに、上記所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部をさらに備える
前記（８）に記載の送信装置。
（１０）上記情報挿入部は、
上記コンテナのレイヤに、上記所定数のグループのオブジェクト符号化データがそれぞれどの上記第２のオーディオストリームに含まれるかを示すストリーム対応関係情報をさらに挿入する
前記（９）に記載の送信装置。
（１１）上記ストリーム対応関係情報は、
上記所定数のグループのオブジェクト符号化データのそれぞれを識別するグループ識別子と上記所定数の第２のオーディオストリームのそれぞれを識別するストリーム識別子との対応関係を示す情報である
前記（１０）に記載の送信装置。
（１２）上記情報挿入部は、
上記コンテナのレイヤに、上記所定数の第２のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報をさらに挿入する
前記（１１）に記載の送信装置。
（１３）第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを生成するエンコードステップと、
送信部により、上記生成された所定数のオーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
上記エンコードステップでは、上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームを生成する
送信方法。
（１４）第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームが生成されており、
上記コンテナに含まれる上記所定数のオーディオストリームから上記第１の符号化データおよび上記第２の符号化データを抽出して処理する処理部をさらに備える
受信装置。
（１５）上記第１の符号化データの符号化方式と上記第２の符号化データの符号化方式とは異なる
前記（１４）に記載の受信装置。
（１６）上記第１の符号化データはチャネル符号化データであり、上記第２の符号化データはオブジェクト符号化データである
前記（１４）または（１５）に記載の受信装置。
（１７）上記コンテナには、上記第１の符号化データを持つと共に、ユーザデータ領域に上記第２の符号化データが埋め込まれたオーディオストリームが含まれている
前記（１４）から（１６）のいずれかに記載の受信装置。
（１８）上記コンテナには、上記第１の符号化データを含む第１のオーディオストリームと上記第２の符号化データを含む所定数の第２のオーディオストリームが含まれている
前記（１４）から（１６）のいずれかに記載の受信装置。
（１９）受信部により、第１の符号化データおよび該第１の符号化データに関連した第２の符号化データを持つ所定数のオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
上記第２の符号化データが該第２の符号化データに対応していない受信機では捨てられるように上記所定数のオーディオストリームが生成されており、
上記コンテナに含まれる上記所定数のオーディオストリームから上記第１の符号化データおよび上記第２の符号化データを抽出して処理する処理ステップを有する
受信方法。

本技術の主な特徴は、チャネル符号化データを含むと共にそのユーザデータ領域にオブジェクト符号化データが埋め込まれているオーディオストリームを送信するか、あるいはチャネル符号化データを含むオーディオストリームと共にオブジェクト符号化データを含むオーディオストリームを送信することで、伝送帯域の有効利用を損なうことなく、従来のオーディオの受信機との互換性をもたせて、３Ｄオーディオの新規サービスを提供可能としたことである（図２参照）。

１０・・・送受信システム
１００・・・サービス送信機
１１０Ａ，１１０Ｂ・・・ストリーム生成部
１１２，１２２・・・ビデオエンコーダ
１１３，１２３・・・オーディオチャネルエンコーダ
１１４，１２４-1〜１２４-N・・・オーディオオブジェクトエンコーダ
１１５，１２５・・・ＴＳフォーマッタ
１１４・・・マルチプレクサ
２００・・・サービス受信機
２０１・・・受信部
２０２・・・ＴＳ解析部
２０３・・・ビデオデコーダ
２０４・・・映像処理回路
２０５・・・パネル駆動回路
２０６・・・表示パネル
２１１-1〜２１１-M・・・多重化バッファ
２１２・・・コンバイナ
２１３・・・３Ｄオーディオデコーダ
２１４・・・音声出力処理回路
２１５・・・スピーカシステム
２２１・・・ＣＰＵ
２２２・・・フラッシュＲＯＭ
２２３・・・ＤＲＡＭ
２２４・・・内部バス
２２５・・・リモコン受信部
２２６・・・リモコン送信機

Claims

チャネル符号化データおよび該チャネル符号化データに関連したオブジェクト符号化データを持つオーディオストリームを生成するエンコード部と、
上記生成されたオーディオストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
上記エンコード部は、上記チャネル符号化データおよび上記オブジェクト符号化データを持つオーディオストリームを、上記チャネル符号化データを持つオーディオストリームを生成すると共に、該オーディオストリームのフレーム毎に存在するユーザデータ領域に、埋め込みデータの種類を示す情報および該埋め込みデータの時系列的な昇順のカウント情報を伴って、上記オブジェクト符号化データを埋め込むことで生成する
送信装置。
上記チャネル符号化データの符号化方式はＭＰＥＧ４ＡＡＣであり、上記オブジェクト符号化データの符号化方式はＭＰＥＧ−Ｈ３ＤＡｕｄｉｏである
請求項１に記載の送信装置。
上記コンテナのレイヤに、上記オーディオストリームのユーザデータ領域に、上記オブジェクト符号化データの埋め込みがあることを識別する識別情報を挿入する情報挿入部をさらに備える
請求項１に記載の送信装置。
上記オーディオストリームのユーザデータ領域には、所定数のグループの上記オブジェクト符号化データが埋め込まれ、
上記コンテナのレイヤに、上記所定数のグループのオブジェクト符号化データのそれぞれの属性を示す属性情報を挿入する情報挿入部をさらに備える
請求項１に記載の送信装置。
チャネル符号化データおよび該チャネル符号化データに関連したオブジェクト符号化データを持つオーディオストリームを生成するエンコードステップと、
送信部により、上記生成されたオーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
上記エンコードステップでは、上記チャネル符号化データを持つオーディオストリームを生成し、該オーディオストリームのフレーム毎に存在するユーザデータ領域に、埋め込みデータの種類を示す情報および該埋め込みデータの時系列的な昇順のカウント情報を伴って、上記オブジェクト符号化データを埋め込む
送信方法。
チャネル符号化データおよび該チャネル符号化データに関連したオブジェクト符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
上記チャネル符号化データおよび上記オブジェクト符号化データを持つオーディオストリームは、上記チャネル符号化データを持つオーディオストリームを生成すると共に、該オーディオストリームのフレーム毎に存在するユーザデータ領域に、埋め込みデータの種類を示す情報および該埋め込みデータの時系列的な昇順のカウント情報を伴って、上記オブジェクト符号化データを埋め込むことで生成されており、
上記コンテナに含まれるオーディオストリームから上記チャネル符号化データおよび上記オブジェクト符号化データを抽出して処理する処理部をさらに備える
受信装置。
受信部により、チャネル符号化データおよび該チャネル符号化データに関連したオブジェクト符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
上記チャネル符号化データおよび上記オブジェクト符号化データを持つオーディオストリームは、上記チャネル符号化データを持つオーディオストリームを生成すると共に、該オーディオストリームのフレーム毎に存在するユーザデータ領域に、埋め込みデータの種類を示す情報および該埋め込みデータの時系列的な昇順のカウント情報を伴って、上記オブジェクト符号化データを埋め込むことで生成されており、
上記コンテナに含まれるオーディオストリームから上記チャネル符号化データおよび上記オブジェクト符号化データを抽出して処理する処理ステップをさらに有する
受信方法。