JP2021103335A

JP2021103335A - 受信装置、受信方法、送信装置および送信方法

Info

Publication number: JP2021103335A
Application number: JP2021064035A
Authority: JP
Inventors: 塚越　郁夫; Ikuo Tsukagoshi; 郁夫塚越
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2015-04-24
Filing date: 2021-04-05
Publication date: 2021-07-15
Anticipated expiration: 2036-04-08
Also published as: US20210210105A1; EP3288025A1; CN107533846B; US20190318749A1; US20180114534A1; PH12017501893A1; CN107533846A; US10978080B2; WO2016171002A1; JPWO2016171002A1; EP3288025A4; JP7207447B2; JP2023030183A; US10304467B2; US20230230601A1; US11636862B2

Abstract

【課題】複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減する。【解決手段】複数のグループの符号化データを含む所定数のオーディオストリームを生成し、この所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する。コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する。例えば、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける。【選択図】図１８

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、複数種類のオーディオデータを送信する送信装置等に関する。

従来、立体（３Ｄ）音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている（例えば、特許文献１参照）。

特表２０１４−５２０４９１号公報

５．１チャネル、７．１チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなるオブジェクト符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。

本技術の目的は、複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減することにある。

本技術の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入部を備える
送信装置にある。

本技術において、オーディオエンコード部により、複数のグループの符号化データを含む所定数、つまり一つまたは複数のオーディオストリームが生成される。送信部により、所定数のオーディオストリームを有する所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ−２ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。

情報挿入部により、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入される。例えば、コマンド情報は、コマンドとグループの対応関係を示す情報、あるいはコマンドと所定数のグループの組み合わせからなるプリセットグループの対応関係を示す情報である、ようにされてもよい。

このように本技術においては、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入される。そのため、受信側においては、このコマンド情報を参照することで、デコードすべきグループを特定するコマンドの発生処理が容易となる。

なお、本技術において、例えば、所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、情報挿入部は、コマンド情報を、メインストリームおよび/またはこのメインストリームに対応したコンテナ位置に挿入する、ようにされてもよい。このようにコマンド情報がメインストリーム等に挿入されることで、受信側ではコマンド情報の取得を容易に行い得る。

また、本技術において、例えば、オーディオエンコード部は、複数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するコマンドを受信側で挿入するためのコマンド挿入領域を設ける、ようにされてもよい。このようにコマンド挿入領域が予め設けられることで、受信側でオーディオストリームにコマンドを挿入する処理が容易となる。

また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部を備え、
上記オーディオエンコード部は、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信装置にある。

オーディオエンコード部では、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域が設けられる。例えば、所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、オーディオエンコード部は、メインストリームに、コマンド挿入領域を設ける、ようにされてもよい。

このように本技術においては、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域が設けられる。そのため、受信側でオーディオストリームにコマンドを挿入する場合にこのコマンド挿入領域を利用でき、コマンド挿入処理が容易となる。

また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信部と、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得部と、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生部と、
上記ストリーム取得部で取得された一つのオーディオストリームに、上記コマンド発生部で発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコード部を備える
受信装置にある。

本技術において、受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナが受信される。ストリーム取得部により、所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームが取り出され、この取り出された全てのオーディオストリームを統合した一つのオーディオストリームが得られる。この場合、所定数のオーディオストリームが一つのオーディオストリームであるときには、このオーディオストリームがそのまま得られる。

コマンド発生部により、一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドが発生される。例えば、コマンド発生部は、ユーザのユーザインタフェース画面上における選択操作に応じたコマンドを発生する、ようにされてもよい。これにより、ユーザは、所望のグループをデコードすべきグループとして選択することが容易に可能となる。

コマンド挿入部により、ストリーム取得部で取得された一つのオーディオストリームに、コマンド発生部で発生されたコマンドが挿入される。オーディオデコード部により、一つのオーディオストリームに含まれる所定数のグループのうち、コマンドで特定されるグループの符号化データにデコード処理が施される。

このように本技術においては、オーディオストリームにデコードすべきグループを特定するためのコマンドが挿入されてオーディオデコード部に送られる。そのため、オーディオデコード部では、デコードすべきグループの符号化画像データのみを選択的にデコードすることが可能となる。また、この場合、オーディオデコード部にグループの選択処理を行わせるものであり、効率的な処理が可能となる。

なお、本技術において、例えば、受信部で受信されたオーディオストリームおよび/またはコンテナに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入されており、コマンド発生部は、コマンド情報を参照してコマンドを発生する、ようにされてもよい。この場合、コマンド情報を参照してコマンドを発生するものであり、デコードすべきグループを特定するコマンドの発生処理が容易となる。

また、本技術において、例えば、受信部で受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを挿入するためのコマンド挿入領域が設けられており、ストリーム取得部で取得された一つのオーディオストリームは、コマンド挿入領域を有し、コマンド挿入部は、一つのオーディオストリームのコマンド挿入領域にコマンドを挿入する、ようにされてもよい。この場合、予め設けられているコマンド挿入領域にコマンドを挿入するものであり、コマンドを挿入する処理が容易となる。

本技術によれば、複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減することが可能となる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。３Ｄオーディオの伝送データにおけるオーディオフレームの構造を示す図である。３Ｄオーディオの伝送データの構成例を示す図である。各グループの符号化データによる音場再現の一例を概略的に示す図である。３Ｄオーディオの伝送データを１ストリームで送信する場合および複数ストリームで送信する場合におけるオーディオフレームの構成例を概略的に示す図である。３ストリームで送信する場合におけるグループとストリームの対応関係などを示す図である。コマンド（コマンド識別子：CommandID）とグループ、プリセットグループとの対応関係の一例を示す図である。３Ｄオーディオの伝送データの他の構成例を示す図である。３ストリームで送信する場合におけるグループとストリームの対応関係などを示す図である。コマンド（コマンド識別子：CommandID）とグループ、プリセットグループとの対応関係の一例を示す図である。ユーザが選択操作を行うためのＵＩ（User Interface）画面の一例を示す図である。サービス送信機が備えるストリーム生成部の構成例を示すブロック図である。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例を示す図（１/２）である。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例を示す図（２/２）である。３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造例における主要な情報の内容を示す図である。３Ｄオーディオ・ストリームＩＤ・デスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。３Ｄオーディオ・コマンド・デスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。３Ｄオーディオの伝送データを３ストリームで送信する場合におけるトランスポートストリームＴＳの構成例を示す図である。３Ｄオーディオの伝送データを１ストリームで送信する場合におけるトランスポートストリームＴＳの構成例を示す図である。サービス受信機の構成例を示すブロック図である。受信オーディオストリームの一例を示す図である。受信オーディオストリームが１ストリームである場合におけるデコード対象の選択処理例を説明するための図である。受信オーディオストリームが３ストリームである場合におけるデコード対象の選択処理例を説明するための図（１/２）である。受信オーディオストリームが３ストリームである場合におけるデコード対象の選択処理例を説明するための図（２/２）である。３Ｄオーディオデコーダの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［送受信システムの構成例］
図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信機１００とサービス受信機２００により構成されている。サービス送信機１００は、トランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて送信する。このトランスポートストリームＴＳは、ビデオストリームと、複数のグループの符号化データを含む所定数、つまり一つまたは複数のオーディオストリームを有している。

図２は、この実施の形態で取り扱う３Ｄオーディオの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、３Ｄオーディオの伝送データの実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

“Ｆｒａｍｅ”には、３Ｄオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

図３は、３Ｄオーディオの伝送データの構成例を示している。この構成例では、１つのチャネル符号化データと４つのオブジェクト符号化データとからなっている。１つのチャネル符号化データは、５．１チャネルのチャネル符号化データ（ＣＤ）である。

４つのオブジェクト符号化データは、イマーシブオーディオオブジェクト（ＩＡＯ：Immersive audio object）、スピーチダイアログオブジェクト（ＳＤＯ：Speech Dialog object）、サウンドオブジェクト（ＳＵＯ：Sound object）およびオーディオデスクリプションオブジェクト（ＡＤＯ：Audio Description object）の符号化データである。

イマーシブオーディオオブジェクト符号化データは、イマーシブサウンドのためのオブジェクト符号化データである。スピーチダイアログオブジェクト符号化データは、スピーチランゲージのためのオブジェクト符号化データである。この構成例では、第１、第２の言語のそれぞれに対応したスピーチダイアログオブジェクト符号化データが存在する。

サウンドオブジェクト符号化データは、サウンドのためのオブジェクト符号化データである。この例では、第１、第２のタイプのそれぞれに対応したサウンドオブジェクト符号化データが存在する。オーディオデスクリプションオブジェクト符号化データは、オーディオデスクリプションのためのオブジェクト符号化データである。この例では、第１、第２のデスクリプションのそれぞれに対応したオーディオデスクリプションオブジェクト符号化データが存在する。

符号化データは、種類別にグループ（Group）という概念で区別される。この構成例では、５．１チャネルのチャネル符号化データはグループ１（Group 1）とされ、イマーシブオーディオオブジェクト符号化データはグループ２（Group 2）とされ、第１の言語に係るスピーチダイアログオブジェクト符号化データはグループ３（Group 3）とされ、第２の言語に係るスピーチダイアログオブジェクト符号化データはグループ６（Group 6）とされている。

また、この構成例では、第１のタイプに係るサウンドオブジェクト符号化データはグループ４（Group 4）とされ、第２のタイプに係るサウンドオブジェクト符号化データはグループ５（Group 5）とされ、第１のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データはグループ７（Group 7）とされ、第２のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データはグループ８（Group 8）とされる。

また、受信側においてグループ間で選択できるものはスイッチグループ（SW Group）に登録されて符号化される。この構成例では、グループ３とグループ６はスイッチグループ１（SW Group 1）とされ、グループ４とグループ５はスイッチグループ２（SW Group 2）とされ、グループ７とグループ８はスイッチグループ３（SW Group 3）とされる。

また、グループを束ねてプリセットグループ（preset Group）とされ、ユースケースに応じた再生が可能とされる。この構成例では、グループ１、グループ２、グループ３、グループ４、グループ５およびグループ６が束ねられてプリセットグループ１（preset Group 1）とされ、グループ１、グループ２、グループ３、グループ６、グループ７およびグループ８が束ねられてプリセットグループ２（preset Group 2）とされている。

ここで、プリセットグループ１およびプリセットグループ２は、チューブ１（Tube 1）に含まれている。なお、プリセットグループの選択においては、各チューブ（Tube）の中から一つが選択される。

図４は、各グループの符号化データによる音場再現の一例を概略的に示している。グループ１のチャネル符号化データにより、シーン状況全般を反映するサウンドが再現される。このサウンドのみがチャネルデータとして対象のスピーカ（SP）位置に対して符号化されている。その他の音声・サウンドは、オブジェクトオーディオとして符号化され、符号化時にはスピーカ位置を特定せずに、視聴環境のスピーカ位置に依存してレンダリングされ、レンダリングされたオーディオがミキシングされて最終的に各スピーカから出力される。

グループ２のイマーシブオーディオオブジェクト符号化データにより、シーンの盛り上がりを演出する効果音が再現される。グループ３の第１のランゲージに係るスピーチダイアログオブジェクト符号化データにより、会話音声１が再現される。グループ６の第２のランゲージに係るスピーチダイアログオブジェクト符号化データにより、会話音声２が再現される。

第１のタイプに係るサウンドオブジェクト符号化データにより、環境ＢＧＭ１（background music 1）が再現される。第２のタイプに係るサウンドオブジェクト符号化データにより、環境ＢＧＭ２（background music 2）が再現される。第１のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データにより、ナレーション１が再現される。第２のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データにより、ナレーション２が再現される。

図１に戻って、サービス送信機１００は、上述したように複数のグループの符号化データを含む３Ｄオーディオの伝送データを、１ストリーム、あるいは複数ストリーム（Multiple stream）で送信する。

図５（ａ）は、図３の３Ｄオーディオの伝送データの構成例において、１ストリーム（メインストリーム）で送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、この１ストリームに、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、チャネル符号化データ（ＣＤ）と、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）、サウンドオブジェクト符号化データ（ＳＵＯ）およびオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる。

図５（ｂ）は、図３の３Ｄオーディオの伝送データの構成例において、マルチストリーム、ここでは３ストリームで送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、メインストリームに、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、チャネル符号化データ（ＣＤ）とイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれる。

サブストリーム（オグジャリストリーム）１に、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）およびサウンドオブジェクト符号化データ（ＳＵＯ）が含まれる。サブストリーム（オグジャリストリーム）２に、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）およびオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる。

この場合、図３に示すように、例えば、メインストリームにグループ１，２が含まれ、サブストリーム１にグループ３，４，５が含まれ、サブストリーム２にグループ６，７，８が含まれる。

図６は、３ストリームで送信する場合におけるグループとストリームの対応関係などを示している。ここで、グループＩＤ（group ID）は、グループを識別するための識別子である。アトリビュート（attribute）は、各グループの符号化データの属性を示している。スイッチグループＩＤ（switch Group ID）は、スイッチンググループを識別するための識別子である。プリセットグループＩＤ（preset Group ID）は、プリセットグループを識別するための識別子である。ストリームＩＤ（Stream ID）は、ストリームを識別するための識別子である。カインド（Kind）は、各グループのコンテンツの種類を示している。

図示の対応関係は、グループ１に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、ストリーム１（メインストリーム）に含まれている、ことを示している。また、図示の対応関係は、グループ２に属する符号化データは、イマーシブオーディオオブジェクト符号化データであって、スイッチグループを構成しておらず、ストリーム１（メインストリーム）に含まれている、ことを示している。

また、図示の対応関係は、グループ３に属する符号化データは、第１のランゲージに係るスピーチダイアログオブジェクト符号化データであって、スイッチグループ１を構成しており、ストリーム２（サブストリーム１）に含まれている、ことを示している。また、図示の対応関係は、グループ４に属する符号化データは、第１のタイプに係るサウンドオブジェクト符号化データであって、スイッチグループ２を構成しており、ストリーム２（サブストリーム１）に含まれている、ことを示している。

また、図示の対応関係は、グループ５に属する符号化データは、第２のタイプに係るサウンドオブジェクト符号化データであって、スイッチグループ２を構成しており、ストリーム２（サブストリーム１）に含まれている、ことを示している。また、図示の対応関係は、グループ６に属する符号化データは、第２のランゲージに係るスピーチダイアログオブジェクト符号化データであって、スイッチグループ１を構成しており、ストリーム３（サブストリーム２）に含まれている、ことを示している。

また、図示の対応関係は、グループ７に属する符号化データは、第１のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データであって、スイッチグループ３を構成しており、ストリーム３（サブストリーム２）に含まれている、ことを示している。また、図示の対応関係は、グループ８に属する符号化データは、第２のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データであって、スイッチグループ３を構成しており、ストリーム３（サブストリーム２）に含まれている、ことを示している。

また、図示の対応関係は、プリセットグループ１は、グループ１、グループ２、グループ３、グループ４、グループ５およびグループ６を含む、ことを示している。さらに、図示の対応関係は、プリセットグループ２は、グループ１、グループ２、グループ３、グループ６、グループ７およびグループ８を含む、ことを示している。

なお、１ストリームで送信する場合、全てのグループの符号化データがストリーム１（メインストリーム）に含まれることから、図６における「Stream ID」は全て“１”となる。

図１に戻って、サービス送信機１００は、コンテナ（トランスポートストリームＴＳ）に、３Ｄオーディオの伝送データ構成情報、つまり「groupID」と、「attribute」、「switchGroupID」、「presetGroupID」、「StreamID」などとの対応関係（図６参照）を示す情報を挿入する。また、サービス受信機１００は、コンテナに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する。このコマンド情報は、コマンドとグループの対応関係を示す情報、コマンドとプリセットグループの対応関係を示す情報などである。

図７は、コマンド（コマンド識別子：CommandID）とグループ、プリセットグループとの対応関係の一例を示している。コマンドの“１”〜“１８”の部分は、コマンドとそのコマンドが示すデコード対象とすべきグループ（グループ群）との対応関係を示している。例えば、コマンド“７”は、グループ１，２，３，４，８をデコード対象とすべきことを示す。また、コマンド“１９”、“２０”の部分は、コマンドとそのコマンドが示すデコード対象とすべきプリセットグループとの対応関係を示している。例えば、コマンド“１９”は、プリセットグループ１をデコード対象とすべきことを示す。

サービス送信機１００は、伝送データ構成情報およびコマンド情報を、例えば、プログラムマップテーブル（ＰＭＴ：Program Map Table）の配下に存在するメインストリームに対応したオーディオエレメンタリストリームループ内に挿入する。この場合、サービス送信機１００は、伝送データ構成情報およびコマンド情報の挿入を、このメインストリームに対応したオーディオエレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）を挿入することで行う。勿論、伝送データ構成情報およびコマンド情報を、サブストリームに対応したオーディオエレメンタリストリームループ内にさらに挿入することも可能である。

また、サービス送信機１００は、コンテナに、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報を、例えば、プログラムマップテーブル（ＰＭＴ：Program Map Table）の配下に存在する所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に挿入する。この場合、サービス送信機１００は、ストリーム識別子情報の挿入を、各オーディオストリームに対応したオーディオエレメンタリストリームループ内に、３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_streamID_descriptor）を挿入することで行う。

また、サービス送信機１００は、オーディオストリームに、伝送データ構成情報およびコマンド情報を挿入する。サービス送信機１００は、伝送データ構成情報およびコマンド情報を、例えば、メインストリームのＰＥＳパケットのＰＥＳペイロードに挿入する。勿論、伝送データ構成情報およびコマンド情報を、サブストリームＰＥＳパケットのＰＥＳペイロードにさらに挿入することも可能である。

サービス送信機１００は、伝送データ構成情報およびコマンド情報の挿入を、図５（ａ），（ｂ）に示すように、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報“Ｄｅｓｃ”として、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）を挿入することで行う。

なお、この実施の形態においては、コンテナおよびオーディオストリームの双方に、上述したように伝送データ構成情報およびコマンド情報を挿入する例を示したが、コンテナのみ、あるいはオーディオストリームのみに各情報を挿入することも考えられる。

また、サービス送信機１００は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンド（コマンド識別子：CommandID）を受信側で挿入するためのコマンド挿入領域を設ける。サービス送信機１００は、コマンド挿入領域を、例えば、メインストリームのＰＥＳパケットのＰＥＳペイロードに挿入する。

サービス送信機１００は、コマンド挿入領域を設けることを、図５（ａ），（ｂ）に示すように、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報“Ｄｅｓｃ”として、３Ｄオーディオ・コマンド・デスクリプタ（3Daudio_command_descriptor）を挿入することで行う。

図８は、３Ｄオーディオの伝送データの他の構成例を示している。この構成例では、図３の３Ｄオーディオの伝送データの構成例と比べて、プリセットグループの設定が異なっている。その他は同じである。

すなわち、この構成例では、グループ１、グループ２およびグループ３が束ねられてプリセットグループ１（preset Group 1）とされ、グループ１、グループ２およびグループ６が束ねられてプリセットグループ２（preset Group 2）とされている。そして、これらのプリセットグループ１およびプリセットグループ２は、チューブ１（Tube 1）に含まれている。

また、グループ４およびグループ５が束ねられてプリセットグループ３（preset Group 3）とされ、グループ７およびグループ８が束ねられてプリセットグループ４（preset Group 4）とされている。そして、これらのプリセットグループ３およびプリセットグループ４は、チューブ２（Tube 2）に含まれている。

図９は、図８の３Ｄオーディオの伝送データの構成例に対応した、３ストリームで送信する場合におけるグループとストリームの対応関係などを示している。プリセットグループＩＤ（preset Group ID）の項目部分を除き、図６と同である。なお、１ストリームで送信する場合、全てのグループの符号化データがストリーム１（メインストリーム）に含まれることから、図９における「Stream ID」は全て“１”となる。

図１０は、図８の３Ｄオーディオの伝送データの構成例に対応した、コマンド（コマンド識別子：CommandID）とグループ、プリセットグループとの対応関係の一例を示している。プリセットグループとの対応関係部分を除き、図７と同である。

すなわち、コマンド“１９”〜“２４”の部分は、コマンドとそのコマンドが示すデコード対象とすべきプリセットグループとの対応関係を示している。例えば、コマンド“１９”は、プリセットグループ１をデコード対象とすべきことを示す。また、例えば、コマンド“２１”は、プリセットグループ１およびプリセットグループ３をデコード対象とすべきことを示す。

図１に戻って、サービス受信機２００は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、上述したように、ビデオストリームの他に、３Ｄオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。コンテナおよび/またはオーディオストリームに、伝送データ構成情報およびコマンド情報が挿入されている。

サービス受信機２００は、伝送データ構成情報とユーザ選択操作、さらにはシステムの処理機能などに基づいて、デコードすべきグループを決定する。この際、サービス受信機２００は、伝送データ構成情報に基づいて、ユーザが選択操作を行うためのＵＩ（User Interface）画面を表示する。ユーザは、このＵＩ画面上で選択操作を行う。

図１１は、図３、図８に示す３Ｄオーディオの伝送データの構成例に対応したＵＩ画面の一例を示している。ユーザは、グループ１で区別されるチャネル符号化データで再現される「シーン状況全般を反映するサウンド」に関してはユーザ選択不能とされ、グループ１は、デコードすべきグループとして決定される。また、グループ２で区別されるイマーシブオーディオオブジェクト符号化データで再現される「シーンの盛り上がりを演出する効果音」に関してもユーザ選択不能とされ、グループ１は、デコードすべきグループとして決定される。

また、グループ３で区別される第１のランゲージに係るスピーチダイアログオブジェクト符号化データで再現される「会話音声１（第１言語）」と、グループ６で区別される第２のランゲージに係るスピーチダイアログオブジェクト符号化データで再現される「会話音声２（第２言語）」に関してはユーザ選択が可能とされる。ユーザが会話音声１の選択操作を行った場合にはグループ３はデコードすべきグループとして決定され、一方、ユーザが会話音声２の選択操作を行った場合にはグループ６はデコードすべきグループとして決定される。

また、グループ４で区別される第１のタイプに係るサウンドオブジェクト符号化データで再現される「環境ＢＧＭ１」と、グループ５で区別される第２のタイプに係るサウンドオブジェクト符号化データで再現される「環境ＢＧＭ２」に関してはユーザ選択が可能とされる。この場合、「環境ＢＧＭなし」も選択肢とされる。

ユーザが環境ＢＧＭ１の選択操作を行った場合にはグループ４はデコードすべきグループとして決定され、一方、ユーザが環境ＢＧＭ２の選択操作を行った場合にはグループ５はデコードすべきグループとして決定される。また、ユーザが環境ＢＧＭなしの選択操作を行った場合には、グループ４，５のいずれもデコードすべきグループとして決定されない。

また、グループ７で区別される第１のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データで再現される「ナレーション１」と、グループ８で区別される第２のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データで再現される「ナレーション２」関してはユーザ選択が可能とされる。この場合、「ナレーションなし」も選択肢とされる。

ユーザがナレーション１の選択操作を行った場合にはグループ７はデコードすべきグループとして決定され、一方、ユーザがナレーション２の選択操作を行った場合にはグループ８はデコードすべきグループとして決定される。また、ユーザがナレーションなしの選択操作を行った場合には、グループ７，８のいずれもデコードすべきグループとして決定されない。

サービス受信機２００は、受信された所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームを取り出して統合し、一つのオーディオストリームを取得する。この場合、所定数のオーディオストリームが一つであるときには、このオーディオストリームをそのまま一つのオーディオストリームとなる。

受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンド（コマンド識別子：CommandID）を受信側で挿入するためのコマンド挿入領域を設けられている。そのため、この一つのオーディオストリームには、コマンド挿入領域が存在する。

サービス受信機２００は、この一つのオーディオストリームに、上述したように決定されたデコードすべきグループを特定するためのコマンドを挿入する。この場合、サービス受信機２００は、コマンド挿入領域にコマンドを挿入する。

サービス受信機２００は、挿入すべきコマンドを、例えば、コマンド情報（図７、図１０参照）を参照して発生する。例えば、デコードすべきグループがグループ１，２，３，４，８であるときには、「CommandID」＝“７”を挿入する。なお、サービス受信機２００は、挿入すべきコマンドを、コマンド情報に含まれるコマンドを使用せずに、あるいはコマンド情報に含まれるコマンドと共に、コマンドを別途個別に発生させて使用することも可能とされる。

サービス受信機２００は、コマンドが挿入された一つのオーディオストリームをオーディオデコーダに送って、この一つのオーディオストリームに含まれる所定数のグループのうちコマンドで特定されたデコードすべきグループの符号化データにデコード処理を施し、３Ｄオーディオのオーディオ出力を得る。

［サービス送信機のストリーム生成部］
図１２は、サービス送信機１００が備えるストリーム生成部１１０の構成例を示している。このストリーム生成部１１０は、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、マルチプレクサ１１４を有している。ここでは、オーディオの伝送データが、図３、図８に示すように、１つの符号化チャネルデータと４つのオブジェクト符号化データとからなる例とする。

ビデオエンコーダ１１２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対して符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。オーディオエンコーダ１１３は、オーディオデータＳＡとして、チャネルデータと共に、イマーシブオーディオ、スピーチダイアログ、サウンドオブジェクトおよびオーディオデスクリプションオブジェクトのオブジェクトデータを入力する。

オーディオエンコーダ１１３は、オーディオデータＳＡに対して符号化を施し、３Ｄオーディオの伝送データを得る。この３Ｄオーディオの伝送データには、図３、図８に示すように、チャネル符号化データ（ＣＤ）と、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）と、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、サウンドオブジェクト符号化データ（ＳＵＯ）と、オーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる。

オーディオエンコーダ１１３は、複数のグループ、ここでは８つのグループの符号化データ含む１つまたは複数のオーディオストリーム（オーディオエレメンタリストリーム）を生成する（図５（ａ），（ｂ）参照）。このとき、オーディオエンコーダ１１３は、所定数のオーディオストリームのうち少なくとも１つ以上のオーディオストリーム、例えばメインストリームに、伝送データ構成情報およびコマンド情報を挿入し、さらに、コマンド挿入領域を設ける。

具体的には、オーディオエンコーダ１１３は、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報（“Ｄｅｓｃ”）として、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）を挿入し、さらに、コマンド挿入領域を構成する３Ｄオーディオ・コマンド・デスクリプタ（3Daudio_command_descriptor）を挿入する。

マルチプレクサ１１４は、ビデオエンコーダ１１２から出力されるビデオストリームおよびオーディオエンコーダ１１３から出力される所定数のオーディオストリームを、それぞれ、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

このとき、マルチプレクサ１１４は、コンテナとしてのトランスポートストリームＴＳに、伝送データ構成情報およびコマンド情報を挿入する。具体的には、マルチプレクサ１１４は、所定数のオーディオストリームのうち少なくとも１つ以上のオーディオストリーム、例えばメインストリームに対応したオーディオエレメンタリストリームループ内に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）を挿入する。

また、マルチプレクサ１１４は、コンテナとしてのトランスポートストリームＴＳに、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報を挿入する。具体的には、マルチプレクサ１１４は、所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に、３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_streamID_descriptor）を挿入する。

図１２に示すストリーム生成部１１０の動作を簡単に説明する。ビデオデータは、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、マルチプレクサ１１４に供給される。

オーディオデータＳＡは、オーディオエンコーダ１１３に供給される。このオーディオデータＳＡには、チャネルデータと、イマーシブオーディオ、スピーチダイアログ、サウンドオブジェクトおよびオーディオデスクリプションオブジェクトのオブジェクトデータが含まれる。オーディオエンコーダ１１３では、オーディオデータＳＡに対して符号化が施され、３Ｄオーディオの伝送データが得られる。

この３Ｄオーディオの伝送データには、チャネル符号化データ（ＣＤ）の他に、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）と、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、サウンドオブジェクト符号化データ（ＳＵＯ）と、オーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる（図３、図８参照）。このオーディオエンコーダ１１３では、８つのグループの符号化データ含む１つまたは複数のオーディオストリームが生成される（図５（ａ），（ｂ）参照）。

このとき、オーディオエンコーダ１１３では、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報（“Ｄｅｓｃ”）として、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）が挿入され、さらに、コマンド挿入領域を構成する３Ｄオーディオ・コマンド・デスクリプタ（3Daudio_command_descriptor）が挿入される。

ビデオエンコーダ１１２で生成されたビデオストリームは、マルチプレクサ１１４に供給される。また、オーディオエンコーダ１１３で生成されたオーディオストリームは、マルチプレクサ１１４に供給される。マルチプレクサ１１４では、各エンコーダから供給されるストリームがＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

また、マルチプレクサ１１４では、例えばメインストリームに対応したオーディオエレメンタリストリームループ内に、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）が挿入される。また、このマルチプレクサ１１４では、所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に、ストリーム識別子情報を含む３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_streamID_descriptor）が挿入される。

［３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの構造］
図１３、図１４は、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）の構造例（Syntax）を示している。また、図１５は、その構造例における主要な情報の内容（Semantics）を示している。

「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「NumOfGroups, N」の８ビットフィールドは、グループの数Ｎを示す。「NumOfPresetGroups, P」の８ビットフィールドは、プリセットグループの数Ｐを示す。「NumOfCommand; Q」の８ビットフィールドは、コマンドの数Ｑを示す。グループの数Ｎだけ、「groupID」の８ビットフィールド、「attribute_of_groupID」の８ビットフィールド、「SwitchGroupID」の８ビットフィールド、「audio_streamID」の８ビットフィールドおよび「content_kind」の８ビットフィールドが、繰り返し存在する。

「groupID」のフィールドは、グループの識別子を示す。「attribute_of_groupID」のフィールドは、該当グループの符号化データの属性を示す。「SwitchGroupID」のフィールドは、該当グループがどのスイッチグループに属すかを示す識別子である。“０”は、いずれのスイッチグループにも属さないことを示す。“０”以外は、属するスイッチグループを示す。「content_Kind」の８ビットフィールドは、グループのコンテンツの種類を示す。「audio_streamID」は、該当グループが含まれるオーディオストリームを示す識別子である。

また、プリセットグループの数Ｐだけ、「presetGroupID」の８ビットフィールドおよび「NumOfGroups_in_preset, R」の８ビットフィールドが、繰り返し存在する。「presetGroupID」のフィールドは、グループをプリセットした束を示す識別子である。「NumOfGroups_in_preset, R」のフィールドは、プリセットグループに属するグループの数Ｒを示す。そして、プリセットグループ毎に、それに属するグループの数Ｒだけ、「groupID」の８ビットフィールドが繰り返し存在し、プリセットグループに属する全てのグループが示される。

また、コマンドの数Ｑだけ、「CommandID」の８ビットフィールド、「selection_type」の１ビットフィールドが繰り返し存在する。「CommandID」のフィールドは、コマンド識別子であり、デコード対象を示す。「selection_type」は、コマンド指定のタイプを示す。“１”は直接グループを指定することを示し、“０”はプリセットグループを指定することで間接的にグループを指定することを示す。

「selection_type」が“０”であるとき、つまりデコード対象としてプリセットグループを指定するとき、コマンド毎に、「Max_NumOfPresetGroups_in_command; W」の８ビットフィールドが存在する。このフィールドは、一つのコマンドに含まれるプリセットグループの数Ｗを示す。ここで、Ｗ≦“NumOfTubePresetGroup”の関係になる。なお、“NumOfTubePresetGroup”は、プリセットグループのチューブ（束：Tube）の数を示すもので、同時指定され得るプリセットグループの数に対応する。全てのプリセットグループは、このチューブのいずれかに属することを前提とする。「presetGroupID」の８ビットフィールドを繰り返し配置することで、デコード対象として指定される全てのプリセットグループが示される。

また、「selection_type」が“１”であるとき、つまりデコード対象として直接グループを指定するとき、コマンド毎に、「Max_NumOfGroups_in_command; S」の８ビットフィールドが存在する。このフィールドは、一つのコマンドに含まれるグループの数Ｓを示す。そして、グループの数Ｓだけ、「groupID」の８ビットフィールドが繰り返し存在し、デコード対象として指定される全てのグループが示される。

［３Ｄオーディオ・ストリームＩＤ・デスクリプタの構造］
図１６（ａ）は、３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_streamID_descriptor）の構造例（Syntax）を示している。また、図１６（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。

「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、３Ｄオーディオ・ストリームＩＤ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。「audio_streamID」の８ビットフィールドは、オーディオストリームの識別子を示す。

［３Ｄオーディオ・コマンド・デスクリプタの構造］
図１７（ａ）は、３Ｄオーディオ・コマンド・デスクリプタ（3Daudio_command_descriptor）の構造例（Syntax）を示している。また、図１７（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。

「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、３Ｄオーディオ・コマンド・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。「NumOfCommands, N」の８ビットフィールドは、コマンドの数Ｎを示す。そして、コマンドの数Ｎだけ、「CommandID」の８ビットフィールドが繰り返し存在する。

なお、サービス送信機１００がオーディオストリームに当該３Ｄオーディオ・コマンド・デスクリプタを挿入する段階では、受信側におけるコマンドの最大挿入数が考慮されて“Ｎ”の値が決定されると共に、「CommandID」のフィールドには無効な値、例えばオール０が挿入される。

[トランスポートストリームＴＳの構成]
図１８は、３Ｄオーディオの伝送データをメインストリーム、サブストリーム１、サブストリーム２の３ストリームで送信する場合におけるトランスポートストリームＴＳの構成例を示している（図３、図５（ｂ）参照）。この構成例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」が存在する。また、この構成例では、ＰＩＤ１００，ＰＩＤ２００，ＰＩＤ３００でそれぞれ識別される３つのオーディオストリームのＰＥＳパケット「audio PES」が存在する。ＰＥＳパケットは、ＰＥＳヘッダ（PES_header）とＰＥＳペイロード（PES_payload）からなっている。

ＰＩＤ１００で識別されるオーディオストリーム（メインストリーム）のＰＥＳパケットのＰＥＳペイロード内には、グループ１として区別されるチャネル符号化データ（ＣＤ）と、グループ２として区別されるイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれる。そして、このＰＥＳペイロード内には、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）と３Ｄオーディオ・コマンド・デスクリプタ（3Daudio_command_descriptor）のデスクリプタ情報“Ｄｅｓｃ”（図５（ｂ）参照）が挿入される。

また、ＰＩＤ２００で識別されるオーディオストリーム（サブストリーム１）のＰＥＳパケットのＰＥＳペイロード内には、グループ３として区別されるスピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、グループ４，５として区別されるサウンドオブジェクト符号化データ（ＳＵＯ）が含まれる。また、ＰＩＤ３００で識別されるオーディオストリーム（サブストリーム２）のＰＥＳパケットのＰＥＳパケットのＰＥＳペイロード内には、グループ６として区別されるスピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、グループ７，８として区別されるオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる。

また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。ＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）が存在すると共に、３つのオーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）が存在する

ビデオエレメンタリストリームループ（video ES loop）には、ビデオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「０ｘ２４」に設定され、ＰＩＤ情報は、上述したようにビデオストリームのＰＥＳパケット「video PES」に付与されるＰＩＤ１を示すものとされる。

各オーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。メインストリームの「Stream_type」の値は「０ｘ２Ｃ」に設定され、ＰＩＤ情報は、上述したようにメインストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ１００を示すものとされる。

また、サブストリーム１の「Stream_type」の値は「０ｘ２Ｄ」に設定され、ＰＩＤ情報は、上述したようにサブストリーム１のＰＥＳパケット「audio PES」に付与されるＰＩＤ２００を示すものとされる。また、サブストリーム２の「Stream_type」の値は「０ｘ２Ｄ」に設定され、ＰＩＤ情報は、上述したようにサブストリーム２のＰＥＳパケット「audio PES」に付与されるＰＩＤ３００を示すものとされる。

メインストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（3Daudio_stream_config_descriptor）と３Ｄオーディオ・ストリームＩＤ・デスクリプタ（3Daudio_streamID_descriptor）が配置される。また、サブストリーム１，２に対応したオーディオエレメンタリストリームループ（audio ES loop）に、３Ｄオーディオ・ストリームＩＤ・デスクリプタが配置される。

図１９は、３Ｄオーディオの伝送データをメインストリームの１ストリームで送信する場合におけるトランスポートストリームＴＳの構成例を示している（図３、図５（ａ）参照）。この構成例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」が存在する。また、この構成例では、ＰＩＤ１００で識別される１つのオーディオストリームのＰＥＳパケット「audio PES」が存在する。ＰＥＳパケットは、ＰＥＳヘッダ（PES_header）とＰＥＳペイロード（PES_payload）からなっている。

ＰＩＤ１００で識別されるオーディオストリーム（メインストリーム）のＰＥＳパケットのＰＥＳペイロード内には、グループ１として区別されるチャネル符号化データ（ＣＤ）と、グループ２として区別されるイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）と、グループ３，６として区別されるスピーチダイアログオブジェクト符号化データ（ＳＤＯ）と、グループ４，５として区別されるサウンドオブジェクト符号化データ（ＳＵＯ）と、グループ７，８として区別されるオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれる。このＰＥＳペイロード内には、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタと３Ｄオーディオ・コマンド・デスクリプタのデスクリプタ情報“Ｄｅｓｃ”（図５（ａ）参照）が挿入される。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）が存在すると共に、１つのオーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）が存在する

オーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリーム（メインストリーム）に対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ２Ｃ」に設定され、ＰＩＤ情報は、上述したようにメインストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ１００を示すものとされる。このオーディオエレメンタリストリームループ（audio ES loop）に、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタと３Ｄオーディオ・ストリームＩＤ・デスクリプタが配置される。

［サービス受信機の構成例］
図２０は、サービス受信機２００の構成例を示している。このサービス受信機２００は、受信部２０１と、デマルチプレクサ２０２と、ビデオデコーダ２０３と、映像処理回路２０４と、パネル駆動回路２０５と、表示パネル２０６を有している。また、このサービス受信機２００は、多重化バッファ２１１-1〜２１１-Nと、コンバイナ２１２と、コマンド挿入部２１３と、３Ｄオーディオデコーダ２１４と、音声出力処理回路２１５と、スピーカシステム２１６を有している。また、このサービス受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６を有している。

ＣＰＵ２２１は、サービス受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、サービス受信機２００の各部を制御する。

リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、サービス受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

受信部２０１は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビデオストリームの他に、３Ｄオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。

図２１は、受信されるオーディオストリームの一例を示している。図２１（ａ）は、１ストリーム（メインストリーム）の例を示している。このメインストリームは、識別子ＰＩＤ１００で識別される。このメインストリームには、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、チャネル符号化データ（ＣＤ）、イマーシブオーディオオブジェクト符号化データ（ＩＡＯ）、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）、サウンドオブジェクト符号化データ（ＳＵＯ）およびオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれている（図３参照）。

また、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報（“Ｄｅｓｃ”）として、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（図１３、図１４参照）と、コマンド情報を含む３Ｄオーディオ・コマンド・デスクリプタ（図１７（ａ）参照）が挿入されている。

図２１（ｂ）は、マルチストリーム、ここでは３ストリームの例を示している。ＰＩＤ１００で識別されるメインストリームに、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、チャネル符号化データ（ＣＤ）およびイマーシブオーディオオブジェクト符号化データ（ＩＡＯ）が含まれている（図３参照）。

また、ＰＩＤ２００で識別されるサブストリーム１に、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）およびサウンドオブジェクト符号化データ（ＳＵＯ）が含まれている（図３参照）。また、ＰＩＤ３００で識別されるサブストリーム２に、“ＳＹＮＣ”および“Ｃｏｎｆｉｇ”と共に、スピーチダイアログオブジェクト符号化データ（ＳＤＯ）およびオーディオデスクリプションオブジェクト符号化データ（ＡＤＯ）が含まれている（図３参照）。

メインストリームには、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報（“Ｄｅｓｃ”）として、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ（図１３、図１４参照）と、コマンド情報を含む３Ｄオーディオ・コマンド・デスクリプタ（図１７（ａ）参照）が挿入されている。

デマルチプレクサ２０２は、トランスポートストリームＴＳからビデオストリームのパケットを抽出し、ビデオデコーダ２０３に送る。ビデオデコーダ２０３は、デマルチプレクサ２０２で抽出されたビデオのパケットからビデオストリームを再構成し、デコード処理を行って非圧縮のビデオデータを得る。

映像処理回路２０４は、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路２０５は、映像処理回路２０４で得られる表示用の画像データに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

また、デマルチプレクサ２０２は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ２２１に送る。この各種情報には、上述した３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタや３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報も含まれる（図１８、図１９参照）。

ＣＰＵ２２１は、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの情報から、伝送データ構成（図３、図８参照）と共に、コマンドとグループ・プリセットグループとの対応関係（図７、図１０参照）を認識する。また、ＣＰＵ２２１は、３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報から、各グループがどのオーディオストリームに含まれているかを認識する。

ＣＰＵ２２１は、伝送データ構成情報と、ユーザ選択操作、さらにはシステムの処理機能に基づいて、デコードすべきグループを決定し、そのグループを特定するためのコマンド（コマンド識別子：CommandID）を発生する。この場合、ＣＰＵ２２１は、伝送データ構成情報に基づいて、ユーザが選択操作を行うためのＵＩ（User Interface）画面を表示する（図１１参照）。ユーザは、このＵＩ画面上で選択操作を行う。

また、デマルチプレクサ２０２は、ＣＰＵ２２１の制御のもと、トランスポートストリームＴＳが有する所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームを、ＰＩＤフィルタで選択的に取り出す。なお、所定数のオーディオストリームが１ストリームである場合（図２１（ａ）参照）、そのオーディオストリームは必ず取り出される。また、所定数のオーディオストリームがマルチストリームである場合（図２１（ｂ）参照）、チャネル符号化データ（ＣＤ）が含まれるメインストリームは必ず取り出される。

多重化バッファ２１１-1〜２１１-Nは、それぞれ、デマルチプレクサ２０２で取り出される各オーディオストリームを取り込む。ここで、多重化バッファ２１１-1〜２１１-Nの個数Ｎとしては必要十分な個数とされるが、実際の動作では、デマルチプレクサ２０２で取り出されるオーディオストリームの数だけ用いられることになる。

コンバイナ２１２は、多重化バッファ２１１-1〜２１１-Nのうちデマルチプレクサ２０２で取り出される各オーディオストリームがそれぞれ取り込まれた多重化バッファから、オーディオフレーム毎に、オーディオストリームを読み出して統合して一つのオーディオストリームを得る。この場合、デマルチプレクサ２０２で取り出されるオーディオストリームが一つであるときには、このオーディオストリームをそのまま一つのオーディオストリームとする。

この一つのオーディオストリームには、１ストリーム（メインストリーム）（図２１（ａ）参照）、あるいはマルチストリームのメインストリーム（図２１（ｂ）参照）と同様に、“ＳＹＮＣ”と“Ｃｏｎｆｉｇ”の間に、デスクリプタ情報（“Ｄｅｓｃ”）として、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタと、コマンド挿入領域を構成する３Ｄオーディオ・コマンド・デスクリプタが挿入されている。

コマンド挿入部２１３は、ＣＰＵ２２１で発生された、デコードすべきと決定されたグループを特定するためのコマンドを、コンバイナ２１２で得られた一つのオーディオストリームのコマンド挿入領域に挿入、つまり３Ｄオーディオ・コマンド・デスクリプタに記述する。

ＣＰＵ２２１は、デコードすべきと決定されたグループを特定するためのコマンドとして、コマンド情報に含まれるコマンドを発生するか、あるいは、コマンド情報に含まれるコマンドと共に別途個別のコマンドを発生するか、あるいは別途個別のコマンドのみを発生する。

例えば、図３に示す３Ｄオーディオの伝送データの構成例において、ＣＰＵ２２１で、グループ１，２，３，４がデコードすべきグループとして決定された場合を考える。最初に、受信オーディオストリームが１ストリームである場合（図２１（ａ）参照）におけるデコード対象の選択処理例を説明する。

この場合、図２２（ａ）に示すように、コマンド挿入部２１３には、受信オーディオストリームであるメインストリームがそのまま供給される。このメインストリームには、グループ１〜８の全ての符号化データが含まれている。この場合、ＣＰＵ２２１は、図２２（ｂ）に示すように、例えば、コマンド（コマンド識別子：CommandID）として、グループ１，２，３，４をデコード対象として指定する“１３” （図７参照）を一つだけ発生する。

あるいは、ＣＰＵ２２１は、図２２（ｂ）に示すように、例えば、コマンド（コマンド識別子：CommandID）として、プリセットグループ１をデコード対象として指定する“１９” （図７参照）と、スイッチグループ１はグループ３をデコード対象として指定する個別コマンド“Ａ”と、スイッチグループ２はグループ４をデコード対象として指定する個別コマンド“Ｂ”を発生する。

そして、コマンド挿入部２１３は、図２２（ｃ）に示すように、ＣＰＵ２２１で発生されたコマンド（コマンド識別子：CommandID）を、３Ｄオーディオデコーダ２１４に供給される１つのオーディオストリームのコマンド挿入領域に挿入する。これにより、３Ｄオーディオデコーダ２１４には、１つのオーディオストリームに含まれるグループ１〜８のうち、デコー対象のグループがグループ１，２，３，４であることが通知される。

次に、受信オーディオストリームがマルチストリーム、ここでは３ストリームである場合（図２１（ｂ）参照）におけるデコード対象の選択処理例を説明する。図２３は、デマルチプレクサ２０２におけるストリーム取り出し処理を示している。デマルチプレクサ２０２は、ＣＰＵ２２１からのストリーム選択信号「Stream select」で取り出し対象として指定されているストリームを取り出す。

この場合、メインストリームはグループ１，２が含まれているのでＣＰＵ２２１により取り出し対象として指定され、デマルチプレクサ２０２ではこのメインストリームが取り出される。また、サブストリーム１はグループ３，４が含まれているのでＣＰＵ２２１により取り出し対象として指定され、デマルチプレクサ２０２ではこのサブストリーム１も取り出される。

コマンド挿入部２１３には、図２４（ａ）に示すように、デマルチプレクサ２０２で取り出されたメインストリームおよびサブストリーム１を統合して得られた一つのオーディオストリームが供給される。この場合、ＣＰＵ２２１は、図２４（ｂ）に示すように、例えば、コマンド（コマンド識別子：CommandID）として、グループ１，２，３，４をデコード対象として指定する“１３” （図７参照）を一つだけ発生する。あるいは、ＣＰＵ２２１は、図２４（ｂ）に示すように、例えば、スイッチグループ２はグループ４をデコード対象として指定する個別コマンド“Ｂ”を発生する。

そして、コマンド挿入部２１３は、図２４（ｃ）に示すように、ＣＰＵ２２１で発生されたコマンド（コマンド識別子：CommandID）を、３Ｄオーディオデコーダ２１４に供給される１つのオーディオストリームのコマンド挿入領域に挿入する。これにより、３Ｄオーディオデコーダ２１４には、１つのオーディオストリームに含まれるグループ１〜５のうち、デコー対象のグループがグループ１，２，３，４であることが通知される。

図２０に戻って、３Ｄオーディオデコーダ２１４は、コマンド挿入部２１３を介して供給される一つのオーディオストリームに含まれる複数のグループの符号化データのうち、挿入されているコマンドによってデコード対象として指定されているグループの符号化データに対してデコード処理を施し、各スピーカを駆動するためのオーディオデータを得る。

この場合、３Ｄオーディオデコーダ２１４は、チャネル符号化データをデコードするときは、スピーカシステム２１６のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。また、３Ｄオーディオデコーダ２１４は、オブジェクト符号化データをデコードするときは、オブジェクト情報（メタデータ）に基づきスピーカレンダリング（各スピーカへのミキシング割合）を計算し、その計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングする。

音声出力処理回路２１５は、３Ｄオーディオデコーダ２１４で得られた各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を行って、スピーカシステム２１６に供給する。スピーカシステム２１６は、複数チャネル、例えば２チャネル、５．１チャネル、７．１チャネル、２２．２チャネルなどの複数のスピーカを備える。

図２５は、３Ｄオーディオデコーダ２１４の構成例を示している。３Ｄオーディオデコーダ２１４は、オーディオトランスポート（Audio transport）解析部２１４ａと、コンフィグ（Config）処理部２１４ｂと、フレーム（Frame）選択部２１４ｃと、フレーム（Frame）デコード部２１４ｄと、レンダリング/ミキシング（Rendering /Mixing）部２１４ｅを有している。

オーディオトランスポート解析部２１４ａは、オーディオストリームのパケット解析を行ってデスクリプタのパケットを抜き出し、さらにコマンド解析を行ってデコード対象のグループの情報を得る。コンフィグ処理部２１４ｂは、コンフィグ（Config）パケットで供給されるオーディオ・シーン・インフォ（AudioSceneInfo）の情報、つまりグループＩＤ（GroupID）、スイッチグループＩＤ（SwitchGroupID）、プリセットグループＩＤ（PresetGroupID）などと照合して、デコード対象となるフレームの選択を行って、フレームデコード部２１４ｄに通知する。

フレームデコード部２１４ｄは、デコード対象のフレームの符号化データに対してデコード処理を行う。レンダリング/ミキシング部２１４ｅは、フレームデコード部２１４ｄで得られるデコード出力を用いてレンダリング・ミキシングなどの処理を行って、各スピーカを駆動するためのオーディオデータ（非圧縮オーディオ）を得る。

図２０に示すサービス受信機２００の動作を簡単に説明する。受信部２０１では、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、ビデオストリームの他に、３Ｄオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。このトランスポートストリームＴＳは、デマルチプレクサ２０２に供給される。

デマルチプレクサ２０２では、トランスポートストリームＴＳからビデオストリームのパケットが抽出され、ビデオデコーダ２０３に供給される。ビデオデコーダ２０３では、デマルチプレクサ２０２で抽出されたビデオのパケットからビデオストリームが再構成され、デコード処理が行われて、非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路２０４に供給される。

映像処理回路２０４では、ビデオデコーダ２０３で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、表示用のビデオデータに対応した画像が表示される。

また、デマルチプレクサ２０２では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ２２１に送られる。この各種情報には、データ構成情報およびコマンド情報が含まれる３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタ、ストリーム識別子情報が含まれる３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報も含まれる（図１８、図１９参照）。

ＣＰＵ２２１では、３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタの情報から、伝送データ構成（図３、図８参照）と共に、コマンドとグループ・プリセットグループとの対応関係（図７、図１０参照）が認識される。また、ＣＰＵ２２１では、３Ｄオーディオ・ストリームＩＤ・デスクリプタの情報から、各グループがどのオーディオストリームに含まれているかが認識される。

ＣＰＵ２２１では、伝送データ構成情報と、ユーザ選択操作、さらにはシステムの処理機能などに基づいて、デコードすべきグループが決定され、そのグループを特定するためのコマンド（コマンド識別子：CommandID）が発生される。この場合、ＣＰＵ２２１の制御により、例えば、表示パネル２０６に、ユーザが選択操作を行うためのＵＩ（User Interface）画面が表示される（図１１参照）。

また、デマルチプレクサ２０２では、ＣＰＵ２２１の制御のもと、トランスポートストリームＴＳが有する所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームが、ＰＩＤフィルタで選択的に取り出される。この場合、ＣＰＵ２２１からデマルチプレクサ２０２に、ストリーム選択信号「Stream select」が供給され、取り出し対象のストリームが指定される。

デマルチプレクサ２０２で取り出されたオーディオストリームは、多重化バッファ２１１-1〜２１１-Nのうち対応する多重化バッファに取り込まれる。コンバイナ２１２では、オーディオストリームが取り込まれた各多重化バッファから、オーディオフレーム毎に、オーディオストリームが読み出され、一つのオーディオストリームに統合される。この一つのオーディオストリームは、コマンド挿入部２１３に供給される。

コマンド挿入部２１３では、ＣＰＵ２２１で発生された、デコードすべきと決定されたグループを特定するためのコマンドが、コンバイナ２１２で得られた一つのオーディオストリームのコマンド挿入領域に挿入される。この場合、コンバイナ２１２で得られた一つのオーディオストリームに挿入されている３Ｄオーディオ・コマンド・デスクリプタに、コマンド（コマンド識別子：CommandID）が記述される。

コマンド挿入がされた一つのオーディオストリームは、３Ｄオーディオデコーダ２１４に供給される。この３Ｄオーディオデコーダ２１４では、この一つのオーディオストリームに含まれる複数のグループの符号化データのうち、挿入されているコマンドによってデコード対象として指定されているグループの符号化データに対してデコード処理が施され、各スピーカを駆動するためのオーディオデータが得られる。

この各スピーカを駆動するためのオーディオデータは、音声処理回路２１５に供給される。音声出力処理回路２１５では、このオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム２１６に供給される。これにより、スピーカシステム２１６からは表示パネル２０６の表示画像に対応した音響出力が得られる。

上述したように、図１に示す送受信システム１０において、サービス送信機１００は、コンテナ（トランスポートストリームＴＳ）に、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する。そのため、受信側においては、このコマンド情報を参照することで、デコードすべきグループを特定するコマンドの発生処理が容易となる。

また、図１に示す送受信システム１０において、サービス送信機１００は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける。そのため、受信側でオーディオストリームにコマンドを挿入する場合にこのコマンド挿入領域を利用でき、コマンド挿入処理が容易となる。

また、図１に示す送受信システム１０において、サービス受信機２００は、オーディオストリームにデコードすべきグループを特定するためのコマンドを挿入して３Ｄオーディオデコーダ２１４に送る。そのため、３Ｄオーディオデコーダ２１４では、デコードすべきグループの符号化画像データのみを選択的にデコードすることが可能となる。

この場合、コンバイナ２１２にグループの選択処理を行わせるものではなく、効率的な処理が可能となる。つまり、オーディオフレーム（Audio Frame）よりも中に入り込んで、グループ情報やグループ間の境界を見つける処理は、３Ｄオーディオデコーダ２１４に任せる方が効率的に行える。

＜２．変形例＞
なお、上述実施の形態において、伝送データ構成情報およびコマンド情報を含む３Ｄオーディオ・ストリーム・コンフィグ・デスクリプタをコンテナ（トランスポートストリームＴＳ）の他に、オーディオストリームにも挿入して送信する例を示したが、いずれか一方のみに挿入して送信することも考えられる。

また、上述実施の形態においては、オーディオストリームにコマンド挿入領域を挿入して送信する例を示した。しかし、これに限定されるものではなく、受信側でコマンド挿入領域を設けてコマンドを挿入することも考えられる。

また、上述実施の形態においては、複数のグループの符号化データに、チャネル符号化データおよびオブジェクト符号化データの双方が含まれる例を示した（図３、図８参照）。しかし、本技術は、複数のグループの符号化データに、チャネル符号化データのみ、あるいはオブジェクト符号化データのみが含まれる場合にも同様に適用できる。

また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ−２ＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

なお、本技術は、以下のような構成もとることができる。
（１）複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入部を備える
送信装置。
（２）上記コマンド情報は、コマンドとグループの対応関係を示す情報、あるいはコマンドと所定数のグループの組み合わせからなるプリセットグループの対応関係を示す情報である
前記（１）に記載の送信装置。
（３）上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記情報挿入部は、
上記コマンド情報を、上記メインストリームおよび/または該メインストリームに対応したコンテナ位置に挿入する
前記（１）または（２）に記載の送信装置。
（４）上記オーディオエンコード部は、
上記複数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するコマンドを受信側で挿入するためのコマンド挿入領域を設ける
前記（１）から（３）のいずれかに記載の送信装置。
（５）複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップと、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入ステップを有する
送信方法。
（６）複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部を備え、
上記オーディオエンコード部は、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信装置。
（７）上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記オーディオエンコード部は、
上記メインストリームに、上記コマンド挿入領域を設ける
前記６に記載の送信装置。
（８）複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップを有し、
上記オーディオエンコードステップでは、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信方法。
（９）複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信部と、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得部と、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生部と、
上記ストリーム取得部で取得された一つのオーディオストリームに、上記コマンド発生部で発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコード部を備える
受信装置。
（１０）上記コマンド発生部は、
ユーザのユーザインタフェース画面上における選択操作に応じたコマンドを発生する
前記（９）に記載の受信装置。
（１１）上記受信部で受信されたオーディオストリームおよび/またはコンテナに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入されており、
上記コマンド発生部は、上記コマンド情報を参照してコマンドを発生する
前記（９）または（１０）に記載の受信装置。
（１２）上記受信部で受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを挿入するためのコマンド挿入領域が設けられており、
上記ストリーム取得部で取得された一つのオーディオストリームは、上記コマンド挿入領域を有し、
上記コマンド挿入部は、
上記一つのオーディオストリームの上記コマンド挿入領域に上記コマンドを挿入する
前記（９）から（１１）のいずれかに記載の受信装置。
（１３）受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信ステップと、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得ステップと、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生ステップと、
上記ストリーム取得ステップで取得された一つのオーディオストリームに、上記コマンド発生ステップで発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコードステップを有する
受信方法。

本技術の主な特徴は、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入することで、受信側におけるデコードすべきグループを特定するコマンドの発生処理を容易としたことである（図１８、図１９参照）。また、本技術の主な特徴は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設けることで、受信側におけるコマンド挿入処理を容易としたことである（図５参照）。また、本技術の主な特徴は、オーディオストリームにデコードすべきグループを特定するためのコマンドを挿入して３Ｄオーディオデコーダに送る構成としたことで、受信側のグループ選択処理の効率化を図ったことである（図２０、図２５参照）。

１０・・・送受信システム
１００・・・サービス送信機
１１０・・・ストリーム生成部
１１２・・・ビデオエンコーダ
１１３・・・オーディオエンコーダ
１１４・・・マルチプレクサ
２００・・・サービス受信機
２０１・・・受信部
２０２・・・デマルチプレクサ
２０３・・・ビデオデコーダ
２０４・・・映像処理回路
２０５・・・パネル駆動回路
２０６・・・表示パネル
２１１-1〜２１１-N・・・多重化バッファ
２１２・・・コンバイナ
２１３・・・コマンド挿入部
２１４・・・３Ｄオーディオデコーダ
２１４ａ・・・オーディオトランスポート解析部
２１４ｂ・・・コンフィグ処理部
２１４ｃ・・・フレーム選択部
２１４ｄ・・・フレームデコード部
２１４ｅ・・・レンダリング/ミキシング部
２１５・・・音声出力処理回路
２１６・・・スピーカシステム
２２１・・・ＣＰＵ
２２２・・・フラッシュＲＯＭ
２２３・・・ＤＲＡＭ
２２４・・・内部バス
２２５・・・リモコン受信部
２２６・・・リモコン送信機

本技術は、受信装置、受信方法、送信装置および送信方法に関する。

Claims

複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入部を備える
送信装置。
上記コマンド情報は、コマンドとグループの対応関係を示す情報、あるいはコマンドと所定数のグループの組み合わせからなるプリセットグループの対応関係を示す情報である
請求項１に記載の送信装置。
上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記情報挿入部は、
上記コマンド情報を、上記メインストリームおよび/または該メインストリームに対応したコンテナ位置に挿入する
請求項１に記載の送信装置。
上記オーディオエンコード部は、
上記複数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するコマンドを受信側で挿入するためのコマンド挿入領域を設ける
請求項１に記載の送信装置。
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップと、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入ステップを有する
送信方法。
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部を備え、
上記オーディオエンコード部は、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信装置。
上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記オーディオエンコード部は、
上記メインストリームに、上記コマンド挿入領域を設ける
請求項６に記載の送信装置。
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップを有し、
上記オーディオエンコードステップでは、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信方法。
複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信部と、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得部と、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生部と、
上記ストリーム取得部で取得された一つのオーディオストリームに、上記コマンド発生部で発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコード部を備える
受信装置。
上記コマンド発生部は、
ユーザのユーザインタフェース画面上における選択操作に応じたコマンドを発生する
請求項９に記載の受信装置。
上記受信部で受信されたオーディオストリームおよび/またはコンテナに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入されており、
上記コマンド発生部は、上記コマンド情報を参照してコマンドを発生する
請求項９に記載の受信装置。
上記受信部で受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを挿入するためのコマンド挿入領域が設けられており、
上記ストリーム取得部で取得された一つのオーディオストリームは、上記コマンド挿入領域を有し、
上記コマンド挿入部は、
上記一つのオーディオストリームの上記コマンド挿入領域に上記コマンドを挿入する
請求項９に記載の受信装置。
受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信ステップと、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得ステップと、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生ステップと、
上記ストリーム取得ステップで取得された一つのオーディオストリームに、上記コマンド発生ステップで発生されたコマンドを挿入するコマンド挿入ステップと、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコードステップを有する
受信方法。