JP6841230B2

JP6841230B2 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: JP6841230B2
Application number: JP2017556003A
Authority: JP
Inventors: 塚越　郁夫; 郁夫塚越
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-12-18
Filing date: 2016-12-07
Publication date: 2021-03-10
Anticipated expiration: 2036-12-07
Also published as: EP3720135A1; EP3720135B1; EP3393130A1; WO2017104519A1; EP3393130A4; JPWO2017104519A1; EP3393130B1

Description

本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオ情報と共にサブタイトル情報を送信する送信装置等に関する。

従来、ＤＶＢ（Digital Video Broadcasting）の放送などでは、サブタイトル（字幕）の情報をビットマップデータで送信する運用が行われている。近時、サブタイトルの情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。この場合、受信側で解像度に応じたフォント展開がなされる。

また、サブタイトルの情報をテキストベースで送信する場合、テキスト情報にタイミング情報を持たせることが提案されている。このテキスト情報として、例えば、Ｗ３Ｃ（(World Wide Web Consortium）でＴＴＭＬ（Timed Text Markup Language）が提唱されている（特許文献１参照）。

また、例えば、特許文献２には、立体（３Ｄ）音響技術として、オブジェクト音源のオーディオデータをその位置情報に基づいて任意の位置に存在するスピーカにマッピングする３Ｄオーディオレンダリングの技術が記載されている。

３Ｄオーディオがビデオと共に配信される場合、スピーカの位置に依らずにビデオ画像のオブジェクトの一つである発話者と、その発せられた音声とが視聴者にとって同一の方向からくるものと認識できるようにオブジェクト情報（位置情報）を構成することができる。

特開２０１２−１６９８８５号公報特表２０１４−５２０４９１号公報

本技術の目的は、受信側においてサブタイトルの表示を効果的に行い得るようにすることにある。

本技術の概念は、
ビデオ符号化データを持つビデオストリームを生成するビデオエンコード部と、
発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームを生成するサブタイトルエンコード部と、
上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記ビデオストリーム、上記サブタイトルストリームおよび上記オーディオストリームを含む所定フォーマットのコンテナストリームを送信する送信部と、
上記コンテナストリームのレイヤに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する情報挿入部を備える
送信装置にある。

本技術において、ビデオエンコード部により、ビデオ符号化データを持つビデオストリームが生成される。サブタイトルエンコード部により、発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームが生成される。例えば、サブタイトルデータは、ＴＴＭＬのデータあるいはこのＴＴＭＬの派生フォーマットのデータである、ようにされてもよい。

オーディオエンコード部により、発話者の発話を音源とするオーディオデータとこの音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームが生成される。送信部により、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームが送信される。

コンテナストリームのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報が挿入される。

例えば、各発話に対応したサブタイトルデータのそれぞれに識別情報が付加されると共に、各発話に対応したオーディオデータのそれぞれに識別情報が付加され、メタ情報は、各発話に対応したサブタイトルデータに付加された識別情報と各発話に対応したオーディオデータに付加された識別情報とを対応付けるテーブル情報である、ようにされてもよい。そして、この場合、各発話に対応したオーディオデータを含むオーディオフレームに識別情報を有するタグ情報が挿入される、ようにされてもよい。

このように本技術においては、コンテナストリームのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入するものである。そのため、受信側において、サブタイトルの表示位置をオブジェクト符号化データに含まれる音源の位置情報を利用してビデオ画像の発話者位置に制御する場合に、このメタ情報を利用することで、適切な位置情報を用いることが容易に可能となる。

また、本技術の他の概念は、
ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームを受信する受信部を備え、
上記ビデオストリームは、ビデオ符号化データを持ち、
上記サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持ち、
上記オーディオストリームは、発話者の発話を音源とするオーディオデータとこの音源の位置情報とからなるオブジェクト符号化データを持ち、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード処理と、上記サブタイトルストリームにデコード処理を施して上記発話者の発話に対応したサブタイトルのビットマップデータを得るサブタイトルデコード処理と、上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳処理と、上記オーディオストリームにデコード処理を施して上記発話に対応したチャネルデータを得るオーディオデコード処理と、上記各発話に対応した音源の位置情報に基づいてそれぞれ上記各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、上記各発話に対応したサブタイトルのビットマップデータの上記ビデオデータへの重畳位置を該求められた表示座標に対応した位置とする重畳位置処理を制御する制御部をさらに備える。
受信装置にある。

本技術において、受信部により、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームが受信される。ここで、ビデオストリームはビデオ符号化データを持っている。サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持っている。オーディオストリームは、発話者の発話を音源とするオーディオデータとこの音源の位置情報とからなるオブジェクト符号化データを持っている。

ビデオデコード部により、ビデオストリームにデコード処理が施されてビデオデータが得られる。サブタイトルデコード部により、サブタイトルストリームにデコード処理が施されて発話者の発話に対応したサブタイトルのビットマップデータが得られる。ビデオ重畳部により、ビデオデータにサブタイトルのビットマップデータが重畳されて表示用ビデオデータが得られる。

オーディオデコード部により、オーディオストリームにデコード処理が施されて発話に対応したチャネルデータが得られる。制御部により、各発話に対応した音源の位置情報に基づいてそれぞれ各発話に対応したサブタイトルのモニタ画面上における表示座標が求められ、各発話に対応したサブタイトルのビットマップデータのビデオデータへの重畳位置がこの求められた表示座標に対応した位置となるように制御される。

このように本技術においては、各発話に対応した音源の位置情報に基づいてそれぞれ各発話に対応したサブタイトルのモニタ画面上における重畳位置を求め、各発話に対応したサブタイトルのビットマップデータのビデオデータへの重畳位置がこの求められた重畳位置となるように制御するものである。そのため、発話者の発話に対応したサブタイトルをビデオ画像のその発話者の位置に表示することが可能となる。

なお、本技術において、例えば、コンテナストリームに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報が挿入されており、制御部は、このメタ情報に基づいて、各発話に対応したサブタイトルデータと各発話に対応したオーディオデータとの対応関係を認識する、ようにされてもよい。

本技術によれば、受信側においてサブタイトルの表示を効果的に行うことができる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。モニタ画面に表示されたビデオ画像の一例を示す図である。サービス送信機が備えるストリーム生成部の構成例を示すブロック図である。ＴＴＭＬ構造を示す図である。ＴＴＭＬ構造のヘッダ（head）に存在するメタデータ（metadata）、スタイリング（styling）、レイアウト（layout）の各要素の構造例を示す図である。ＴＴＭＬ構造のボディ（body）の構造例を示す図である。ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データの構成例を示す図である。ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示す図である。新規定義されるパケットタイプを説明するための図である。オーディオ圧縮データを含むオーディオフレームが連続して配置されたオーディオストリームと音ユニットの対応関係の一例を示す図である。オーディオフレームに含まれるタグ情報「Speech_tag_information()」の内容の一例を簡略的に示す図である。オーディオストリームに対するタグ情報「Speech_tag_information()」の挿入とテーブル情報「Tag_table()」の挿入の一例を示す図である。オーディオストリームに挿入されるテーブル情報「Tag Table 1」の内容の一例を示す図である。タグ情報「Speech_tag_information()」の構造例を示す図である。テーブル情報「Tag table()」の構造例を示す図である。タグ情報「Speech_tag_information()」の構造例およびテーブル情報「Tag table()」の構造例などにおける主要な情報の内容を示す図である。リンク・テーブル・デスクリプタ（Link_table_descriptor()）の構造例を示す図である。リンク・テーブル・デスクリプタによる「speech_id」と「subtitle_speech_region_id」の対応付けを説明するための図である。トランスポートストリームＴＳの構成例を示す図である。サービス受信機の構成例を示すブロック図である。オーディオデコード部の構成例を示すブロック図である。オブジェクトレンダラにおけるレンダリング処理の概要を示す図である。表示座標の計算例を説明するための図である。ビデオ画像に複数の発話者が存在し、各発話者の発話に対応したサブタイトルをビデオ画像に重畳表示するマルチリージョン表示の例を示す図である。ＭＭＴストリームの構成例を示す図である。オーディオトラックのデータおよびサブタイトルトラックのデータを含むＭＰ４ストリーム（ファイル）の構成例を示す図である。ＭＰＤファイル記述例を示す図である。ＭＰＤファイル記述例における主要な情報の内容を示す図である。ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示す図である。ＴＯＣ（ac4_toc()）およびサブストリーム（ac4_substream_data()）の概略構成を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［送受信システムの構成例］
図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信機１００とサービス受信機２００により構成されている。サービス送信機１００は、コンテナストリーム（多重化ストリーム）としてのＭＰＥＧ−２トランスポートストリーム（以下、単に、「トランスポートストリームＴＳ」と称する）を、放送波あるいはネットのパケットに載せて送信する。

トランスポートストリームＴＳは、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを有している。ビデオストリームは、ビデオ符号化データを持っている。サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持っている。オーディオストリームは、発話者の発話を音源とするオーディオデータとこの音源の位置情報とからなるオブジェクト符号化データを持っている。

この実施の形態において、サブタイトルデータは、サブタイトル（字幕）のテキスト情報を有するＴＴＭＬ（Timed Text Markup Language）のデータとされる。オーディオストリームは、オーディオデータにエンコード処理を施して得られたオーディオ圧縮データを含むオーディオフレームが連続して配置されたものである。この実施の形態において、オーディオストリームの符号化方式は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏとされる。

サービス送信機１００は、各発話に対応したオーディオデータを含むオーディオフレームにそのオーディオデータを識別するための識別情報を持つタグ情報を挿入する。また、サービス送信機１００は、各発話に対応したサブタイトルデータにそのサブタイトルデータを識別するための識別情報を挿入する。

また、サービス送信機１００は、コンテナストリームとしてのトランスポートストリームＴＳのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する。この実施の形態において、メタ情報は、各発話に対応したサブタイトルデータに付加されている識別情報と各発話に対応したオーディオデータに付加されている識別情報とを対応付けるテーブル情報とされる。

サービス受信機２００は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、上述したように、ビデオストリームの他に、サブタイトルストリームとオーディオストリームが含まれている。

サービス受信機２００は、ビデオストリームにデコード処理を施して得られたビデオデータに、サブタイトルストリームにデコード処理を施して得られた各発話に対応したサブタイトル（字幕）のビットマップデータを重畳して、表示用のビデオデータを得る。また、サービス受信機２００は、オーディオストリームにデコード処理を施して、各発話に対応したチャネルデータを得る。このチャネルデータによる音声は、ビデオ画像のオブジェクトの一つを構成する発話者の方向から聞こえるように視聴者に認識される。

サービス受信機２００は、各発話に対応した音源の位置情報に基づいてそれぞれ各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、各発話に対応したサブタイトルのビットマップデータのビデオデータへの重畳位置がこの求められた表示座標に対応した位置となるように制御する。これにより、各発話に対応したサブタイトルをビデオ画像の発話者位置に表示することが可能となる。

ここで、サービス受信機は、例えば、コンテナストリームとしてのトランスポートストリームＴＳのレイヤに挿入されて送られてくる、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報に基づいて、各発話に対応したサブタイトルデータと各発話に対応したオーディオデータとの対応関係を認識する。

図２は、モニタ画面に表示されたビデオ画像の一例を示している。図示の例では、ビデオ画像のオブジェクトの一つを構成する発話者（矢印Ａで示す）が存在している。この発話者の発話による音声は、この発話者を音源とするオーディオデータとこの音源の位置情報とを用いたレンダリングにより得られるチャネルデータによって、発話者の方向から聞こえるように視聴者に認識される。ここで、（θ，φ，ｒ）は位置情報である。θはアジマス（Azimuth）、φはエレベーション（Elevation）、ｒはラジアス（Radius）である。図示の例では、ｍの方向を基準方向しているが、これに限定されるものではない。

また、この音源の位置情報に基づいて、この発話者の発話に対応したサブタイトルのモニタ画面上における重畳位置が例えば破線矩形枠（矢印Ｂで示す）で示すように求められ、ここにサブタイトルが表示される。つまり、発話者の発話に対応したサブタイトルがビデオ画像の発話者位置に表示される。なお、音源の位置情報からサブタイトルのモニタ画面上における重畳位置を求める計算の詳細については後述する。

［サービス送信機のストリーム生成部］
図３は、サービス送信機１００が備えるストリーム生成部１１０の構成例を示している。このストリーム生成部１１０は、制御部１１１と、ビデオエンコーダ１１２と、テキストフォーマット変換部１１３と、サブタイトルエンコーダ１１４と、オーディオエンコーダ１１５と、マルチプレクサ１１６を有している。制御部１１１は、ＣＰＵ１１１ａを備え、ストリーム生成部１１０の各部の動作を制御する。

ビデオエンコーダ１１２は、ビデオデータＳＶを入力し、このビデオデータＳＶに対して符号化を施し、ビデオ符号化データを持つビデオストリーム（ビデオエレメンタリストリーム）を生成する。

テキストフォーマット変換部１１３は、サブタイトル情報としてのテキストデータ（文字コード）ＤＴを入力し、サブタイトルのテキスト情報、この実施の形態においてはＴＴＭＬのデータに変換する。

図４は、ＴＴＭＬ構造を示している。ＴＴＭＬは、ＸＭＬベースで記載される。ヘッダ（head）には、メタデータ（metadata）、スタイリング（styling）、レイアウト（layout）の各要素が存在する。図５（ａ）は、メタデータ（ＴＴＭ：TTML Metadata）の構造例を示している。このメタデータには、メタデータのタイトルの情報と、コピーライトの情報が含まれている。

図５（ｂ）は、スタイリング（ＴＴＳ：TTML Styling）の構造例を示している。このスタイリングには、識別情報（id）の他に、カラー（color）、フォント（fontFamily）、サイズ（fontSize）、アラインメント（textAlign）などの情報が含まれている。

図５（ｃ）は、レイアウト（region：TTML layout）の構造例を示している。このレイアウトには、サブタイトルを配置するリージョンの識別情報（id）の他に、リージョンの開始位置（origin）、リージョンの範囲（extent）、パッディング（padding）、バックグラウンドカラー（backgroundColor）、アラインメント（displayAlign）などの情報が含まれている。「subtitle_speech_region_id」は、サブタイトルスピーチリージョンの識別情報である。

図６は、ボディ（body）の構造例を示している。図示の例では、サブタイトル１（subtitle 1）、サブタイトル２（subtitle 2）、サブタイトル３（subtitle 3）の３つのサブタイトルの情報が含まれている。サブタイトル毎に、表示開始タイミングと表示終了タイミングが記載されると共に、サブタイトルスピーチリージョンの識別情報（subtitle_speech_region_id）と、テキストデータが記載されている。例えば、サブタイトル１（subtitle 1）に関しては、表示開始タイミングが“０．７６ｓ”で、表示終了タイミングが“３．４５ｓ”であり、“subtitle_speech_region_id = id1”であり、テキストデータが「It seems a paradox, dose it not,」とされている。

図３に戻って、サブタイトルエンコーダ１１４は、テキストフォーマット変換部１１３で得られるＴＴＭＬのデータを種々のセグメントに変換し、ペイロードにそれらのセグメントを配置したＰＥＳパケットにより構成されるサブタイトルストリームを生成する。このサブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持つものとなる。

オーディオエンコーダ１１５は、オーディオデータＳＡとして、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータを入力する。各コンテントグループには、１つまたは複数のオブジェクトコンテントが属している。

オーディオエンコーダ１１５は、オーディオデータＳＡに対して符号化を施してＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データを得、この伝送データを含むオーディオストリーム（オーディオエレメンタリストリーム）を生成する。３Ｄオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。

オーディオエンコーダ１１３は、制御部１１１による制御のもと、発話者の発話に対応した音ユニットのオーディオ圧縮データを含むオーディオフレームに、この音ユニットのオーディオ圧縮データを含むことを示すタグ情報「Speech_tag_information()」を挿入する。また、オーディオデコーダ１１３は、制御部１１１による制御のもと、任意のオーディオフレームに、オーディオストリーム内における音ユニットの情報を持つテーブル情報「Tag_table()」を挿入する。

図７は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データの構成例を示している。この構成例では、１つのチャネル符号化データと３つのオブジェクト符号化データとからなっている。１つのチャネル符号化データは、５．１チャネルのチャネル符号化データ（ＣＤ）であり、ＳＣＥ１、ＣＰＥ１．１、ＣＰＥ１．２、ＬＦＥ１の各符号化サンプルデータからなっている。

３つのオブジェクト符号化データは、ダイアログ・オブジェクトのコンテントグループの符号化データ（ＤＯＤ）に属している。この３つのオブジェクト符号化データは、第１、第２、第３の言語のそれぞれに対応したダイアログ・オブジェクトの符号化データである。

この第１、第２、第３の言語に対応したダイアログ・オブジェクトの符号化データは、それぞれ、符号化サンプルデータＳＣＥ２，ＳＣＥ３，ＳＣＥ４と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのオブジェクトメタデータ（Object metadata）とからなっている。この実施の形態において、このオブジェクト符号化データにおける符号化サンプルデータは発話者の発話を音源とするオーディオデータを構成する。

符号化データは、種類別にグループ（Group）という概念で区別される。この構成例では、５．１チャネルのチャネル符号化データはグループ１（Group 1）とされる。また、第１、第２、第３の言語に対応したダイアログ・オブジェクトの符号化データは、それぞれ、グループ２（Group 2）、グループ３（Group 3）、グループ４（Group 4）とされる。また、受信側においてグループ間で選択できるものはスイッチグループ（SW Group）に登録されて符号化される。この構成例では、ダイアログ・オブジェクトのコンテントグループに属するグループ２、グループ３、グループ４はスイッチグループ１（SW Group 1）とされる。

図８は、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。ペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、３Ｄオーディオの伝送データの実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

“Ｆｒａｍｅ”には、３Ｄオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

また、ペイロード情報には、この実施の形態において新規定義する、“ＴａｇＴａｂｌｅ”と“ＳｐｅｅｃｈＴａｇＩｎｆｏｒｍａｔｉｏｎ”が存在する。“ＳｐｅｅｃｈＴａｇＩｎｆｏｒｍａｔｉｏｎ”には上述したタグ情報「Speech_tag_information()」が含まれ、“ＴａｇＴａｂｌｅ”には上述したテーブル情報「Tag_table()」が含まれる。図９は、パケットタイプとして、タグ情報「Speech_tag_information()」を含めるための「SpeechTagInformation」と、テーブル情報「Tag_table()」を含めるための「TagTable」が新規定義されることを示している。

図１０は、オーディオ圧縮データを含むオーディオフレームが連続して配置されたオーディオストリームと音ユニットの対応関係の一例を示している。この例では、音声内容１を持つ音ユニット１と音声内容２を持つ音ユニット２が存在している。

音ユニット１はオーディオフレームｆ１に開始位置が存在し、オーディオフレームｆ２に終了位置が存在する。オーディオフレームｆ１のフレーム先頭から開始位置までのサンプル単位のオフセットは“xs1”であり、オーディオフレームｆ２のフレーム先頭から終了位置までのサンプル単位のオフセットは“xe1”である。また、音ユニット２はオーディオフレームｆ３に開始位置が存在し、オーディオフレームｆ４に終了位置が存在する。オーディオフレームｆ３のフレーム先頭から開始位置までのサンプル単位のオフセットは“xs2”であり、オーディオフレームｆ４のフレーム先頭から終了位置までのサンプル単位のオフセットは“xe2”である。

図１１は、オーディオフレーム（Audio Frame）に含まれるタグ情報「Speech_tag_information()」の内容の一例を簡略的に示している。なお、この例では、フレームカウント情報、グループ識別情報、スイッチグループ識別情報などは省略されている。

図１１（ａ）は、音ユニットの開始位置を含むオーディオフレーム（図１０のオーディオフレームｆ１，ｆ３参照）における例である。この場合、音ユニット識別情報「speech_id」、発生元識別情報「speaker_id」、タイプ情報「sted_type」、オフセット情報「sample_offset」などの情報が存在する。

“speech_id = 1”は、対応する音ユニットの識別情報が“１”であることを示している。“speaker_id = 1”は、対応する音ユニットの発生元（発話者）の識別情報が“１”であることを示している。“sted_type = 1”は、タイプ情報が“１”であること、つまり音ユニットの開始位置を含むことを示している。そして、“sample_offset = xs”は、フレーム先頭から開始位置までのサンプル単位のオフセットが“xs”であることを示している。

図１１（ｂ）は、音ユニットの開始位置および終了位置のいずれも含まないオーディオフレーム（図１０のオーディオフレームｆ１の次からオーディオフレームｆ２の前までに位置するオーディオフレーム、オーディオフレームｆ３の次からオーディオフレームｆ４の前までに位置するオーディオフレーム参照）における例である。この場合、音ユニット識別情報「speech_id」、発生元識別情報「speaker_id」、タイプ情報「sted_type」などの情報が存在する。

“speech_id = 1”は、対応する音ユニットの識別情報が“１”であることを示している。“speaker_id = 1”は、対応する音ユニットの発生元（発話者）の識別情報が“１”であることを示している。“sted_type = 3”は、タイプ情報が“３”であること、つまり音ユニットの開始位置および終了位置のいずれも含まない継続状態であることを示している。

図１１（ｃ）は、音ユニットの終了位置を含むオーディオフレーム（図１０のオーディオフレームｆ２，ｆ４参照）における例である。この場合、音ユニット識別情報「speech_id」、発生元識別情報「speaker_id」、タイプ情報「sted_type」、オフセット情報「sample_offset」などの情報が存在する。

“speech_id = 1”は、対応する音ユニットの識別情報が“１”であることを示している。“speaker_id = 1”は、対応する音ユニットの発生元（発話者）の識別情報が“１”であることを示している。“sted_type = 2”は、タイプ情報が“２”であること、つまり音ユニットの終了位置を含むことを示している。そして、“sample_offset = xe”は、フレーム先頭から終了位置までのサンプル単位のオフセットが“xe”であることを示している。

図１２は、オーディオストリームに対するタグ情報「Speech_tag_information()」の挿入とテーブル情報「Tag_table()」の挿入の一例を示している。この例は、スイッチグループ１（SW_group_id = 1）のグループ２（Group_id = 2）に着目し、音ユニットの発生元（発話者）として発話者１（speaker_id = 1）、発話者２（speaker_id = 2）、発話者３（speaker_id = 3）が存在する場合を示している。

オーディオストリームに対して、Ｃ１，Ｃ２，Ｃ３，Ｃ４のフレーム位置で、４つの音ユニットのタグ情報「Speech_tag_information()」が挿入される。各音ユニットのタグ情報は通常複数フレームにわたって挿入される。Ｃ１，Ｃ２，Ｃ３，Ｃ４は、それぞれ、開始位置が含まれるオーディオフレームの、サービス先頭からのフレーム位置を示すフレームカウントを示している。

Ｃ１のフレーム位置で挿入されるタグ情報は、発話者２（speaker_id = 2）の音声に係る音ユニット（speech_id= 1）に対応したものである。Ｃ２のフレーム位置で挿入されるタグ情報は、発話者２（speaker_id = 2）の音声に係る音ユニット（speech_id= 2）に対応したものである。Ｃ３のフレーム位置で挿入されるタグ情報は、発話者１（speaker_id = 1）の音声に係る音ユニット（speech_id= 3）に対応したものである。Ｃ４のフレーム位置で挿入されるタグ情報は、発話者３（speaker_id = 3）の音声に係る音ユニット（speech_id= 4）に対応したものである。

オーディオストリームに対して、Ｃ１，Ｃ２，Ｃ３，Ｃ４のフレーム位置より前のフレーム位置で、これらＣ１，Ｃ２，Ｃ３，Ｃ４のフレーム位置で挿入される４つの音ユニットの情報を持つテーブル情報「Tag Table 1」が挿入される。図１３は、そのテーブル情報「Tag Table 1」の内容の一例を示している。各音ユニットに共通のスイッチグループ識別情報「SW_group_id 」、グループ識別情報「Group_id」の他に、音ユニット毎に音ユニット情報「Speech_id」、発生元識別情報「Speaker_id」、フレームカウント情報「Audio_frame_count」が存在する。

図１４は、タグ情報「Speech_tag_information()」の構造例（syntax）を示している。図１５は、テーブル情報「Tag table()」の構造例（syntax）を示している。図１６は、それらの構造例における主要な情報の内容（semantics）を示している。

最初に、タグ情報「Speech_tag_information()」の構造例について説明する。「audio_frame_count」の１６ビットフィールドは、このタグ情報が挿入されるオーディオフレームの、サービス先頭からのフレーム位置をフレームカウント値で示す。「num_of_speeches
」の８ビットフィールドは、音ユニットの数を示す。音ユニットの数だけ、「speech_id」の８ビットフィールド、「group_id」の８ビットフィールド、「sw_group_id」の８ビットフィールド、「speaker_id」の８ビットフィールド、「sted_type」の２ビットフィールド、「sample_offset」の１４ビットフィールドの各フィールドが繰り返し存在する。

「speech_id」のフィールドは、音ユニット識別情報を示す。「group_id」のフィールドは、グループ識別情報を示す。「sw_group_id」のフィールドは、スイッチグループ識別情報を示す。「speaker_id」のフィールドは、発生元（発話者）識別情報を示す。「sted_type」のフィールドは、音ユニットの開始位置を含むか、終了位置を含むか、開始位置および終了位置のいずれも含まないこと（継続）を示す。例えば、“０１”は開始位置を含むことを示し、“１０”は終了位置を含むことを示し、“１１”は開始位置および終了位置のいずれも含まないこと（継続）を示す。

「sample_offset」のフィールドは、フレーム先頭から開始位置/終了位置までのサンプル単位のオフセットを示す。「sted_type」が“０１”であるときはフレーム先頭から開始位置までのサンプル単位のオフセットを示し、「sted_type」が“１０”であるときはフレーム先頭から終了位置までのサンプル単位のオフセットを示す。

次に、テーブル情報「Tag_table()」の構造例について説明する。「group_id」の８ビットフィールドは、グループ識別情報を示す。「sw_group_id」の８ビットフィールドは、スイッチグループ識別情報を示す。「num_of_speeches」の８ビットフィールドは、音ユニットの数を示す。音ユニットの数だけ、「speech_id」の８ビットフィールド、「speaker_id」の８ビットフィールド、「audio_frame_count」の１６ビットフィールドの各フィールドが繰り返し存在する。

「speech_id」のフィールドは、音ユニット識別情報を示す。「speaker_id」のフィールドは、発生元（発話者）識別情報を示す。「audio_frame_count」のフィールドは、音ユニットの開始位置が含まれるオーディオフレームの、サービス先頭からのフレーム位置をフレームカウント値で示す。

図３に戻って、マルチプレクサ１１６は、ビデオエンコーダ１１２から出力されるビデオストリーム、サブタイトルエンコーダ１１４から出力されるサブタイトルストリームおよびオーディオエンコーダ１１５から出力されるオーディオストリームを、それぞれ、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、コンテナストリーム（多重化ストリーム）としてのトランスポートストリームＴＳを得る。

マルチプレクサ１１６は、制御部１１１の制御のもと、トランスポートストリームＴＳのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する。この実施の形態においては、ＰＭＴ（Program Map Table）の配下に存在する、オーディオエレメンタリストリームループ内および/またはサブタイトルエレメンタリストリームループ内に、リンク・テーブル・デスクリプタ（Link_table_descriptor）を挿入する。

図１７は、リンク・テーブル・デスクリプタの構造例（syntax）を示している。「link_table_descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、リンク・テーブル・デスクリプタであることを示す。「link_table_descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

「num_of_groups」の８ビットフィールドは、グループの数を示す。この数だけ、以下の要素が繰り返される。「stream_id」の８ビットフィールドは複数ストリームで構成される場合のオーディオストリームの識別に用いる。この情報と“MPEG-H 3D Audio Multi-Stream Descriptor”で示される「streamID」とで伝送ストリームの特定ができる。「group_id」のフィールドは、グループ識別情報を示す。「sw_group_id」のフィールドは、スイッチグループ識別情報を示す。「target_subtitle_language」の８ビットフィールドは、リンク対象のサブタイトルの言語を示す。

「num_of_speeches」の８ビットフィールドは、音ユニットの数を示す。音ユニットの数だけ、「speech_id」の８ビットフィールド、「speaker_id」の８ビットフィールド、「subtitle_speech_region_id」の８ビットフィールドが繰り返し存在する。「speech_id」のフィールドは、音ユニット識別情報を示す。「speaker_id」のフィールドは、発生元（発話者）識別情報を示す。「subtitle_speech_region_id」のフィールドは、サブタイトルスピーチリージョンの識別情報を示す。

発話者の各発話に対応したオーディオデータを含むオーディオフレームにタグ情報が挿入され、そのタグ情報にはそのオーディオデータを識別するための識別情報「speech_id」が含まれている（図１８（ａ）、図１４参照）。また、発話者の各発話に対応したサブタイトルデータには、そのサブタイトルデータを識別するための識別情報「subtitle_speech_region_id」が含まれている（図１８（ｂ）、図５（ｃ）参照）。したがって、リンク・テーブル・デスクリプタで「speech_id」と「subtitle_speech_region_id」の対応付けが行われることで（図１８（ｃ）参照）、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとが対応付けられる。

図３に示すストリーム生成部１１０の動作を簡単に説明する。ビデオデータＳＶは、ビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、マルチプレクサ１１６に供給される。

また、サブタイトル情報としてのテキストデータ（文字コード）ＤＴは、テキストフォーマット変換部１１３に供給される。このテキストフォーマット変換部１１３では、サブタイトルのテキスト情報としてＴＴＭＬのデータが得られる。この場合、発話者の各発話に対応したサブタイトルデータには、サブタイトルスピーチリージョンの識別情報「subtitle_speech_region_id」が含まれる（図５（ｃ）参照）。

テキストフォーマット変換部１１３で得られるＴＴＭＬのデータは、サブタイトルエンコーダ１１４に供給される。サブタイトルエンコーダ１１４では、ＴＴＭＬのデータが種々のセグメントに変換され、ペイロードにそれらのセグメントを配置したＰＥＳパケットにより構成されるサブタイトルストリームが生成される。このサブタイトルストリームは、マルチプレクサ１１６に供給される。

また、オーディオデータＳＡは、オーディオエンコーダ１１５に供給される。このオーディオデータＳＡには、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータが含まれる。ここで、各コンテントグループには、１つまたは複数のオブジェクトコンテントが属している。

オーディオエンコーダ１１５では、オーディオデータＳＡに対して符号化が施されて３Ｄオーディオの伝送データが得られる。この３Ｄオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。そして、オーディオエンコーダ１１５では、この３Ｄオーディオの伝送データを含むオーディオストリームが生成される。

この場合、発話者の各発話に対応したオーディオデータ（音ユニット）を含むオーディオフレームにそのオーディオデータを識別するための識別情報を持つタグ情報を挿入され、そのタグ情報には「speech_id」が含まれる（図１４参照）。また、オーディオエンコーダ１１５では、制御部１１１による制御のもと、任意のオーディオフレームに、オーディオストリーム内における音ユニットの情報を持つテーブル情報「Tag_table()」が挿入される。

ビデオエンコーダ１１２で生成されたビデオストリームは、マルチプレクサ１１６に供給される。また、サブタイトルエンコーダ１１４で生成されたサブタイトルストリームは、マルチプレクサ１１６に供給される。さらに、オーディオエンコーダ１１５で生成されたオーディオストリームは、マルチプレクサ１１６に供給される。マルチプレクサ１１６では、各エンコーダから供給されるストリームがＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、トランスポートストリームＴＳが得られる。

このとき、マルチプレクサ１１６では、トランスポートストリームＴＳのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報が挿入される。具体的にはリンク・テーブル・デスクリプタ（図１７参照）が挿入される。このデスクリプタには、「speech_id」と「subtitle_speech_region_id」の対応付けの記述がなされている。

[トランスポートストリームＴＳの構成]
図１９は、トランスポートストリームＴＳの構成例を示している。この構成例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「video PES」と、ＰＩＤ２で識別されるオーディオストリームのＰＥＳパケット「audio PES」と、ＰＩＤ３で識別されるサブタイトルストリームのＰＥＳパケット「subtitle PES」が存在する。

オーディオストリームのＰＥＳパケットのＰＥＳペイロードにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームには、発話者の各発話に対応したオーディオデータを含むオーディオフレームにタグ情報「Speech_tag_information()」が挿入されると共に、テーブル情報「Tag_table()」が挿入される。タグ情報にはそのオーディオデータを識別するための識別情報「speech_id」が含まれている（図１４参照）。

サブタイトルストリームのＰＥＳパケットのＰＥＳペイロードにはサブタイトルストリーム（Subtitle coded stream）が挿入される。発話者の各発話に対応したサブタイトルデータには、そのサブタイトルデータを識別するための識別情報「subtitle_speech_region_id」が含まれている（図５（ｃ）参照）。

また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。ＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。

また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ（video ES loop）と、オーディオストリームに対応したオーディオエレメンタリストリームループ（audio ES loop）と、サブタイトルストリームに対応したサブタイトルエレメンタリストリームループ（subtitle ES loop）が存在する。

ビデオエレメンタリストリームループ（video ES loop）には、ビデオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「０ｘ２４」に設定され、ＰＩＤ情報は、上述したようにビデオストリームのＰＥＳパケット「video PES」に付与されるＰＩＤ１を示すものとされる。デスクリプタの一つして、ＨＥＶＣデスクリプタが配置される。

また、オーディオエレメンタリストリームループ（audio ES loop）には、オーディオストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「０ｘ２Ｃ」に設定され、ＰＩＤ情報は、上述したようにオーディオストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ２を示すものとされる。デスクリプタの一つして、「speech_id」と「subtitle_speech_region_id」を対応付けて、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応関係を示すためのリンク・テーブル・デスクリプタ（図１７参照）が配置される。

また、サブタイトルエレメンタリストリームループ（subtitle ES loop）には、サブタイトルストリームに対応して、ストリームタイプ、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このサブタイトルストリームの「Stream_type」は“private stream”とされ、ＰＩＤ情報は、上述したようにオーディオストリームのＰＥＳパケット「audio PES」に付与されるＰＩＤ３を示すものとされる。デスクリプタの一つして、リンク・テーブル・デスクリプタ（図１７参照）が配置される。

なお、図示の例では、オーディオエレメンタリストリームループとサブタイトルエレメンタリストリームループの双方にリンク・テーブル・デスクリプタが配置されているが、いずれか一方のみに配置されてもよい。

［サービス受信機の構成例］
図２０は、サービス受信機２００の構成例を示している。このサービス受信機２００は、受信部２０１と、デマルチプレクサ２０２と、ビデオデコード部２０３と、ビデオ重畳部２０４と、パネル駆動回路２０５と、表示パネル２０６を有している。また、このサービス受信機２００は、オーディオデコード部２１４と、音声出力処理回路２１５と、スピーカシステム２１６と、サブタイトルデコード部２１７と、表示座標マッピング部２１８と、重畳位置補正部２１９を有している。また、このサービス受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６を有している。

ＣＰＵ２２１は、サービス受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、サービス受信機２００の各部を制御する。

リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、サービス受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

受信部２０１は、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくる、コンテナストリーム（多重化ストリーム）としてのトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、ビデオストリームの他に、サブタイトルストリームとオーディオストリームを有している。サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持っている。オーディオストリームは、発話者の発話を音源とするオーディオデータとこの音源の位置情報とからなるオブジェクト符号化データを持っている。

オーディオストリームには、発話者の各発話に対応したオーディオデータを含むオーディオフレームにタグ情報「Speech_tag_information()」が挿入されていると共に、テーブル情報「Tag_table()」が挿入されている。タグ情報にはそのオーディオデータを識別するための識別情報「speech_id」が含まれている（図１４参照）。また、発話者の各発話に対応したサブタイトルデータには、そのサブタイトルデータを識別するための識別情報「subtitle_speech_region_id」が含まれている（図５（ｃ）参照）。

また、トランスポートストリームＴＳのレイヤには、「speech_id」と「subtitle_speech_region_id」を対応付けて、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとを対応関係を示すためのリンク・テーブル・デスクリプタ（図１７参照）が配置されている。

デマルチプレクサ２０２は、トランスポートストリームＴＳから、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを抽出する。また、デマルチプレクサ２０２は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ２２１に送る。この各種情報には、上述したリンク・テーブル・デスクリプタも含まれる。ＣＰＵ２２１は、このデスクリプタにより、「speech_id」と「subtitle_speech_region_id」の対応付け、従ってサブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応関係を認識する。

ビデオデコード部２０３は、デマルチプレクサ２０２で取り出されたビデオストリームに対してデコード処理を行って、非圧縮のビデオデータを得る。ビデオ重畳部２０４は、ビデオデコード部２０３で得られたビデオデータに、サブタイトルのビットマップデータ（表示データ）を重畳する。パネル駆動回路２０５は、ビデオ重畳部２０４で得られる表示用の画像データに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

オーディオデコード部２１４は、デマルチプレクサ２０２で取り出されたオーディオストリームに対してデコード処理を行って、スピーカシステム２１６を構成する各スピーカを駆動するためのオーディデータを得る。

この場合、オーディオデコード部２１４は、オーディオストリームに含まれる所定数のオブジェクトコンテントの符号化データのうち、スイッチグループを構成する複数のオブジェクトコンテントの符号化データに関しては、ＣＰＵ２２１の制御のもと、ユーザ選択に係るいずれか１つのオブジェクトコンテントの符号化データのみをデコード対象とする。

また、オーディオデコード部２１４は、オーディオストリームに挿入されている各種情報を抽出し、ＣＰＵ２２１に送信する。この各種情報には、上述したタグ情報「Speech_tag_information()」およびテーブル情報「Tag_table()」も含まれる。

ＣＰＵ２２１は、このタグ情報により、オーディオフレーム毎に、発話者の発話に対応した音ユニットのオーディオデータ（符号化サンプルデータ）を含むオーディオフレームであるか、その音ユニットの音ユニット識別情報、その音ユニットの発生元識別情報、フレームカウント情報、開始位置/終了位置を含むかを示すタイプ情報、開始位置/終了位置のフレーム先頭からのオフセット情報などを認識する。

また、ＣＰＵ２２１は、このテーブル情報により、オーディオストリーム内における所定の音ユニットの情報、つまり各音ユニットのサービス先頭からのフレーム位置を示すフレームカウント情報、各音ユニットの音ユニット識別情報、各音ユニットの発生元識別情報などを認識する。

図２１は、オーディオデコード部２１４の構成例を示している。オーディオデコード部２１４は、デコーダ２５１と、オブジェクトレンダラ２５２と、ミキサ２５３を有している。

デコーダ２５１は、デマルチプレクサ２０２で抽出されたオーディオストリームに対してデコード処理を行って、チャネルデータと共に、所定数のオブジェクトコンテントのオブジェクトデータを得る。このデコーダ２５１は、図３のストリーム生成部１１０のオーディオエンコーダ１１５とほぼ逆の処理をする。なお、スイッチグループを構成する複数のオブジェクトコンテントに関しては、ＣＰＵ２２１の制御のもと、ユーザ選択に係るいずれか１つのオブジェクトコンテントのオブジェクトデータのみを得る。

また、デコーダ２５１は、オーディオストリームに挿入されている各種情報を抽出し、ＣＰＵ２２１に送信する。この各種情報には、上述したタグ情報「Speech_tag_information()」およびテーブル情報「Tag_table()」も含まれる。

オブジェクトレンダラ２５２は、所定数のオブジェクトコンテントのオブジェクトデータ（オーディオデータ、位置情報）に対してレンダリング処理を施して、所定数のオブジェクトコンテントのチャネルデータを得る。

図２２は、オブジェクトレンダラ２５２におけるレンダリング処理の概要を示している。このレンダリング処理では、３つのスピーカで構成される三角形領域（LT-LB-RB）と（RT-LB-RB）の各々において、オブジェクトデータを構成する位置情報（θ，φ，ｒ）を利用して音像位置ｐを求め、この音像位置ｐから各スピーカにオーディオデータをマッピングすることで、チャネルデータを得る。なお、スピーカの個数および配置は図示の例に限定されるものではない。

このレンダリング処理は、発話者の発話を音源とするオーディオデータに係るオブジェクトデータに対しても同様に行われる。このようなレンダリング処理で得られるチャネルデータよって、発話者の発話は音像位置ｐ、従ってビデオ画像上の発話者の方向から聞こえるように視聴者に認識されるようになる（図２参照）。

ミキサ２５３は、デコーダ２５１で得られたチャネルデータに、オブジェクトレンダラ２５２で得られた各オブジェクトコンテントのチャネルデータを合成し、スピーカシステム２１６を構成する各スピーカを駆動するための最終的なチャネルデータ（各スピーカを駆動するためのオーディオデータ）を得る。

図２０に戻って、音声出力処理回路２１５は、オーディオデコード部２１４で得られた各スピーカを駆動するためのオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を行って、スピーカシステム２１６に供給する。スピーカシステム２１６は、複数チャネル、例えば２チャネル、５．１チャネル、７．１チャネル、２２．２チャネルなどの複数のスピーカを備える。

サブタイトルデコード部２１７は、デマルチプレクサ２０２で取り出されたサブタイトルストリームに含まれている各リージョンのサブタイトルデータを処理し、発話者の発話に対応したサブタイトル（字幕）のビットマップデータを得る。

表示座標マッピング部２１８は、上述したサブタイトルデコード部２１７で得られるサブタイトル（字幕）のビットマップデータに関連して、そのサブタイトルのモニタ画面上における表示座標（x1,y1）を、このサブタイトルに対応したオーディオデータに係るオブジェクトデータ内の位置情報（θ，φ，ｒ）のうち、アジマスθ，エレベーションφの情報を用いて、求める。ここで、サブタイトルとオーディオデータとの対応は、ＣＰＵ２２１の制御のもと、例えば、リンク・テーブル・デスクリプタの「speech_id」と「subtitle_speech_region_id」の対応付けの記述に基づいて、取られる。

図２３を参照して、表示座標（x1,y1）におけるｘ１，ｙ１の計算例を説明する。ここでは、モニタサイズをＭＷ(水平)、ＭＨ（垂直）とし、モニタ視聴距離をＤとする。ＡＣ＝ＡＢ/２＝ＭＷ/２となる点Ｃを取る。

このとき、
∠ＣＶＡ＝γ
∠ＣＶＥ＝∠ＣＶＡ−∠ＥＶＡ＝γ−θ
の各式が成り立つ。

また、
ＶＥ＝｛１／cos（γ−θ）｝＊Ｄ
ＰＥ＝｛tan（φ）｝＊ＶＥ
ＫＰ＝ＭＨ−ＰＥ
の各式が成り立つ。

さらに、
ＥＣ＝tan（γ−θ）＊Ｄ
ＡＣ＝tan（γ）＊Ｄ
ＡＥ＝ＡＣ−ＥＣ
の各式が成り立つ。

そのため、音像位置ｐに相当する表示座標（x1,y1）におけるｘ１，ｙ１は、モニタの表示解像度を、水平方向はＷ（pixels）、垂直方向はＨ（pixels）とすると、以下の（１）式、（２）式で求められる。
Ｘ１＝｛１/（２＊ＡＣ）｝＊ＡＥ＊Ｗ・・・（１）
Ｙ１＝（１/ＭＨ）＊ＫＰ＊Ｈ・・・（２）

なお、上述の計算例では、Ａ方向を基準方向としているが、他の方向を基準方向としている場合にあっても同様にして表示座標（x1,y1）を計算し得る。例えば、Ｃ方向を基準方向としている場合には、上述のθをγ−θに置き換えた式となる。図２３には、このようにして求められる表示座標（x1,y1）の点Ｐにサブタイトル表示位置を取った例を鎖線で示す。なお、Ｐをサブタイトルのリージョン領域の端点位置にとるか、あるいはリージョン領域の中央とするか、あるいはモニタ表示領域からはみ出さないようにするか、など種々のオプションを取ることができる。

図２０に戻って、重畳位置補正部２１９は、サブタイトルデコード部２１７で得られた発話者の発話に対応したサブタイトル（字幕）のビットマップデータに対して、ビデオデータへの重畳位置が表示座標マッピング部２１８で求められた表示座標（x1,y1）に対応した位置となるように、位置変換の処理を実行し、その後にビデオ重畳部２０４に供給する。このような位置変換の処理を行うことで、発話者の発話に対応したサブタイトルがビデオ画像の発話者位置に表示されるようになる（図２参照）。

図２０に示すサービス受信機２００の動作を簡単に説明する。受信部２０１では、サービス送信機１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、ビデオストリームの他に、サブタイトルストリームとオーディオストリームを有している。

受信部２０１で受信されたトランスポートストリームＴＳは、デマルチプレクサ２０２に供給される。デマルチプレクサ２０２では、トランスポートストリームＴＳから、ビデオストリーム、サブタイトルストリームおよびオーディオストリームが抽出される。

また、デマルチプレクサ２０２では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ２２１に送られる。この各種情報には、上述したリンク・テーブル・デスクリプタも含まれる。ＣＰＵ２２１では、このデスクリプタにより、「speech_id」と「subtitle_speech_region_id」の対応付け、従ってサブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応関係が認識される。

トランスポートストリームＴＳで抽出されたビデオストリームは、ビデオデコード部２０３に供給される。ビデオデコード部２０３では、ビデオストリームに対してデコード処理が施されて、非圧縮のビデオデータが得られる。このビデオデータは、ビデオ重畳部２０４に供給される。

また、デマルチプレクサ２０２で取り出されたオーディオストリームは、オーディオデコード部２１４に供給される。このオーディオデコード部２１４では、オーディオストリームに対してデコード処理が行われ、スピーカシステム２１６を構成する各スピーカを駆動するためのオーディデータが得られる。

また、オーディオデコード部２１４では、オーディオストリームに挿入されている各種情報が抽出され、ＣＰＵ２２１に送信される。この各種情報には、タグ情報「Speech_tag_information()」およびテーブル情報「Tag_table()」も含まれる。

ＣＰＵ２２１では、タグ情報により、オーディオフレーム毎に、所定の音ユニットのオーディオ圧縮データを含むオーディオフレームであるか、その音ユニットの音ユニット識別情報、その音ユニットの発生元識別情報、フレームカウント情報、開始位置/終了位置を含むかを示すタイプ情報、開始位置/終了位置のフレーム先頭からのオフセット情報などが認識される。

また、ＣＰＵ２２１では、テーブル情報により、オーディオストリーム内における所定の音ユニットの情報、つまり各音ユニットのサービス先頭からのフレーム位置を示すフレームカウント情報、各音ユニットの音ユニット識別情報、各音ユニットの発生元識別情報などが認識される。

オーディオデコード部２１４で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路２１５に供給される。音声出力処理回路２１５では、このオーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。

音声出力処理回路２１５で処理された後のオーディオデータはスピーカシステム２１６に供給される。これにより、スピーカシステム２１６からは表示パネル２０６の表示画像に対応した音響出力が得られる。この場合、上述したオブジェクトレンダラ２５２のレンダリング処理により、発話者の発話は音像位置ｐ、従ってビデオ画像上の発話者の方向から聞こえるように視聴者に認識されるものとなる（図２参照）。

また、デマルチプレクサ２０２で取り出されたサブタイトルストリームは、サブタイトルデコード部２１７に供給される。このサブタイトルデコード部２１７では、デマルチプレクサ２０２で取り出されたサブタイトルストリームに含まれている各リージョンのサブタイトルデータが処理され、発話者の発話に対応したサブタイトル（字幕）のビットマップデータが得られる。このビットマップデータは、重畳位置補正部２１９に供給される。

また、オーディオデコード部２１４から、表示座標マッピング部２１８に、サブタイトルに対応したオーディオデータに係るオブジェクトデータ内の位置情報（θ，φ，ｒ）のうち、アジマスθ，エレベーションφの情報が供給される。ここで、サブタイトルとオーディオデータとの対応は、例えば、リンク・テーブル・デスクリプタの「speech_id」と「subtitle_speech_region_id」の対応付けの記述に基づいて、取られる。

表示座標マッピング部２１８では、アジマスθ，エレベーションφの情報が用いられ、サブタイトルデコード部２１７で得られるサブタイトル（字幕）のビットマップデータに関連して、そのサブタイトルのモニタ画面上における表示座標（x1,y1）が求められる。この表示座標（x1,y1）は、重畳位置補正部２１９に供給される。

重畳位置補正部２１９では、サブタイトルデコード部２１７で得られた発話者の発話に対応したサブタイトルのビットマップデータに対して、表示座標（x1,y1）に対応した位置となるように、位置変換の処理が実行される。位置変換後のサブタイトルのビットマップデータは、ビデオ重畳部２０４に供給される。

ビデオ重畳部２０４では、ビデオデコード部２０３で得られたビデオデータに、重畳位置補正部２１９で位置変換の処理が行われたサブタイトルのビットマップデータが重畳され、表示用ビデオデータが得られる。この表示用のビデオデータはパネル駆動回路２０５に供給される。

パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、表示用のビデオデータに対応したビデオ画像が表示される。この場合、上述した重畳位置補正部２１９の位置変換の処理により、発話者の発話に対応したサブタイトルがビデオ画像の発話者位置に表示されたものとなる（図２参照）。

上述したように、図１に示す送受信システム１０において、サービス送信機１００は、トランスポートストリームＴＳのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入するものである。そのため、受信側において、サブタイトルの表示位置をオブジェクト符号化データに含まれる音源の位置情報を利用してビデオ画像の発話者位置に制御する場合に、このメタ情報を利用することで、適切な位置情報を用いることが容易に可能となる。

また、図１に示す送受信システム１０において、サービス受信機２００は、各発話に対応した音源の位置情報に基づいてそれぞれ各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、各発話に対応したサブタイトルのビットマップデータのビデオデータへの重畳位置がこの求められた表示座標に対応した位置となるように制御するものである。そのため、発話者の発話に対応したサブタイトルをビデオ画像のその発話者の位置に表示することが可能となる。

＜２．変形例＞
なお、上述においては、ビデオ画像に一人の発話者が存在し、その発話者に対応したサブタイトルをビデオ画像に重畳表示するシングルリージョン表示の例を用いて説明した（図２参照）。しかし、本技術は、例えば、図２４に示すように、ビデオ画像に複数の発話者が存在し、各発話者の発話に対応したサブタイトルをビデオ画像に重畳表示するマルチリージョン表示においても、同様に動作する。

つまり、「speech_id」と「subtitle_speech_region_id」の対応付けがなされていることから、各発話者の発話に対応したサブタイトルの表示座標を個別に求めて、各発話者の発話に対応したサブタイトルをそれぞれ対応する発話者の位置に表示することができる。図示の例において、矢印Ａ１、Ａ２、Ａ３で示すビデオ画像の発話者に対して、それぞれ、例えば、矢印Ｂ１、Ｂ２、Ｂ３で示す破線矩形枠の位置に、その発話に対応したサブタイトルが表示される。

また、上述実施の形態においては、コンテナストリーム（多重化ストリーム）がＭＰＥＧ−２トランスポートストリーム（トランスポートストリームＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナストリームで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

図２５は、メディアアクセス情報（コンテナ対象データ）をオーディオストリームに挿入して送る場合におけるＭＭＴストリームの構成例を示している。ＭＭＴストリームには、ビデオ、オーディオ、サブタイトル等の各アセットのＭＭＴパケットが存在する。この構成例では、ＩＤ１で識別されるビデオのアセットのＭＭＴパケットと共に、ＩＤ２で識別されるオーディオのアセットのＭＭＴパケットとＩＤ３で識別されるサブタイトルのアセットのＭＭＴパケットが存在する。

オーディオのアセット（オーディオストリーム）には、発話者の各発話に対応したオーディオデータを含むオーディオフレームにタグ情報「Speech_tag_information()」が挿入されると共に、テーブル情報「Tag_table()」が挿入される。タグ情報にはそのオーディオデータを識別するための識別情報「speech_id」が含まれている（図１４参照）。サブタイトルのアセット（サブタイトルストリーム）において、発話者の各発話に対応したサブタイトルデータには、そのサブタイトルデータを識別するための識別情報「subtitle_speech_region_id」が含まれている（図５（ｃ）参照）。

また、ＭＭＴストリームには、ＰＡ（Packet Access）メッセージパケットなどのメッセージパケットが存在する。ＰＡメッセージパケットには、ＭＭＴ・パケット・テーブル（MMT Package Table）などのテーブルが含まれている。ＭＰテーブルには、アセット毎の情報が含まれている。この場合、オーディオおよび/またはサブタイトルのアセットの情報として、リンク・テーブル・デスクリプタ（図１７参照）も含まれる。

図２６（ａ）は、オーディオトラック（トラックＡ）のデータを含むＭＰ４ストリーム（ファイル）の構成例を示している。図２６（ｂ）は、サブタイトルトラック（トラックＢ）のデータを含むＭＰ４ストリーム（ファイル）の構成例を示している。図示の例は、フラグメンテッドＭＰ４（Fragmented MP4）の場合の例である。ＭＰ４ストリームには、制御情報が入る“ｍｏｏｆ”ボックスとメディアデータ本体が入る“ｍｄａｔ”ボックスから構成されるムービーフラグメント（Movie Fragment）が所定個数配置される。“ｍｄａｔ”ボックスには、トラックデータが断片化されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。

図２６（ａ）に示すオーディオトラックに対応したＭＰ４ストリーム「audio bitstream」において、各ムービーフラグメントの“ｍｄａｔ”ボックスには、所定個数のオーディオフレーム（Audio Frame）が配置される。また、このＭＰ４ストリーム「audio bitstream」において、各ムービーフラグメントの“ｍｏｏｆ”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。

また、“ｍｏｏｆ”ボックス内に“ｔｆｄｔ”ボックスが存在し、その内に“ｓｇｐｄ”ボックスが存在し、さらに、その内に“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「Audiostreamtype」、「Attribute」のパラメータの記載がある。「Audiostreamtype = AudioCodec」は、オーディオ圧縮フォーマットを示す。「Attribute = speechtag」は、オーディオストリームにタグ情報「Speech_tag_information()」の挿入があることを示す。

図２６（ｂ）に示すサブタイトルトラックに対応したＭＰ４ストリーム「subtitle bitstream」において、各ムービーフラグメントの“ｍｄａｔ”ボックスには、所定個数のＴＴＭＬドキュメント（TTML document）が配置される。また、このＭＰ４ストリーム「subtitle bitstream」において、各ムービーフラグメントの“ｍｏｏｆ”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ”ボックスの後の最初のサブタイトルのプレゼンテーションタイム“baseMediaPresentationTime”の記載がある。

また、“ｍｏｏｆ”ボックス内に“ｔｆｄｔ”ボックスが存在し、その内に“ｓｇｐｄ”ボックスが存在し、さらに、その内に“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「subtitlestreamtype」、「Attribute」のパラメータの記載がある。「subtitlestreamtype = TTML」は、サブタイトルデータのフォーマットがＴＴＭＬであることを示す。「Attribute = speechregionid」は、サブタイトルデータにスピーチリージョン識別情報「subtitle_speech_region_id」の挿入があることを示す。

図２７は、ＭＰＤファイル記述例を示している。また、図２８は、その記述例における主要な情報の内容を示す。従来周知のように、ＭＰＥＧ−ＤＡＳＨベースのストリーム配信システムにおいては、メディアストリーム（ＭＰ４ストリーム）と、メタファイルとしてのＭＰＤファイルが、通信ネットワーク伝送路を通じて受信側に送信される。

「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ１が割り当てられていることが示されている。

また、このオーディオストリームに対するアダプテーションセット（AdaptationSet）において、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “Audio Codec Stream”/>」の記述により、オーディオストリームのコーデックの種類が示されている。コーデックとしては、ＭＰＥＧ−Ｈ、ＡＡＣ、ＡＣ３，ＡＣ４などがある。

また、このオーディオストリームに対するアダプテーションセット（AdaptationSet）において、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:speechtag” value=“true”/>」の記述により、タグ情報「Speech_tag_information()」が含まれることを示す。

「<AdaptationSet mimeType=“subtitle/mp4” group=“2”>」の記述により、サブタイトルストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのサブタイトルストリームはＭＰ４ファイル構造で供給され、グループ２が割り当てられていることが示されている。

また、このサブタイトルストリームに対するアダプテーションセット（AdaptationSet）において、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “Subtitle Codec Stream”/>」の記述により、サブタイトルストリームのコーデックの種類が示されている。コーデックとしては、ＴＴＭＬなどがある。

また、このサブタイトルストリームに対するアダプテーションセット（AdaptationSet）において、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:speechregionid” value=“true”/>」の記述により、スピーチリージョン識別情報「subtitle_speech_region_id」が含まれることを示す。

また、上述実施の形態においては、オーディオ圧縮フォーマットがＭＰＥＧ−Ｈ３ＤＡｕｄｉｏである例を示した。しかし、本技術は、オーディオ圧縮フォーマットが、ＡＡＣ、ＡＣ３、ＡＣ４などのその他のオーディオ圧縮フォーマットである場合にも、同様に適用できる。

図２９（ａ）は、ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示している。シンクワード（syncWord）のフィールドと、フレームレングス（frame Length）のフィールドと、符号化データのフィールドとしての「RawAc4Frame」のフィールドと、ＣＲＣフィールドが存在する。「RawAc4Frame」のフィールドには、図２９（ｂ）に示すように、先頭にＴＯＣ（Table Of Content）のフィールドが存在し、その後の所定数のサブストリーム（Substream）のフィールドが存在する。

図３０（ｂ）に示すように、サブストリーム（ac4_substream_data()）の中には、メタデータ領域（metadata）が存在し、その中に「umd_payloads_substream()」のフィールドが設けられる。この「umd_payloads_substream()」のフィールドの中の「umd_payload_byte」のフィールドに、タグ情報「Speech_tag_information()」（図１４参照）やテーブル情報「Tag_table()」(図１５参照)が置かれる。

なお、図３０（ａ）に示すように、ＴＯＣ（ac4_toc()）の中には「ac4_presentation_info()」のフィールドが存在し、さらにその中に「umd_info()」のフィールドが存在し、その中に上述の「umd_payloads_substream()）」のフィールドにタグ情報などの挿入があることが示される。

また、上述実施の形態においては、表示タイミング情報を持つ所定フォーマットのサブタイトルのテキスト情報としてＴＴＭＬを用いる例を示した。しかし、本技術は、これに限定されず、ＴＴＭＬと同等の情報を持つその他のテキスト情報を用いることも考えらえる。例えば、ＴＴＭＬの派生フォーマットを用いてもよい。

また、上述実施の形態においては、サービス送信機１００とサービス受信機２００とからなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、サービス受信機２００の部分が、ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は登録商標である。

また、本技術は、以下のような構成を取ることもできる。
（１）ビデオ符号化データを持つビデオストリームを生成するビデオエンコード部と、
発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームを生成するサブタイトルエンコード部と、
上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記ビデオストリーム、上記サブタイトルストリームおよび上記オーディオストリームを含む所定フォーマットのコンテナストリームを送信する送信部と、
上記コンテナストリームのレイヤに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する情報挿入部を備える
送信装置。
（２）上記各発話に対応したサブタイトルデータのそれぞれに識別情報が付加されると共に、上記各発話に対応したオーディオデータのそれぞれに識別情報が付加され、
上記メタ情報は、上記各発話に対応したサブタイトルデータに付加されている識別情報と上記各発話に対応したオーディオデータに付加されている識別情報とを対応付けるテーブル情報である
前記（１）に記載の送信装置。
（３）上記各発話に対応したオーディオデータを含むオーディオフレームに上記識別情報を有するタグ情報が挿入される
前記（２）に記載の送信装置。
（４）上記サブタイトルデータは、ＴＴＭＬのデータあるいは該ＴＴＭＬの派生フォーマットのデータである
前記（１）から（３）のいずれかに記載の送信装置。
（５）ビデオ符号化データを持つビデオストリームを生成するビデオエンコードステップと、
発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームを生成するサブタイトルエンコードステップと、
上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記ビデオストリーム、上記サブタイトルストリームおよび上記オーディオストリームを含む所定フォーマットのコンテナストリームを送信する送信ステップと、
上記コンテナストリームのレイヤに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する情報挿入ステップを有する
送信方法。
（６）ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームを受信する受信部を備え、
上記ビデオストリームは、ビデオ符号化データを持ち、
上記サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持ち、
上記オーディオストリームは、上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持ち、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード処理と、上記サブタイトルストリームにデコード処理を施して上記発話者の発話に対応したサブタイトルのビットマップデータを得るサブタイトルデコード処理と、上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳処理と、上記オーディオストリームにデコード処理を施して上記発話に対応したチャネルデータを得るオーディオデコード処理と、上記各発話に対応した音源の位置情報に基づいてそれぞれ上記各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、上記各発話に対応したサブタイトルのビットマップデータの上記ビデオデータへの重畳位置を該求められた表示座標に対応した位置とする重畳位置処理を制御する制御部をさらに備える。
受信装置。
（７）上記コンテナストリームに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報が挿入されており、
上記制御部は、該メタ情報に基づいて、上記各発話に対応したサブタイトルデータと上記各発話に対応したオーディオデータとの対応関係を認識する
前記（６）に記載の受信装置。
（８）受信部により、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームを受信する受信ステップを有し、
上記ビデオストリームは、ビデオ符号化データを持ち、
上記サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持ち、
上記オーディオストリームは、上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持ち、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
上記サブタイトルストリームにデコード処理を施して上記発話者の発話に対応したサブタイトルのビットマップデータを得るサブタイトルデコードステップと、
上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳ステップと、
上記オーディオストリームにデコード処理を施して上記発話に対応したチャネルデータを得るオーディオデコードステップと、
上記各発話に対応した音源の位置情報に基づいてそれぞれ上記各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、上記各発話に対応したサブタイトルのビットマップデータの上記ビデオデータへの重畳位置が該求められた表示座標に対応した位置となるように制御する制御ステップを有する
受信方法。

本技術の主な特徴は、コンテナストリームのレイヤに、サブタイトルストリームに含まれる各発話に対応したサブタイトルデータとオーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入することで、受信側において、サブタイトルの表示位置をオブジェクト符号化データに含まれる音源の位置情報を利用してビデオ画像の発話者位置に制御する際に、このメタ情報を利用して適切な位置情報を用いることを容易としたことにある（図１８、図１９参照）。

また、本技術の主な特徴は、各発話に対応した音源の位置情報に基づいてそれぞれ各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、各発話に対応したサブタイトルのビットマップデータのビデオデータへの重畳位置がこの求められた表示座標に対応した位置となるように制御することで、発話者の発話に対応したサブタイトルをビデオ画像のその発話者の位置に表示することを可能としたことである（図２、図２０参照）。

１０・・・送受信システム
１００・・・サービス送信機
１１０・・・ストリーム生成部
１１１・・・制御部
１１１ａ・・・ＣＰＵ
１１２・・・ビデオエンコーダ
１１３・・・テキストフォーマット変換部
１１４・・・サブタイトルエンコーダ
１１５・・・オーディオエンコーダ
１１６・・・マルチプレクサ
２００・・・サービス受信機
２０１・・・受信部
２０２・・・デマルチプレクサ
２０３・・・ビデオデコード部
２０４・・・ビデオ重畳部
２０５・・・パネル駆動回路
２０６・・・表示パネル
２１４・・・オーディオデコード部
２１５・・・音声出力処理回路
２１６・・・スピーカシステム
２１７・・・サブタイトルデコード部
２１８・・・表示座標マッピング部
２１９・・・重畳位置補正部
２２１・・・ＣＰＵ
２２２・・・フラッシュＲＯＭ
２２３・・・ＤＲＡＭ
２２４・・・内部バス
２２５・・・リモコン受信部
２２６・・・リモコン送信機
２５１・・・デコーダ
２５２・・・オブジェクトレンダラ
２５３・・・ミキサ

Claims

ビデオ符号化データを持つビデオストリームを生成するビデオエンコード部と、
発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームを生成するサブタイトルエンコード部と、
上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記ビデオストリーム、上記サブタイトルストリームおよび上記オーディオストリームを含む所定フォーマットのコンテナストリームを送信する送信部と、
上記コンテナストリームのレイヤに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する情報挿入部を備える
送信装置。
上記各発話に対応したサブタイトルデータのそれぞれに識別情報が付加されると共に、上記各発話に対応したオーディオデータのそれぞれに識別情報が付加され、
上記メタ情報は、上記各発話に対応したサブタイトルデータに付加されている識別情報と上記各発話に対応したオーディオデータに付加されている識別情報とを対応付けるテーブル情報である
請求項１に記載の送信装置。
上記各発話に対応したオーディオデータを含むオーディオフレームに上記識別情報を有するタグ情報が挿入される
請求項２に記載の送信装置。
上記サブタイトルデータは、ＴＴＭＬのデータあるいは該ＴＴＭＬの派生フォーマットのデータである
請求項１に記載の送信装置。
ビデオ符号化データを持つビデオストリームを生成するビデオエンコードステップと、
発話者の発話に対応したサブタイトルデータを持つサブタイトルストリームを生成するサブタイトルエンコードステップと、
上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記ビデオストリーム、上記サブタイトルストリームおよび上記オーディオストリームを含む所定フォーマットのコンテナストリームを送信する送信ステップと、
上記コンテナストリームのレイヤに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報を挿入する情報挿入ステップを有する
送信方法。
ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームを受信する受信部を備え、
上記ビデオストリームは、ビデオ符号化データを持ち、
上記サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持ち、
上記オーディオストリームは、上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持ち、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード処理と、上記サブタイトルストリームにデコード処理を施して上記発話者の発話に対応したサブタイトルのビットマップデータを得るサブタイトルデコード処理と、上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳処理と、上記オーディオストリームにデコード処理を施して上記発話に対応したチャネルデータを得るオーディオデコード処理と、上記各発話に対応した音源の位置情報に基づいてそれぞれ上記各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、上記各発話に対応したサブタイトルのビットマップデータの上記ビデオデータへの重畳位置を該求められた表示座標に対応した位置とする重畳位置処理を制御する制御部をさらに備える。
受信装置。
上記コンテナストリームに、上記サブタイトルストリームに含まれる各発話に対応したサブタイトルデータと上記オーディオストリームに含まれる各発話に対応したオーディオデータとの対応付けを行うためのメタ情報が挿入されており、
上記制御部は、該メタ情報に基づいて、上記各発話に対応したサブタイトルデータと上記各発話に対応したオーディオデータとの対応関係を認識する
請求項６に記載の受信装置。
受信部により、ビデオストリーム、サブタイトルストリームおよびオーディオストリームを含む所定フォーマットのコンテナストリームを受信する受信ステップを有し、
上記ビデオストリームは、ビデオ符号化データを持ち、
上記サブタイトルストリームは、発話者の発話に対応したサブタイトルデータを持ち、
上記オーディオストリームは、上記発話者の発話を音源とするオーディオデータと該音源の位置情報とからなるオブジェクト符号化データを持ち、
上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
上記サブタイトルストリームにデコード処理を施して上記発話者の発話に対応したサブタイトルのビットマップデータを得るサブタイトルデコードステップと、
上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳ステップと、
上記オーディオストリームにデコード処理を施して上記発話に対応したチャネルデータを得るオーディオデコードステップと、
上記各発話に対応した音源の位置情報に基づいてそれぞれ上記各発話に対応したサブタイトルのモニタ画面上における表示座標を求め、上記各発話に対応したサブタイトルのビットマップデータの上記ビデオデータへの重畳位置が該求められた表示座標に対応した位置となるように制御する制御ステップを有する
受信方法。