JP5957769B2

JP5957769B2 - 映像処理装置及び映像処理方法

Info

Publication number: JP5957769B2
Application number: JP2013511938A
Authority: JP
Inventors: 上坂　靖; 靖上坂; 洋矢羽田; 航池田; 智輝小川; 由佳小澤; 川口　透; 透川口
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-04-28
Filing date: 2012-04-26
Publication date: 2016-07-27
Anticipated expiration: 2032-04-26
Also published as: CN103503449A; JPWO2012147354A1; BR112013027226A2; US9357200B2; CN103503449B; WO2012147354A1; KR20140007928A; US20140002621A1

Description

本発明は、３Ｄ映像とともに表示すべき表示データと、当該３Ｄ映像とを重畳する技術に関するものである。

近年、立体表示を行うことができ３Ｄ映像を楽しめる映画館が増加し、また家庭でも２Ｄ映像のみならず、３Ｄ映像の視聴を実現する３Ｄ対応テレビや３Ｄ対応プレーヤが普及している。

２Ｄ映像とは、表示装置の表示画面をＸ−Ｙ平面として捉え、このＸ−Ｙ平面上の画素にて表現される画像であり、平面視画像とも呼ばれる。

一方、３Ｄ映像とは、表示装置の表示画面をＸ−Ｙ平面上の画素に、Ｚ軸方向の奥行きを加えた画像である。３Ｄ映像は、左目で試聴すべき左目用映像と、右目で試聴すべき右目用映像とをともに再生して、これら左目用映像、右目用映像での立体視効果を発揮することにより、ユーザによる視聴に供される。

３Ｄ映像における画素のうち、正のＺ軸座標を持つものをユーザは、表示装置の画面より手前にあると感じ、負のＺ軸座標を持つものを、画面より奥に存在すると感じる。

ここで３Ｄ映画作品など、３Ｄ映像とともに表示するデータ、例えば字幕は、３Ｄ動画像の飛び出し具合にあわせて、表示位置の奥行きを調整しないと、動画像に字幕がつき刺さるように見えたり、動画像と字幕の奥行きが離れ過ぎて見えたりするといった弊害が出てくる。

そのため、字幕毎、フレーム毎に字幕の奥行き／飛び出し具合を、表示位置の映像の奥行き/飛び出し具合の少し手前になるなど、最適に調整することが望ましい。

このような、３Ｄ映像上の字幕を最適に調整し、品位が高い立体視映像を再生する技術の先行技術としては、以下の特許文献１、２に記載されたものがある。

特許４５８８１２０号特開２０１０−２４６１５７号公報

上記の特許文献１、２では、記録媒体に記録された映像及び字幕文を３Ｄ表示する技術が開示されている。具体的には、字幕表示用の字幕プレーンを、立体視映像用の視差画像とするため、オフセット値を与え左右へプレーンをシフトさせる３Ｄ映像の再生装置の内容が記載されている。この特許文献では、字幕プレーンのサイズ（解像度）と、映像用の動画プレーンのサイズとは同じものであるとして、重畳の処理がなされている。

一方、現状の放送では、動画プレーンのサイズと字幕プレーンのサイズは、異なった仕様となっている。

そのため、放送において３Ｄ映像と字幕とを重畳させようとすると、仕様が異なる上記特許文献１、２の技術をそのまま適用することはできない。

そこで、本発明は、３Ｄ映像を表示するための表示領域のサイズと、当該３Ｄ映像とともに表示される表示データを表示する表示領域のサイズとが異なる場合であっても、映像に適切な表示データを重畳できる映像処理装置及び映像処理方法を提供することを目的とする。

上記目的を達成するために、映像処理装置は、３Ｄ映像に係る映像ストリームと、当該映像ストリームから得られる映像に重畳して表示され、且つ表示領域のサイズが前記映像の表示領域のサイズとは異なる表示データに係るデータストリームとを受信する受信手段と、前記映像ストリームから左目用の映像と右目用の映像とを生成する映像生成手段と、前記データストリームから得られた前記表示データを、当該表示データの表示領域のサイズが前記映像生成手段で生成された各映像の表示領域のサイズと一致するよう所定の倍率で拡大する拡大手段と、表示領域のサイズが拡大された前記表示データと、当該表示データについて視差を生じさせるためのオフセット値とを用いて、左目用の表示データと右目用の表示データとを生成するデータ生成手段と、前記左目用の映像と前記左目用の表示データとを、前記右目用の映像と前記右目用の表示データとをそれぞれ重畳して、表示する表示処理手段とを備えることを特徴とする。

上記構成によると、映像処理装置は、オフセット値を用いて左目用の表示データと右目用の表示データとを生成する前に、表示データの表示領域のサイズが各映像の表示領域のサイズと一致するように当該表示データを拡大している。そのため、オフセット値によって生成される左目用の表示データと右目用の表示データとは、本来意図した視差を生じさせるものとなっているので、適切な表示データとして映像に重畳させることができる。

トランスポートストリームの概要を説明する図である。トランスポートストリームのデータ構造を模式的に示す図である。ビデオストリームからＰＥＳパケット列への変換を示す図である。トランスポートストリームに含まれるＴＳパケットを説明する図である。ＰＭＴのデータ構造を説明する図である。字幕データ構造を説明する図である。字幕管理データのデータ構造を説明する図である。字幕文データのデータ構造を説明する図である。２Ｄ映像に字幕を重畳する映像処理装置１０の構成を示すブロック図である。ディスプレイで立体視を行う原理を説明する図である。映像処理システム１１００の構成を示す図である。映像処理装置１２００の構成を示すブロック図である。ビデオオフセット情報を格納する場所を説明する図である。ビデオオフセット情報のデータ構造を示す図である。字幕文データにオフセット参照情報を格納した場合のデータ構造を説明する図である。（ａ）はオフセット参照情報のデータユニットの定義を説明する図であり、（ｂ）はオフセット参照情報のデータ構造を説明する図である。（ａ）オフセット値を適用した場合の字幕の視差を説明する図であり、（ｂ）はオフセット値を適用した場合における字幕の３Ｄ表示を説明する図である。映像と字幕文との重畳を説明する図である。送信装置１３００の構成を示す図である。映像処理装置１２００の全体処理を示す流れ図である。左目用字幕文及び右目用字幕文の生成処理を示す流れ図である。送信装置１３００の処理を示す流れ図である。字幕管理データにオフセット参照情報を格納した場合のデータ構造を説明する図である。字幕データ構造としてオフセット管理データを定義した場合のデータ構造を説明する図である。字幕文字列にオフセット参照情報を含める場合について説明する図である。ＰＭＴにビデオオフセット情報を格納する場合について説明する図である。映像処理装置２２００の構成を示すブロック図である。左目用字幕と右目用字幕の双方を１つのＥＳに含める場合について説明する図である。右目用の字幕に対するデータグループ識別を新たに割り当てたことを説明する図である。左目用字幕と右目用字幕それぞれを個別のＥＳに含める場合について説明する図である。オフセット値を再生時間に対応付けた場合を説明する図である。１つの画面を複数領域に分割して、各領域にビデオオフセット情報を割り当てる場合について説明する図である。字幕の表示位置と適用するビデオオフセット情報との関係を示す図である。１つの画面を複数領域に分割して、各領域に奥行き情報を割り当てる場合について説明する図である。

１．本発明の基礎となった知見
上記特許文献１、２で開示された技術は、上述したように、字幕プレーンのサイズと、動画プレーンのサイズとは同じものであるとして、映像と字幕とを重畳している。

一方で、放送の仕様では、字幕プレーンのサイズと、動画プレーンのサイズとは異なるものとして処理がされている。通常、放送における動画プレーンのサイズは、１９２０×１０８０であり、字幕プレーンのサイズは、９６０×５４０である。このため、映像に字幕を重畳させる際に、字幕プレーンに格納されている字幕を水平方向及び垂直方向それぞれに対して２倍する。具体的には、ある１画素を、水平方向及び垂直方向それぞれに対して１画素ずらして、２回ずつ表示する（２度振り）。この結果、１画素は、水平方向及び垂直方向それぞれに対して２倍、つまり１画素を縦横２倍した４画素領域で表示するよう拡大される。このとき、単純に２回ずつ表示するのではなく、周囲の色情報を用いて補完、拡大してもよい。このように、重畳時に字幕プレーンを拡大することで、動画プレーンのサイズと字幕プレーンのサイズとが同一になり、適切に重畳できる。

特許文献１、２は、３Ｄ映像に字幕を重畳させる技術である。このとき、字幕についても３Ｄ表示させるため、字幕プレーンについて、所定の値（オフセット値）をｘ軸に対して加算して左目用の字幕と、当該オフセット値をｘ軸に対して減算して右目用の字幕とをそれぞれ生成する。そして、生成した左目用の字幕と左目の映像とが重畳され、右目用の字幕と右目用の映像とが重畳される。ここで、オフセット値とは、左目用と、右目用との視差画像を生成するためのものであり、画素数で示される。

ここで、特許文献１、２の技術と、現在放送における重畳手法とを組み合わせた場合を考える。この場合、先ず、字幕プレーンについて、オフセット値を用いて左目用の字幕と右目用の字幕とが生成される。そして、左目映像と左目用の字幕とを重畳する際、及び右目映像と右目用の字幕とを重畳する際、それぞれにおいて拡大が行われる。このとき、オフセット値が適切に与えられていたにも関わらず、拡大により水平方向にさらにずれており、本来意図した視差画像ではないため、字幕について正しく３Ｄ表示ができない。拡大を考慮してオフセット値を与えることも考えられるが、この場合、画素数を奇数個分ずらした視差画像が生成できない。なぜなら拡大により得られるずれ量は偶数となるからである。

そのため、現状の放送の仕様に、特許文献１、２の技術を適用しても、１画素単位の精度で適切なオフセット値を与えることができないことを、発明者は知見した。そこで、発明者が鋭意検討し、処理順序を工夫することで、従来の放送の仕様でも、映像と字幕とを重畳させ、本来意図する３Ｄ表示を実現できることを見出し、本発明に至った。

本発明の一態様によれば、３Ｄ映像に係る映像ストリームと、当該映像ストリームから得られる映像に重畳して表示され、且つ表示領域のサイズが前記映像の表示領域のサイズとは異なる表示データに係るデータストリームとを受信する受信手段と、前記映像ストリームから左目用の映像と右目用の映像とを生成する映像生成手段と、前記データストリームから得られた前記表示データを、当該表示データの表示領域のサイズが前記映像生成手段で生成された各映像の表示領域のサイズと一致するよう所定の倍率で拡大する拡大手段と、表示領域のサイズが拡大された前記表示データと、当該表示データについて視差を生じさせるためのオフセット値とを用いて、左目用の表示データと右目用の表示データとを生成するデータ生成手段と、前記左目用の映像と前記左目用の表示データとを、前記右目用の映像と前記右目用の表示データとをそれぞれ重畳して、表示する表示処理手段とを備えることを特徴とする映像処理装置を提供する。

２．第１の実施の形態
以下、図面を参照しながら、本実施の形態について詳細に説明する。

先ず、本実施の形態を説明する上で基礎となる技術であるデジタル放送方式のストリーム構成及び従来の２Ｄテレビ（映像処理装置）について説明する。

２．１ストリーム構成について
デジタル放送において、放送波を伝送するための規格としてＭＰＥＧ−２トランスポートストリーム形式のデジタルストリーム（以下、単に「トランスポートストリーム」という。）がある。

トランスポートストリームは、図１に示すように、ビデオストリーム、オーディオストリーム、字幕ストリーム、文字スーパーストリームなどのうち、２つ以上を多重化することで得られる。ビデオストリームは放送番組の映像から構成され、オーディオストリームは放送番組の音声データから構成されている。また、字幕ストリームは、映像と重畳されて表示される字幕を含むデータであり、文字スーパーストリームは、速報ニュースなど非同期に映像と重畳される字幕を含むデータである。ビデオストリーム及び字幕ストリームに含まれるデータは、ＭＰＥＧ−１、ＭＰＥＧ−２などの方式を使って符号化され、オーディオストリームに含まれるデータは、リニアＰＣＭなどの方式で圧縮・符号化されている。文字スーパーストリームに含まれるデータは、ランレングス符号化により符号化されている。なお、オーディオストリームや字幕ストリームは、１つのトランスポートストリーム内に１つ、又は２つ以上存在してもよい。例えば、日本語の音声と英語の音声とは別々のオーディオストリームとして存在し、日本語の字幕と英語の字幕とは別々の字幕ストリームとして存在する。

図２は、トランスポートストリームのデータ構造を模式的に示す図である。まず、複数のビデオフレームからなるビデオストリーム２０１、及び複数のオーディオフレームからなるオーディオストリーム２０４それぞれを、それぞれＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｔｙＳｔｒｅａｍ）パケット列２０２及びＰＥＳパケット列２０５に変換し、さらに、ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）パケット２０３及びＴＳパケット２０６に変換する。同様に、字幕ストリーム２０７及び文字スーパーストリーム２１０のデータをそれぞれＰＥＳパケット列２０８及びＰＥＳパケット列２１１に変換し、更にＴＳパケット２０９及びＴＳパケット２１２に変換する。トランスポートストリーム２１３はこれらのＴＳパケットを１本のストリームに多重化することで構成される。

ここで、ビデオストリームの構成について説明する。ＭＰＥＧ−２などの動画圧縮符号化においては、動画像の空間方向、及び時間方向の冗長性を利用してデータ量の圧縮が行われる。時間方向の冗長性を利用する方法として、ピクチャ間予測符号化が用いられる。ピクチャ間予測符号化では、あるピクチャ（符号化対象ピクチャ）を符号化する際に、表示時間順で前方または後方にあるピクチャを参照ピクチャとして参照して、参照ピクチャからの動き量を検出する。そして、動き補償を行ったピクチャと符号化対照のピクチャとの差分値に対して空間方向の冗長度を取り除くことによりデータ量の圧縮を行う。なお、ピクチャとは、フレーム及びフィールドの両者を包含する１つの符号化の単位である。

以降の説明において、参照ピクチャを持たずに符号化対象ピクチャのみを用いてピクチャ内予測符号化を行うピクチャをＩピクチャと呼ぶ。また、既に処理済の（過去の）ピクチャを参照してピクチャ間予測符号化するピクチャをＰピクチャと呼び、過去、未来両方のピクチャを同時に参照してピクチャ間予測符号化するピクチャをＢピクチャと呼ぶ。特に、Ｂピクチャの中で他のピクチャから参照されるピクチャをＢｒピクチャと呼ぶ。また、フレーム構造の場合のフレーム、フィールド構造のフィールドを、ここではビデオアクセスユニットと呼ぶ。

次に、各ストリームからＰＥＳパケット列への変換について説明する。図３は、ビデオストリームからＰＥＳパケット列への変換を示す図である。図３における第１段目はビデオストリームのビデオフレーム列の、第２段目はＰＥＳパケット列の一例をそれぞれ示している。ビデオフレーム列は、複数のＶｉｄｅｏＰｒｅｓｅｎｔａｔｉｏｎＵｎｉｔであるＩピクチャ、Ｂピクチャ、Ｐピクチャから構成され、ＰＥＳパケット列は、複数のＰＥＳパケットから構成されている。ＰＥＳパケットは、ＰＥＳヘッダとＰＥＳペイロードから構成されている。図３の矢印ｙｙ１、ｙｙ２、ｙｙ３、ｙｙ４に示すように、ビデオストリームは、ピクチャ毎に分割され、分割されたピクチャそれぞれは、ＰＥＳパケットのＰＥＳペイロード毎に格納される。ＰＥＳヘッダには、ＰＥＳペイロードに格納されているピクチャの表示時刻であるＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ−Ｓｔａｍｐ）や当該ピクチャの復号時刻であるＤＴＳ（ＤｅｃｏｄｉｎｇＴｉｍｅ−Ｓｔａｍｐ）が格納される。

ＰＥＳパケットから変換され、トランスポートストリームに含まれるＴＳパケットは、図４に示すように、４バイトからなるＴＳヘッダと、１８４バイトからなるＴＳペイロードとから構成される１８８バイト長のデータである。トランスポートストリームは、このＴＳパケットが複数個並んだものである。ＰＥＳパケットは１８４バイト長毎に分割され、分割された各データはＴＳペイロードに格納される。ＴＳヘッダにはＴＳペイロードの格納されたデータに対応付けられたＰＩＤ（パケット識別子）などが格納されている。また、ＴＳパケットには、映像・音声・字幕などの各ストリーム以外にもＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）、ＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）などが含まれる。ＰＭＴには、１つの番組を構成する複数のストリームの各ＰＩＤが各ストリームの属性情報を対応付けられて記憶されており、さらに番組に関する各種ディスクリプタを持つ。例えば、ディスクリプタには番組のコピーを許可・不許可を指示するコピーコントロール情報などが格納される。ＰＭＴのデータ構造の詳細については後述する。ＰＡＴには、番組を示す識別子（番組番号）と、ＰＭＴ内のＰＩＤとが対応付けて格納されている。なお、ＰＡＴのＰＩＤは０で登録される。

図５は、ＰＭＴのデータ構造を示すものである。ＰＭＴの先頭には、そのＰＭＴに含まれるデータの長さなどを記したＰＭＴヘッダが配置されている。その後続には、番組に関するディスクリプタが複数配置されており、前述のコピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後続には、番組を構成する各ストリームに関するストリーム情報が複数配置されている。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのＰＩＤ、ストリームの属性情報（フレームレート、アスペクト比など）が記載されたストリームディスクリプタから構成される。ストリームディスクリプタは番組を構成するストリームの数だけ存在する。

字幕ストリームには、図６の上段に示すように、字幕管理データと字幕文データとが混在している。受信側では、ある字幕管理データ（第１字幕管理データ）を受信すると、次の字幕管理データ（第２字幕管理データ）を受信するまでに存在する字幕文データが示す字幕文は、第１字幕管理データで定義された情報を基づいて表示される。

字幕管理データと字幕文データとは、共通のデータ構造で定義されており、図６の下段にそのデータ構造（以下、「字幕データ構造」という。）を模式的に示す。また、図７、８は、字幕管理データ及び字幕文データそれぞれの詳細なデータ構造を示している。字幕データ構造は、図６の下段に示すように、識別子、・・・、データグループサイズ、データから構成されている。

識別子は、当該字幕データ構造が字幕管理データを示すものであるか字幕文を示すものであるかを識別するためのものであり、図７、８に示すように、“ｄａｔａ＿ｇｒｏｕｐ＿ｉｄ”で定義される。

データグループサイズは、後続するデータ（字幕管理データ、または字幕文）のバイト長を示すものであり、図７、８に示すように、“ｄａｔａ＿ｇｒｏｕｐ＿ｓｉｚｅ”で定義される。

データには、識別子が字幕管理データを示す場合には字幕管理データが、識別子が字幕文データを示す場合には字幕文が、それぞれ含まれる。

データにおいて定義される字幕管理データのデータ構造について、図７を用いて説明する。字幕管理データには、図７に示すように、時刻制御モード、言語情報及びデータユニットが含まれている。

時刻制御モードは、受信再生時における時刻の制御モードを示すものであり、図７に示すように“ＴＭＤ”で定義される。具体的には、ＴＭＤでは、“フリー”、“リアルタイム”及び“オフセットタイム”の何れかが設定される。

言語情報は、字幕の言語の数、及び表示言語が日本語や英語であるなどといった情報が含まれており、図７に示すように“ｎｕｍ＿ｌａｎｇｕａｇｅｓ”、“ＩＳＯ＿６３９＿ｌａｎｇｕａｇｅ＿ｃｏｄｅ”、“Ｆｏｒｍａｔ”などで定義される。“ｎｕｍ＿ｌａｎｇｕａｇｅｓ”は、言語数を示す。“ＩＳＯ＿６３９＿ｌａｎｇｕａｇｅ＿ｃｏｄｅ”は言語に対応する言語コードを、“Ｆｏｒｍａｔ”は字幕表示画面の表示書式の初期状態を示す。なお、“ＩＳＯ＿６３９＿ｌａｎｇｕａｇｅ＿ｃｏｄｅ”、“Ｆｏｒｍａｔ”は、“ｎｕｍ＿ｌａｎｇｕａｇｅｓ”で定義された言語数分、記述される。

データユニットには、図７に示す可変個数の“ｄａｔａ＿ｕｎｉｔ”と呼ばれるデータ構造が含まれ、“ｄａｔａ＿ｕｎｉｔ”に同一ＥＳで送られる字幕番組全体で有効となるデータが格納される。

次に字幕文データのデータ構造について、図８を用いて説明する。字幕文データには、図８に示すように、時刻制御モード、データサイズ及び字幕文字列が含まれており、図６に示すように、字幕文字列には字幕の表示領域のサイズや表示位置などを決定する特殊符合シーケンスを含むことができる。表示領域のサイズは、例えば表示する文字数であり、表示位置は、表示領域のサイズを長方形とした場合のその始点である。

時刻制御モードは、図７で示す字幕管理データの時刻制御モードと同様である。

データサイズは、後続の字幕文字列の全バイト長を示すものであり、図８に示す“ｄａｔａ＿ｕｎｉｔ＿ｌｏｏｐ＿ｌｅｎｇｔｈ”で定義される。

字幕文字列は、図８に示す可変個数の“ｄａｔａ＿ｕｎｉｔ”と呼ばれるデータ構造で定義され、“ｄａｔａ＿ｕｎｉｔ”に字幕文を構成するデータが格納される。

２．２２Ｄ映像について映像処理装置１０について
次に、２Ｄ映像に字幕を重畳する映像処理装置１０の構成について説明する。

映像処理装置１０は、図９に示すように、受信部２１、多重化分離部２２、ビデオデコーダ２３、字幕用デコーダ２４、オーディオデコーダ２５、動画プレーン２６、字幕プレーン２７及び重畳部２８から構成されている。

受信部２１は、放送局から送信されたトランスポートストリームを受信し、受信したトランスポートストルームを多重化分離部へ出力する。本実施形態では、トランスポートストリームは、ビデオストリーム、オーディオストリーム及び字幕ストリームが多重化されている。

多重化分離部２２は、受信したトランスポートストリームを、ビデオストリームと、字幕ストリームと、オーディオストリームとに分離し、ビデオストリームをビデオデコーダ２３へ、字幕ストリームを字幕用デコーダ２４へ、オーディオストリームをオーディオデコーダ２５へ出力する。

ビデオデコーダ２３は、ビデオストリームをデコードしてビデオフレーム（２Ｄ映像）を取得し、取得したビデオフレームを動画プレーン２６へ出力する。具体的には、ビデオデコーダ２３は、ビデオストリームに含まれる個々のビデオアクセスユニットを、対応するＰＥＳヘッダに格納された所定の復号時刻（ＤＴＳ）に基づいてデコードしてフレーム／フィールド画像を作成する。なお、ビデオデコーダ２３は、ビデオストリームの圧縮符号化形式に応じて、デコード方法を切り替える。ビデオデコーダ２３は、デコードされたフレーム／フィールド画像を、対応するＰＥＳヘッダに格納された表示時刻（ＰＴＳ）のタイミングで対応するフレーム／フィールド画像を動画プレーン２６に格納する。

字幕用デコーダ２４は、ビデオストリームをデコードして字幕文を取得し、取得した字幕文を字幕プレーン２７へ出力する。具体的には、字幕用デコーダ２４は、字幕ストリームに含まれる符号化された字幕データを、対応するＰＥＳヘッダに格納された所定の復号時刻（ＤＴＳ）に基づいてデコードして字幕文を作成する。字幕用デコーダ２４は、デコードされた字幕文を、対応するＰＥＳヘッダに格納された表示時刻（ＰＴＳ）のタイミングで対応する字幕文を字幕プレーン２７に格納する。このとき、字幕用デコーダ２４は、字幕文字列に含まれる情報（特殊符号シーケンス）に応じて字幕プレーン２７の表示領域中の表示位置に、表示対象の字幕文を描画する。

オーディオデコーダ２５は、オーディオストリームをデコードして音声を取得し、取得した音声を出力する。

動画プレーン２６は、ビデオデコーダ２３で得られたビデオフレームを格納するプレーンメモリであり、その解像度は１９２０×１０８０である。

字幕プレーン２７は、字幕用デコーダ２４で得られた字幕文を格納するプレーンメモリであり、その解像度は９６０×５４０である。

重畳部２８は、動画プレーン２６に格納されているビデオフレームを映像出力する際に、当該ビデオフレームに字幕プレーン２７で格納されている字幕文を重畳する。このとき、ビデオフレームのサイズと字幕文のサイズとが異なるため、重畳部２８では、字幕プレーン２７のデータピクセルに対して水平垂直に２倍拡大を行うことで、動画プレーン２６の解像度と同一にし、水平垂直に２倍拡大した後の字幕文を動画プレーン２６のビデオフレームに重畳して、映像出力を行う。

以上が、２Ｄ映像に字幕を重畳する映像処理装置１０の構成であり、この構成により、解像度の異なる動画プレーン２６と字幕プレーン２７において、字幕を映像に重畳する際には同一の解像度とし、重畳することができる。
２．３３Ｄ再生の原理
ここでは、図１０を用いて家庭用ディスプレイで立体視を行う原理を説明する。

立体視を実現する手法としては、ホログラフィ技術を用いる方法と、視差画像を用いる方式の大きく２つあるが、ここでは視差画像を用いる方式を説明する。

視差画像を用いた方式では、右目に入る映像と、左目に入る映像を各々用意し、それぞれの目に対応したピクチャだけが入るようにして立体視を行う方法である。図１０（ａ）は、ユーザが顔の中央の延長線上にある、比較的小さな立方体を見ている様子を上から見た図である。図１０（ｂ）は、当該立方体を左目で見た場合の例を示しており、図１０（ｃ）は、同じ立方体を右目で見た場合の例を示している。

家庭用ディスプレイで立体表示を実現するために、当該ディスプレイは、左右のそれぞれの目に対応した映像を交互に表示するとともに、シャッター式めがねや偏光眼鏡を用いて、対応した目にだけ見せるようにしている。視差画像を用いた立体視のための方法はさまざまな技術が提案されており、本実施の形態では、シャッター式メガネ方式を例として用いて説明するが、視差画像を用いる限りこの方式に限定するものではない。

ここでは、左目用の映像を「左目映像」、右目用の映像を「右目映像」、両方の映像から得られる映像を「３Ｄ映像」と呼ぶ。

以上が本実施の形態を理解する上で基礎となる技術である。

２．４本実施の形態の概要
本実施の形態の概要について説明する。

本実施の形態に係る映像処理システム１１００は、図１１に示すように、３Ｄデジタルテレビ（映像処理装置）１２００と送信装置１３００とから構成される。

送信装置１３００は、図１に示すビデオストリーム、オーディオストリーム、字幕ストリーム、文字スーパーストリームなどのうち、ビデオストリーム、オーディオストリーム、字幕ストリームが多重化されたトランスポートストリームを送信する。ここで、ビデオストリームは、複数視点の映像（例えば、３Ｄ映像）が符号化され、ＴＳ化されたものである。また、３Ｄ映像に係る映像の表示サイズ（解像度）は１９２０×１０８０であり、字幕ストリームから得られる表示サイズ（解像度）は９６０×５４０である。

映像処理装置１２００は、送信装置１３００から送信されたトランスポートストリームを受信し、トランスポートストリームに含まれるビデオストリームから３Ｄ映像（左目映像と、右目映像）を、字幕ストリームから左目用の字幕文と右目用の字幕文とを生成し、３Ｄ映像として表示する際に、左目映像と左目用の字幕とを、右目映像と右目用の字幕文とをそれぞれ重畳して出力する。

２．５映像処理装置１２００の構成
ここでは、映像処理装置１２００の構成について説明する。

映像処理装置１２００は、図１２に示すように、受信部１２０１、多重化分離部１２０２、３Ｄ映像ビデオデコーダ１２０３、字幕用デコーダ１２０４、オーディオデコーダ１２０５、左目映像プレーン１２０６、右目映像プレーン１２０７、字幕バッファ１２０８、サイズ変換部１２０９、字幕プレーン１２１０、字幕生成処理部１２１１、出力処理部１２１２から構成されている。

（１）受信部１２０１
受信部１２０１は、送信装置１３００から送信されたトランスポートストリームを受信し、受信したトランスポートストリームを多重化分離部１２０２へ出力する。

（２）多重化分離部１２０２
多重化分離部１２０２は、例えばデマルチプレクサ（分配回路）であり、受信部１２０１から受け取ったトランスポートストリームからビデオストリーム、オーディオストリーム及び字幕ストリームを分離し、ビデオストリームを３Ｄ映像ビデオデコーダ１２０３へ、字幕ストリームを字幕用デコーダ１２０４へ、オーディオストリームをオーディオデコーダ１２０５へ、それぞれ出力する。

（３）３Ｄ映像ビデオデコーダ１２０３
３Ｄ映像ビデオデコーダ１２０３は、多重化分離部１２０２から受け取ったビデオストリームを復号して、左目映像と右目映像とを生成する。そして、３Ｄ映像ビデオデコーダ１２０３は、左目映像を左目映像プレーン１２０６へ、右目映像を右目映像プレーン１２０７へ書き込む。

具体的は、３Ｄ映像ビデオデコーダ１２０３は、複数視点のビデオストリームを復号して、左目映像と右目映像とを生成する。

また、ビデオストリームから得られるビデオアクセスユニットには、図１３に示すように、補足データとしてビデオオフセット情報が格納されている。このビデオオフセット情報は、図１４に示すデータ構造において、オフセット値（ｏｆｆｓｅｔ＿ｖａｌｕｅ）とそれを識別するためのオフセットシーケンスＩＤ（ｏｆｆｓｅｔ＿ｓｅｑｕｅｎｃｅ＿ｉｄ）とが対応付けられた複数個の組からなる。

３Ｄ映像ビデオデコーダ１２０３は、ビデオストリームを復号した際に得られるビデオオフセット情報を、字幕生成処理部１２１１へ出力する。

（４）字幕用デコーダ１２０４
字幕用デコーダ１２０４は、多重化分離部１２０２から受け取った字幕ストリームを復号して、字幕文データを生成し、字幕文データに含まれる字幕文を字幕バッファ１２０８に書き込む。具体的には、字幕用デコーダ１２０４は、字幕文データの時刻制御モード、データサイズで示されるデータ長に基づいて、字幕文字列で示される字幕文を字幕バッファに書き込む。

また、字幕ストリームから得られる字幕文データは、図１５に示すように、図８で示すデータ構造において字幕文に後続するデータユニットとしてオフセット参照情報Ｄ１００が付加されている。オフセット参照情報Ｄ１００は、オフセット値として固定値を用いるか参照値を用いるかを識別する情報（Ｔｙｐｅ情報）Ｄ１０１と、Ｔｙｐｅ情報Ｄ１０１に応じた参照情報Ｄ１０２とから構成されている。Ｔｙｐｅ情報Ｄ１０１が固定値を用いることを示す場合には、参照情報Ｄ１０２にはその値が格納され、参照値を用いることを示す場合には参照先を示す情報としてオフセットシーケンスＩＤが格納されている。

字幕用デコーダ１２０４は、字幕文字列で示される字幕文の書き込み後、字幕文字列に後続するオフセット参照情報を読み出し、読みだしたオフセット参照情報を字幕生成処理部１２１１へ出力する。

（オフセット参照情報について）
ここで、オフセット参照情報のデータ構造について、図１６を用いて説明する。

オフセット参照情報は、上述したように、字幕文データのデータユニットとして定義される。そのため、オフセット参照情報として定義されていることを識別するために、図１６（ａ）に示すように、データユニットの種類を示すデータユニットパラメータ（ｄａｔａ＿ｕｎｉｔ＿ｐａｒａｍｅｔｅｒ）に値“０ｘ３８”を割り当てる。これにより、装置側は、データユニットパラメータの値が“０ｘ３８”である場合には当該データユニットはオフセット参照情報であると判別することができる。

図１９（ｂ）は、オフセット参照情報のデータ構造を示すものであり、記述子“ｏｆｆｓｅｔ＿ｔｙｐｅ”により、上述したＴｙｐｅ情報Ｄ１０１が定義される。ここでは、値“００”が固定値を用いることを、値“０１”が参照値を用いることを示している。そして、記述子“ｏｆｆｓｅｔ＿ｔｙｐｅ”の後に存在するｉｆ文により、Ｔｙｐｅ情報Ｄ１０１に応じた情報が記述されている。例えば、記述子“ｏｆｆｓｅｔ＿ｔｙｐｅ”の値が“００”である場合には、記述子“ｆｉｘｅｄ＿ｏｆｆｓｅｔ＿ｖａｌｕｅ”に固定値が記述される。記述子“ｏｆｆｓｅｔ＿ｔｙｐｅ”の値が“０１”である場合には、記述子“ｏｆｆｓｅｔ＿ｓｅｑｕｅｎｃｅ＿ｉｄ＿ｒｅｆ”にオフセットシーケンスＩＤが記述される。

（５）オーディオデコーダ１２０５
オーディオデコーダ１２０５は、多重化分離部１２０２から受け取ったオーディオストリームを復号して、音声データを生成する。そして、オーディオデコーダ１２０５は、生成した音声データを音声として出力する。

（６）左目映像プレーン１２０６
左目映像プレーン１２０６は、３Ｄ映像ビデオデコーダ１２０３で生成された一画面分の左目映像の画素データをライン単位で格納し、水平同期信号、垂直同期信号に沿ってこれらの画素データを出力するためのメモリである。ここでは、左目映像プレーン１２０６のサイズ、つまり一画像のサイズは、１９２０×１０８０である。

（７）右目映像プレーン１２０７
右目映像プレーン１２０７は、３Ｄ映像ビデオデコーダ１２０３で生成された一画面分の右目映像の画素データをライン単位で格納し、水平同期信号、垂直同期信号に沿ってこれらの画素データを出力するためのメモリである。ここでは、右目映像プレーン１２０７のサイズは、左目映像プレーン１２０６のサイズと同じである。

（８）字幕バッファ１２０８
字幕バッファ１２０８は、字幕用デコーダ１２０４で生成された一画面分の字幕文を格納するためのバッファであり、そのサイズは、９６０×５４０である。つまり、バッファのサイズとは、実際に字幕が表示される、画面上の部分的な領域を示すのではなく、字幕が実際に表示される領域を含む最大の領域（画面全体）を示すものである。

（９）サイズ変換部１２０９
サイズ変換部１２０９は、字幕バッファ１２０８に格納されている一画面分の字幕文に対して、その画像サイズ（９６０×５４０）を、左目映像及び右目映像それぞれのサイズ（１９２０×１０８０）となるよう所定の倍率（縦横２倍）で拡大する。具体的には、１画素を縦横２倍の領域、つまり４画素領域に割り当てる。

（１０）字幕プレーン１２１０
字幕プレーン１２１０は、サイズ変換部１２０９で画像サイズが１９２０×１０８０に変換された一画面分の字幕文の映像の画素データをライン単位で格納し、水平同期信号、垂直同期信号に沿ってこれらの画素データを出力するためのメモリである。

（１１）字幕生成処理部１２１１
字幕生成処理部１２１１は、字幕プレーン１２１０に格納されている字幕文の映像から、映像の送信元からの指示に応じたオフセット値を用いて左目用の字幕文の映像と、右目用の字幕文の映像とを生成するものである。

字幕生成処理部１２１１は、図１２に示すように、判定部１２２１、オフセット値特定部１２２２、左目用字幕生成部１２２３及び右目用字幕生成部１２２４から構成されている。

（１１−１）判定部１２２１
判定部１２２１は、左目用の字幕文の映像と、右目用の字幕文の映像とを生成する際に用いるオフセット値が固定値であるか参照値であるかを判定するものである。

具体的には、判定部１２２１は、字幕用デコーダ１２０４から出力されたオフセット参照情報Ｄ１００を受け取る。判定部１２２１は、受け取ったオフセット参照情報Ｄ１００のＴｙｐｅ情報Ｄ１０１に格納されている値が“００”であるか“０１”であるかを判別し、値が“００”であれば固定値を用いる、値が“０１”であれば参照値を用いると判定する。判定部１２２１は、判定結果と、受け取ったオフセット参照情報Ｄ１００の参照情報Ｄ１０２とをオフセット値特定部１２２２へ出力する。

（１１−２）オフセット値特定部１２２２
オフセット値特定部１２２２は、判定部１２２１の判定結果に応じて、左目用の字幕文の映像と、右目用の字幕文の映像との生成に用いるオフセット値を特定するものである。

具体的には、オフセット値特定部１２２２は、判定部１２２１から受け取った判定結果が固定値を用いることを示す場合には、判定部１２２１から受け取った参照情報に格納された固定値を取得し、取得した固定値を左目用字幕生成部１２２３及び右目用字幕生成部１２２４へ出力する。オフセット値特定部１２２２は、判定部１２２１から受け取った判定結果が参照値を用いることを示す場合には、３Ｄ映像ビデオデコーダ１２０３から受け取ったビデオオフセット情報から、判定部１２２１から受け取った参照情報に格納された参照値が示すオフセットシーケンスＩＤに対応する値を取得し、取得した値を左目用字幕生成部１２２３及び右目用字幕生成部１２２４へ出力する。

（１１−３）左目用字幕生成部１２２３、右目用字幕生成部１２２４
左目用字幕生成部１２２３は字幕プレーン１２１０に格納された字幕文の映像から左目用字幕文の映像を生成し、右目用字幕生成部１２２４は字幕プレーン１２１０に格納された字幕文の映像から右目用字幕文の映像を生成するものである。

具体的には、左目用字幕生成部１２２３は、オフセット値特定部１２２２から受け取った値をオフセット値として、字幕プレーン１２１０に対して水平座標にオフセット値を加算して左目用字幕文の映像を生成し、出力処理部１２１２へ出力する。また、右目用字幕生成部１２２４は、オフセット値特定部１２２２から受け取った値をオフセット値として、字幕プレーン１２１０に対して水平座標にオフセット値を減算して右目用字幕文の映像を生成し、出力処理部１２１２へ出力する。

例えば、オフセット値として正の値が設定されている場合、図１７（ａ）に示すように、字幕プレーン１２１０に格納されている字幕の水平座標にオフセット値を加算することで生成される左目用字幕文は右方向（正方向）にずれ、字幕プレーン１２１０に格納されている字幕の水平座標にオフセット値を減算することで生成される右目用字幕文は左方向（負方向）にずれ、それぞれを視差画像として表示することができる。左目用字幕文と右目用字幕文とを視差画像として交互に表示することで、図１７（ｂ）に示すように、平面の字幕グラフィクス（字幕文）が、映像より前に浮き出て見える。このように、左右用の２本の映像データ（字幕文データ）を用意しなくても、正面のグラフィクスデータ（平面の字幕文）とともに左右にずらすオフセットの値を用意することで、３Ｄ表示が可能となる。

（１２）出力処理部１２１２
出力処理部１２１２は、左目映像及び右目映像それぞれに対応する字幕文を重畳し、字幕が重畳された３Ｄ映像が表示されるよう各映像を出力するものである。

出力処理部１２１２は、図１２に示すように、切替部１２３１及び重畳部１２３２、１２３３から構成されている。

（１２−１）切替部１２３１
切替部１２３１は、３Ｄ表示を行うために左目映像と右目映像との出力を所定の時間間隔で切り替えるものである。例えば、２Ｄ映像の出力が１／６０秒ごとに行われる場合、３Ｄ表示を行うためには、左目映像及び右目映像を交互に出力し、１／６０秒ごとに３Ｄ映像が表示されるためには、左目映像及び右目映像を、１／１２０秒ごとに交互に出力する必要がある。

具体的には、切替部１２３１は、所定の時間間隔（例えば１／１２０秒ごと）に、左目映像プレーン１２０６と重畳部１２３２との接続、及び右目映像プレーン１２０７と重畳部１２３３との接続を切り替える。例えば、切替部１２３１は、ある時間では左目映像プレーン１２０６と重畳部１２３２とを接続し、右目映像プレーン１２０７と重畳部１２３３とを非接続とし、１／１２０秒後には左目映像プレーン１２０６と重畳部１２３２とを非接続とし、右目映像プレーン１２０７と重畳部１２３３とを接続するよう制御する。これにより、出力処理部１２１２は、左目映像と右目映像とを所定の時間間隔で交互に出力するので、３Ｄ表示することができる。

（１２−２）重畳部１２３２、１２３３
重畳部１２３２は、左目映像と、左目用字幕生成部１２２３で生成された左目用字幕文の映像とを重畳し、出力するものである。

重畳部１２３３は、右目映像と、右目用字幕生成部１２２４で生成された右目用字幕文の映像とを重畳し、出力するものである。

左目用字幕文の映像は、例えばオフセット値が正整数である場合には、図１８に示すように、左目用字幕生成部１２２３において字幕プレーン１２１０をオフセット値分、右へシフトしているため、左目映像と重畳する際には左目映像プレーン１２０６からはみ出す部分はクロッピングされる。同様に、右目用字幕は、図１８に示すように、右目用字幕分の映像は右目用字幕生成部１２２４において字幕プレーン１２１０をオフセット値分、左へシフトしているため、右目映像と重畳する際には右目映像プレーン１２０７からはみ出す部分はクロッピングされる。

２．６送信装置１３００の構成
送信装置１３００は、図１９に示すように、ビデオエンコーダ１３０１、字幕用エンコーダ１３０２、オーディオエンコーダ１３０３、ビデオストリーム格納部１３０４、字幕ストリーム格納部１３０５、オーディオストリーム格納部１３０６、多重化部１３０７及び送信部１３０８から構成されている。

（１）ビデオエンコーダ１３０１
ビデオエンコーダ１３０１は、多視点の、複数のビデオアクセスユニット（ピクチャ）について、ＭＰＥＧ−２、ＭＰＥＧ−４などの方式を使って符号化して、ビデオストリームを生成し、ビデオストリーム格納部１３０４へ書き込む。

（２）字幕用エンコーダ１３０２
字幕用エンコーダ１３０２は、１つ以上の字幕管理データ及び１つ以上の字幕文データをＭＰＥＧ−１、ＭＰＥＧ−２などの方式を使ってエンコードして、字幕ストリームを生成し、字幕ストリーム格納部１３０５へ書き込む。

ここで、字幕用エンコーダ１３０２がエンコードする字幕文データは、図１５に示すデータ構造からなる、つまり、字幕文の後続するデータとしてオフセット参照情報が含まれるデータ構造である。

（３）オーディオエンコーダ１３０３
オーディオエンコーダ１３０３は、音声データを、リニアＰＣＭなどの方式で圧縮・符号化して、オーディオストリームを生成し、オーディオストリーム格納部１３０６へ書き込む。

（４）ビデオストリーム格納部１３０４
ビデオストリーム格納部１３０４は、ビデオエンコーダ１３０１で生成されたビデオストリームを格納するための記憶領域である。

（５）字幕ストリーム格納部１３０５
字幕ストリーム格納部１３０５は、字幕用エンコーダ１３０２で生成された字幕ストリームを格納するための記憶領域である。

（６）オーディオストリーム格納部１３０６
オーディオストリーム格納部１３０６は、オーディオエンコーダ１３０３で生成されたオーディオストリームを格納するための記憶領域である。

（７）多重化部１３０７
多重化部１３０７は、ビデオストリーム格納部１３０４に格納されているビデオストリーム、字幕ストリーム格納部１３０５に格納されている字幕ストリーム、オーディオストリーム格納部１３０６に格納されているオーディオストリーム、ＳＩなどを多重化して、ＭＰＥＧ２−ＴＳ形式のトランスポートストリームを生成し、送信部１３０８を介して送信する。

（８）送信部１３０８
送信部１３０８は、多重化部１３０７で生成されたＭＰＥＧ２−ＴＳ形式のトランスポートストリームを送信する。

２．７動作
（１）映像処理装置１２００の全体動作
ここでは、映像処理装置１２００がトランスポートストリームを受信してから３Ｄ表示を行うまでの全体の動作について、図２０に示す流れ図を用いて説明する。

映像処理装置１２００の受信部１２０１は、トランスポートストリームを受信する（ステップＳ５）。

多重化分離部１２０２は、受信部１２０１で受信したトランスポートストリームをビデオストリーム、オーディオストリーム及び字幕ストリームに分離する（ステップＳ１０）。

３Ｄ映像ビデオデコーダ１２０３は、ビデオストリームから左目映像及び右目映像を生成し、生成した左目映像を左目映像プレーン１２０６へ、生成した右目映像を右目映像プレーン１２０７へそれぞれ書き込む（ステップＳ１５）。例えば、３Ｄ映像ビデオデコーダ１２０３は、ビデオストリームを復号して左目映像と右目映像とを生成する。

オーディオデコーダ１２０５は、オーディオストリームから音声を生成し、出力する（ステップＳ２０）。

字幕用デコーダ１２０４は、字幕ストリームから字幕文を生成し、字幕バッファ１２０８へ書き込む（ステップＳ２５）。

サイズ変換部１２０９は、字幕バッファ１２０８に格納されている一画像分の字幕文の画像サイズ（９６０×５４０）を、左目映像及び右目映像それぞれのサイズ（１９２０×１０８０）となるよう所定の倍率（縦横２倍）で拡大し、字幕プレーン１２１０へ書き込む（ステップＳ３０）。

字幕生成処理部１２１１は、左目用字幕文及び右目用字幕文を生成する生成処理を行う（ステップＳ３５）。

出力処理部１２１２は、重畳部１２３２及び１２３３を用いて、左目映像プレーン１２０６に格納された左目映像と、字幕生成処理部１２１１で生成された左目用字幕との重畳、及び右目映像プレーン１２０７に格納された右目映像と、字幕生成処理部１２１１で生成された右目用字幕との重畳を、各映像を出力するタイミングで行い（ステップＳ４０）、字幕文が重畳された各映像を出力して３Ｄ表示を行う（ステップＳ４５）。

（２）左目用字幕文及び右目用字幕文の生成処理
ここでは、図２０のステップＳ３５に示す左目用字幕文及び右目用字幕文の生成処理の詳細について、図２１に示す流れ図を用いて説明する。

字幕生成処理部１２１１の判定部１２２１は、字幕用デコーダ１２０４から受け取ったオフセット参照情報Ｄ１００のＴｙｐｅ情報Ｄ１０１に格納された値に基づいて、左目用字幕文及び右目用字幕文の生成に用いるオフセット値は固定値であるか否かを判断する（ステップＳ１００）。具体的には、判定部１２２１は、Ｔｙｐｅ情報Ｄ１０１に格納された値が“００”であれば固定値を用いると、“０１”であれば参照値を用いると判断する。

判定部１２２１が固定値を用いると判断する場合（ステップＳ１００における「Ｙｅｓ」）、オフセット値特定部１２２２は、オフセット参照情報Ｄ１００に含まれる参照情報Ｄ１０２から固定値を取得する（ステップＳ１０５）。

判定部１２２１が固定値を用いない、つまり参照値を用いると判断する場合（ステップＳ１００における「Ｎｏ」）、オフセット値特定部１２２２は、オフセット参照情報Ｄ１００に含まれる参照情報Ｄ１０２から参照値を取得し（ステップＳ１１０）、取得した参照値にて示されるオフセットシーケンスＩＤに対応する値を取得する（ステップＳ１１５）。

左目用字幕生成部１２２３は、ステップＳ１０５又はステップＳ１１５で取得された値をオフセット値として、字幕プレーン１２１０に格納されている字幕文の映像から左目用字幕文を生成する（ステップＳ１２０）。

右目用字幕生成部１２２４は、ステップＳ１０５又はステップＳ１１５で取得された値をオフセット値として、字幕プレーン１２１０に格納されている字幕文の映像から右目用字幕文を生成する（ステップＳ１２５）。

（３）送信装置１３００の動作
ここでは、送信装置１３００の動作について図２２に示す流れ図を用いて説明する。

ビデオエンコーダ１３０１は、多視点の、複数のビデオアクセスユニット（ピクチャ）それぞれを符号化して、ビデオストリームを生成し、ビデオストリーム格納部１３０４へ書き込む（ステップＳ２００）。

字幕用エンコーダ１３０２は、１つ以上の字幕管理データ及び１つ以上の字幕文データを符号化して、字幕ストリームを生成し、字幕ストリーム格納部１３０５へ書き込む（ステップＳ２０５）。ここで、字幕用エンコーダ１３０２がエンコードする字幕文データは、図１５に示すように、字幕文の後続するデータとしてオフセット参照情報が含まれるデータ構造である。

オーディオエンコーダ１３０３は、音声データを圧縮・符号化して、オーディオストリームを生成し、オーディオストリーム格納部１３０６へ書き込む（ステップＳ２１０）。

多重化部１３０７は、ビデオストリーム、字幕ストリーム、オーディオストリーム、及びＳＩなどを多重化して、ＭＰＥＧ２−ＴＳ形式のトランスポートストリームを生成し、送信部１３０８を介して送信する（ステップＳ２１５）。

２．８変形例
以上、第１の実施の形態に基づいて説明したが、本発明は上記の実施の形態に限られない。例えば、以下のような変形例が考えられる。

（１）オフセット参照情報は、字幕文データのデータ構造内で定義するとしたが、これに限定されない。

オフセット参照情報は、図２３に示すように、字幕管理データのデータ構造内に定義されてもよい。

または、図２４に示すように、字幕データ構造として、字幕文データや字幕管理データとは別のデータ（オフセット管理データ）に定義してもよい。このとき、字幕データの種別を示す識別子である“ｄａｔａ＿ｇｒｏｕｐ＿ｉｄ”には、新たにオフセット管理データを識別する識別子が割り当てられる。さらに、オフセット管理データには、字幕参照情報及びオフセット参照情報が含まれており、字幕参照情報には、後続のオフセット参照情報が適用される字幕データを識別する識別子が格納される。オフセット参照情報は既出であるため、ここでの説明は省略する。

または、図２５に示すように、字幕文データに含まれる字幕文字列を定義する特殊符号シーケンス内に、Ｔｙｐｅ情報及び参照情報を含めてもよい。

または、Ｔｙｐｅ情報のみを、ＰＭＴのディスクリプタやストリーム情報のデータとして新規に格納してもよいし、ＥＩＴに格納してもよい。つまり、Ｔｙｐｅ情報は、ＳＩの中に含めてもよい。このとき、参照情報は、上記と同様に、字幕文データ、字幕管理データ、オフセット管理データ及び字幕文字列を定義する特殊符号シーケンス内の何れかに格納してもよい。このとき、Ｔｙｐｅ情報が固定値を使用することを示す場合には、固定値をＴｙｐｅ情報とともに、ＰＭＴに格納してもよい。

（２）上記実施の形態において、ビデオオフセット情報は、ビデオアクセスユニットごとに、当該ビデオアクセスユニットに含まれる補足データ内に定義されるとしたが、これに限定されない。

ＰＭＴのデータ構造内にビデオオフセット情報を定義してもよい。例えば、図２６に示すように、ディスクリプタ＃Ｎに、オフセット値（Ｏｆｆｓｅｔ＿１、Ｏｆｆｓｅｔ＿２、・・・、Ｏｆｆｓｅｔ＿ｎ）それぞれに、当該オフセット値を識別するための識別子（ＩＤ１、ＩＤ２、・・・、ＩＤｎ）を対応付けたテーブルを定義してもよい。

つまり、ビデオオフセット情報は、ピクチャ毎、又は複数のピクチャのグループからなる単位に対応付けられてもよい。

（３）上記実施の形態及び変形例を組み合わせるとしてもよい。

３．第２の実施の形態
ここでは、第２の実施の形態に係る映像処理装置２２００について説明する。

第１の実施の形態に係る映像処理装置１２００は、１つの字幕文の映像から左目用字幕及び右目用字幕を生成したが、本実施の形態に係る映像処理装置２２００は、左目用字幕の映像と、右目用字幕の映像とを個別に送信装置１３００から受信し、字幕の３Ｄ表示を行う装置である。

なお、本実施の形態では、第１の実施の形態と異なる点を中心に説明する。

３．１映像処理装置２２００の構成
ここでは、映像処理装置２２００の構成について説明する。

映像処理装置２２００は、図２７に示すように、受信部１２０１、多重化分離部２２０２、３Ｄ映像ビデオデコーダ１２０３、字幕用デコーダ２２０４ａ、２２０４ｂ、オーディオデコーダ１２０５、左目映像プレーン１２０６、右目映像プレーン１２０７、左目用字幕バッファ２２０８ａ、右目用字幕バッファ２２０８ｂ、サイズ変換部２２０９ａ、２２０９ｂ、左目用字幕プレーン２２１０ａ、右目用字幕プレーン２２１０ｂ、字幕生成処理部２２１１、出力処理部１２１２から構成されている。

受信部１２０１、３Ｄ映像ビデオデコーダ１２０３、オーディオデコーダ１２０５、左目映像プレーン１２０６、右目映像プレーン１２０７、出力処理部１２１２については、第１の実施の形態で説明しているため、ここでの説明は省略する。

（１）多重化分離部２２０２
多重化分離部２２０２は、例えばデマルチプレクサ（分配回路）であり、受信部１２０１から受け取ったトランスポートストリームからビデオストリーム、オーディオストリーム及び字幕ストリームを分離し、分離した各ストリームを対応するデコーダへ出力するものである。ここでは、分離した字幕ストリームの構成が第１の実施の形態と異なる。

本実施の形態における字幕ストリームに対するエレメンタリストリーム（ＥＳ）の模式的な構成を、図２８に示す。左目用の字幕文データと、右目用の字幕文データとは、１つのＥＳに格納されている。そして、図２９に示すように、データグループ識別子（ｄａｔａ＿ｇｒｏｕｐ＿ｉｄ）に、右目用の本文データ（右目用の字幕文データ）であることを識別するための値（０ｘ４１から０ｘ４８及び０ｘ６１から０ｘ６８）を新たに追加する。なお、左目用の本文データ（左目用の字幕文データ）であることを識別するための値は、従来から割り当てられている値（０ｘ１から０ｘ８及び０ｘ２１から０ｘ２８）を利用する。ＥＳ内においては、組Ａとして割り当てられた値と、組Ｂとして割り当てられた値とを交互に使用する。また、左目用の字幕文データには、図１５に示すように、字幕文字列とオフセット参照情報とを含んでいる。右目用の字幕文データにはオフセット参照情報は含まれない、つまり右目用の字幕文データは図８に示すようなデータ構造である。

また、本実施の形態においては、第１実施の形態と同様に、ビデオオフセット情報は、ビデオアクセスユニットごとに、当該ビデオアクセスユニットに含まれる補足データ内に定義されている。

多重化分離部２２０２は、分離した字幕ストリームのうち、左目用の字幕管理データ及び字幕文データを形成するデータを字幕用デコーダ２２０４ａへ出力し、右目用の字幕管理データ及び字幕文データを形成するデータを字幕用デコーダ２２０４ｂへ出力する。

（２）字幕用デコーダ２２０４ａ
字幕用デコーダ２２０４ａは、多重化分離部２２０２から受け取った左目用のデータを復号して、左目用の字幕文データを生成し、左目用の字幕文データに含まれる字幕文（左目用字幕文）を左目用字幕バッファ２２０８ａに書き込む。

字幕用デコーダ２２０４ａは、オフセット参照情報を字幕生成処理部２２１１へ出力する。

（３）字幕用デコーダ２２０４ｂ
字幕用デコーダ２２０４ｂは、多重化分離部２２０２から受け取った右目用のデータを復号して、右目用の字幕文データを生成し、右目用の字幕文データに含まれる字幕文（右目用字幕文）を右目用字幕バッファ２２０８ｂに書き込む。

（４）左目用字幕バッファ２２０８ａ
左目用字幕バッファ２２０８ａは、字幕用デコーダ２２０４ａで生成された一画像分の左目用字幕文を格納するためのバッファであり、そのサイズは、９６０×５４０である。

（５）右目用字幕バッファ２２０８ｂ
右目用字幕バッファ２２０８ｂは、字幕用デコーダ２２０４ｂで生成された一画像分の右目用字幕文を格納するためのバッファであり、そのサイズは、９６０×５４０である。

（６）サイズ変換部２２０９ａ
サイズ変換部２２０９ａは、左目用字幕バッファ２２０８ａに格納されている一画像分の左目用字幕文に対して、その画像サイズ（９６０×５４０）を、左目映像のサイズ（１９２０×１０８０）となるよう所定の倍率（縦横２倍）で拡大する。具体的な拡大方法は第１の実施の形態と同様である。

（７）サイズ変換部２２０９ｂ
サイズ変換部２２０９ｂは、右目用字幕バッファ２２０８ｂに格納されている一画像分の右目用字幕文に対して、その画像サイズ（９６０×５４０）を、右目映像のサイズ（１９２０×１０８０）となるよう所定の倍率（縦横２倍）で拡大する。具体的な拡大方法は第１の実施の形態と同様である。

（８）左目用字幕プレーン２２１０ａ、右目用字幕プレーン２２１０ｂ
左目用字幕プレーン２２１０ａは、サイズ変換部２２０９ａで画像サイズが１９２０×１０８０に変換された一画像分の左目用字幕文の映像の画素データをライン単位で格納し、水平同期信号、垂直同期信号に沿ってこれらの画素データを出力するためのメモリである。

また、右目用字幕プレーン２２１０ｂは、サイズ変換部２２０９ｂで画像サイズが１９２０×１０８０に変換された一画像分の右目用字幕文の映像の画素データをライン単位で格納し、水平同期信号、垂直同期信号に沿ってこれらの画素データを出力するためのメモリである。

（９）字幕生成処理部２２１１
字幕生成処理部２２１１は、左目用字幕プレーン２２１０ａ及び右目用字幕プレーン２２１０ｂそれぞれに格納されている左目用字幕文の映像及び右目用字幕文の映像それぞれに、映像の送信元からの指示に応じたオフセット値を適用して視差画像を生成するものである。

字幕生成処理部２２１１は、図２７に示すように、判定部１２２１、オフセット値特定部１２２２、左目用字幕生成部２２２３及び右目用字幕生成部２２２４から構成されている。

判定部１２２１、オフセット値特定部１２２２は、第１の実施の形態で説明しているので、ここでの説明は省略する。

（９−１）左目用字幕生成部２２２３、右目用字幕生成部２２２４
左目用字幕生成部２２２３は左目用字幕プレーン２２１０ａに格納された左目用字幕文の映像からオフセット値適用後の左目用字幕文の映像を生成し、右目用字幕生成部２２２４は右目用字幕プレーン２２１０ｂに格納された字幕文の映像からオフセット値適用後の右目用字幕文の映像を生成するものである。

具体的には、左目用字幕生成部２２２３は、オフセット値特定部１２２２から受け取った値をオフセット値として、左目用字幕プレーン２２１０ａに対して水平座標にオフセット値を加算してオフセット値適用後の左目用字幕文の映像を生成し、出力処理部１２１２へ出力する。また、右目用字幕生成部２２２４は、オフセット値特定部１２２２から受け取った値をオフセット値として、右目用字幕プレーン２２１０ｂに対して水平座標にオフセット値を減算してオフセット値適用後の右目用字幕文の映像を生成し、出力処理部１２１２へ出力する。

３．２送信装置の構成について
送信装置の構成は、第１の実施の形態で示す送信装置１３００と同様であるが、字幕用エンコーダが、１つのＥＳを生成する際に、左目用の字幕文データと右目用の字幕文データとの双方が含まれるように生成する。

その他の機能については、第１の実施の形態と変更はないため、ここでの説明は省略する。

３．３動作
（１）映像処理装置２２００の全体動作
映像処理装置２２００の全体動作は、図２０に示すステップＳ２５が字幕用デコーダ２２０４ａ、２２０４ｂそれぞれで行われる点、ステップＳ３０がサイズ変換部２２０９ａ、２２０９ｂそれぞれで行われる点が、第１の実施の形態とは異なる。しかしながら、処理の概念は同様であるので、ここでの説明は省略する。

（２）左目用字幕文及び右目用字幕文の生成処理
第２の実施の形態における左目用字幕文及び右目用字幕文の生成処理は、図２１に示すステップＳ２２０において左目用字幕生成部２２２３が左目用字幕プレーン２２１０ａを用いる点が、ステップＳ１２５において右目用字幕生成部２２２４が右目用字幕プレーン２２１０ｂを用いる点が、第１の実施の形態とは異なる。しかしながら、処理の概念は同様であるので、ここでの説明は省略する。

（３）送信装置の動作
第２の実施の形態における送信装置の動作は、図２２に示すステップＳ２０５において、左目用の字幕文データと右目用の字幕文データとの双方を含むＥＳを符号化する点が、第１の実施の形態と異なる。しかしながら、処理の概念は同様であるので、ここでの説明は省略する。

３．４変形例
以上、第２の実施の形態に基づいて説明したが、本発明は上記の実施の形態に限られない。例えば、以下のような変形例が考えられる。

（１）オフセット参照情報は、左目用の字幕文データのデータ構造内で定義するとしたが、これに限定されない。

右目用の字幕文データのデータ構造内で定義してもよい。

または、オフセット参照情報は、左目用字幕管理データ及び右目用字幕管理データの何れかのデータ構造内に定義してもよいし、新たなデータ（オフセット管理データ）を用意し、オフセット管理データ内で定義してもよい。オフセット管理データのデータ構造については、第１の実施の形態で説明しているので、ここでの説明は省略する。

または、左名用字幕文データ及び右目用字幕文データの何れかに含まれる字幕文字列を定義する特殊符号シーケンス内に、Ｔｙｐｅ情報及び参照情報を含めてもよい。

または、Ｔｙｐｅ情報のみを、ＰＭＴのディスクリプタやストリーム情報のデータとして新規に格納してもよいし、ＥＩＴに格納してもよい。つまり、Ｔｙｐｅ情報は、ＳＩの中に含めてもよい。このとき、参照情報は、上記と同様に、左目用字幕文データ、右目用字幕文データ、左目用字幕管理データ、右目用字幕管理データ、オフセット管理データ及び字幕文字列を定義する特殊符号シーケンス内の何れかに格納してもよい。このとき、Ｔｙｐｅ情報が固定値を使用することを示す場合には、固定値をＴｙｐｅ情報とともに、ＰＭＴに格納してもよい。

（２）上記第２実施の形態において、ビデオオフセット情報は、ビデオアクセスユニットごとに、当該ビデオアクセスユニットに含まれる補足データ内に定義されるとしたが、これに限定されない。第１の実施の形態と同様に、ＰＭＴのデータ構造内にビデオオフセット情報を定義してもよい。

（３）上記第２の実施の形態において、左目用字幕文データ及び右目用字幕文データは同一のＥＳに含まれるとしたが、これに限定されない。

図３０に示すように、左目用字幕文データ、右目用字幕文データを、それぞれ独立した異なるエレメンタリストリームＥＳ１、ＥＳ２に格納してもよい。

（４）上記第２の実施の形態では２つの字幕用デコーダ２２０４ａ、２２０４ｂそれぞれを用いて左目用字幕文と、右目用字幕文を生成したが、これに限定されない。

１つの共通する字幕用デコーダを用いて、字幕データの入力、描画画像の出力を切り替え、左目用、及び右目用それぞれの字幕文を対応する字幕プレーンに描画するようにしてもよい。

（５）上記第２の実施の形態では、左目用字幕文及び右目用字幕文に対して、オフセット値を適用して、３Ｄ表示の際に、さらなる奥行感を示すようにしたが、これに限定されない。

左目用字幕文及び右目用字幕文に対して、オフセット値を適用することなく、そのまま左目映像、及び右目映像に重畳してもよい。左目用字幕文及び右目用字幕文それぞれの字幕プレーンでの表示位置を調整することにより、３Ｄ表示は可能である。

（６）上記第２の実施の形態において、図２９に示すように、左目用の字幕文データのデータグループ識別子を従来の２Ｄ映像に対する字幕文データのものと共用するとしたが、これに限定されない。

左目用字幕文データに新たなデータグループ識別子を割り当て、右目用字幕文データについて従来の２Ｄ映像に対する字幕文データのものと共用するとしてもよい。

または、左目用字幕文、右目用字幕文それぞれについて、データグループ識別子を新たに割り当ててもよい。

（７）上記実施の形態及び変形例を組み合わせるとしてもよい。

４．その他の変形例
また、上記各実施の形態などに限らず、例えば、以下のような変形例が考えられる。

（１）上記各実施の形態では、オフセット値として参照値が参照される場合には、オフセット参照情報Ｄ１００の参照情報Ｄ１０２が示すオフセットシーケンスＩＤにより参照すべき値との対応付けを行ったが、これに限定されない。

参照値（オフセット値）と、再生時間とを対応付けてもよい。この場合のビデオオフセット情報のデータ構造の一例を、図３１（ａ）に示す。

図３１（ａ）に示すように、ビデオオフセット情報は、日本語字幕用オフセット情報、英語字幕用オフセット情報、・・・と言語ごとに上記の対応付けが行われたテーブル情報が存在する。

テーブル情報は、映像の表示時刻を示すＰＴＳと、オフセット値とからなる組を複数記憶している。ここでは、ＰＴＳと、オフセット値とからなる組をオフセットエントリと呼ぶ。オフセットエントリの適用区間は、図３１（ｂ）に示すように、当該オフセットエントリのＰＴＳから次のオフセットエントリのＰＴＳまでである。例えば、オフセットエントリ＃１のオフセット値（＋５）の適用区間は、オフセットエントリ＃１のＰＴＳ（１８００００）からオフセットエントリ＃２のＰＴＳ（２７００００）までとなる。

例えば、オフセット値として参照値を用いると判断された場合には、オフセット値特定部１２２２は、映像の再生時刻（ＰＴＳ）と、このテーブル情報に基づいて、用いるべきオフセット値を特定する。なお、オフセット値として参照値を用いる場合にはオフセット参照情報Ｄ１００の参照情報Ｄ１０２は参照されない。そのため、この場合の参照情報Ｄ１０２は空白であってもよいし、何らかの値が格納されていてもよい。

（２）上記各実施の形態では、ビデオオフセット情報をビデオアクセスユニット（ピクチャ）ごとに格納したが、これに限定されない。

ＢＤ−ＲＯＭのオフセット情報と同様に、当該ビデオオフセット情報をＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）内のデータ分まとめて記録してもよい。例えば、ＧＯＰの先頭に存在するビデオアクセスユニットに記録することで、当該ＧＯＰ内に存在する他のビデオアクセスユニットにも適用される。

（３）ライブ放送などで、固定値の利用の可否判断、参照値を用いる場合における適切な参照値（オフセット情報）の計算及びオフセット参照情報の生成のために送出データの準備に数フレーム分の遅れが生じると困るような場合には、ピクチャ単位でオフセット値そのものを格納するようにしてもよい。

（４）上記各実施の形態では、１画面に対して１つのビデオオフセット情報が対応付けられたが、これに限定されない。

図３２に示すように、１つの画面を複数の領域（ここでは、９つの領域）に分割し、領域ごとにビデオオフセット情報を対応付けてもよい。例えば、オフセット値として参照値を用いると判断された場合には、オフセット値特定部１２２２は、字幕文の表示位置に応じた領域を特定し、特定した領域に割り当てられたビデオオフセット情報から、オフセット参照情報Ｄ１００の参照情報Ｄ１０２が示すオフセットシーケンスＩＤに応じた値（オフセット値）を取得する。具体的には、図３３のように、字幕の表示位置が、９の領域のうち最下段３つの領域と重なる場合、オフセット値特定部１２２２は、３つの領域のうち１つの領域を選択し、その領域に応じたビデオオフセット情報（ここでは、ビデオオフセット情報＃６）から適切なオフセット値を取得する。

または、表示する字幕の用途ごとに、ビデオオフセット値を設定してもよい。例えば、日本語字幕用にビデオオフセット情報＃１を、日本語吹き替え音声用字幕にビデオオフセット＃２、英語字幕用にビデオオフセット＃３を、それぞれ割り当てる。

（５）また、劇場中継などでカメラ位置、構図、奥行き情報変化しないような内容の放送番組であって、参照値を参照する場合には、１つの画面を複数の領域（ここでは、９つの領域）に分割し、領域ごとにビデオオフセット情報ではなく、奥行き情報を対応付けてもよい。

各領域の奥行き情報は、ＤｅｐｔｈＭａｐにて管理される。ＤｅｐｔｈＭａｐは、ビデオのエンコード時の動き予測処理を利用して、ビデオアクセスユニット（ピクチャ）毎に、右目と左目画像の差をマクロブロック単位で解析し、両眼視差として数値化したデータあり、このデータは上記の領域ごとに算出される。

参照値を用いると判断される場合、オフセット値特定部１２２２は、数式“Ｏｆｆｓｅｔ＝ＭａｘＶｉｄｅｏＯｆｆｓｅｔ（ＤｅｐｔｈＭａｐ，ｉｎＴＣ，ｏｕｔＴＣ，Ｘ１，Ｙ１，Ｘ２，Ｙ２）＋ＯｆｆｓｅｔＰａｄｄｉｎｇ”を用いて、オフセット値を算出する。ここで、ＭａｘＶｉｄｅｏＯｆｆｓｅｔは、ＤｅｐｔｈＭａｐから指定領域の字幕表示期間の奥行き情報を取得する関数である。ｉｎＴＣ，ｏｕｔＴＣは、字幕の表示期間タイムコードを示す。Ｘ１，Ｘ２，Ｙ１，Ｙ２は、座標（Ｘ１，Ｙ１）と（Ｘ２，Ｙ２）とから定まる線分を対角線とする矩形領域に表示される字幕の座標点である。ＯｆｆｓｅｔＰａｄｄｉｎｇは、映像に重なる字幕の奥行きをどれくらい映像から手前に離すかを決める値で、字幕全体に適用される。

（６）上記各実施の形態では、判定部１２２１は、Ｔｙｐｅ情報Ｄ１０１を参照して固定値を用いるか、参照値を用いるかを判断したが、これに限定されない。

判定部１２２１は、表示対象のビデオアクセスユニットにビデオオフセット情報が設定されているか否かを判断し、設定されていれば参照値を用いると、設定されていなければ固定値を用いると判断するとしてもよい。

（７）上記実施の形態では、映像処理装置の一例として３Ｄデジタルテレビであるとしたが、これに限定されない。映像処理装置を、ＤＶＤレコーダ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）レコーダやセットトップボックスに適用してもよい。

（８）上記各実施の形態では、映像と重畳されるのは字幕文としたが、これに限定されない。

映像との重畳対象は、字幕スーパーといったグラフィックスデータであってもよい。

（９）映像プレーンと字幕プレーンの解像度が等しい場合には、サイズ変更の必要はない。この場合、トランスポートストリーム中にＴｙｐｅ情報を持たせることは、字幕文等の３Ｄ表示に対しては有効である。

（１０）上記実施の形態において、図１５に示すＴｙｐｅ情報Ｄ１０１は、複数の映像により１つに構成された３Ｄ番組の全体に対して固定値を用いるか、前記３Ｄ番組を構成する映像それぞれに応じた変動値のどちらかを用いるかの指示を保持しているとしたが、これに限定されない。

前記３Ｄ番組の一部分については固定値を、他の部分については変動値を用いるというように混在させてもよい。

これにより、３Ｄ番組の本編（例えば、映画番組での本編）に関しては変動値を用い、コマーシャルなどの前記３Ｄ番組の本編以外の特定の部分に関しては固定値を用いることができる。

（１１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（１２）上記の各装置を構成する構成要素の一部または全部は、１個の集積回路から構成されているとしてもよい。

（１３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（１４）本発明の一態様として、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよい。

また、前記コンピュータプログラムをコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。

また、前記コンピュータプログラムを、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムを前記記録媒体に記録して移送することにより、または前記プログラムを前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

（１５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

５．まとめ
上記実施の形態では、字幕文データに字幕本文とそれに対応するオフセット参照情報との双方を格納しているので、字幕管理データ内でオフセット参照情報を格納する場合に比べて、映像処理装置は、字幕文データが正しく対応するオフセット情報により即座に処理される。なぜなら、映像処理装置の受信開始のタイミングでは、字幕文データから開始する場合があり、字幕管理データに格納しておくと、受信開始のタイミングから次の字幕管理データを受信するまでの間に受信した字幕文データに対するオフセット参照情報が取得されていないため、字幕文を適切に表示するができない。しかしながら、字幕文データにオフセット参照情報を格納しておくと、映像処理装置の受信開始のタイミングで字幕文データを最初に受信した場合であっても、適切なオフセット値を取得することができるので、字幕文を適切に表示することができる。

また、字幕文データにおいて、データユニット（字幕文字列、オフセット参照情報）の格納順を、字幕文字列を格納するデータユニット、オフセット参照情報を格納するデータユニットの順にすると、オフセット情報データユニットを扱うことができない従来の映像処理装置、つまり２Ｄ映像を受信し表示する装置においても、正しく字幕文字列を処理できるという互換性を提供することができる。

また、図２３に示すように、字幕管理データにオフセット参照情報を格納した場合には、字幕単位に参照するビデオオフセット情報が変化しない状況では、個々の字幕文データではなく字幕管理データで指定することで、字幕文ごとに不用意に参照する値が変化するということを避けることができる。

６．補足
（１）本発明の一態様は、映像処理装置であって、３Ｄ映像に係る映像ストリームと、当該映像ストリームから得られる映像に重畳して表示され、且つ表示領域のサイズが前記映像の表示領域のサイズとは異なる表示データに係るデータストリームとを受信する受信手段と、前記映像ストリームから左目用の映像と右目用の映像とを生成する映像生成手段と、前記データストリームから得られた前記表示データを、当該表示データの表示領域のサイズが前記映像生成手段で生成された各映像の表示領域のサイズと一致するよう所定の倍率で拡大する拡大手段と、表示領域のサイズが拡大された前記表示データと、当該表示データについて視差を生じさせるためのオフセット値とを用いて、左目用の表示データと右目用の表示データとを生成するデータ生成手段と、前記左目用の映像と前記左目用の表示データとを、前記右目用の映像と前記右目用の表示データとをそれぞれ重畳して、表示する表示処理手段とを備えることを特徴とする。

この構成によると、映像処理装置は、オフセット値を用いて左目用の表示データと右目用の表示データとを生成する前に、表示データの表示領域のサイズが各映像の表示領域のサイズと一致するように当該表示データを拡大している。そのため、オフセット値によって生成される左目用の表示データと右目用の表示データとは、本来意図した視差を生じさせるものとなっているので、適切な表示データとして映像に重畳させることができる。

（２）ここで、前記映像ストリームから得られる複数の映像により一の３Ｄ番組が構成され、前記データ生成手段は、前記オフセット値として、前記一の３Ｄ番組に対して割り当てられた固定値を用いるか、前記３Ｄ番組を構成する映像それぞれに応じた変動値を用いるかを示す指示を取得し、取得した前記指示に基づいて前記オフセット値を決定し、決定した前記オフセット値を用いて前記左目用の表示データと前記右目用の表示データとを生成するとしてもよい。

この構成によると、映像処理装置は、指示に応じて固定値及び変動値の何れかをオフセット値として用いることができる。

（３）ここで、前記３Ｄ番組を構成する映像ごとに、１つ以上の変動値と、各変動値に対応する変動値特定情報とからなるテーブル情報が、前記映像ストリームに含まれており、前記データストリームは、字幕に係る字幕ストリームであり、当該字幕ストリームを構成する１つ以上の字幕文データそれぞれには、表示すべき字幕文と、前記指示に応じて前記固定値及び前記変動値を特定する変動値特定情報の何れかからなる付随情報とが含まれており、前記データ生成手段は、前記指示が前記一の３Ｄ番組に対して割り当てられた固定値を用いることを示す場合には前記付随情報から前記固定値を前記オフセット値として取得し、前記指示が前記３Ｄ番組を構成する映像それぞれに応じた変動値を用いることを示す場合には前記テーブル情報から前記付随情報に含まれる前記変動値特定情報が示す変動値を前記オフセット値として取得するとしてもよい。

この構成によると、映像処理装置は、指示に応じて固定値及び変動値特定情報の何れかが字幕文データに含まれているので、各ストリームの受信開始の際に最初に字幕文データを最初に取得した時点で、使用すべきオフセット値を特定することができる。

（４）ここで、前記付随情報は、前記字幕文データにおいて前記字幕文に後続して配置されており、前記映像処理装置は、さらに、前記字幕ストリームから前記字幕文データを取得し、取得した字幕文データに含まれる前記字幕文を読み出し、所定のバッファに書き込む字幕文データ生成手段を備え、前記データ生成手段は、前記字幕文データ生成手段が前記字幕文を読み出し、前記所定のバッファに書き込みを行った後、前記字幕文に後続する前記付随情報を取得するとしてもよい。

この構成によると、付随情報は、字幕文に後続して字幕文データ内に配置されるので、字幕文を２Ｄ表示する装置においても、付随情報は解析できなくても字幕文の解析は解析できる。そのため、付随情報が、字幕文に後続して字幕文データ内に配置されることで、映像処理装置と従来の２Ｄ表示を行う装置との互換性を保つことができる。

（５）ここで、前記受信手段は、前記映像ストリーム及び前記データストリームを受信する際に、ＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ）を受信し、前記指示は、前記データストリームを構成するデータ、及び前記ＳＩを構成するデータの何れかに含まれているとしてもよい。

この構成によると、映像処理装置は、指示がデータストリームに含まれる場合には、データストリームの解析時に指示内容を知ることができ、指示がＳＩに含まれる場合には、受信した各ストリームを開始する前に事前に指示内容を知ることができる。

本発明は、３Ｄ番組の映像とともに字幕文や文字スーパーなどのデータを３Ｄ表示する装置に適用することが可能である。

１１００映像処理システム
１２００、２２００映像処理装置
１２０１受信部
１２０２、２２０２多重化分離部
１２０３３Ｄ映像ビデオデコーダ
１２０４、２２０４ａ、２２０４ｂ字幕用デコーダ
１２０５オーディオデコーダ
１２０６左目映像プレーン
１２０７右目映像プレーン
１２０８字幕バッファ
１２０９、２２０９ａ、２２０９ｂサイズ変換部
１２１０字幕プレーン
１２１１、２２１１字幕生成処理部
１２１２出力処理部
１２２１判定部
１２２２オフセット値特定部
１２２３、２２２３左目用字幕生成部
１２２４、２２２４右目用字幕生成部
１２３１切替部
１２３２、１２３３重畳部
１３００送信装置
１３０１ビデオエンコーダ
１３０２字幕用エンコーダ
１３０３オーディオエンコーダ
１３０４ビデオストリーム格納部
１３０５字幕ストリーム格納部
１３０６オーディオストリーム格納部
１３０７多重化部
１３０８送信部
２２０８ａ左目用字幕バッファ
２２０８ｂ右目用字幕バッファ
２２１０ａ左目用字幕プレーン
２２１０ｂ右目用字幕プレーン

Claims

３Ｄ映像に係る映像ストリームと、当該映像ストリームから得られる映像に重畳して表示され、且つ表示領域のサイズが前記映像の表示領域のサイズとは異なる表示データに係るデータストリームとを受信する受信手段と、
前記映像ストリームから左目用の映像と右目用の映像とを生成する映像生成手段と、
前記データストリームから得られた前記表示データを、当該表示データの表示領域のサイズが前記映像生成手段で生成された各映像の表示領域のサイズと一致するよう所定の倍率で拡大する拡大手段と、
表示領域のサイズが拡大された前記表示データと、当該表示データについて視差を生じさせるためのオフセット値とを用いて、左目用の表示データと右目用の表示データとを生成するデータ生成手段と、
前記左目用の映像と前記左目用の表示データとを、前記右目用の映像と前記右目用の表示データとをそれぞれ重畳して、表示する表示処理手段とを備え、
前記映像ストリームから得られる複数の映像により一の３Ｄ番組が構成され、
前記データ生成手段は、
前記オフセット値として、前記一の３Ｄ番組に対して割り当てられた固定値を用いるか、前記３Ｄ番組を構成する映像それぞれに応じた変動値を用いるかを示す指示を取得し、取得した前記指示に基づいて前記オフセット値を決定し、決定した前記オフセット値を用いて前記左目用の表示データと前記右目用の表示データとを生成する
ことを特徴とする映像処理装置。
前記３Ｄ番組を構成する映像ごとに、１つ以上の変動値と、各変動値に対応する変動値特定情報とからなるテーブル情報が、前記映像ストリームに含まれており、
前記データストリームは、字幕に係る字幕ストリームであり、
当該字幕ストリームを構成する１つ以上の字幕文データそれぞれには、表示すべき字幕文と、前記指示に応じて前記固定値及び前記変動値を特定する変動値特定情報の何れかからなる付随情報とが含まれており、
前記データ生成手段は、前記指示が前記一の３Ｄ番組に対して割り当てられた固定値を用いることを示す場合には前記付随情報から前記固定値を前記オフセット値として取得し、前記指示が前記３Ｄ番組を構成する映像それぞれに応じた変動値を用いることを示す場合には前記テーブル情報から前記付随情報に含まれる前記変動値特定情報が示す変動値を前記オフセット値として取得する
ことを特徴とする請求項１に記載の映像処理装置。
前記付随情報は、前記字幕文データにおいて前記字幕文に後続して配置されており、
前記映像処理装置は、さらに、
前記字幕ストリームから前記字幕文データを取得し、取得した字幕文データに含まれる前記字幕文を読み出し、所定のバッファに書き込む字幕文データ生成手段を備え、
前記データ生成手段は、前記字幕文データ生成手段が前記字幕文を読み出し、前記所定のバッファに書き込みを行った後、前記字幕文に後続する前記付随情報を取得する
ことを特徴とする請求項２に記載の映像処理装置。
前記受信手段は、
前記映像ストリーム及び前記データストリームを受信する際に、ＳＩ（ＳｅｒｖｉｃｅＩｎｆｏｒｍａｔｉｏｎ）を受信し、
前記指示は、
前記データストリームを構成するデータ、及び前記ＳＩを構成するデータの何れかに含まれている
ことを特徴とする請求項１に記載の映像処理装置。
３Ｄ映像を表示する映像処理装置で用いられる映像処理方法であって、
３Ｄ映像に係る映像ストリームと、当該映像ストリームから得られる映像に重畳して表示され、且つ表示領域のサイズが前記映像の表示領域のサイズとは異なる表示データに係るデータストリームとを受信する受信ステップと、
前記映像ストリームから左目用の映像と右目用の映像とを生成する映像生成ステップと、
前記データストリームから得られた前記表示データを、当該表示データの表示領域のサイズが前記映像生成ステップで生成された各映像の表示領域のサイズと一致するよう所定の倍率で拡大する拡大ステップと、
表示領域のサイズが拡大された前記表示データと、当該表示データについて視差を生じさせるためのオフセット値とを用いて、左目用の表示データと右目用の表示データとを生成するデータ生成ステップと、
前記左目用の映像と前記左目用の表示データとを、前記右目用の映像と前記右目用の表示データとをそれぞれ重畳して、表示する表示処理ステップとを含み、
前記映像ストリームから得られる複数の映像により一の３Ｄ番組が構成され、
前記データ生成ステップにおいて、
前記オフセット値として、前記一の３Ｄ番組に対して割り当てられた固定値を用いるか、前記３Ｄ番組を構成する映像それぞれに応じた変動値を用いるかを示す指示を取得し、取得した前記指示に基づいて前記オフセット値を決定し、決定した前記オフセット値を用いて前記左目用の表示データと前記右目用の表示データとを生成する
ことを特徴とする映像処理方法。