JP5647242B2

JP5647242B2 - ３ｄビデオ及び補助データの結合

Info

Publication number: JP5647242B2
Application number: JP2012522289A
Authority: JP
Inventors: フィリップステフェンニュートン; デニスダニエルロベルトヨゼフボリオ; マルクヨゼフマリアクルフェルス; デルハイデンヒェラルドゥスウィルヘルムステオドルスファン; ウィルヘルムスヘンドリクスアルフォヌスブルルス; ハーンウィーベデ; ヨハンコルネリスタルストラ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2009-07-27
Filing date: 2010-07-20
Publication date: 2014-12-24
Anticipated expiration: 2030-07-20
Also published as: RU2554465C2; JP2013500664A; EP2460360A1; JP2015092669A; US10021377B2; RU2012106868A; WO2011013030A1; KR101716636B1; KR20120049292A; CN102474638A; TWI542191B; US20120120200A1; TW201130292A; CN102474638B

Description

本発明は、3D宛先装置に転送するための三次元[3D]ビデオ信号を提供する方法に関し、当該方法は、3Dビデオ・データに存在する深さを示す深さメタデータを決定し、深さメタデータは、ユーザに最も近いビデオ・データの深さを示す近接値を含む。

本発明はさらに、3Dソース装置、3D宛先装置、信号、記録担体及びコンピュータ・プログラム製品に関する。

本発明は、3D表示装置で、字幕、ロゴ又は更なる3D画像データのような補助データと組み合わせて3Dビデオ・データをレンダリングする分野に関する。

2Dビデオ・データを発生させるための装置が知られている(例えばビデオ・サーバ、放送装置又はオーサリング装置)。現在、三次元(3D)画像データを提供するための3D拡張装置が提案されている。同様に、光学ディスク(例えばブルーレイ（登録商標）・ディスク; BD)のためのプレーヤー又は受信されたデジタル・ビデオ信号をレンダリングするセットトップボックスのような表示3Dビデオ・データをレンダリングするための宛先装置が提案されている。宛先装置は、TVセット又はモニタのような表示装置に結合される。ビデオ・データは、ソース装置から適切なインタフェース(好ましくはHDMIのような高速デジタル・インタフェース)を介して転送される。3Dディスプレイが宛先装置と一体化されることもできる(例えば受信セクション及び3Dディスプレイを有するテレビ(TV))。

3Dコンテンツ(例えば3D動画又はTV放送)のために、付加的な補助データが、画像データと組み合わせて表示されることができる(例えば字幕、ロゴ、ゲーム・スコア、金融ニュース又は他のアナウンス若しくはニュースのためのチッカー・テープ)。

文献WO2008/115222は、テキストを三次元コンテンツと組み合わせるシステムを述べる。このシステムは、3Dコンテンツ中の最も近い深さ値と同じレベルにテキストを挿入する。3Dコンテンツの１つの例は、二次元画像及び関連する深さマップである。この場合には、挿入されるテキストの深さ値は、所与の深さマップの最も近い深さ値と一致するように調整される。3Dコンテンツの他の例は、複数の二次元画像及び関連する深さマップである。この場合には、挿入されるテキストの深さ値は、所与の深さマップの最も近い深さ値と一致するように連続的に調整される。3Dコンテンツの他の例は、右目ビュー及び左目ビューを有する立体視コンテンツである。この場合には、左目ビュー及び右目ビューのうちの一方の中のテキストは、立体画像中の最も近い視差値と一致するようにシフトされる。3Dコンテンツのさらに他の例は、複数の右目ビュー及び左目ビューを持つ立体視コンテンツである。この場合には、左目ビュー又は右目ビュー中のテキストは、立体画像中の最も近い深さ値と一致するように連続的にシフトされる。結果として、このシステムは、3Dコンテンツと組み合わせられたテキストを生成し、テキストは、観察者によって観察されるときに、3Dコンテンツにおける3D効果を妨げず、視覚疲労を引き起こさない。

文献WO2008/115222は、補助グラフィカル・データは画像データの最も近い部分の面に表示されるべきであると述べる。限られた処理リソースを持つ宛先装置において補助データが3Dビデオ・データと組み合わせられる必要がある場合に、問題が生じる。3Dビデオ・ストリームから最も近い深さ値を取り出すには、深さ情報を処理することを必要とする。特に、例えば左ビュー及び右ビューを含むマルチビュー3Dビデオ・ストリームでは、最も近い深さ、又はそれに対応する視差値を検出することは、相当な処理を必要とする。

より都合のよい態様で補助データ及び3Dビデオ・コンテンツを組み合わせるシステムを提供することが本発明の目的である。

この目的のために、本発明の第１の態様によれば、冒頭の段落に記載の方法は、
3Dビデオ・データを含む3Dビデオ信号を生成し、
3Dビデオ信号中に深さメタデータを含めて、
3D宛先装置が、
深さメタデータを読み出し、
補助データを提供し、及び
3Dビデオ・データと組み合わせて補助データを表示するために読み出されたメタデータに依存して補助深さに補助データを配置することを可能にする。

この目的のために、本発明の第２の態様によれば、3D宛先装置に転送するための三次元[3D]ビデオ信号を提供するための3Dソース装置は、
3Dビデオ・データに存在する深さを示す深さメタデータを決定し、深さメタデータは、ユーザに最も近いビデオ・データの深さを示す近接値を含み、
3Dビデオ・データを含む3Dビデオ信号を生成し、及び
3Dビデオ信号中に深さメタデータを含めて、
3D宛先装置が、
深さメタデータを読み出し、
補助データを提供し、及び
3Dビデオ・データと組み合わせて補助データを表示するために読み出されたメタデータに依存して補助深さに補助データを配置する、
ことを可能にするための処理手段を有する。

この目的のために、本発明のさらに別の態様では、三次元[3D]ビデオ信号を受信するための3D宛先装置は、3Dビデオ・データ、及び、3Dビデオ・データに存在する深さを示す深さメタデータであって、ユーザに最も近いビデオ・データの深さを示す近接値を含む深さメタデータを含む3Dビデオ信号を受信するための受信手段、
並びに、
3Dビデオ信号から深さメタデータを読み出し、
補助データを提供し、及び
3Dビデオ・データと組み合わせて補助データを表示するために読み出されたメタデータに依存して補助深さに補助データを配置する、
ための処理手段を有する。

この目的のために、本発明のさらに別の態様では、3Dビデオ・データを3D宛先装置へと転送するための三次元[3D]ビデオ信号は、3Dビデオ・データ、及び、3Dビデオ・データ中に存在する深さを示す深さメタデータであって、ユーザに最も近いビデオ・データの深さを示す近接値を含む深さメタデータを有し、3D宛先装置が、
深さメタデータを読み出し、
補助データを提供し、及び
3Dビデオ・データと組み合わせて補助データを表示するために読み出されたメタデータに依存して補助深さに補助データを配置することを可能にする。

これらの方策は、ソースにおいて、3Dビデオ・データ中に存在する深さ値を決定すること、例えば、左/右3Dフォーマットにおいて左及び右ビューから視差値を計算すること、2D+深さストリームから深さデータを処理すること、又は、任意の他の3D画像フォーマットからそのような深さ値を導き出すという効果がある。深さメタデータは、3Dビデオ信号中にその後含まれる。長所として、宛先装置において、任意の補助データは、3Dビデオ・データと組み合わせられることができ、前記最も近いビデオ・データによって補助データを隠すこと及び/又は補助データの境界における効果を妨害することが回避されるように、深さメタデータに基づいて深さ方向に配置されることができる。なお、そのような妨害効果は、補助データが、より近い物体より遠くに配置されるが依然として表示される場合に発生する。特に、補助データはソース装置において利用可能である必要はなく、宛先装置において動的に提供され、宛先装置が、深さメタデータを導き出すための相当な処理リソースを必要とすることなく適切な深さに補助データを配置することによって、組み合わされた3Dビデオ信号を生成する。

本発明はさらに以下の認識に基づく。従来技術文献は、3Dビデオ・ソース・システムにおいて画像中の最も近い要素の前の深さにテキストを配置することを述べる。しかしながら、補助データがソースにおいて利用可能でない場合がある。従来の技術に基づいて宛先装置において補助データを配置することは、相当な処理を必要とする。そのうえ、メニューのような動的な補助データ又はゲーム・キャラクタのような生成された補助グラフィカル・オブジェクトを表示するために、3Dビデオ・データの適切な部分が、深さメタデータに基づいて選択されることができる（例えば、観察者に近くない近接値を持つ期間）。そのような位置決めは、テキスト又はオブジェクトを観察者から遠ざける。最終的に、システムは、3Dビデオの作成者が深さメタデータを設定することを可能にして、レンダリング装置で追加される任意の補助データの位置決めに影響を及ぼす。

実施の形態において、深さメタデータは、3D宛先装置が、近接値よりユーザから遠い補助深さを設定して、補助深さよりユーザから離れた深さに前記最近接ビデオ・データをシフトするために、ユーザから離れる方向に3Dビデオ・データにシフトを適用することを可能にするために、ユーザから最も遠い3Dビデオ・データ中に存在する深さを示す遠隔値を有し、前記シフトは、遠隔値に基づいて最大化される。効果は、三次元ビデオ信号が、遠隔値に基づく深さ方向のシフトによって(観察者から離れて)後方に入力三次元ビデオ信号をシフトすることによって適応されることである。したがって、深さの範囲は、シフトされた三次元ビデオの前で深さ方向に補助データを配置するために自由にされる。

実施の形態において、近接値は視差値である。効果は、宛先装置が、最も近いビデオ・データの視差値を知って、視差値を用いることにより、ビデオの前に補助データを容易に配置することができることである。宛先装置の実施の形態において、補助データが二次元[2D]データであり、近接値が視差値である場合、処理手段は、2D補助データに、視差値に基づく少なくとも１つの水平シフトを適用することによって、少なくとも左補助画像及び右補助画像を生成するように準備される。有利には、左ビューをシフトすることによって右ビューを生成するために直接用いられるか、又は、左及び右ビューを生成するために左右に視差値の50%でビューをシフトする。

実施の形態において、3Dビデオ信号は、事前に決められた規格による復号情報を伝達するために用意される符号化されたビデオ・データ・ストリームを有し、3Dビデオ信号中に深さメタデータを含めることは、
ユーザ・データ・メッセージ、
通知基本ストリーム情報[SEI]メッセージ、
エントリー・ポイント・テーブル、
XMLベースの記述、
のうちの少なくとも１つの中に深さメタデータを含めることを含む。効果は、付加的な深さメタデータが、事前に決められた規格による制御メッセージ又はパラメータを拡張することによって含まれることである。有利には、改善された符号化ビデオ・ストリームは、深さメタデータを効果的に転送しつつ、既存の事前に決められた規格と互換性がある。

本発明の方法、3D装置及び信号の更なる好ましい実施の形態は、添付の請求の範囲において与えられ、その開示は本明細書に参照として組み込まれる。

本発明のこれらの及び他の態様は、以下の詳細な説明及び添付の図面において一例として記載される実施の形態から明らかであり、それらを参照して説明される。

視差を定めるいくつかの一般的なコンセプト及びパラメータを示す図。三次元入力信号の視差ヒストグラムを示す図。三次元入力信号及び三次元オーバレイの更なる視差ヒストグラムを示す図。本発明によるステレオ入力対の右ビュー画像の適応を示す図。本発明による方法を示す図。本発明によるシステムを示す図。本発明による更なるシステムを示す図。 3D画像データを表示するシステムを示す図。プライベート・ユーザ・データSEIメッセージ中の視差/深さメタデータを示す図。 3Dビデオ信号中の深さメタデータのデータ構造を示す図。記録担体上の3Dビデオ信号中の深さメタデータのためのデータ構造を示す図。深さメタデータを伝達するメタデータ・フィールドのフォーマットを示す図。視差データを伝達するメタデータ・フィールドのフォーマットを示す図。

図において、既に述べられた要素に対応する要素は同じ参照符号を持つ。

なお、本発明は、深さ範囲を持つ任意のタイプの三次元ディスプレイのために用いられることができる。3Dディスプレイのためのビデオ・データは、電子的な(通常はデジタルの)データとして利用可能であることが想定される。本発明は、そのような画像データに関し、デジタル領域で画像データを処理する。

3D画像がフォーマットされて転送されることができる多くの異なる態様が存在し、3Dビデオ・フォーマットと呼ばれる。いくつかのフォーマットは、さらにステレオ情報を伝達するために2Dチャネルを用いることに基づく。例えば、左及び右のビューは、インタレースされるか、又は、サイド・バイ・サイドで及び上下に配置されることができる。これらの方法は、ステレオ情報を伝達するために、解像度を犠牲にする。他のオプションは色を犠牲にすることであり、このアプローチはアナグラフ・ステレオと呼ばれる。アナグラフ・ステレオは、補色で２つの別のオーバレイされた画像を表示することに基づくスペクトル多重化を用いる。着色したフィルタを有する眼鏡を用いることにより、各々の目は、その目の前のフィルタと同じ色の画像のみを見る。したがって、例えば、右目は赤の画像のみを見て、左目は緑の画像のみを見る。

異なる3Dフォーマットは、2D画像、及び、2D画像中のオブジェクトの深さに関する情報を伝達する付加的な深さ画像（いわゆる深さマップ）を用いた２つのビューに基づく。画像+深さと呼ばれるフォーマットは、それがいわゆる「深さ」又は視差マップと2D画像との組み合わせであるという点で異なる。これは、グレースケール画像であり、それによって、ピクセルのグレースケール値は、関連する2D画像中の対応するピクセルの視差(又は、深さマップの場合には深さ)の量を示す。表示装置は、入力としての2D画像を利用して追加のビューを計算するために視差、深さ又は像差マップを用いる。これは、様々な態様で行われることができ、最も単純な形態では、それは、それらのピクセルに関連する視差値に依存して左に又は右にピクセルをシフトする問題である。Christoph Fehnによる論文"Depth image based rendering, compression and transmission for a new approach on 3D TV"は、この技術の優れた概要を与える（http://iphome.hhi.de/fehn/Publications/fehn_EI2004.pdfを参照）。

図1は、視差を定めるいくつかの一般的なコンセプト及びパラメータを示す。図1は、二重矢印Eの端に位置して、目距離Eだけ離れて間隔を置いた２つの視点を示す。観察距離Zに、点線によって表現されるスクリーンSが位置し、三次元情報を表示するために用いられる。あるいは、実際にはそのようなスクリーンは、例えば、それぞれの視点のための適切な画像情報を適切なアイウェアを着用している観察者の目に提供する時間又はスペクトラム・シーケンシャル・ディスプレイであることができる。ここでは、スクリーンSはゼロ視差の所に配置され、Wはスクリーンの幅を示す。N(near)は、スクリーンSの前で知覚される最大の深さを表す。同様に、F(far)は、スクリーンSの後方で知覚される最大の深さを表す。

ラインd_Nは、スクリーンSの前のNの所に位置するオブジェクトの知覚される視差を表し、ここで視差値d_Nは負であり、交差非対応とも呼ばれ、
d_N = N E/ (Z-N) [1]
として表現されることができる。

ラインd_Fは、スクリーンSの後方でFの所に位置するオブジェクトの知覚される視差を表し、ここで視差値d_Fは正であり、非交差非対応とも呼ばれ、
d_F = F E / (Z+F) [2]
として表現されることができる。

実際には、最大の視差は、快適な表示を可能にするために、目距離E以下であるべきである。実際には、最大の視差は、好ましくは、人々の間での目距離の変動を許容するために、平均的な目距離E以下の値に設定される。

なお、最大の正のスクリーン・パララックス(すなわち最大の正の視差に対応するピクセルの数)は、スクリーン幅W及びスクリーンSの解像度によって決まる。

図2Aは、三次元入力信号の視差ヒストグラム205を示す。ヒストグラム205は、入力三次元信号に基づいて、すなわち三次元入力信号の空間領域全体に基づいて決定される。あるいは、視差ヒストグラムは、三次元入力信号の空間領域全体の代表標本に対して編集されることができる。

図2Aにおいて、d軸に沿った最も近い視差値は位置Cであり、負の視差を持つ。最も遠い視差値はd軸に沿った位置Bであり、正の視差を持つ。ヒストグラム205に基づいて、本発明による方法に用いられる遠隔視差推定値は位置Bに対応する。

ヒストグラム205は、観察者から離れて三次元入力の視差範囲をシフトする（ヒストグラムを右に移動させる）ためのヘッドルーム215が視差範囲内で利用可能であることを示す。

それぞれのビュー中の特定の空間領域内にオーバレイが配置される必要がある状況を考慮する。図2Aはさらに、重要な空間領域における入力された三次元信号の視差ヒストグラムを示す。この空間領域のための三次元入力信号のヒストグラムは太い破線205'によって示される。ヒストグラム205'に基づくと、この空間領域にとって最も小さい視差値を示す近視差推定値は位置Aに対応する。なお、この特定の空間領域がより小さい(すなわち、さらに負の)視差値を含まないので、オーバレイの配置のための相当なヘッドルーム210が空間領域中に既に存在する。

ここで、オーバレイの配置のための空間領域は、一般的に、ある輪郭によって定められるブロック又はセグメントであり、よって、上述のような全体としてビューのための視差推定値を決定するために用いられるサンプルポイントと、明らかに異なる。

オーバレイの配置のために空間領域中に既に相当なヘッドルームが存在するが、視差シフトDSによって観察者から離れるように入力された三次元ビデオ信号の視差範囲をシフトすることによって、更なるヘッドルームを生成することが可能である（ここでDS < E-B）。厳密に必要という訳ではないが、さまざまなユーザの異なる目距離に対応するためにマージン215'によって図2Bに示されるようにマージン(E-B) - DSを維持することが望ましい。結果として、本発明は、オーバレイの配置のために視差範囲中にさらなる利得を提供する。

ヒストグラム220は、オーバレイの視差ヒストグラムを示し、オーバレイはこの空間領域中に全体に配置されるので、このヒストグラムはさらに画像全体にわたるオーバレイのヒストグラムである。視差シフトの結果として、字幕のようなオーバレイ情報がゼロ視差面に又はその近傍に配置されることが可能であり、オーバレイ観察の快適性を改善する。

上で示されるように、遠隔及び近接視差推定値は、入力された三次元ビデオ信号によって提供される視差ヒストグラム情報に基づいて決定されることができる。あるいは、遠隔及び近接視差推定値は、当業者に知られているアルゴリズムを用いて入力された三次元ビデオ信号から導き出されることができる。そのようなアルゴリズムの例は、"Dense disparity estimation from feature correspondences" by Konrad, et al, IS&T/SPIE Symposium on Electronic Imaging Stereoscopic Displays and Virtual Reality Syst., Jan. 23-28, 2000, San Jose, CA, USAに示される。

図3は、本発明によって提案されるように視差をシフトするプロセスを示す。左側には、ステレオ入力ビデオ信号からの画像ペアLV1及びRV1が示される。画像は、それぞれ画像LV1及びRV1において、ゼロ視差に配置されるグレーのブロック310及び310'並びに負の視差でブロックの前に配置される白いディスク305及び305'を示す。

グレーのブロック310及び310'の端の微細な垂直破線から分かるように、左及び右画像において同じ位置で配置されるので、矩形はゼロ視差を持つ。

ディスク305及び305'は負のスクリーン・パララックスを持ち、すなわち、右画像RV1において、ディスク305'は、左画像LV1中のディスク305の位置の左にある。結果として、それはディスプレイの前で視覚化される。

後方にシーンをシフトするために、我々は、RV1'を得るために右にRV1をシフトする。RV1'をLV1と比べて、ディスク305'はゼロ視差を持ち、そして矩形は正の視差を持つ。

シフトされた画像をステレオ表示に適合させるために、シフトされた画像RV1'は、右手側で切り取られて、RV''に至るように左手側で同じ量だけ拡張される。LV1及びRV1''は、次に、新たなステレオ・ペアとして一緒に視覚化されることができ、シーンは、元のLV1-RV1ペアと比較して、後方にシフトされている。結果として、ペアLV1-RV1''は、ペアLV1-RV1よりオーバレイの配置のための更なるヘッドルームを持つ。

上記の例ではビューのうちの１つのみがシフトされるが、左画像LV1及び右画像RV1の両方を反対に等しい量だけシフトすることも可能であることに留意すべきであり、合計量がRV1'のシフトに対応する。結果として、シフトされた画像の両方が拡張されなければならないが、拡張領域は、図3において切り取られて拡張された領域の半分のサイズである。結果として、拡張により生じるアーチファクトが、より均等に分配されることができる。

マルチビュー・コンテンツ（例えば３ビュー）をシフトする場合には、中央画像を維持して、左及び右画像をそれぞれシフトして拡張することが考えられる。視差範囲をシフトする上記の方法が更なるマルチビュー画像に、そして画像のシフトの任意の適切な量に引き続いて拡張されることができ、それらの間のシフトの同じ相対的な量をもたらすことは、当業者にとって明らかである。

入力された三次元ビデオ信号を適応させるときに、いくつかのオプションが利用可能であり、例えば、第１のオプションは、切り取ることのみを用いることである。ステレオ・ビデオ信号を考慮して、この場合には、等しい量だけビデオ信号中の左及び右画像の両方を切り取ることが考えられる。画像アスペクト比が問題でない場合には、切り取られたビューは拡張を必要とせず、そのままで用いられることができる。そうする利点は、拡張が必要ないので、拡張アーチファクトが導入されないことである。第２のオプションは、上述のように、切り取り及び拡張を用いることである。ステレオ・ビデオ信号を考慮すると、この場合には、図3に示されるように、等しい量だけビデオ信号中の左及び右画像の両方を切り取り、引き続いてそれぞれのビューを拡張することが考えられる。拡張を用いる利点は、入力された三次元ビデオ信号のアスペクト比が維持されることができることである。なお、オプションの上記リストは網羅的ではない。

図4は、複数のビューを含む入力三次元ビデオ信号を処理するための本発明による方法400のフローチャートを示す。この方法は、入力された三次元ビデオ信号に対して最も大きい視差値を示す遠視差推定値及び入力された三次元ビデオ信号の中のある空間領域に対して最も小さい視差値を示す近視差推定値を決定するためのステップ405を含む。上で示されるように、それぞれの視差推定値は、メタデータに基づくことができるか、あるいは、入力された三次元ビデオ信号の画像コンテンツに基づいて決定されることができる。

この方法は、遠視差推定値に基づく視差シフトによって入力された三次元ビデオ信号を後方にシフトすることによって三次元ビデオ信号を適応させるステップ410、及び、近視差推定値及び視差シフトに基づいてシフトされた三次元ビデオ信号の空間領域の中でオーバレイを生成するステップ415をさらに含む。

好ましくは、この方法は、シフトされた三次元ビデオ信号上にオーバレイをオーバレイするステップ420をさらに含む。

上に示されるように、入力された三次元ビデオ信号を適応させるステップは、変更された視差範囲を得るようにピクセルをパディングすることによりそれぞれのビューを切り取り（425）拡張する（430）ためのステップを含むことができる。

ステレオ信号の場合、一方又は好ましくは両方のビューが切り取られて、その後拡張される。N個のビューのマルチビュー画像では（Nは偶数）、N-1個又は好ましくはN個のビューが、上述のように切り取られて拡張される。

図5Aは、複数のビューを含む入力された三次元ビデオ信号を処理するための本発明によるシステム500を示す。システム500は、入力された三次元ビデオ信号に対する最も大きい視差値を示す遠視差推定値及び入力された三次元ビデオ信号の中のある空間領域に対する最も小さい視差値を示す近視差推定値を決定するための視差決定器505を含む。上に示されるように、視差決定器505は視差推定器として実施されることができる。システムは、遠視差推定値に基づく視差シフトによって三次元ビデオ信号を後方にシフトすることにより三次元ビデオ信号を適応させるように用意された視差シフト装置510をさらに有する。システム500は、近視差推定値及び視差シフトに基づいてシフトされた三次元ビデオ信号のためにオーバレイ・セーフエリアの中でオーバレイを生成するように用意されたオーバレイ生成器515をさらに有する。

好ましくは、システム500はさらに、シフトされた三次元ビデオ信号上にオーバレイをオーバレイするように用意されるビデオ・ミキサー520を含む。図5Aに示されるシステム500は、コンテンツのオフラインの処理のためのパーソナル・コンピューター又は他の計算プラットホームで実施されることができる。あるいは、Blu-rayディスク再生可能装置、セットトップボックス又は3D-TVに実装されることができる。

図5Bは本発明による更なるシステム500を示し、このシステムは、分析装置502及び合成装置503に分割され、組み合わせられた両方の装置は、図5Aに示されるシステム500において見いだされる機能を実施する。

なお、遠視差推定値及び近視差推定値は、例えば、上述のような入力された三次元ビデオ信号の粗粒視差分析を用いることにより、あるいは、入力された三次元ビデオ信号中に提供されるメタデータを用いることにより、決定されることができる。

実施の形態において、字幕の深さ及び/又は視差は、フレームごとに又はフレームのグループごとに、ビデオに関するメタデータとして供給される。映画の制作者又は撮影後の人々が、オーサリング・ツールによってこれらのメタデータを生成することができる。字幕の深さ及び/又は視差は、背景ビデオの前の対応する深さ又は視差に字幕を配置するために用いられる。

3Dビデオ信号中に深さメタデータを提供することが詳細に説明される。なお、深さメタデータは、3Dビデオ信号中の深さ情報の特性を記述する任意のデータである。ここで述べられるシステムのために、少なくとも近接値が深さメタデータ中に含まれ、それは、ユーザに最も近いビデオ・データの深さ、すなわち、3Dディスプレイ上に適切に表示されたときに観察者に最も近い3Dビデオ中の要素を示す。上述の近視差推定値並びに字幕の前記深さ及び/又は視差は、近接値の例である。

図6は、三次元(3D)画像データ(例えばビデオ、グラフィクス又は他の視覚的情報)を表示するためのシステムを示す。3Dソース装置40は、三次元ディスプレイ信号56を転送するために3D表示装置60に結合される宛先装置50へ3Dビデオ信号41を転送する。3D宛先装置は、3Dビデオ信号を受信するための入力ユニット51を持つ。例えば、装置は、DVD又はブルーレイ・ディスクのような光学記録担体54から3Dビデオ情報を読み出すための入力ユニットに結合された光学ディスク・ユニット58を含むことができる。別の態様では、装置は、ネットワーク45(例えばインターネット又はブロードキャスト・ネットワーク)への結合のためのネットワーク・インタフェース・ユニット59を含むことができ、そのような宛先装置は、通常、セットトップボックスと呼ばれる。3Dビデオ信号は、遠隔メディア・サーバ(例えばソース装置40)から読み出されることができる。宛先装置は、さらに衛星受信機又はメディア・プレーヤーであることができる。

3Dソース装置は、3Dビデオ・データ30中に存在する深さを示す深さメタデータを決定するための処理ユニット42を持つ。3Dビデオ・データは、記憶装置、3Dカメラなどから利用可能でありえる。深さメタデータは、ユーザに最も近いビデオ・データ、すなわち、3Dディスプレイ上に適切に表示された場合に観察者に最も近い3Dビデオ中の要素の深さを示す近接値を含む。深さメタデータ(例えば視差値)を決定すること及び近接値の例が、マルチ・ビュー・データに対して上で議論された(例えば入力された三次元ビデオ信号の中のある空間領域に対して最も小さい視差値を示す近視差推定値(A))。処理ユニットは、3Dビデオ・データを含む3Dビデオ信号を生成し、3Dビデオ信号中に深さメタデータを含める。

3Dソース装置は、サーバ、放送装置、記録装置、又は、ブルーレイ・ディスクのような記録キャリアを製造するためのオーサリング及び/又は製造システムであることができる。ブルーレイ・ディスクは、コンテンツ作成者のためのインタラクティブ・プラットホームをサポートする。それは、作成者が選ぶためのグラフィクス・オーバレイの２つのレイヤ及びプログラム可能な環境の２つのセットをサポートする。3D立体視ビデオのために、多くのフォーマットが存在する。主要なフォーマットは、ステレオ・フォーマット及び画像+深さフォーマットである。さらに加えて、これらの中に多くの考えられる態様が存在し、コンテンツは、新たな及び既存の3Dディスプレイ及び配布フォーマット用に適したようにフォーマット化されることができる。これはさらに、ブルーレイ・ディスク規格におけるグラフィック・システムを、3Dビデオの特定のフォーマットと組み合わせて用いられるために適合するように拡張する方法に影響する。ブルーレイ・ディスク・フォーマットに関する更なる情報は、視聴覚アプリケーション・フォーマットに関する文書において、ブルーレイ・ディスク協会のウェブサイトから利用可能である（http://www.blu-raydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisualapplication_0305-12955-15269.pdf）。それゆえに、補助データは、レンダリングのさまざまな段階で追加されるために含まれることができる。製造プロセスは、深さメタデータを含んでいる3Dビデオ信号を実現するトラック中のマークの物理的パターンを導き出すステップ、及び、その後、少なくとも１つの記憶レイヤ上でマークのトラックを提供するために記録担体の材料を成形するステップをさらに含む。

3D宛先装置は、表示装置に出力インタフェース・ユニット55を介して転送される3D表示信号56、例えばHDMI規格に従う表示信号（http://hdmi.org/manufacturer/specification.aspxにおいて利用可能な"High Definition Multimedia Interface; Specification Version 1.3a of Nov 10 2006"を参照）を生成するために3D情報を処理するための入力ユニット51に結合される処理ユニット52を持つ。処理ユニット52は、表示装置60上での表示のための三次元表示信号56中に含まれる画像データを生成するように用意される。

宛先装置は、3Dディスプレイ上で3Dビデオ・データと組み合わせられる補助データを提供するための補助処理ユニット53を持つ。補助データは、ローカルに、すなわち宛先装置において、3Dビデオ・コンテンツと組み合わせられるべき任意の付加的なグラフィカル画像データ（例えば、字幕、放送会社のロゴ、メニュー又はシステム・メッセージ、エラー・コード、ニュース速報、チッカー・テープ、解説のような更なる3Dストリームなど)であることができる。下記のテキストにおいて、通常、あらゆるタイプの補助データを示すものとして字幕が用いられる。

3D表示装置60は、3D画像データを表示するための装置である。この装置は、宛先装置50から転送される3Dビデオ・データ及び補助データを含む三次元表示信号56を受信するための入力インタフェース・ユニット61を持つ。転送された3Dビデオ・データは、3Dディスプレイ63(例えばデュアル又はレンチキュラLCD)上で表示するために処理ユニット62において処理される。表示装置60は、任意のタイプの立体表示ディスプレイであることができ、三次元ディスプレイとも呼ばれ、矢印64によって示される表示深さ範囲を持つ。

あるいは、補助データを提供して配置するための処理は、表示装置の実施の形態において実行される。3Dビデオ・データ及びオプションの補助データは、表示信号56を介して転送される。補助データはさらに、表示装置においてローカルに生成されることができる(例えばメニュー)。処理ユニット62は、ここでは、3Dディスプレイ上で補助データを3Dビデオ・データと組み合わせる機能を実行する。処理手段62は、宛先装置中の処理手段52,53に対する以下に記載するような対応する機能のために用意されることができる。更なる実施の形態において、宛先装置及び表示装置は１つの装置に一体化され、１セットの処理手段が前記機能を実行する。

図6は、3Dビデオ信号のキャリアとしての記録担体54をさらに示す。記録担体は、ディスク形状であり、トラック及び中央のホールを持つ。トラックは、物理的に検出可能なマークの系列によって構成され、情報レイヤ上の実質的に平行の軌道を構成するターンの螺旋又は同心のパターンに従って配列される。記録担体は光学的に読取り可能であり、光学ディスクと呼ばれ、例えば、CD、DVD、又はBD（ブルーレイ・ディスク）である。情報は、トラックに沿った光学的に検出可能なマーク(例えばピット及びランド)によって情報レイヤ上に表現される。トラック構造は、さらに、情報のユニット(通常、情報ブロックと呼ばれる)の位置を示すための位置情報(例えばヘッダ及びアドレス)を含む。記録担体54は、デジタル的に符号化された、例えば、DVD又はBDフォーマットのような事前に決められた記録フォーマットへとMPEG2又はMPEG4符号化システムに従って符号化されたビデオのような画像データを表現する情報を運ぶ。

宛先装置中の処理手段52, 53は、以下の機能を実行するように準備される。3Dビデオ信号は、受信手段51,58,59によって受信される。3Dビデオ信号は、3Dビデオ・データ及び3Dビデオ・データに存在する深さを示す深さメタデータを含み、この深さメタデータは、上述のように、ユーザに最も近いビデオ・データの深さを示す近接値を含む。処理手段52,53は、3Dビデオ信号から深さメタデータを読み出し、補助データを提供し、前記最も近いビデオ・データによって補助データを隠すことが回避されるように3Dビデオ・データと組み合わせて補助データを表示するために、読み出されたメタデータに依存して補助深さに補助データを配置するように用意される。

3Dビデオ上に3Dグラフィクスをオーバレイすることに関する問題は、背景における立体視3DビデオのZ範囲を再生装置において知ることなく3D空間中にグラフィクス・オーバレイをどのように配置するかに関連している。これは、一般的に、ステレオ・フォーマットの立体視3Dビデオについての場合である。これが解決されることができる態様は、用いられる3Dビデオのフォーマットに、並びに、組み合わされたビデオ及びグラフィックスが3D表示装置にどのように送信されるかに、非常に依存する。

3D画像を合成するためにメタデータを用いることは、立体視画像を適切に合成することを可能にするためのジオメトリー、照明などを含む完結した3Dモデルに基づくことができる。このアプローチは、製造後段階におけるオーサリング環境において3D画像を合成するためのメカニズムを提供する。しかしながら完全な3Dモデルに関する問題は、画像中のピクセルごとに3D情報が提供されるので、これが多くのデータを必要とすることである。そのようなアプローチは、消費者向け装置(例えばブルーレイ・ディスク・プレーヤー又はセットトップボックス)において立体視ビデオに合成される必要があるリアルタイムで生成される立体視画像を取り扱う場合、実現性が低い。

深さメタデータを動的な補助データに対する背景である3Dビデオ・データに提供することがここで提案され、例えば、リアルタイムで生成されるグラフィクスがこのビデオ背景上に合成されることができる。

実施の形態において、フレーム又はGroup of Pictures (GOP)ごとに深さメタデータが3Dビデオ信号に追加される。この深さメタデータは、１バイトのデータを含むことができ、それによって、この値は、立体視ビデオ背景の左ビューと右ビューとの間の最も近い視差を示す。あるいは、この深さメタデータ値は、任意のグラフィクス・オーバレイの視差を示すことができ、プレーヤーがリアルタイム生成されたグラフィクスを合成する場合に、メタデータにおいて示される視差でグラフィクスを配置するべきである。

提案された深さメタデータは、フレームあたり又はGOPあたり１バイトから成ることができる。フレームごとに１バイトが追加される場合、2時間の立体視映画に対して、これは173KBのデータを必要とし、これは妥当である。Group of Picturesごとの使用は、(1秒のGop長さに対して) 7,2KBのデータまでこれを低減する。制限されたサイズによって、深さメタデータは、更なる3D関連フィールドを含むように拡張されることができる。

解決されるべき更なる問題は、深さメタデータを、それが互換性のある態様で含まれることができ、プレーヤーが実際にリアルタイム合成のためにそれを用いることを可能にするように、配布フォーマット中にどのように含めるかである。メタデータを含めるいくつかの態様が、以下で説明される。

宛先装置は、立体視ビデオ上に立体視グラフィクスをオーバレイすることができるいわゆる「Z」合成器を備えているべきである。例えば、「Z」合成器は、処理ユニット52中に含まれる。「Z」合成器は、深さメタデータを解釈して、これから3D空間においてビデオ上の補助データの位置を決定する。

実施の形態において、「Z」合成器は、従来技術において述べられたような完全な３次元モデル・ベースの「Z」合成器の単純化されたバージョンである。このバージョンは、ビデオ及びグラフィクスの両方の完全な幾何学的モデルを必要とするというわけではなく、立体視ビデオの深さ又は視差範囲を示す１バイトのみを用い、補助データのオーバレイのためにこれを用いる。

一実施例におけるメタデータの記憶に関して、ビデオ背景のための深さメタデータは、事前に決められた規格送信フォーマット(例えばMPEG4)に従うユーザ・データ・メッセージ中に含まれる（例えばH.264符号化されたストリームの通知基本ストリーム情報[SEI]メッセージ）。この方法は、H.264/AVC符号化規格に依存する全てのシステムと互換性があるという利点を持つ(例えばITU-TH.264及びISO/IECMPEG-4AVC(すなわちISO/IEC14496-10規格)を参照)。新たな符号器/復号器は新たなSEIメッセージを実施することができ、一方、既存のものはそれらを単に無視する。

図7は、プライベート・ユーザ・データSEIメッセージ中の深さメタデータを示す。3Dビデオ・ストリーム71が概略的に示される。ストリーム中の１つの要素は、復号器にストリームのパラメータを示す通知（いわゆる通知基本ストリーム情報[SEI]メッセージ72）である。より具体的には、深さメタデータ73は、ユーザデータ・コンテナ中に記憶されることができる。深さメタデータは、深さ値、視差値又は任意の他の表現の深さ情報を含むことができる。

図8は、3Dビデオ信号中の深さメタデータのためのデータ構造を示す。図に示されるテーブルは、ビデオ・ストリームにおけるそれぞれの制御データパケットの文法を定める（特にGOP_structure_map()）。データ構造は、深さメタデータ81のためのフィールド、すなわち、遠隔値を定めるVideo_max_disparity及び近接値を定めるVideo_min_disparityを定める（視差値を定めるために図1も参照）。ここで、video min disparityフィールドは、観察者に対する3D空間中の最も近いオブジェクトを示して、任意のグラフィクス(例えば字幕)をどこにオーバレイするかを決定するために用いられることができ、一方、video max disparityは、観察者から最も遠く離れたビデオ中のオブジェクトの視差を示す。なお、パブリックドメインのいくつかの文献は、最も近いオブジェクトを表現するために最大の視差値を定め、そのような定義に対して、視差値の符号は逆転される。スクリーン深さでは、視差は前記の定義にかかわらずゼロである。

図9は、記録担体上の3Dビデオ信号における深さメタデータのためのデータ構造を示す。ブルーレイ・ディスクのような記録担体上のビデオ・データに対して、エントリー・ポイントにおいて開始するビデオのレンダリングを可能にするエントリー・ポイントを示すエントリーポイント・マップが提供されることができる。エントリーポイント・マップ・データ構造は、エントリー・ポイントにおいて開始する3Dビデオ・データの断片のための深さ値を定めて、例えば次のエントリー・ポイントまで有効な深さメタデータを追加することによって拡張されることができる。ブルーレイ・ディスク規格に対しては特に、メタデータは、図に示されるようにEPマップ中に記憶される。EPマップは、ストリーム中の全ての有効な復号アクセス・ポイント（すなわち、復号が始まる可能性があるポイント）に対するエントリーを保持するテーブルを含む。

あるいは、メタデータはXMLベースの記述として提供され、この記述は、MPEG-2トランスポート・ストリームのデータ・カルーセルにおいて輸送される。このMPEGトランスポート・ストリームにおいて同様に送信されるインタラクティブTVアプリケーションは、ビデオ上へ立体視グラフィクスをどのように合成するかを決定するために、このXMLベースの記述を使用することができる。あるいは、メタデータは、プレイリストに対する拡張として提供されることができる。

更なる改善において、メタデータは、最小及び最大の視差範囲を含むように拡張される。これは、ビデオ及びグラフィクスの複数のプレーンのオーバレイを可能にする。

テキスト(例えば字幕)のオーバレイを対象とする更なる改善において、再生装置は、専用レジスタ中に深さメタデータの視差範囲の最大の値を記憶する。そしてそれは、どの深さ（又は視差）に字幕をオーバレイするかを決定するために、最も近い値を用いる。このレジスタ中に保持される値は、時間にわたって漸進的にのみ変化する。これは、字幕の深さが絶えず変化しないことを保証する（字幕の深さが絶えず変化すると観客に眼精疲労を引き起こす可能性がある）。

深さメタデータの更なる拡張は、ビデオ・フレーム中にいくつかの領域を定めて、特にその領域に深さメタデータ値を割り当てることである。実施の形態において、領域を選択することは、以下の通りに実行される。表示領域が複数の領域に再分割される。深さメタデータを検出することは、領域ごとに実行される。例えば、フレーム領域は、(例えば、水平ストライプである)２つ以上の領域に分割され、そして領域ごとに、最小及び最大深さが、ストリームに追加される。これは、それがさらに領域に依存して配置されることができるので、グラフィクス・オーバレイに対する自由を与える。

領域深さメタデータは、領域に依存した空間フィルタ関数に従って複数の領域の深さ値を空間的にフィルタリングすることに基づくことができる。例として、表示領域はタイルに分割される。各々のタイルにおいて、最大の深さが別々に計算される。例では、異なる領域中の他のオブジェクトの深さが観察者に非常に近い場合であっても、補助データは固有の深さにあることができる。これはさらに、例えばポップアップ・メニューとは異なる領域及び視差に字幕が合成されることを可能にする。「Z」合成器及び記憶されるデータの量は、領域を手渡すことに対応するために拡張される。

メタデータを記憶するための他の実施の形態において、GOPあたりのSEIメッセージは、視差又はオフセット値のリスト及び出力プレーンに対する視差又はオフセット方向インジケータを含む。視差又はオフセット値は、立体視出力の左出力プレーンと右出力プレーンとの間のピクセル・シフトを示し、方向インジケータは、ピクセル・シフトが左であるべきか又は右であるべきかを示す。ピクセル・シフトによって、位置xにおける左出力プレーン中の対応するピクセルは、右出力プレーンにおいてx+n又はx-nにシフトされる。オフセット値のこのリストは、さまざまな目的のために用いられることができる。一般に、そのようなオフセット値は、立体視ビデオ背景上の2D単一ビュー・グラフィクスのオーバレイのために用いられる。そのような場合、オフセット値nは、立体視ビデオ背景の第２ビュー("R")上のオーバレイのための第２画像を生成するために2D画像中のピクセルをシフトするために用いられ、一方、2D画像は、立体視ビデオ背景の第１ビュー("L")上にオーバレイされる。本発明者らは、方向インジケータを伴うオフセット値のそのようなリストは、さらに、ビデオ背景の最大及び/又は最小視差を表現するために用いられることができることを認識した。例えば、第２("R")プレーン中のピクセルの左方向へのシフトを示すプレーン・オフセット方向を伴うプレーン・オフセット値= xはvideo_max_disparityを示し、第２("R")プレーン中のピクセルの右方向へのシフトを示すプレーン・オフセット方向インジケータを伴うプレーン・オフセット値=yはvideo_min_disparityを示す。再生装置がプレゼンテーションの間に選択することができる再生可能なストリームを記載するテーブル中に付加的な信号伝達が含まれることが提案される。付加的な信号は、従属ストリームのSEIメッセージ中に埋め込まれるリスト中の埋め込まれたオフセット値のどれが、出力上の立体画像の最大及び/又は最小視差を通知するために用いられるべきであるかを示す。表１は、そのような信号の例を示す。

深さメタデータを用いたシステムは、メタデータを生成して、そのデータを配布すること必要とし、そして最終的には、いわゆる「Z」合成器がメタデータを読んで、3Dビデオ上に補助データを、例えば立体視ビデオ上に立体視グラフィクスを合成することを必要とする。視差推定器及びメタデータ符号器は、ビデオ・コンテンツ中のフレームの最小及び/又は最大の視差を決定して、配布チャネル中にこれを符号化する。ブルーレイ・ディスクでは、これは、上述のように、EPマップ中か又は直接符号化されたストリーム中のSEIメッセージであることもできる。

EPマップは、一般的にトリックプレイの間に用いられ、次のフレームをデコードし始めるためのストリーム中の正しい位置へプレーヤーがすばやくジャンプすることを可能にする。我々は、深さメタデータによってこのテーブルを拡張する。図9は、アクセス・ポイントに関連づけられる任意のメタデータを担持するメタデータ・フィールドによって拡張されるこのテーブルの単純化されたバージョンを示す。

図10aは、深さメタデータを担持しているメタデータ・フィールドのフォーマットを示す。２つのフィールド92が存在し、一方はアクセス・ポイントの最大深さ範囲値を収容し、他方のオプションのフィールドはオフセットを担持するために用いられる。正しいオーバレイのために、グラフィクスの深さは、depth_max値より近いべきである。

図10bは、視差データを担持するメタデータ・フィールドのフォーマットを示す。視差データ93は、最小及び最大の視差範囲又は値を提供する深さメタデータの代わりのバージョンであり、これは、ビデオの複数のプレーンのオーバレイを可能にする。本発明を利用するためのシステムは、メタデータを生成し、そのデータを配布するための手段を必要とし、そして、受信宛先において、メタデータを読んで、立体視ビデオ上に立体視グラフィックを合成するためのいわゆる「Z」合成器を必要とする。

宛先装置におけるビデオ・データ処理は以下の通りである。復号のために、「Z」合成器は、グラフィクスがオーバレイされるべきであるフレームを決定する。そしてそれはそのフレームの「深さ」又は視差メタデータを読み、あるいは、それが利用可能でない場合には、それは、最も近いIフレーム(又はエントリーポイント)に関連付けられた値を用いる。次のステップにおいて、それは、左グラフィック画像と右グラフィック画像との間の視差が、ビデオ背景画像の視差より大きい(すなわち、より大きな負の値を持つ)か又はそれと同じかどうかを決定する。立体視グラフィクスの視差がビデオ・メタデータ中に示される値より大きいか又はそれと同じ場合、Z合成器は、単に左及び右ビデオ・フレーム上に左及び右グラフィック画像を合成する。その視差がより小さい場合、補助データはより遠く、「Z」合成器は、グラフィクスの視差を深さメタデータ中に示される値と一致させるために線形シフトを実行することによって、立体視グラフィック画像の視差を調整する。

あるいは、モノラル・グラフィクスのみが利用可能な場合、「Z」合成器は左ビデオ・フレーム上にグラフィクスを合成して、右ビデオ・フレーム上にグラフィクスを合成するが、水平方向に右にシフトされる。シフトの量は、「深さ」又は視差メタデータの値によって決まる。ここで、所望の視差を得るために必要とされるシフトは、いくつかのパラメータ(例えばディスプレイに対する観客の観察距離)によって決まる。ピクセルの数としてシフトを計算するとき、観客ディスプレイの幅及び解像度がわかっている必要がある。これらのパラメータは、さらに「深さ」メタデータへのオプションとして含まれることができる。実施の形態において、例えば、ディスプレイが1メートルの幅を持ち、観客はディスプレイから４メートルのところに座っている規格化された又は基準の構成が用いられる。

実際的な実施の形態において、字幕は3Dコンテンツにオーバレイされる。主要なコンテンツがステレオ(左/右)画像として存在し、字幕も画像として存在する。実施の形態は、適切な記述から字幕をレンダリングすることもできる。実施の形態は、以下のステップを用いる。

3Dビデオのそれぞれの期間の間、視差は、3Dビデオ信号と共に転送されたメタデータから読み出される。関連する領域及び/又は期間の中で最も近い視差がメタデータから読み出される。フィルタされた視差を決定するために最小視差のリストにフィルタリングが適用されることができる。

補助データはフィルタされた視差のところに配置され、例えば、字幕は、フィルタされた視差と同じである左右のピクセル変位を用いて左及び右画像の上に一体化される。

字幕が予めレンダリングされている場合、標準的なアルファ・ブレンディングが用いられる。字幕がテキスト・フォーマットで存在する場合、それらはサブ・ピクセル精度でレンダリングされる。

小さいオフセット(通常は１ピクセル)が、最前面のオブジェクトと字幕との間の小さい深さ範囲を生成するために適用されることができる。

なお、上記の方法は、補助深さ値より大きい深さ値が存在しない画像データの領域を選択することによってターゲット領域を選択することを可能にする。そのうえ、前記選択は、ターゲット領域中に補助深さ値より大きい深さ値が存在しないように、補助データを表示するための期間を選択することを含むことができる。例えば、字幕のレンダリングは、より前方のオブジェクトが消えることを可能にするために、遅延されるか又はシフトされることができる。

実施の形態において、深さパターンを決定することは、ビデオ・コンテンツの複数のフレームにおいて深さ値を検出すること、及び、時間フィルタ関数に従って深さ値を時間的にフィルタリングすること含む。例えば、字幕自体が表示されるべきである期間か、又は、オブジェクトが字幕の相当近くに現れること及び字幕より前に現れることを回避するために僅かにより長い期間が考慮されることができる。字幕を表示する期間は、通常、表示信号中に示される。

特に、深さパターンを決定することは、ビデオ・コンテンツの複数のフレームにおけるショット境界を検出することに基づいて時間フィルタ関数のための時間窓を設定することを含むことができる。これは、以下のように実施されることができる。

左又は右画像から、ショット境界が計算される。ショットの開始画像は、画像のカラー・ヒストグラムを用いて、画像コンテンツにおける大きい変化を検出することによって見つけだされる。最小視差リストが、前に検出されたショット・カットによって、ショットのために検出される。そして、各々のショットに対して、最小視差リストは、適切な時間窓関数によってフィルタリングされる（例えば以下を参照）。窓関数は、一部の選択された区間の外側ではゼロの値を有する関数である。例えば、区間内部では一定値で、他ではゼロである関数は、矩形窓と呼ばれ、それは、そのグラフィカル表現の形状を表す。画像信号(データ)は窓関数によって乗じられ、そしてその積は区間の外側でもゼロの値を有する。

各々のショットを別々にフィルタリングすることは、そのショット内からの値のみが用いられることを保証する。したがって、関心領域内の最前面のオブジェクトの視差がジャンプする場合、補助グラフィカル・データの深さ値はショット・カットにおいてジャンプすることが許可されるが、ショット内でジャンプすることは許可されない。さらに代わりとして、ショット間の深さ配置はフィルタリングされることができ、ショット境界における滑らかな遷移を可能にする。

窓関数を選択するために、実施の形態はハン窓関数を用いるが、他の窓関数(例えば矩形の窓関数)も適切である。オーストリアの気象学者Julius von Hannにちなんで名づけられハン関数は、

によって与えられる離散的確率質量関数である。窓は現時点の中央にあり、過去の及び将来の両方の値が考慮される。これは値を平滑化するという効果を持ち、したがって視差の急な変化を回避して、オーバレイが常に3Dコンテンツの前にあることを保証するという効果がある。例えばリアルタイム放送では、将来の値は利用できない場合があり、ウィンドウ処理は、過去の値のみに基づく場合がある。あるいは、レンダリングにわずかな遅延を適用しながら、将来のフレームの一部が、最初にバッファ中に記憶されることができる。

なお、遠隔値(すなわちビデオの最小の視差シフト[parallax shift：PS]又は最大の視差[disparity])を含むことは、補助データのための空間を得るために、ビデオをプッシュバックする(同じ値でL+Rに対してPSを減少させる又は視差を増加させる)ことを可能にする。過剰なプッシュバックを回避するために遠隔値が考慮され、すなわち、プッシュバックは、スクリーン上で眼間距離(通常6cm)を超える、すなわち無限を超える視差値を決してもたらすべきではない。遠隔値(例えば最大の視差)を含むことによって、これは、プレーヤーによって防止されることができる。プレーヤーはさらに、ピクセルの対応するシフトを計算するために、画面サイズを知っているべきである。

宛先装置の実施の形態において、最大値が、ビデオを後方に（十分に）シフトするための余地が無いような値かどうかが検出される。その場合、処理は一時的に特別なモードへ切り替わり、主要な3Dビデオは、モノラルがスクリーンの後ろに現れるようにシフトされた左及び右ビューを持つ１つの選択された深さを備えるモノラル・ビデオとして又はモノラル・ビデオへと表示される。ストリーム中の付加的なパラメータ(例えば3Dビデオのある期間に対して１バイト)は、モノラル・ビデオを選択された深さに(例えば幾分スクリーンの後ろに)配置するための適切な深さ(又は視差)を示すことができ、一方、補助ビデオは、例えばスクリーンの近くに表示される。

いうまでもなく、明確性のための前記説明は、異なる機能ユニット及びプロセッサを参照して本発明の実施の形態を述べた。しかしながら、異なる機能ユニット又はプロセッサ間での機能の任意の適切な分散が、本発明を損なわずに用いられることができることは明らかである。例えば、別のユニット、プロセッサ又はコントローラによって実行されるように示された機能は、同じプロセッサ又はコントローラによって実行されることができる。したがって、特定の機能ユニットに対する参照は、厳密に論理的な又は物理的な構造又は組織を示すというよりはむしろ、述べられた機能を提供するための適切な手段に対する参照としてのみ考えられるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせを含む任意の適切な形式で実施されることができる。本発明は、１つ以上のデータ・プロセッサ及び/又はデジタル・シグナル・プロセッサ上で動作しているコンピュータ・ソフトウェアとして少なくとも部分的にオプションとして実施されることができる。本発明の実施の形態の要素及びコンポーネントは、任意の適切な態様で、物理的に、機能的に、そして、論理的に実施されることができる。実際、機能は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として、実施されることができる。よって、本発明は、単一ユニットにおいて実施されることができるか、又は、異なるユニットとプロセッサとの間で物理的にかつ機能的に分散されることができる。

本発明はいくつかの実施の形態に関連して述べられたが、それは、本願明細書において述べられる特定の形式に限定されることを意図しない。むしろ、本発明の範囲は、添付の請求の範囲によってのみ制限される。加えて、ある特徴が特定の実施の形態に関連して述べられると思われるかもしれないが、述べられた実施の形態のさまざまな特徴が本発明に従って組み合わせられることができることを当業者は認識する。請求の範囲において、用語「有する」「含む」などは、他の要素又はステップの存在を除外しない。

さらに、別々に記載されるが、複数の手段、要素又は方法ステップは、例えば単一ユニット又はプロセッサによって実施されることができる。加えて、個々の特徴が異なる請求項中に含まれる場合があるが、これらはおそらく有利に組み合わせられることができ、異なる請求項中への包含は、特徴の組み合わせが可能ではないこと及び/又は有利ではないことを意味しない。さらに、請求項の１つのカテゴリへの特徴の包含は、このカテゴリに対する制限を意味せず、むしろ、特徴が適切に他の請求項カテゴリに同様に適用可能であることを示す。さらに、請求項における特徴の順序は、それらの特徴が動作する必要がある特定の順序を意味せず、特に、方法の請求項における個々のステップの順序は、これらのステップがこの順序で実行される必要があることを意味しない。むしろ、ステップは、任意の適切な順序で実行されることができる。更に、単数形の参照は複数を除外しない。したがって、"a", "an", "first", "second"などは、複数を排除しない。請求の範囲における参照符号は、単に実施例を明確にするために提供されているのであって、請求の範囲を制限するものとして解釈されてはならない。

Claims

3D宛先装置へ転送するための三次元[3D]ビデオ信号を提供する方法であって、
3Dビデオ・データに存在する深さを示す深さメタデータであって、３Dディスプレイ上に表示されたときに観察者に最も近い前記３Dビデオ・データ中の要素の深さを示す近接値を含む深さメタデータを決定し、
前記3Dビデオ・データを含む前記3Dビデオ信号を生成し、
前記3Dビデオ信号中に前記深さメタデータを含めて、
前記3D宛先装置が、
前記深さメタデータを読み出し、
補助データを提供し、及び
前記3Dビデオ・データと組み合わせて前記補助データを表示するために読み出された前記メタデータに依存して補助深さに前記補助データを配置する、
ことを可能にする、方法。
前記深さメタデータは、ユーザから最も離れた前記3Dビデオ・データに存在する深さを示す遠隔値を含み、前記3D宛先装置が、
前記近接値よりユーザから離れた深さに前記補助深さを設定し、
前記補助深さよりユーザから離れた深さに前記最も近いビデオ・データをシフトするためにユーザから離れる方向において前記3Dビデオ・データにシフトを適用する、
ことを可能にし、前記シフトは前記遠隔値に基づいて最大化される、請求項１に記載の方法。
前記深さメタデータが、オフセット値及びオフセット方向インジケータのリストであって、前記オフセット値が前記補助データの左出力プレーンと右出力プレーンとの間のピクセル・シフトを示し、前記オフセット方向インジケータが前記ピクセル・シフトが左方向であるか右方向であるかを示す、リストであるか、又は、
前記深さメタデータが、前記３Dビデオ・データの少なくとも１つの空間領域に存在する深さを示すデータを有する、請求項１に記載の方法。
前記3Dビデオ信号が、予め定められた規格による復号情報を伝達するように用意された符号化ビデオ・データ・ストリームを含み、前記3Dビデオ信号中に前記深さメタデータを含めることが、
ユーザ・データ・メッセージ、
通知基本ストリーム情報[SEI]メッセージ、
エントリー・ポイント・テーブル、
XMLベース記述、
のうちの少なくとも１つに前記深さメタデータを含めることを含む、請求項１に記載の方法。
前記深さメタデータが、前記3Dビデオ・データの少なくとも１つの空間領域に存在する深さを示すデータを含む、請求項１に記載の方法。
記録担体を製造するステップを含み、前記記録担体は、前記3Dビデオ信号を表すマークのトラックを備える、請求項１に記載の方法。
3D宛先装置へ転送するための三次元[3D]ビデオ信号を提供するための3Dソース装置であって、
3Dビデオ・データに存在する深さを示す深さメタデータであって、３Dディスプレイ上に表示されたときに観察者に最も近い前記３Dビデオ・データ中の要素の深さを示す近接値を含む深さメタデータを決定し、
前記3Dビデオ・データを含む前記3Dビデオ信号を生成し、
前記3Dビデオ信号中に前記深さメタデータを含めて、
前記3D宛先装置が、
前記深さメタデータを読み出し、
補助データを提供し、及び
前記3Dビデオ・データと組み合わせて前記補助データを表示するために読み出された前記メタデータに依存して補助深さに前記補助データを配置する、
ことを可能にするための処理手段を有する3Dソース装置。
前記深さメタデータが、オフセット値及びオフセット方向インジケータのリストであって、前記オフセット値が前記補助データの左出力プレーンと右出力プレーンとの間のピクセル・シフトを示し、前記オフセット方向インジケータが前記ピクセル・シフトが左方向であるか右方向であるかを示す、リストであるか、又は、
前記深さメタデータが、前記３Dビデオ・データの少なくとも１つの空間領域に存在する深さを示すデータを有する、請求項７に記載の３Dソース装置。
三次元[3D]ビデオ信号を受信するための3D宛先装置であって、
3Dビデオ・データ、及び、前記3Dビデオ・データに存在する深さを示す深さメタデータであって、３Dディスプレイ上に表示されたときに観察者に最も近い前記３Dビデオ・データ中の要素の深さを示す近接値を含む深さメタデータを含む前記3Dビデオ信号を受信するための受信手段、並びに
前記3Dビデオ信号から前記深さメタデータを読み出し、
補助データを提供し、
前記3Dビデオ・データと組み合わせて前記補助データを表示するために読み出された前記メタデータに依存して補助深さに前記補助データを配置する、
ための処理手段、
を有する宛先装置。
前記受信手段が、前記3Dビデオ信号を受信するために記録担体を読むための手段を有する、又は、
前記宛先装置が、前記3Dビデオ・データと組み合わせて前記補助データを表示するための3D表示手段を有する、請求項９に記載の宛先装置。
前記深さメタデータが、ユーザから最も離れた前記3Dビデオ・データに存在する深さを示す遠隔値を含み、前記処理手段が、
前記近接値よりユーザから離れた深さに前記補助深さを設定し、
前記補助深さよりユーザから離れた深さに前記最も近いビデオ・データをシフトするためにユーザから離れる方向において前記3Dビデオ・データにシフトを適用し、前記シフトは前記遠隔値に基づいて最大化される、ように用意される、請求項９に記載の宛先装置。
前記深さメタデータが、オフセット値及びオフセット方向インジケータのリストであって、前記オフセット値が前記補助データの左出力プレーンと右出力プレーンとの間のピクセル・シフトを示し、前記オフセット方向インジケータが前記ピクセル・シフトが左方向であるか右方向であるかを示す、リストであり、前記処理手段が、前記補助データに、前記オフセット値及び前記オフセット方向インジケータに基づく水平シフトを適用することによって少なくとも左補助出力プレーン及び右補助出力プレーンを生成するために用意される、請求項９に記載の装置。
3D宛先装置へ3Dビデオ・データを転送するための三次元[3D]ビデオ信号を記録する記録担体であって、当該3Dビデオ信号は、前記3Dビデオ・データ、及び、前記3Dビデオ・データに存在する深さを示す深さメタデータであって、３Dディスプレイ上に表示されたときに観察者に最も近い前記３Dビデオ・データ中の要素の深さを示す近接値を含む深さメタデータを含み、前記3D宛先装置が、
前記深さメタデータを読み出し、
補助データを提供し、及び
前記3Dビデオ・データと組み合わせて前記補助データを表示するために読み出された前記メタデータに依存して補助深さに前記補助データを配置する、
ことを可能にする、記録担体。
前記深さメタデータが、オフセット値及びオフセット方向インジケータのリストであって、前記オフセット値が前記補助データの左出力プレーンと右出力プレーンとの間のピクセル・シフトを示し、前記オフセット方向インジケータが前記ピクセル・シフトが左方向であるか右方向であるかを示す、リストである、請求項１３に記載の記録担体。
3D宛先装置に転送するための三次元[3D]ビデオ信号を提供するためのコンピュータ・プログラムであって、請求項１から請求項６のいずれか一項に記載の方法のそれぞれのステップをプロセッサに実行させるように動作するプログラム。