JP5300258B2

JP5300258B2 - ３次元ライトフィールドを取得、符号化、復号、表示するための方法およびシステム

Info

Publication number: JP5300258B2
Application number: JP2007324982A
Authority: JP
Inventors: アンソニー・ヴェトロ; セフーン・イェー; ウォーチエック・マトゥシック; ハンスピーター・フィスター; マチアス・ツヴィッカー
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2007-04-04
Filing date: 2007-12-17
Publication date: 2013-09-25
Anticipated expiration: 2027-12-17
Also published as: US20080043095A1; EP1978755A2; EP1978755A3; JP2008259171A; US7916934B2

Description

［関連出願］
この出願は、Ｍａｔｕｓｉｋ他により２００６年４月４日に出願された、「３次元ライトフィールドを取得、表示するための方法およびシステム」という名称の米国特許出願第１１／３９７，２２７号の一部継続である。

この発明は、一般に、ライトフィールドを取得、符号化、復号化、表示することに関し、特に、３次元ライトフィールドのスケーラブルな復号化、およびオートマルティスコーピック（自動多視点）表示装置に表示するための再構成されたライトフィールドの再サンプリングに関するものである。

現実世界の３次元シーンのイメージ（画像）を取得して、現実的な３次元画像としてそれらを表示することが望まれている。自動多視点ディスプレイは、束縛されない視聴、すなわちビューイングゾーン（見る領域）の任意の位置からの高解像度立体画像の眼鏡無しでの視聴を提供する。自動多視点ディスプレイは視野角に基づく、異なる強度および色のビュー（視点）依存ピクセルを含む。従来の高解像度ディスプレイとパララックスバリアとを使用することにより、視点依存ピクセルを実現することができる。

典型的な自動多視点ディスプレイでは、画像はパララックスバリアを通して、レンズ状シート或いは一体形レンズシートに映し出される。マルチビユーオートステレオスコーピィ（多視点自動立体鏡）の光学原理は１世紀以上に亘って知られている（Ｏｋｏｓｈｉ、３元イメージング（撮像）技術、アカデミックプレス社、１９７６）。近年、高解像度の実用的なディスプレイが利用可能になってきている。その結果、３次元テレビが再び注目されている。

ところで、自動多視点ディスプレイには、幾つかの問題がある。第一に、動いている視聴者は不穏な視覚的アーティファクトを見る。第二に、アーティファクトの無い３次元画像の取得は難しい。
放送および映画産業における写真家、ビデオ撮影家、および専門家は３次元画像を記録するのに必要とされる複雑なセットアップ（構成装備）になじみがない。現在、従来の２次元テレビに対して有るような、マルチカメラパラメータ、配置、および制作後の処理に対するガイドライン（指針）もスタンダード（標準）も無い。

特に、ほとんどの実用的な場合には、カメラのイメージセンサ（撮像素子）におけるピクセル（画素）は、１対１の方法で、表示装置におけるピクセルに直接マップ（写像）されない。これは映像データの再サンプリングを必要とする。再サンプリングは、視覚的アーティファクトが最小にされるような方法で、行われる必要がある。自動多視点ディスプレイに対してライトフィールドを有効に再サンプリングするための従来技術は全く無い。

３次元ディスプレイ用のほとんどの従来のアンチエイリアシングは、波動光学を使用する。その上、それらの方法は、適切なフィルタリングのためにピクセル毎のシーン深度（奥行き）を必要とする。深度情報がないとき、それらの方法は、保守的な最悪条件手法およびシーンにおける最大深度に基づくフィルタに頼る。実際には、これは、それらの方法の実行を非常に浅い深度を有するシーンに制限する。

一般に、自動多視点ディスプレイは、静的な或いは経時的に変動するライトフィールドを発する。ライトフィールドはオクルーダ（遮蔽物）の無い空間の領域における位置および方向の関数としてのラジアンス（放射輝度）を表している。ライトフィールドの周波数分析はプレノプティックサンプリング理論を使用して行われる。そこでは、シーンのスペクトルが物体深度の関数として分析される。これは、ほとんどのライトフィールドがエイリアス化される（輪郭がギザギザになる）ことを明らかにする。エイリアシングを取り除いて、元のスペクトルを可能な限り保存するために、再構成フィルタを適用できる。

自動多視点ディスプレイの上にライトフィールドを表示するのに再パラメータ化を使用できる。ところが、再パラメータ化はディスプレイのエイリアシングに対処しない。
再構成フィルタを広い開口フィルタにより改善することができる。これにより、焦点面上でシャープネス（鮮明度）を犠牲にすることなく、より大きな被写界深度で３次元画像を生成することができる。

また、ディスプレイ品質は３次元レンダリングシステムにおける１つの重大な問題ではあるが、処理されて、レンダリングされて、そのようなディスプレイに伝送されるために必要なデータの量を考慮に入れなければならない。ライトフィールドデータはステレオ画像のペア（対）に基づくシステムに対するよりも少なくとも１桁以上大きいので、データ圧縮プロセスが必要となる。伝送帯域幅が減少されて、受信器での復号化リソースを最小限に保持することが、特に重要である。

従来の方法のいずれも、自動多視点ディスプレイに対するサンプリングおよびアンチエイリアシングに対処していない。従来の方法は、ディスプレイのサンプリングレートを考慮に入れておらず、再構成の間、サンプリングされたライトフィールドからエイリアシングを取り除くという問題を考慮しているだけである。その上、従来の方法のいずれも、圧縮システムまたは方法との関連においてサンプリングおよびアンチエイリアシングを採用していない。

［発明の概要］
この発明は、テレビおよびデジタルエンターテインメントに対して使用できる３次元ディスプレイ（表示）システムおよび方法を提供する。そのような表示システムは、高品質のライトフィールドデータを必要とする。カメラアレイを使用して入力ライトフィールドを取得し、離散的自動多視点ディスプレイ上に出力ライトフィールドをレンダリングする。しかし、ほとんどいつも、取得装置とディスプレイ装置とは、異なるサンプリングパターンを有する。

したがって、この発明はライトフィールドデータを再サンプリングする。ところで、再サンプリングは、エイリアシングアーティファクトの傾向がある。ライトフィールドデータの表示で最も不穏なアーティファクトは、インターパースペクティブ（相互透視）なエイリアシングによって引き起こされる。

この発明は、そのようなインターパースペクティブエイリアシングを最小にする、ライトフィールドの再サンプリング方法を提供する。本方法は、ライトフィールドの高品質なレンダリングを自動多視点表示装置上に提供する。本方法は、ライトフィールド再構成フィルタと、ディスプレイ（表示）装置のサンプリンググリッド（格子）によって決定されるディスプレイ（表示）プレフィルタとを結合する。

従来の方法と比べて、この発明の再サンプリング方法は、深度情報を必要としない。この発明方法は、高品質のレンダリングを生成するために、効率的に複数のフィルタリングステージを結合する。この発明方法は、レンズのディスプレイ画面またはパララックス−バリアディスプレイ画面上にライトフィールドを表示するために、使用できる。

［システム概要］
図１は、この発明の実施の形態１によるライトフィールド取得システム１００を示している。複数のカメラ１１５は、シーン１１０の一連のイメージ１０１、たとえば、ビデオ（映像）、を取得する。それらのカメラは、水平な線形アレイとして配置され得る。好ましくは、カメラは互いに同期を取られている。入力画像系列は、この発明の方法１０５により処理される。その処理は、一連の出力画像１０２を生成するために、再構成、再サンプリング、プリ（前置）フィルタリング、およびサンプリングの各工程を含む。そして、出力画像が、複数のプロジェクタ１２５により自動多視点表示装置１２０に表示される。また、それらのプロジェクタは、互いに同期され、且つ水平な線形アレイとして配置されうる。表示装置１２０は、プロジェクタとビューイングゾーン（視聴域）１３０とに対面する側で、上下方向に指向されたレンズ状スクリーン１２２の上に設けられたパララックスバリア１２１を含む。

取得された入力画像１０１における離散的な入力サンプルには低い空間分解能と高い角度分解能があり、また、表示された出力画像１０２における離散的な出力サンプルには、高い空間分解能と低い角度分解能があるので、アーティファクトの無い表示を生成するために、再サンプリングが必要である。

［方法の概要］
図１Ｂに示されているように、本方法１０５は３つの工程で進む。一般に、我々は信号およびフィルタを周波数ドメイン（領域）で表す。まず最初に、連続信号１５２が入力画像１０１から再構成１５０される。我々は公知の再構成フィルタを適用する。次に、我々は、信号を表示座標へ再パラメータ化１６０して、再パラメータ化されたライトフィールド１６１を生成する。その後、最後の工程１７０では、信号は、ディスプレイ（表示）ピクセル格子のナイキスト限界に適合させるために、プレ（前置）フィルタにかけられて、出力画像として表示ピクセル格子に抽出される。

［表示パラメータ化］
図２は、マルチビューオートマルティスコーピック（多視点自動立体）表示装置１２０に対するパラメータ化を示している。このパラメータ化は、あらゆる配置場所と方向に対してビューイングゾーン１３０でライトアレイ（光配列）を再生させることを試みる。
我々は２つの平面の交差部で光線をパラメータ化する。表示装置１２０に対して、我々は、パララックスバリア面１２１をｔ座標として、および高解像スクリーン１２２をｖ座標として使用する。尚、光線のｖ座標はｔ平面との交差部に対すものである。スクリーン１２２のピクセル間隔はΔｖ、バリア１２１の空隙の間隔はΔｔ、スクリーンとバリアの間の分離はｆであり、また、深度は、一般的に、ｚで示される。

１箇所でｔ−平面と交差する全ての光線は１つのマルチビューピクセルに対応し、また、ｖ−平面との各交差部は視点依存サブピクセルである。我々は、マルチビューピクセルの個数を空間分解能と呼び、１マルチビューピクセル当たりの視点依存サブピクセルの個数を角度分解能と呼ぶ。

図３に示されているように、表示光線は光線空間で、より高次元の格子を形成する。ほとんどの先行する物理的な表示は、図３に示されているように、４辺形のサンプリング格子に対応しない。図２の各光線は、図３の１つのサンプル点３０１に対応している。ほとんどの自動多視点表示は、ホリゾンタルパララックス（地平視差）のみを与える、すなわちディスプレイはｖ−平面上の水平方向にのみサンプルを行う。したがって、我々はｔ−平面上の各走査線を独立して処理でき、それは２次元光線空間に通じる。

我々は、ｖ＝ｃｏｎｓｔで１片の光線空間を表すのに、「ディスプレイビュー」という用語を使用する。尚、ディスプレイビューはシーンの平行射影である。一般性を損なわなければ、私たちは、平面ｖおよびｔの間の距離ｆが１に正規化されると仮定する。３次元ディスプレイのこのような光線空間の解釈は、我々がそれらのバンド幅、被写界深度、およびプリフィルタリングを理解することを可能にする。

［バンド幅］
図４に示されているように、図３のサンプリング格子はディスプレイで表すことができるバンド幅に厳しい限界値を課す。これはナイキスト限界として知られている。私たちは、角度的および空間的な周波数をφ およびθ」で表し、サンプル間隔をΔｖおよびΔｔで表す。
そして、表示バンド幅Ｈは次式（１）で与えられる。

［被写界深度］
ディスプレイの被写界深度は、φおよびθ軸の任意の相対的なスケーリングを有する、四角形状のバンド幅の対角線により与えられる。我々は、通常、空間的方向（θ軸）において、角度的方向（φ軸）におけるよりも２桁大きな、それら２軸の相対的な分解能を反映するスケーリング（尺度）を選択した。

一定深度のシーンのライトフィールドのスペクトルすなわちレイスペース（光線空間）信号のスペクトルは線φ／ｚ＋θ＝０で与えられる。ここで、ｚは、図２に示されるように、ｔ−平面からの距離である。深度｜ｚ｜ ≦ Δｔ／ Δｖのシーンに対して、スペクトル線は四角形状の表示バンド幅と左右の垂直な境界で交差する。これは、これらのシーンが表示の最も高い空間分解能θ＝π／Δｔで示され得ることを意味する。しかし、｜ｚ｜＞Δｔ／Δｖのシーンに対しては、スペクトルは表示バンド幅と水平境界で交差する。その結果、それらの空間周波数はθ＝π／Δｖに減少する。これは表示の空間分解能よりも低いので、これらのシーンはぼやけて見えるであろう。

この振る舞いは、写真被写界深度の影響およびライトフィールド写真術における正確な再焦点合わせ領域と同様である。領域｜ｚ｜≦Δｔ／Δｖは、３次元ディスプレイにより最大の空間分解能で再生されることができる領域である。我々は、これをディスプレイの被写界深度と呼ぶ。ライトフィールド写真術と同様に、被写界深度は、１／Δｖすなわち角度寸法におけるナイキスト限界値に比例する。

利用可能な表示は非常に小さな角度バンド幅を有するので、表示は浅い被写界深度を示す。たとえば、Δｖ＝０．０６２５ｍｍおよびΔｔ＝２ｍｍであれば、被写界深度は±３２ｍｍだけである。これは、表示面から３２ｍｍより大きな距離に在るように見える如何なるシーン要素もぼやけることを意味する。視点依存サブピクセルに対してピッチが０．２５ｍｍであり、高解像スクリーンとパララックスバリアとの間の距離が４ｍｍであれば、これは８つのビュー（視点）と約２５度の視野に対応する。これは非常に小さい範囲のように思われるが、ビューイング（視聴）ゾーンにおいて数メータまでの視聴距離に対して奥行（深度）知覚の説得力がある幻想を引き起こすのには十分である。

与えられたディスプレイに対してシーンを特徴付けるために、ディスプレイの被写界深度に対してシーン深度を特定することが有用である。興味深いことには、被写界深度に対するシーン深度の比率（ｄ（ｚ）＝ｚΔｖ／Δｔ）はディスプレイ上のビューの間のディスパリティ（視差）に対応する。換言すると、シーン深度とビュー間の視差は交換可能である。この定義によれば、最大視差ｄ＜１を有するシーンはディスプレイの被写界深度内に在る。所与の視差ｄ＞１は、空間帯域幅が１／ｄの比率だけ減少されることを意味する。

［プレ（前置）フィルタリング］
連続信号をサンプリングするとき、エイリアシングを避けるために、信号をバンド制限する必要がある。式１から、これが、３次元ディスプレイに対して、四角形状の表示バンド幅の外側の入力の全ての部分を捨てる表示プレフィルタＨのスペクトルに入力スペクトルを掛けるという簡単な事柄であることが分かる（図４の右を参照）。尚、このプレフィルタは、表示格子によるエイリアシングだけを扱い、ライトフィールド取得の間に起こり得るエイリアシングを考慮しないことに注意すべきである。

３次元ディスプレイの従来のバンド幅分析は、この発明の実施の形態による信号処理とは対照的に、ほとんど波動光学または幾何学的基準に基づいている。波動光学は、回折効果を研究するためには役に立つが、回折限界から遠く離れて作動する離散的な３次元ディスプレイを分析するのには有効でない。

我々の手法と対照的に、従来の技術は、シーン深度に関する明白な知識を必要とする表示バンド幅のモデルを導き出す。それらの従来技術は、２次元入力画像の深度に依存するフィルタリングを唱道する。各２次元ビューを個別に帯域制限することは、フィルタリングが空間的に変動することを要求されるので、難しい。１つの解は、そのシーンにおける最大深度に相当する線形フィルタを各ビューに適用することである。ところで、それは、利用可能な表示バンド幅の大部分を浪費し、酷くぼやけた結果に通じる。対照的に、我々の方法では、プレフィルタリングは、光線空間での直線的な操作である。

我々のプリフィルタリングを行わなければ、エイリアシングはゴーストアーティファクトとして現れる。我々の再サンプリングは、ゼロディスパリティ（ゼロ視差）平面の周りの、すなわちディスプレイの光線空間パラメータ化におけるｔ−平面の周りの、空間周波数を保存する。

［３次元ディスプレイのための再サンプリング］
以上で、自動多視点ディスプレイのバンド幅を分析し、エイリアシングを避けるために連続入力信号をどのようにプレフィルタリングする必要があるかについて分析した。しかし、実際には、ライトフィールドはサンプル信号として表わされ、通常、それらサンプル信号は、カメラアレイを使用して取得される。サンプリングされたライトフィールドを自動多視点ディスプレイ上に示すために、入力ライトフィールドのサンプル１０１が、そのディスプレイのサンプル１０２すなわちピクセルにマップされる必要がある。

残念ながら、カメラアレイや自動多視点ディスプレイなどの典型的なライトフィールド取得装置のサンプリングパターンは、光線と１対１対応にならない。したがって、自動多視点ディスプレイ上にライトフィールドを示すことは、再サンプリング操作を含む。

さて、ライトフィールド取得およびライトフィールド表示中に関わる両サンプリング工程、すなわち、シーン取得中に起こるサンプリング、およびカメラのサンプルを表示ピクセルにマッピングするときに行われるサンプリング、によるエイリアシングアーティファクトを避ける再サンプリングフレームワークついて説明する。

我々の技術は、Ｈｅｃｋｂｅｒｔにより記述され、本明細書中に引用により援用される再サンプリング方法論（ＦｕｎｄａｍｅｎｔａｌｓｏｆＴｅｘｔｕｒｅＭａｐｐｉｎｇａｎｄＩｍａｇｅＷａｒｐｉｎｇ，Ｕｃｂ／ｃｓｄ８９／５１６，Ｕ．Ｃ．Ｂｅｒｋｅｌｅｙ，１９８９）に基づいている。ところで、その再サンプリングは、コンピュータグラフィックにおけるテクスチャマッピングのためのものである。対照的に、我々は、現実世界のライトフィールドを再サンプリングする。

我々は、どのようにして入力ライトフィールドを再パラメータ化して、それをディスプレイと同じ座標系で表わすかについて説明する。これは、以下に述べるように、我々が再構成とプリフィルタリングとを結合する再サンプリングフィルタを導き出すのを可能にする。

［再パラメータ化］
我々の結合された再サンプリングフィルタを導き出す前に、我々は、入力ライトフィールドおよび３次元ディスプレイに対する共通のパラメータ化を確立する必要がある。我々は、以後の説明を、ライトフィールドパラメータ化がディスプレイに平行である最も一般的な場合に制限する。

カメラおよび焦点面の入力座標は、ｔ_ｉｎおよびｖ_ｉｎによってそれぞれ指定され、ｔ_ｉｎ軸からの距離または深度はｚ_ｉｎにより指定され、サンプリング間距離はΔｔ_ｉｎおよびΔｖ_ｉｎにより指定される。また、ｔ_ｉｎ軸はカメラベースラインとも呼ばれる。同様に、我々は、ディスプレイ座標ｔ_ｄ、ｖ_ｄ、ｚ_ｄ、Δｔ_ｄ、およびΔｖ_ｄを使用する。一般性を損なわなければ、我々は、ディスプレイ入力および入力ライトフィールドの両方に対するｔ−平面およびｖ−平面間の距離が１に正規化されるものと仮定する。

入力およびディスプレイ座標の関係は単一のパラメータｆ_ｉｎにより与えられ、それはカメラ平面ｔ_ｉｎとディスプレイのゼロ視差平面ｔ_ｄとの間の距離である。この変換は光線空間におけるシャー（ずれ）に対応している。

Ｍはこの式の中央部における２×２マトリクスである。
自動多視点ディスプレイは、通常、高い空間分解能、たとえば１走査線当たり数百のマルチビュー（多視点）ピクセル、および低い角度分解能、たとえば、約１０の視点依存サブピクセル、を有する。対照的に、取得されたライトフィールドは、低い空間分解能、たとえば数十のカメラ、および高い角度分解能、たとえば１走査線当たり数百のピクセル、を有する。

図５に示されているように、これは、非常に異方性であり、且つお互いに対してねじれた２つのサンプリング格子に通じる。図５では、サンプル５０１はディスプレイ走査線サンプルを表し、またサンプル５０２はカメラ走査線サンプルを表す。

［結合された再サンプリングフィルタ］
図６は、再サンプリング方法をさらに詳細に示す。左側が入力パラメータ化であり、右側が出力パラメータ化であり、下側が取得空間から表示空間までの再パラメータ化である。図６は、象徴的に入力スペクトル６１１、レプリカ６１２、およびフィルタ６１３を示している。

図６に示されるように、３次元ディスプレイアンチエイリアシングのための再サンプリング方法は、周波数ドメイン（領域）における信号およびフィルタを表す３つの工程で進む。まず最初に、連続信号が、角度および空間周波数φ_ｉｎおよびθ_ｉｎで表される、最初の入力パラメータ化６０１で与えられた入力データ１０１から再構成１５０される。

この工程におけるエイリアシングの問題を避け、入力信号の最適な利用を図るために注意しなければならない。我々はライトフィールドレンダリングのために公知の再構成フィルタを適用する。（Ｓｔｅｗａｒｔｅｔａｌ、”Ａｎｅｗｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｉｌｔｅｒｆｏｒｕｎｄｅｒｓａｍｐｌｅｄｌｉｇｈｔｆｉｅｌｄｓ”、ＥｕｒｏｇｒａｐｈｉｃｓＳｙｍｐｏｓｉｕｍｏｎＲｅｎｄｅｒｉｎｇ，ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＰｒｏｃｅｅｄｉｎｇＳｅｒｉｅｓ，ｐｐ．１５０−１５６，２００３、およびＣｈａｉｅｔａｌ、”Ｐｌｅｎｏｐｔｉｃｓａｍｐｌｉｎｇ”、ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ，ＳＩＧＧＲＡＰＨ２０００Ｐｒｏｃｅｅｄｉｎｇｓ、ｐｐ．３０７−３１８、を参照。両者を本明細書中に引用により援用する。）

これらの技術は、隣接するレプリカと重なり合う部分を捨てつつ、サンプリングされたスペクトルから中央のレプリカの最大領域を抽出する。

次に、我々は、上述のマッピングを使用して、再構成された信号を、φ_ｄおよびθ_ｄによって表されたディスプレイ座標６２１へ再パラメータ化１６０する。

そして、最後の工程１７０では、信号は、上述のように、表示ピクセル格子のナイキスト限界に適合させるために、プレフィルタされて、表示ピクセル格子にサンプルされる。プリフィルタリングは、ディスプレイ座標におけるサンプル信号のレプリカが重なり合わないことを保証する。これのより、ぼやけ（ブレ）効果が避けられる。

我々は、いま、上述した３つの工程を結合することによって、統合された再サンプリングフィルタを導き出す。我々は、実用化に対してより役に立つ空間領域で作業する。我々は以下の通り作業を進める。すなわち、入力ライトフィールド１０１のサンプルξ_ｉ、ｊを考えると、我々は連続したライトフィールドｌ_ｉｎ１５２を再構成１５０する。

ここで、ｒはライトフィールド再構成カーネルを表す。
式（２）を使用して、我々は、次式（４）により、再構成されたライトフィールド１５２をディスプレイ座標１６１へ再パラメータ化１６０する。

ディスプレイ座標で表わされた、再構成されたライトフィールドを、ディスプレイプレフィルタｈで畳み込んで、次式（５）のバンド（帯域）限定された信号（以下、バンド限定信号と呼ぶ）を生成する。

この信号をディスプレイグリッド（表示格子）上にサンプリングする場合、如何なるエイリアシングアーティファクトも発生しない。

上記の３つの工程を結合することによって、次式（６）のように、バンド限定信号を入力サンプルの加重和として表す。

重み付けカーネルは、所謂、再サンプリングフィルタである。それは、ディスプレイ座標で表された再構成カーネルのコンボルーション（畳み込み）として定義され、そのプレフィルタは次式（７）により表される。

我々は、従来のガウス関数を使用して、全てのライトフィールド再サンプリングフィルタを実現した。

再構成フィルタとプレフィルタの両方が高異方性であるので、できるだけ信号帯域幅を保持するために、慎重にフィルタを調整する。尚、式（２）は［φ_ｉｎ、θ_ｉｎ］＝［φＳ、θ_ｄ］Ｍ^−１を含意することに注意すべきである。したがって、入力スペクトルは垂直軸に沿って剪断される。

また、我々は、線θ_ｉｎｆ_ｉｎ＋φ_ｉｎ＝０（深度ｚ_ｉｎ＝ｆ_ｉｎに相当する）がディスプレイのゼロ視差平面にマップされることに注目する。したがって、入力座標で表されるディスプレイの被写界深度は、カメラからの距離ｆ_ｉｎ＝Δｔ／Δｖにある。これは、カメラ平面とディスプレイ平面との間の距離ｆ_ｉｎが、対象となる物体に対して、ｚ_ｉｎ−ｆ_ｉｎ＝ｚｄ＜Δｔ／Δｖとなるように選択されることを意味する。

［カメラベースラインおよび被写界深度］
上述したような、入力ライトフィールドと出力ライトフィールドとの関係は、ディスプレイが均等にスケーリングされたシーンに対するバーチャル（仮想）ウィンドウとして働くことを含意する。ディスプレイは、異なった、通常はより小さな、スケール（縮尺）でシーンのライトフィールドを再生させる。しかし、これを実現するのは、しばしば、望ましくないし、実際に可能でもない。

シーンの深度領域が比較的浅いディスプレイの被写界深度を遙かに超えていることは、珍しくない。このことは、シーンの大部分がディスプレイバンド幅の外側であることを意味し、それは酷くぼけたビューにつながる虞がある。さらに、野外のセット等のように、対象物体がカメラから遠く離れているシーンに対して、上記仮定は、非常に大きなカメラベースラインが必要とされることを意味する。また、それは、ディスプレイの観察者によって見られる一対の立体ビューが、現実のシーンにおける観察者の２つの目より遙かに離れている、物理的に遠く離れているカメラに相当することを意味するであろう。

これらの問題は、カメラベースラインの寸法を変えることによって、解決できる。これは、シーンの表示された深度を減少させる入力ライトフィールドの追加の１次変換として表すことができる。この追加の自由度により、我々が、焦点の合うことを必要とする入力シーンにおける望ましい深度範囲を特定することが可能になる。我々は、この深度範囲をディスプレイ被写界深度にマッピングする、所要のカメラベースラインスケーリングを推論する。

［カメラベースラインのスケーリング］
図７に示されるように、取得の間にカメラベースラインｔ_ｉｎ７０１を変更することは、表示された構成を変換することに対応する。図７では、実線は取得ジオメトリを示しており、また点線はディスプレイしジオメトリを示している。

観察者７１０は、与えられた位置で、カメラベースラインの中心により近いカメラによって取得される透視図を見る。すなわち、我々は、ベースライン平面ｔ_ｉｎとの交差部が倍率ｓ＞１によりスケーリング（拡大）され、ディスプレイのゼロ視差平面との交差部（すなわちｔ_ｄ−平面）が保存されるように、各取得されたカメラ光線を再マッピングする。

このマッピングは入力光線空間の線形（１次）変換に対応しており、また、光線空間の如何なる線形（１次）変換もシーンジオメトリの射影変換に対応する。図７に示された変換のために、射影変換は次式（８）のようになる。

すなわち、シーンにおける点（ｘ、ｚ）は点（ｘ’／ｗ’、ｚ’／ｗ’）にマッピングされる。また、図７にシーンジオメトリの射影変換を示す。このシーン変換は、ステレオビュー融合を支援するのに使用される立体ディスプレイで使用される深度削減法と密接に関連する。この変換は無限のポイント、すなわちｚ＝∞、を有限の深さｚ’／ｗ’＝（ｆ_ｉｎｓ／（ｓ−１＋ｆ_ｉｎ）へ移動する。

さらに、ｓが無限へ近づくとき、ｚ’／ｗ’はｆ_ｉｎに近づく。これは、シーン深度がディスプレイのゼロ視差平面に向かって圧縮されることを意味する。我々は、図７に示されるマッピングを含めることにより、ディスプレイ座標から入力座標への変換を一般化する。この変換は次式（９）のようになる。

我々は、このマッピングが自由なパラメータｆ_ｉｎおよびｓによって決定されることを強調するために、それをＭ（ｆ_ｉｎ、ｓ）と呼ぶ。

［シーン被写界深度の制御］
実際的な適用では、ユーザは、シーンにおける所与の深度範囲がディスプレイの被写界深度にマッピングされて、シャープ（鮮明）に見えることが保証されることを望んでいる。限定された深度範囲内のシーン要素のバンド幅が２つのスペクトル線で制限されていることを想起すべきである。さらに、ディスプレイの被写界深度は、四角形状のバンド幅の対角線により与えられる。式（９）の２つのフリー（自由）パラメータ、カメラベースラインをスケーリング（拡大、縮小）するためのｓ、およびシーンに対してディスプレイのゼロ視差平面を位置決めするためのｆ_ｉｎ、を使用して、我々はこれらの２組の線を配列して、期待される効果を発揮するマッピングを決定する。

我々は、２つの対応するペア（対）のスペクトル線を等しくすることにより、マッピングを決定する。すなわち、第１のペアはディスプレイ座標にマッピングされた、ユーザにより特定された深度範囲を限定し、また第２のペアはディスプレイの被写界深度を定義する。我々は、ユーザがディスプレイ上に焦点を結ぶように望む、最小および最大のシーン深度ｚ_ｍｉｎおよびｚ_ｍａｘをｚ_{ｆｒｏｎｔ}およびｚ_ｂａｃｋで表す。パラメータｓおよびｆ_ｉｎに対する解は、それぞれ次式（１０）、（１１）で表される。

［取得の最適化］
３次元ディスプレイ上に示されるライトフィールドのスペクトルとエイリアシングは、カメラの数、それらの間隔、それらの開口、シーン深度範囲、およびディスプレイ解像度等の多くの取得パラメータ（取得パラメータ化）およびディスプレイパラメータ（ディスプレイパラメータ化）に依存する。３次元映写技師の決定は、芸術的な選択、物理的制約、および取得バンド幅とディスプレイバンド幅との最適利用の願望、の組合せによって行われる。したがって、我々は、これらの要素がどのように相互作用して、３次元ディスプレイに対する最終的なスペクトルおよびエイリアシングにどのように影響を及ぼすかを分析する。

まず最初に、我々は、カメラ開口の、取得されたバンド幅に対する影響について説明する。次に、我々は、全ての取得パラメータとディスプレイパラメータの結果について説明し、取得の間、パラメータの選択を最適化するのに、どうようにこの分析を使用できるかを示す。

［有限開口カメラ］
上述したチャイ外は、理想化されたピンホールカメラで取得されたライトフィールドのスペクトルについて述べた。ここで、我々は、現実のカメラの有限開口がピンホールライトフィールドのスペクトルにバンド（帯域）制限効果を持つことを示す。我々の導出は、図２、３、５および７に示したものと若干異なるパラメータ化に基づいている。

図８Ａに示すように、我々は、カメラの共通の焦点面としてｔ−平面を選択し、またｔ_ｉｎを距離ｄだけ離れたレンズ８０１の平面として、ｖ−平面をカメラセンサを含む平面として、それぞれ選択する。平面ｖ_ｉｎおよびｔ_ｉｎは、上述したように、距離１だけ離れている。

我々は、大きさａの開口がカメラセンサから距離ｆだけ離れてレンズ上に存在すると仮定する。これは正確には現実のレンズに対する場合ではないが、誤差は我々の目的に対しては無視しうるものである。薄肉のレンズモデルによると、センサ平面で取得された如何なる光線ｌ（ｖ、ｔ）も、次式（１２）に示すように、レンズを透過する全ての光線ｌ⁻（ｖ、ｔ）の重み付け積分に対応する。

ここで、積分範囲は、図８Ａに示されるように、開口に対応し、また、αはセンサ平面の法線と光線との間の角度である。我々は、４次元ライトフィールドの代わりに２次元ライトフィールドで、且つ２次元レンズおよびセンサの代わりに１次元レンズおよびセンサで作業しているが、我々の導出はより高い次元の場合にも等しく適用される。

そして、我々がｖ−平面に平行な平面でレンズを「摺動させる」と仮定すると、これを畳み込み（１３）として表すことができる。

ここでｂ（ｖ、ｔ）は開口フィルタである。我々は、ｃｏｓ^４の項を無視して、ｂを次式（１４）のように定義する。

フーリエドメイン（領域）では、式（１３）における畳み込みはシーンライトフィールドとカメラ開口フィルタのスペクトルの積である。我々は、図８Ｂに示されるように、θに沿って変換（移動）されたφにおける正弦基数関数（ｓｉｎｃ）であるカメラ開口フィルタのスペクトルを、θに沿って変換（移動）されたφにおける幅２πｄ／（ａ（ｆ＋ｄ））のボックス８０２により近似する。

上記の再サンプリングに対して使用されたと同様の変換を使用して、我々はいま座標を入力ライトフィールドのパラメータ化に戻し、その結果、図８Ｃに示されたバンド幅８０３をもたらす。距離ｄにフォーカスされた有限開口ａを有するレンズを通して観察された連続したライトフィールドは、幅２π／ａおよび傾き−ｄの剪断されたスラブ（平板）にバンド限定される。

［バンド幅利用および最小サンプリング］
実際的応用では、利用可能なカメラの数は制限される。また、カメラの配置も制約されうる。したがって、制限され且つ制約された資源に対する最適な装置構成を決定することが望まれる。我々の再サンプリング技術で、セットアップを推測することができる。我々は、取得パラメータを考慮して、再サンプリングフィルタの最適な「形状」を決定し、ディスプレイバンド幅に対するその再サンプリングフィルタのバンド幅を分析することができる。

我々は、サンプリングされた入力信号１０１におけるエイリアシングが、利用可能なバンド幅を減少させる主な要因であることに気付いた。カメラの定数を考えて、このバンド幅を増大させるための２つの主なオプションがある。まず最初に、我々はカメラベースラインを減少させることができ、これにより、ディスプレイにマッピングされるとき、シーンの深度を小さくする。この場合、入力スペクトルは深度減少で角度方向φ_ｄにより狭くなる。明らかに、カメラベースラインをあまりにも減少させすぎると、シーン深度が感じ取れなくなる虞がある。２番目に、我々はカメラ開口を増大させることができる。しかし、カメラ開口が大き過ぎると、取得された被写界深度がディスプレイ被写界深度より浅くなる虞がある。我々は、カメラの焦点深度がｆ_ｉｎに等しくなるように選択する。それは、取得された入力スペクトルのスラブが四角形状のディスプレイバンド幅に平行であることを意味する。

代わりのセットアップでは、与えられたシーンを取得し、物体を或る程度のフォーカス深度に保つことが、望ましい。したがって、ディスプレイに高品質の結果を実現するために必要とされる最小のサンプリングレートが決定される。直観的には、再構成エイリアシングがディスプレイのバンド幅内に現れないとき、サンプリングレートは与えられたディスプレイに対して充分である。取得サンプリングレートをこの評価基準を超えて増大させても、出力品質は向上しない。

我々は、入力座標からディスプレイ座標へのマッピングを決定する、焦点距離ｆ_ｉｎとベースラインスケーリングｓを決定するために、式（１１）を使用する。次に、我々は、入力スペクトルのレプリカの最もタイトなパッキングを見い出すことによって、非中心レプリカのいずれもがディスプレイプレフィルタと重なり合わないように、最小のサンプリングレートを導き出す、すなわち、カメラの最小数および最小分解能を導き出す。これにより、所要のカメラの個数をディスプレイの角度分解能に減少させることが可能である。しかし、これを実現するのは、より大きなカメラ開口が必要とされるので、しばしば非実用的である。

［ビュー挿入］
再構成工程１５０および再パラメータ化工程１６０に代わるものとして、サンプリングされた入力ライトフィールド１０１から再パラメータ化されたライトフィールド１６１を決定するために、ビュー補間を使用することもできる。深度マップが利用可能であれば、再投影を使用して、たとえば、ブーラ（Ｂｕｅｈｌｅｒ）外の非構造化ルミグラフレンダリングプロセス、「ＵｎｓｔｒｕｃｔｕｒｅｄＬｕｍｉｇｒａｐｈＲｅｎｄｅｒｉｎｇ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＳＩＧＧＲＡＰＨ，ｐｐ．４２５−４３２，Ａｕｇ．２００１、（本明細書中に引用により援用される）を使用して、ビュー補間を実現することができる。

エイリアシングアーティファクトを避けるために、信号はｖ−平面に沿ってオーバ（過剰）サンプリングされる。オーバサンプリングされた信号は、ディスプレイバンド幅内でエイリアシングアーティファクトが減少される。ビュー補間技術は、ディスプレイが実際に提供するより多くのビューを生成するために使用される、すなわちｖ−平面においてより小さな間隔でビューを生成するために使用される。フィルタリングの後に、信号は、ディスプレイの元の分解能へサブ（副）サンプリングされる、すなわちディスプレイパラメータ化される。

スペクトルの非中心レプリカのいずれもディスプレイプレフィルタと重なり合わないならば、エイリアシングは防止される。我々は、ディスプレイ分解能でサンプリングされたマルチビュー信号はｄピクセルの最大視差を有すると仮定する。スペクトルの傾きは最大視差ｄに対応する。したがって、スペクトルの傾きの水平距離は、フィルタとのオーバラップ（重なり合い）を取り除くため、少なくとも（ｄ＋１）／２ピクセルである必要性がある。これは、（ｄ＋１）／２のオーバサンプリング率を含意する。したがって、ｋビューのディスプレイに対して、補間するビューの総数は少なくともｋ^＊（（ｄ＋１）／２）ビューである。

［ディスプレイプリフィルタリング］

マルチビュービデオ（多視点映像）のプリフィルタリングは３次元ディスプレイのパラメータが既知であるシステムに対して適用でき、また、信号帯域幅は、圧縮前に、ディスプレイの能力に適合させることが出来る。このタイプの処理はビデオゲームシステム或いはデジタルシネマアプリケーションに対して適用でき、また、それは伝送される信号の所要のバンド幅を最小にするのに役に立つ。

図９はディスプレイプリフィルタリング方法９００を示す。サンプリングされた入力ライトフィールド１０１はサンプリングされた出力ライトフィールド１０２を生成する方法１０５により処理される。サンプリングされた出力ライトフィールドはマルチビュービデオエンコーダ９０１に入力される。
そのエンコーダ９０１の出力は圧縮されたビットストリーム９０２である。その圧縮されたビットストリームは、後で再生するために、コンピュータで読取り可能な媒体９１０に保管（記憶）されたり、或いは、以下に詳述するように、スケーラブルなマルチビュービデオデコーダ１００１に伝送されることができる。

上記方法１０５の主要な目的は、データがディスプレイグリッドの分解能（解像度）でサンプリングされることを保証することにある。また、入力ライトフィールド１０１から、ディスプレイのナイキスト限界値を超える高周波コンテンツを取り除くことも重要である。これらの周波数はマルチビューディスプレイ上にエイリアシングとして現れるので、方法１０５におけるフィルタリング工程は画像品質を低下させない。しかし、方法１０５は、入力スペクトルの選択部分でエネルギを抑制することによって、圧縮効率に対してポジティブな効果を持っている。実験結果は、サンプリングされた出力ライトフィールド１０２を圧縮するバンド幅が、方法１０５が適用されずに入力ライトフィールド１０１が直接的に圧縮されるケースと比較して、２倍だけ減少されることを示している。

［スケーラブルなデコーディング（復号化）］
圧縮前にディスプレイ装置のパラメータにアクセスする手段を持っていない、コンシューマブロードキャスト（消費者放送）およびビデオ会議アプリケーション等のアプリケーションに対して、圧縮フォーマットは、様々なデコーディング（復号化）およびディスプレイ能力に適応するように設計される。そのようなシステムでは、圧縮フォーマットがデコーディング（復号化）リソースを最小にすることを可能にすることが重要である。

図１０は、方法１０５を実行する手段が後に続く、スケーラブルなマルチビュービデオデコーダ１００１を含む受信システム１０００を示す。スケーラブルなビットストリーム１００２およびディスプレイパラメータ（表示パラメータ化）９０３が、復号されたライトフィールド１００３を生成するために、スケーラブルなマルチビュービデオデコーダ１００１へ入力として提供される。そして、復号されたライトフィールド１００３は方法１０５を実行する手段に与えられて、サンプリングされた出力ライトフィールド１００４を生成し、それは３次元ディスプレイ（表示）装置１１２０上に表示１１１０され得る。

スケーラブルなデコーダ１００１は、ビュースケーラビリティおよび空間的なスケーラビリティの両方をサポートする。受信システム１０００における、スケーラブルなデコーダの主な利点は、表示装置にライトフィールドをレンダリングする前に適用された方法１０５で効率的なデコーディング（復号化）を容易にすることである。ディスプレイパラメータ（表示パラメータ化）９０３がスケーラブルなマルチビュービデオデコーダ１００１に提供され、それにより、１組のターゲット（目標）ビュー１０１１および復号されたライトフィールド１００３の各ターゲットビューに対する関連空間分解能（解像度）１０１２が決定される。

［ビュースケーラビリティ］
効率的な圧縮を行うことは、良い予測子を持つことに依存する。
時間的に隣接する画像間の相関関係はしばしば非常に強いが、空間的に隣接する画像を含むことは幾つかの利点を提供する。たとえば、速い物体動きの間、すなわち互いに隣接するビューに同時に既に存在する複数の物体が１つのビューに現れるとき、空間的に隣接する画像はシーンの非遮蔽領域で有用な予測子である。一例の予測構造が図１１に示されており、そこでは、概ね水平な実線が時間的予測と依存関係を示し、概ね垂直な点線が空間的予測と依存関係を示す。８つの時刻（ｔ_０−ｔ_７）に、５つのビュー（ｖ_０−ｖ_４）がある。尚、ビューは水平な時間次元で時間的に隣接しており、且つ垂直なビュー（視野）次元で空間的に隣接している。

ビュースケーラビリティは、ビュー次元における階層的な依存関係でマルチ−ビュー（多視点）ビデオを符号化することによって実現される。一例として、図１１に示されるように、各時刻に対して５つのビューを有する予測構造について考える。ディスプレイによりこれらのビューの内３つを復号することが必要とされるだけであるならば、最小の復号化条件を有する２つのオプション（選択肢）がある。

第１のオプションは、圧縮されたビットストリーム９０２の内の、選択された非目標ビューに対応する部分を選択的に捨てることである。たとえば、双方向の依存関係を有する２つのビュー、すなわちｖ_１およびｖ_３、が捨てられる。第２のオプションは、圧縮されたビットストリームにおいて、復号順序で後のビュー、すなわちｖ_３およびｖ_４、に対応する部分を捨てることである。第１のオプションはビュー間の相対的な視差を増大させ、その結果、必要な再サンプリング量を増大させる。したがって、サンプリングレートを最小にするためには、第２のオプションがこの例ではより良好な選択である。

この発明の実施の形態１では、図１０のスケーラブルなマルチビュービデオデコーダ１００１はビューのサブセット（部分集合）を復号し、この場合のサブセットのビューの数はディスプレイ装置によってサポートされたビュー数に正確に対応する。それらのビューは、サンプリングレートを最小にすべく、お互いの間隔が近接するように、選択される。すなわち、空間的に隣接しているビューの間のカメラベースライン距離も最小限である。

この発明の第２の実施の形態１では、スケーラブルなマルチビュービデオデコーダ１００１はビューのサブセット（部分集合）を復号し、この場合のサブセットのビューの数はディスプレイ装置によってサポートされたビュー数よりも少ない数に対応する。これは、多くの状況下で必要であるか、或いは望ましいかもしれない。

まず最初に、ディスプレイでサポートされたビューの数を出力するために必要なデコーディングリソースが利用できないか、或いは長時間の遅延を生じるならば、減少された数のビューだけを提供することができるであろう。２番目に、任意の位置に配置された、より大きな復号されたビューの数よりもむしろ、空間的に隣接するビューの間のベースライン距離が、デコーダの出力として、常に等しいことがより望ましいかもしれない。これらのインスタンス（実体）は、ビューの間の予測依存関係の直接の結果として生じてもよい。

この発明の第３の実施の形態１では、スケーラブルなマルチビュービデオデコーダ１００１はビューのサブセット（部分集合）を復号し、この場合のサブセットのビューの数はディスプレイ装置によってサポートされたビュー数よりも大きな数に対応する。これは、オーバサンプリングされた信号の品質を改良するためには望ましいが、より多くのデコーディングリソースとより高いバンド幅とを要求するであろう。以下にさらに詳細に説明する補助深度マップを使用することにより、複雑さおよびバンド幅に対する衝撃を緩和することができる。

［空間的なスケーラビリティ］
上述したように、各ビューの空間分解能は入力信号のスペクトルに影響する。入力スペクトルのレプリカの最もタイトなパッキングを見い出すことによって、非中心レプリカのいずれもがディスプレイプレフィルタと重なり合わないように、最小のサンプリングレートを導き出す。復号されるべきビューの数が前述のように決められ、カメラ開口等の取得パラメータ（取得パラメータ化）が固定されるならば、唯一の残りの自由度は空間分解能である。

この発明の実施の形態１では、スケーラブルなマルチビュービデオデコーダ１００１は直近のマッチをディスプレイ分解能に最も近いものを提供する空間分解能まで復号化を行う。
このようにして、高解像ビデオを完全に復号して、そのビデオをディスプレイの分解能にサンプリングする必要性は避けられる。その結果、スケーラブルなマルチビュービデオデコーダ１００１は、ディスプレイパラメータ９０３で示したディスプレイ分解能を超えてマルチ−ビュービデオの復号化をサポートする必要が無く、また、デコーダは必要なメモリおよび処理を最小にすることができる。

この発明の別の実施の形態１では、スケーラブルなマルチビュービデオデコーダ１００１は、圧縮されたビットストリームを、ディスプレイ分解能より高い空間分解能を持つ復号されたライトフィールド１００３に復号する。したがって、方法１０５は、空間分解能をディスプレイ分解能のそれへ再サンプリングすることを要求される。

［補足エンハンスメント情報］
オーバサンプリング率は２つの空間的に隣接するビュー間の最大視差に依存する。最大視差を得る１つの方法は、復号されたライトフィールド１００３に基づいて、受信システム１０００における視差を決定することである。これは、相当の複雑さを要求するので、リアルタイム受信器の実装のための好ましい解決策ではない。

従来のマルチビュービデオエンコーダは、空間的に隣接するビューにおける画像間の視差ベクトルを決定して、予測のためにこれらの視差ベクトルを利用している。したがって、既に行われている計算を活用することにより、エンコーダでの最大視差を決定することが可能である。

受信システム１０００に視差情報の信号を送る方法が要求される。Ｈ．２６４／ＡＶＣビデオ符号化規格との関連で、ＩＴＵ−ＴＲｅｃ．Ｈ．２６４ＩＳＯ／ＩＥＣ１４４９６−１０、「ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ」、２００５（本明細書に引用により援用される）を参照。復号化のためには要求されないが、デコーダのための有用な情報は、補足エンハンスメント情報（ＳＥＩ）メッセージで搬送される。ＳＥＩメッセージはビデオのコンテンツと同期して転送される。

この発明の上記実施の形態１によれば、入力サンプリングレートでの空間的に隣接する全てのビューの最大視差は、ＳＥＩメッセージの一部として信号で送信される。この発明の実施の形態１では、視差値は完全なピクセル分解能（解像度）の単位で表わされる。この発明の第２の実施の形態１では、視差値は、ハーフ（１／２）ピクセル分解能やクォター（１／４）ピクセル分解能等のサブピクセル分解能の単位で表わされる。

最大視差を表すシンタックスを含むＳＥＩメッセージが受信システム１０００に伝送され、そしてスケーラブルなマルチビュービデオデコーダ１００１により最大視差が復号される。最大視差は、シーンに依存するパラメータであるため、経時的に変動し得る。したがって、ＳＥＩメッセージを周期的に送ることができ、それだけ最大視差値が更新され得る。最大視差の新しい値は、オーバサンプリング率における変動を含意する。

空間的に隣接するビュー間のベースライン距離が、たとえば、複数のビューの或るサブセット（部分集合）を復号することによって変化するならば、最大視差値はそれだけ変更される。たとえば、図１１の３つのビューが合計５つのビューから復号される前述の例を参照。この例では、最大視差は５つのビューの間隔に対応している。空間的に隣接するビュー間の複数のカメラベースライン距離が等しく離れていると仮定すると、ビューのｖ_１とｖ_３に対応する部分が捨てられるか、或いは出力の一部として復号されないならば、空間的に隣接するビュー間のベースライン距離が倍にされるので、出力ビュー中の最大視差は倍にされる。

［深度マップ］
図１２は、この発明の実施の形態１によるライトフィールド取得システム１２００を示している。複数のカメラ１１５は、シーン１１０のサンプリングされたライトフィールド、すなわち一連のビデオの画像、を取得する。それらのカメラは、水平な線形アレイとして配置され得る。好ましくは、カメラは互いに同期を取られている。シーン表示１２０２は、サンプリングされた入力ライトフィールド１０１と深度マップ１２０１とを含む。深度マップは、当該分野で知られているように、特殊カメラ或いは取得ハードウェアにより、またはサンプリングされた入力ライトフィールド１０１で計算により、取得できる。深度マップビットストリームを生成するために、深度マップを符号化できる。

図１３では、深度マップ１２０１は、サンプリングされた入力ライトフィールド１０１とディスプレイパラメータ９０３と共に、方法１０５への入力として使用される。深度マップは、サンプリングされた出力ライトフィールド１０２を生成するために、方法１０５の処理工程内のビュー補間のために使用される。方法１０５が圧縮用のプレ（前置）フィルタとして使用されると、サンプリングされた出力ライトフィールド１０２は、出力ビットストリーム９０２を生成するために、マルチビュービデオエンコーダ９０１に入力される。

図１４は、方法１０５を実行する手段が後に続く、スケーラブルなマルチビュービデオデコーダ１００１を含む受信システム１４００を示す。スケーラブルなビットストリーム１００２およびディスプレイパラメータ９０３が、復号されたライトフィールド１００３を生成するために、スケーラブルなマルチビュービデオデコーダ１００１へ入力として提供される。また、シーン表示１２０２の深度マップ１２０１の符号化された表示である、深度マップビットストリーム１４０２も受信システム１４００に入力される。補助深度マップビットストリーム１４０２は深度デコーダ１４０１によって復号され、復号された深度マップ１４０３を作成する。復号されたライトフィールド１００３および復号された深度マップ１４０３は、サンプリングされた出力ライトフィールド１００４を生成するために、方法１０５に入力される。深度マップは、サンプリングされた出力ライトフィールド１００４を生成するために、方法１０５の処理工程内のビュー補間のために使用される。

図１５は、方法１０５を実行する手段が後に続く、スケーラブルなマルチビュービデオデコーダ１００１を含む受信システム１５００を示す。符号化された深度マップ１５０２を含むスケーラブルなビットストリーム１５０２およびディスプレイパラメータ９０３が、復号されたライトフィールド１００３および復号された深度マップ１４０３を生成するために、スケーラブルなマルチビュービデオデコーダ１５０１へ入力として提供される。復号されたライトフィールド１００３および復号された深度マップ１４０３は、サンプリングされた出力ライトフィールド１００４を生成するために、方法１０５に入力される。

受信システム１５００において、深度マップは、受信システム１４００において行われるように、サンプリングされた出力ライトフィールド１００４を生成するために、方法１０５の処理工程内のビュー補間のために使用される。あるいはまた、スケーラブルなマルチビュービデオデコーダ１５０１は、増大された数のビューで復号されたライトフィールド１００３を出力するために、復号化の間、復号された深度マップを使用できる。

［発明の効果］
この発明は、３次元ディスプレイ装置に対して、ライトフィールドをサンプリングしてエイリアス化するための方法およびシステムを提供する。この方法は、問題を信号処理方法で処理できるようにする光線空間分析に基づいている。この発明は、３次元ディスプレイのバンド幅を決定し、浅い被写界深度の挙動について説明し、線形フィルタリング光線空間によりアンチエイリアシングを実現することができることを示した。この発明は、３次元ディスプレイ上でエイリアス化せずに、制限された分解能で取得された高品質のシーンをレンダリングすることを可能にする再サンプリングアルゴリズムを提供する。

ディスプレイの被写界深度にマッピングされるべきであるシーンにおける深度範囲をユーザが特定するのを許容することによって、我々は現在のディスプレイの浅い被写界深度の影響を最小にする。この発明は、所与の取得およびディスプレイコンフィグレーション（構成）により提供され得る画像品質を分析するのに使用できる。

高品質ディスプレイに対して、最小のサンプリング条件が導き出される。この発明はマルチ−ビュー取得および３次元ディスプレイ装置のより良好なエンジニアリング（工学的処理）を可能にする。

また、この発明は、圧縮の前にフィルタとして再サンプリングプロセスを使用する方法およびシステムを提供する。３次元ディスプレイ上のエイリアシングに寄与する入力信号の高周波成分を抑制することによって、符号化されたマルチビュービデオはそのバンド（帯域）幅を低減される。

圧縮の間、ディスプレイパラメータが分からないインスタンス（実体）に対して、この発明は、様々な受信システムコンフィグレーション（構成）で再サンプリングプロセスを利用する方法およびシステムを提供する。ビュースケーラビリティと空間的なスケーラビリティが、コンピュータのリソースを最小にするのに使われる。

受信システムにおけるコンピュータの（計算）要求条件をさらに減少させるために、この発明は入力信号の最大視差を受信器に送信するための方法を記述している。

また、この発明は、深度マップを取得するための方法およびシステムについて記述している。深度マップは、オーバサンプリングされた信号を実現するために、再サンプリングプロセスにおいて使用される。深度マップは、符号化前にプリフィルタリングのために使用するか、或いは符号化されて、受信器に伝送されることができる。

この発明は好適な実施の形態を例に挙げて説明したが、この発明の精神および範囲内で種々の他の改変および変更を行うことができることを理解すべきである。したがって、添付の特許請求の範囲の目的は、この発明の真実の精神および範囲に含まれるような全ての変形例および変更例をカバーすることである。

この発明の実施の形態１による、３次元表示装置上に３次元ライトフィールドを取得して表示するためのシステムを概略的に示す平面図である。この発明の実施の形態１による、ライトフィールドを再サンプリング、アンチエイリアシングする方法のフローチャートである。この発明の実施の形態１による、ディスプレイ（表示）パラメータ化の概略図である。この発明の実施の形態１による、４辺形のサンプリンググリッド（格子）である。この発明の実施の形態１による、バンド（帯域）幅要件に関する概略図である。この発明の実施の形態１による、カメラとディスプレイ装置の走査線のサンプルを重ね合わせた概略図である。この発明の実施の形態１による、サンプリングおよびフィルタリング方法の概略図である。この発明の実施の形態１による、ライトフィールド取得ジオメトリからライトフィールド表示ジオメトリまでの変態の概略図である。この発明の実施の形態１による、カメラのパラメータ平面の概略図である。この発明の実施の形態１による、カメラ開口フィルタのスペクトルの近似の概略図である。図８Ｂに示された、スペクトルのバンド幅の概略図である。この発明の実施の形態１による、アンチエイリアシングおよび圧縮方法のフローチャートである。この発明の実施の形態１による、スケーラブルな復号化およびアンチエイリアシングする受信システムのブロック図である。この発明の実施の形態１による、マルチビュー（多視点）ビデオ予測構造の概略図である。この発明の実施の形態１による、深度マップを含むシーン表示を取得するためのシステムの概略図である。この発明の実施の形態１による、深度マップを使用したアンチエイリアシングおよび圧縮方法のフローチャートである。この発明の実施の形態１による、深度マップを別個に復号化するスケーラブルな復号化、およびアンチエイリアシングする受信システムのブロック図である。この発明の実施の形態１による、深度マップの復号化を含むスケーラブルな復号化、およびアンチエイリアシングする受信システムのブロック図である。

符号の説明

１０１入力ライトフィールド、１０２出力ライトフィールド、１１５カメラ、１６１ライトフィールド。

Claims

３次元ライトフィールドを取得、符号化、復号、表示するための方法であって、
入力ライトフィールドの入力サンプルを補間して再パラメータ化されたライトフィールドを生成する工程であって、前記入力サンプルが複数のカメラによって取得された３次元シーンの異なるビューであり、前記補間が取得パラメータ化および表示パラメータ化によって行われる工程と、
前記再パラメータ化されたライトフィールドに対して、光線空間での直線的な操作であるプレフィルタリングを行い、プレフィルタリングされたライトフィールドを生成する工程と、
前記プレフィルタリングされたライトフィールドをサンプリングして、３次元表示装置上に出力ライトフィールドとして表示するための、前記表示パラメータ化を有する出力サンプルを生成する工程と、
前記出力ライトフィールドを符号化して、圧縮されたスケーラブルなビットストリームを生成する工程と、
前記表示パラメータ化により、デコーダの前記スケーラブルなビットストリームを復号して、復号されたライトフィールドを生成する工程と、
前記表示パラメータ化により前記復号ライトフィールドを再サンプリングして、前記３次元表示装置に対する、サンプリングされたライトフィールドを生成する工程と、
前記復号化の間、前記圧縮されたビットストリームの、目標空間分解能より高い空間分解能に対応する部分を捨てる工程と、
を備え、
前記スケーラブルなビットストリームを復号するスケーラブルなデコーダは、目標ビュー、および前記復号されたライトフィールドの各目標ビューに対する目標空間分解能を決定し、
前記目標ビューは時間的な依存関係および空間的な依存関係を有し、
前記補間は前記シーンについて取得された深度マップを使用して前記３次元シーンの追加のビューを生成し、前記深度マップは、前記プレフィルタリングされたライトフィールドを生成する工程でのビュー補間のために使用され、
前記サンプリングは、オーバサンプリングされたライトフィールドにおけるインターパースペクティブエイリアシングを減少させる前記３次元表示装置の平面におけるオーバサンプリングであり、前記オーバサンプリングされたライトフィールドは、前記出力サンプルを表示するために前記表示パラメータ化によりサブサンプリングされ、
前記３次元表示装置のバンド幅は、前記３次元表示装置の角度的な周波数および空間的な周波数にしたがってパラメータ化される、
ライトフィールドを取得して表示するためのコンピュータにより実行される方法。
前記補間は非構造化光線空間プロセスを使用して前記入力サンプルを再投影することからなる、請求項１に記載の方法。
前記オーバサンプリングは（ｄ＋１）／２の比率で行われ、ここで、ｄは前記異なるビューの最大視差である、
前記オーバサンプリングは、前記シーンのスペクトルの傾きの水平距離を示す（ｄ＋１）／２の比率で行われ、ここで、ｄは前記異なるビューの最大視差である、請求項１に記載の方法。
前記目標ビューは前記カメラビュー間の最小ベースライン距離を有する１組のビューである、請求項１に記載の方法。
前記目標ビューは空間的に隣接するビュー間の等しいベースライン距離を有する、請求項１に記載の方法。
前記復号されたライトフィールドは前記３次元表示装置の空間分解能よりも高い空間分解能を有する、請求項１に記載の方法。
前記符号化は前記目標ビュー間の最大視差を決定し、
前記方法は、
前記最大視差を前記デコーダへ送信する工程、
をさらに備え、
前記最大視差情報は、Ｈ．２６４／ＡＶＣビデオ符号化規格にしたがって、補足エンハンスメント情報メッセージで送信される、
請求項１に記載の方法。
前記最大視差はピクセル分解能で表される、請求項７に記載の方法。
前記最大視差はサブピクセル分解能で表される、請求項７に記載の方法。
前記補間は前記シーンについて取得された深度マップを使用し、
前記方法は、
前記出力ライトフィールドを符号化して、圧縮されたビットストリームを生成する工程と、
前記深度マップを符号化して、深度マップビットストリームを生成する工程と、
をさらに備える、請求項１に記載の方法。
前記圧縮されたビットストリームをスケーラブルなデコーダに供給して、復号された出力ライトフィールドを生成し、また前記深度ビットストリームを深度デコーダに供給して、復号された深度マップを生成する工程、
をさらに備える、請求項１０に記載の方法。
前記圧縮されたビットストリームおよび深度ビットストリームが多重化されて、多重化されたビットストリームを生成する、請求項１０に記載の方法。
前記多重化されたビットストリームをスケーラブルなデコーダに供給して、復号された出力ライトフィールドおよび復号された深度マップを生成する工程、
をさらに備える、請求項１２に記載の方法。
前記復号された出力ライトフィールドは追加のビューを含む、請求項１３に記載の方法。
前記追加のビューは、前記復号化の間、前記復号された深度マップおよびビュー補間を使用して生成される、請求項１４に記載の方法。
３次元ライトフィールドを取得、符号化、復号、表示するためのシステムであって、
入力ライトフィールドの入力サンプルを補間して再パラメータ化されたライトフィールドを生成する手段であって、前記入力サンプルが複数のカメラによって取得された３次元シーンの異なるビューであり、前記補間が取得パラメータ化および表示パラメータ化によって行われる手段と、
前記再パラメータ化されたライトフィールドに対して、光線空間での直線的な操作であるプレフィルタリングを行い、プレフィルタリングされたライトフィールドを生成する手段と、
前記プレフィルタリングされたライトフィールドをサンプリングして、３次元表示装置上に出力ライトフィールドとして表示するための、表示パラメータ化を有する出力サンプルを生成する手段と、
前記出力ライトフィールドを符号化して、圧縮されたスケーラブルなビットストリームを生成する手段と、
前記表示パラメータ化により、デコーダの前記スケーラブルなビットストリームを復号して、復号されたライトフィールドを生成する手段と、
前記表示パラメータ化により前記復号ライトフィールドを再サンプリングして、前記３次元表示装置に対する、サンプリングされたライトフィールドを生成する手段と、
前記復号化の間、前記圧縮されたビットストリームの、目標空間分解能より高い空間分解能に対応する部分を捨てる手段と、
を備え、
前記スケーラブルなビットストリームを復号するスケーラブルなデコーダは、目標ビュー、および前記復号されたライトフィールドの各目標ビューに対する目標空間分解能を決定し、
前記目標ビューは時間的な依存関係および空間的な依存関係を有し、
前記補間は前記シーンについて取得された深度マップを使用して前記３次元シーンの追加のビューを生成し、前記深度マップは、前記プレフィルタリングされたライトフィールドを生成する手段でのビュー補間のために使用され、
前記サンプリングは、オーバサンプリングされたライトフィールドにおけるインターパースペクティブエイリアシングを減少させる前記３次元表示装置の平面におけるオーバサンプリングであり、前記オーバサンプリングされたライトフィールドは、前記出力サンプルを生成するために、前記表示パラメータ化によりサブサンプリングされ、
前記３次元表示装置のバンド幅は、前記３次元表示装置の角度的な周波数および空間的な周波数にしたがってパラメータ化される、
ライトフィールドを取得して表示するシステム。