JP7423595B2

JP7423595B2 - 画素の深度を推定するための方法、対応するデバイス、およびコンピュータプログラム製品

Info

Publication number: JP7423595B2
Application number: JP2021502893A
Authority: JP
Inventors: バボン，フレデリック; サバテール，ノイス; ホグ，マシュー; ドワイヤン，ディディエ; ボワソン，ギヨーム
Original assignee: インターデジタルシーイーパテントホールディングス，エスアーエス
Priority date: 2018-07-19
Filing date: 2019-07-17
Publication date: 2024-01-29
Anticipated expiration: 2039-07-17
Also published as: CN112771574A; EP3598390A1; CN112771574B; US20210279902A1; WO2020016299A1; US11257236B2; EP3824436A1; JP2021531581A

Description

本開示は、概して、ライトフィールド（ＬＦ）コンテンツ（例えば、ＬＦ画像またはビデオ）の分野に関する。

より具体的には、本開示は、ＬＦコンテンツ内の画像に属する画素の深度を推定するための方法に関する。

本開示は、専門家と消費者の両方にとっては、ＬＦキャプチャが使用される任意の分野において、関心を引くものであり得る。

ＬＦコンテンツは、
－すなわち、画像の行列に属する画像が、例えばプレノプティックカメラなどのメインレンズシステムに加えてマイクロレンズアレイを使用して単一のカメラから同時にキャプチャされたサブアパーチャ画像であるビデオ内のレンズレットベースのビデオとしても知られるプレノプティックビデオ、または
－すなわち、画像の行列に属する画像が、典型的には、いくつかのカメラを含むカメラアレイ（カメラリグとしても知られる）を使用して、複数のカメラアングルから同時にキャプチャされたビデオ内のマルチビュービデオ、のいずれかにある。

ＬＦコンテンツ内の画素の深度の推定は、ほとんどの場合、２つの異なる視点から同じシーンをキャプチャする少なくとも２つのビューの可用性に基づいて、そのような深度を判定するために古典的に使用されている既知の技術（例えば、マッチング技術）のＬＦコンテンツに属する各ビューへの重複になる。

しかしながら、２つの異なるビューの使用に基づくアプローチは、例えば、オクルージョンが発生する特定の場合において、信頼できる結果をもたらすことができない。実際、その場合、所与のビューによってキャプチャされたシーンの一部が他のビューではキャプチャされていない可能性がある。その場合、深度を判定することができないか、またはそのような既知のアルゴリズムによって異常値が返される。

例えば、Ｈ．Ｚｈｕ，Ｑ．ＷａｎｇａｎｄＪ．Ｙｕ，“Ｏｃｃｌｕｓｉｏｎ－ＭｏｄｅｌＧｕｉｄｅｄＡｎｔｉ－ＯｃｃｌｕｓｉｏｎＤｅｐｔｈＥｓｔｉｍａｔｉｏｎｉｎＬｉｇｈｔＦｉｅｌｄ，”ｉｎＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１１，ｎｏ．７，ｐｐ．９６５－９７８，Ｏｃｔ．２０１７の論文のようなオクルージョンが発生したとき、深度推定においてより信頼性の高い結果を得るために、ＬＦコンテンツにおいて利用可能な最大数の視点を使用するためのいくつかの提案がなされている。しかしながら、そのようなアプローチは、依然として改善することができる。

結果として、特にオクルージョンの存在下で、強制的な整合性を有する画素の深度を推定するために、ＬＦコンテンツ内の異なるビューに関連する情報を利用する方法が必要である。

また、推定された深度において高い品質を可能にするそのような方法を有する必要がある。

本開示は、ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するための方法に関する。そのような方法は、Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供するＮ個の画像のセット内の画像に対する深度マップを判定することと、
－Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－Ｎ個の深度マップのセットのうちの１つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、Ｎ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かを判断することと、
－候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを含む。

プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のＮ値よりも低い新しいＮ値で実行される。

本開示の別の態様は、ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するためのデバイスに関する。そのようなデバイスは、Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供するＮ個の画像のセット内の画像に対する深度マップを判定することと、
－Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－Ｎ個の深度マップのセットのうちの１つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、Ｎ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かを判断することと、
－候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む。

加えて、本開示は、前述のライトフィールドコンテンツのＭ個の画像の行列内の画素の深度を推定するための方法を実装するためのプログラムコード命令を含む、プログラムコード命令を含む、その上に記録され、プロセッサによって実行することができるコンピュータプログラム製品を含む非一時的コンピュータ可読媒体に関する。

実施形態の他の特徴および利点は、指示的かつ非網羅的な例によって与えられる以下の説明から、ならびに添付の図面から明らかになる。
一実施形態による、ＬＦコンテンツの画像の行列を例示する。一実施形態による、画像（または角度パッチ）の複数のセットを各々例示する。一実施形態による、画素の複数の空間パッチを各々例示する。一実施形態による、図１の画像の行列内の画素の深度を推定するための方法のフローチャートを例示する。一実施形態による、図１の画像の行列内の異なる画像に対応するあるビューから別のビューへの変化を例示する。図４の方法を実装するために使用することができる例示的なデバイスを例示する。

本文書のすべての図において、同じ参照符号は、類似の要素およびステップを示す。

次に、図１と関連して、一実施形態による、ＬＦコンテンツの画像１００ｍｉの行列について説明する。

画像１００ｍｉの行列は、ＬＦキャプチャシステムによって同時に、すなわち所与の瞬間にキャプチャされる４つの画像を含む。他の実施形態では、画像の行列は、ＬＦキャプチャシステムによって同時にキャプチャされた２つを超える任意の数の画像を含む。

図１に戻ると、画像１００ｍｉの行列の各画像は、同じシーンの異なるビューに対応する。その意味では、画像と対応するビューとの間に等価性がある。例えば、そのようなＬＦキャプチャシステムは、カメラアレイ（またはカメラリグ）であり、各画像は、カメラアレイの異なるカメラによって撮影される。他の例では、ＬＦキャプチャシステムは、プレノプティックカメラであり、画像の行列に属する画像は、サブアパーチャ画像である。

画像１００ｍｉの行列に属する画像の中に、現在の画像１００ｃｉと、現在の画像１００ｃｉに属する現在の画素１００ｃｐとがある。続いて、現在の画素１００ｃｐに対しては、深度がまだ推定されていないと仮定するので、図４に関して以下で考察される本開示による画素の深度を推定するための方法のステップを詳細に説明するための例として、現在の画素１００ｃｐが取り上げられる。

次に、図２ａと関連して、一実施形態による、画像２００Ｎの複数２００ｐＮのセットについて説明する。

複数２００ｐＮの画像２００Ｎの各セット（「角度パッチ」とも呼ばれる）は、画像１００ｍｉの行列の４つの画像の中から取られた３つの異なる画像（ダークグレーで描写される）を含む。

画像２００Ｎのそのようなセットおよび画像２００Ｎのそのような複数２００ｐＮのセットが、図４に関して以下で考察されるように、本開示による画素の深度を推定するための方法に使用される。

本実施形態では、複数２００ｐＮは、４セットの画像２００Ｎを含む。他の実施形態では、本開示による画素の深度を推定するための方法は、３とは異なる数の画像を含む画像のセットに依拠し、画像の複数のセットは、４とは異なる数のセットの画像を含む。例えば、図２ｂに例示される実施形態では、複数２００ｐＮ’の画像２００Ｎ’の各セットは、画像１００ｍｉの行列の４つの画像の中から取られた２つの異なる画像（依然としてダークグレーで描写される）を含む。複数２００ｐＮ’は、６セットの画像２００Ｎ’を含む。

次に、図３ａと関連して、一実施形態による、画素３００Ｐの複数３００ｐＰの空間パッチについて説明する。

複数３００ｐＰの画素３００Ｐの各空間パッチは、現在の画像１００ｃｉ内の現在の画素１００ｃｐの近傍で取られた８つの異なる画素を含む。空間近傍は、通常、考慮される現在の画素１００ｃｐを中心とする奇数辺の長さの正方形の空間パッチで構成される。

画素３００Ｐの空間パッチのそのようなセットおよび画素３００Ｐのそのような複数３００ｐＰの空間パッチが、図４に関して以下で考察されるように、本開示による画素の深度を推定するための方法のいくつかの実施形態に使用される。

本実施形態では、複数３００ｐＰは、画素３００Ｐの４つの空間パッチを含む。他の実施形態では、本開示による画素の深度を推定するための方法は、８とは異なる数の画素を含む画素の空間パッチを使用し、画素の複数の空間パッチは、４とは異なる数の画素の空間パッチを含む。例えば、図３ｂに例示される実施形態では、複数３００ｐＰ’の画素３００Ｐ’の各空間パッチは、現在の画像１００ｃｉ内の現在の画素１００ｃｐの近傍で取られた７つの異なる画素を含む。複数３００ｐＰ’は、画素３００Ｐ’の１４個の空間パッチを含む。

次に、図４と関連して、一実施形態による、画像１００ｍｉの行列内の画素の深度を推定するための方法のステップについて説明する。

画像１００ｍｉの行列内の画素の深度を推定するための方法は、少なくとも画像１００ｍｉの行列のＭ個の画像の中から取られ（図１の実施形態では、Ｍ＝４である。しかしながら、上で考察されるように、本方法を適用するために、２を超える任意の値Ｍを考慮することができる）、現在の画像１００ｃｉを含むＮ個の画像のセットに対して、２＜Ｎ≦Ｍの場合、以下のステップを含むプロセスを含む。
－ステップＳ４００で、Ｎ個の深度マップのセットを提供するＮ個の画像のセット内の画像に対する深度マップが判定され、
－深度がまだ推定されていない現在の画像１００ｃｉ内の少なくとも現在の画素１００ｃｐに対して、
－ステップＳ４１０で、Ｎ個の深度マップのセットのうちの１つの深度マップ内の現在の画素１００ｃｐに関連付けられた深度値に対応する候補深度が、Ｎ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かが判断され、
－ステップＳ４２０で、候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合すると判断された場合、現在の画素１００ｃｐに対する推定された深度であるとして候補深度が選択される。

したがって、現在の画素１００ｃｐの深度の推定は、反復ごとに異なるセットの画像を伴う反復プロセスに基づく。結果として、オクルージョンの存在下であっても信頼できる深度推定が達成されるように、画像１００ｍｉの行列において利用可能なすべての情報が使用される。さらに、プロセスの反復のために、減少する数の画像を含む画像のセットが連続的に考慮される。したがって、最初に深度が整合すると判断されたときは、ＬＦコンテンツ内の最大数の画像に基づいて推定された深度に対応する。これにより、より高い品質の結果を得ることができる。

他の実施形態では、ステップＳ４１０およびステップＳ４２０は、現在の画像１００ｃｉ内の現在の画素１００ｃｐに対してだけでなく、深度がまだ推定されていないＮ個の画像のセットの各画像の各画素に対しても実施される。

Ｎ＜Ｍであり、Ｎ個の画像のセットが現在の画像１００ｃｉのＭ個の画像の中から取られたＮ個の画像の複数のセットに属する他の実施形態では、プロセスの各反復は、Ｎ個の画像の複数のセットのＮ個の画像の各セットに対して実行される。したがって、異なるビュー内の利用可能なすべての情報が使用され、深度推定の改善につながる。いくつかの実施形態では、Ｎ個の画像の複数のセットは、現在の画像１００ｃｉのＭ個の画像の中から取られたＮ個の画像のすべてのセットを含む。

図４に戻り、現在の画素１００ｃｐの候補深度が他の深度マップ（複数可）と整合するか否かを判断するために、ステップＳ４１０は、現在の画素１００ｃｐの候補深度とＮ個の深度マップのセットの他の深度マップ（複数可）との間の幾何学的整合性が判定されるステップＳ４１０ａを含む。ビュー間の幾何学的整合性基準により、すべての考慮されたビューの整合する再構築された３Ｄシーンに対応する深度値を判断することができる。

そのような幾何学的整合性の導出は、図５に描かれる例を通して例示される。

図５には、画像１００ｍｉの行列をキャプチャする４つのＬＦキャプチャシステムのうち、２つのカメラ５０１、５０２のみが例示されている。より具体的には、カメラ５０１は、ビュー番号＃ｃに対応する現在の画像１００ｃｉをキャプチャし、カメラ５０２は、画像１００ｍｉの行列内の現在の画像１００ｃｉとは別の画像をキャプチャする。考慮される他の画像は、ビュー番号＃ｃ’に対応する。

をビュー＃ｃの現在の画素１００ｃｐの座標とする。
を、現在の画素１００ｃｐに関連付けられた候補深度による、基準座標系（ＣＳ）における対応する３Ｄポイント５１０の座標とする。ビュー番号＃ｃ’に対応する他の画像におけるその投影は、座標
の理論位置５０２ｔｌを与える。実際、例えばカメラ５０１、５０２のピンホールモデルに基づく、そのような投影は、考慮される別の画像の画素と正確に整合しない場合がある位置をもたらす。ビュー番号＃ｃ’に対応する他の画像に対する深度マップを補間することで、座標
の対応する３Ｄポイント５２０を計算し、ビュー番号＃ｃにそれを戻して投影することができ、現在の画像１００ｃｉ内の座標
の別の理論位置５０１ａｔｌで終了する。

ドリフトベクトルのノルム
が所定の閾値未満であるとき、現在の画素１００ｃｐの候補深度は、整合すると判断される。

言い換えれば、図４の実施形態では、ステップＳ４１０ａは、以下を含む。
－ステップＳ４１０ａ１、現在の画像１００ｃｉ以外のＮ個の画像のセットの他の画像における理論位置５０２ｔｌが判定される。理論位置は、現在の画素１００ｃｐに関連付けられたオブジェクトポイント５１０の他の画像における投影および候補深度に対応する。
－ステップＳ４１０ａ２、Ｎ個の深度マップのセット内の他の画像に関連付けられた深度マップに基づいて、理論位置５０２ｔｌに関連付けられた深度値が取得される、および
－ステップＳ４１０ａ３、現在の画像１００ｃｉにおいて、理論位置５０２ｔｌおよび深度値に関連付けられた他のオブジェクトポイント５２０の現在の画像１００ｃｉにおける投影に対応する別の理論位置５０１ａｔｌが判定される。

現在の画素１００ｃｐと他の理論位置５０１ａｔｌとの間の現在の画像内の距離が所定の閾値を下回るとき（例えば、所定の閾値は、現在の画像内の画素の半分のサイズである）、現在の画素１００ｃｐの候補深度は、整合すると判断される。

Ｎ＞３である他の実施形態では、ステップＳ４１０ａ１は、理論位置の対応するセットを提供する、現在の画像１００ｃｉ以外のＮ個の画像のセットの他のすべての画像に対して実施される。ステップＳ４１０ａ２は、深度値の対応するセットを提供する、理論位置のセット内のすべての理論位置に対して実施される。ステップＳ４１０ａ３は、理論位置のセット内のすべての理論位置に対して、および現在の画像１００ｃｉ内の別の理論位置のセットを提供する、深度値のセット内のすべての関連する深度値に対して実施される。現在の画素１００ｃｐと他の理論位置との間の距離が所定の閾値を下回るとき、現在の画素１００ｃｐの候補深度は整合すると判断される。したがって、整合性は、画像の行列のすべての画像に存在する情報に基づく。

図４に戻ると、ステップＳ４１０は、現在の画素１００ｃｐと理論位置（複数可）５０２ｔｌとの間の写真整合性が判定されるステップＳ４１０ｂも含む。

例えば、写真整合性は、理論位置（複数可）５０２ｔｌにおける他の画像（複数可）内の色の分布の標準偏差によって測定することができる。
ｚ_ｃは、ビュー番号＃ｃに対応する現在の画像１００ｃｉ内の座標
の現在の画素１００ｃｐに関連付けられた候補深度である。

ステップＳ４１０ａで判定された幾何学的整合性とステップＳ４１０ｂで判定された写真整合性とを組み合わせて、現在の画素１００ｃｐに関連付けられた候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かを判断する。例えば、そのような組み合わせは、Ｋ．Ｗｏｌｆｆｅｔａｌ．，“ＰｏｉｎｔＣｌｏｕｄＮｏｉｓｅａｎｄＯｕｔｌｉｅｒＲｅｍｏｖａｌｆｏｒＩｍａｇｅ－Ｂａｓｅｄ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎ，”２０１６ＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３ＤＶｉｓｉｏｎ（３ＤＶ），Ｓｔａｎｆｏｒｄ，ＣＡ，２０１６，ｐｐ．１１８－１２７に提案された方法に依拠する。

他の実施形態では、ステップＳ４１０で、現在の画素１００ｃｐの候補深度が他の深度マップ（複数可）と整合するか否かを判断するために、幾何学的整合性基準のみが使用される。

他の実施形態では、現在の画素１００ｃｐの候補深度が他の深度マップ（複数可）と整合するか否かを判断するために、写真整合性基準のみが使用される。

さらに他の実施形態では、現在の画素１００ｃｐの候補深度が他の深度マップ（複数可）と整合するか否かを判断するために、画像１００ｍｉの行列の画像間の任意の他の整合性基準が使用される。

図４に戻り、Ｎ個の画像のセット内の画像に対する深度マップを判定するために、ステップＳ４００は、少なくとも現在の画素１００ｃｐに対して、
－Ｐ＜Ｐｍａｘであり、Ｐｍａｘが、現在の画素１００ｃｐの近傍で取られた、現在の画像１００ｃｉ内の画素の総数である場合、現在の画像１００ｃｉのＰ画素の空間パッチと、
－現在の画像１００ｃｉに関連付けられた深度マップ内の現在の画素１００ｃｐに関連付けられた候補深度を提供する、Ｎ個の画像のセット内の現在の画像１００ｃｉとは少なくとも別の画像におけるＰ画素の空間パッチの少なくとも投影と、の間のマッチング技術を実施する。ステップＳ４００は、反復的に実施され、ステップＳ４００の各新しい反復は、ステップＳ４００の前の反復において使用された前の値Ｐよりも低い新しい値Ｐで実行される。

したがって、深度マップの判定は、ＬＦコンテンツの画像において利用可能なすべての情報の使用に基づく。さらに、減少する画素数の画素の空間パッチは、連続的な反復のために連続的に考慮される。したがって、最初に深度マップ内の深度値が判定されたときは、ＬＦコンテンツの画像内の最大数の画素に基づいて判定された深度値に対応する。これにより、より高い品質の結果を得ることができる。

一実施形態では、現在の画像１００ｃｉとは少なくとも別の画像におけるＰ画素の空間パッチの投影は、例えば、図５に関して上記で開示したように、ＬＦキャプチャシステムのカメラのピンホールモデルに基づいて、同じ投影機構を使用して取得される。

Ｐ＜Ｐｍａｘであるいくつかの実施形態では、Ｐ画素の空間パッチは、Ｐ画素の複数の空間パッチに属する。ステップＳ４００の所与の反復に対して、マッチング技術は、現在の画素１００ｃｐに関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、Ｐ画素の複数の空間パッチに属するＰ画素の各空間パッチに対して連続的に実施される。現在の画像１００ｃｉに関連付けられた深度マップ内の現在の画素１００ｃｐに関連付けられた候補深度は、中間深度値のセット内のより高い信頼値の中間深度値である。変形態では、Ｐ画素の複数の空間パッチは、Ｐ画素のすべての空間パッチを含む。

したがって、深度マップを判定するために考慮される画素のパッチの所与のサイズに対して、最適な信頼レベルを提供する画素のパッチは、問題の深度マップを判定するために保持される。

いくつかの実施形態では、マッチング技術は、以下に従って、コスト関数Ｅ_ｃの最小化を実施し、
Ｄ_ｃは、ビュー＃ｃに対応する現在の画像１００ｃｉの深度マップであり、（ｕ，ｖ）は、現在の画像１００ｃｉにおける現在の画素１００ｃｐの座標である。

その場合、マッチング技術の連続的な実施は、コスト関数Ｅ_ｃの最小値のセットをさらに提供する。いくつかの実施形態では、信頼値は、少なくとも以下の関数である。
－最小値のセット内の最小値ｍ_１、例えば、信頼値は－ｍ_１に等しい、または
－最小値のセット内の最小値ｍ_１と最後から３番目の最小値ｍ_３との組み合わせ、例えば、信頼値は
に等しい。

いくつかの実施形態では、コスト関数Ｅ_ｃは、例えば、以下のように、ＭＳＥ（「平均二乗誤差」の場合）ノルムの関数であり、
は、ビュー＃ｃを含むＮ個の画像（または「角度パッチ」）の考慮されたセットであり、
は、座標（ｕ，ｖ）の現在の画素１００ｃｐの近傍で取られたＰ画素の考慮された空間パッチであり、
は、セット
の基数であり、
－｜｜．｜｜_２は、Ｌ２ノルム（二乗成分の和の平方根）であり、（ｉ’，ｊ’，ｚ’）は、ビュー＃ｃと＃ｃ’との間のホモグラフィー
を通じて（ｉ，ｊ，ｚ）から取得される（例えば、図５に関連して上記に開示されたＬＦキャプチャシステムのカメラのピンホールモデルに基づいて、同じ投影機構を使用して）。

いくつかの実施形態では、コスト関数Ｅ_ｃは、例えば、以下のように、ＭＡＤ（「平均絶対差」）ノルムの関数であり、
｜｜．｜｜_１は、Ｌ１ノルム（絶対値の合計）である。

いくつかの実施形態では、コスト関数Ｅ_ｃは、例えば、以下のように、ＺＮＣＣ（「ゼロ平均正規化相互相関」）ノルムの関数であり、
合計は、３つの成分Ｒ、Ｇ、およびＢに対して実行され、
式中、
は、座標（ｕ，ｖ）の現在の画素１００ｃｐの近傍で取られた空間パッチ
における画像Ｉの平均であり、
は、座標（ｕ，ｖ）の現在の画素１００ｃｐの近傍で取られた空間パッチ
における画像Ｉの標準偏差である。

図６は、（上記に開示された実施形態のいずれかに従って）本開示による、ライトフィールドコンテンツの画像の行列内の画素の深度を推定するために使用され得るデバイス６００の特定の実施形態の構造ブロックを例示する。

この実施形態では、開示された方法を実装するためのデバイス６００は、不揮発性メモリ６０３（例えば、読み取り専用メモリ（ＲＯＭ）またはハードディスク）、揮発性メモリ６０１（例えば、ランダムアクセスメモリまたはＲＡＭ）、およびプロセッサ６０２を含む。不揮発性メモリ６０３は、非一時的コンピュータ可読キャリア媒体である。それは、図４に関連して上記に開示された様々な実施形態において、上記の方法（ライトフィールドコンテンツの画像の行列内の画素の深度を推定するための方法）の実装を可能にするために、プロセッサ６０２によって実行される実行可能プログラムコード命令を記憶する。

初期化時に、前述のプログラムコード命令は、プロセッサ６０２によって実行されるように不揮発性メモリ６０３から揮発性メモリ６０１に転送される。揮発性メモリ６０１はまた、この実行に必要な変数およびパラメータを記憶するためのレジスタを含む。

本開示に従うライトフィールドコンテンツの画像の行列内の画素に対する深度を推定するための上記の方法のすべてのステップは、以下によって同様に良好に実装され得る。
・ＰＣ型装置、ＤＳＰ（デジタル信号プロセッサ）、またはマイクロコントローラなどの再プログラム可能なコンピューティングマシンによって実行されるプログラムコード命令のセットの実行による。このプログラムコード命令は、取り外し可能（例えば、フロッピーディスク、ＣＤ－ＲＯＭまたはＤＶＤ－ＲＯＭ）または取り外し不可能な非一時的コンピュータ可読キャリア媒体に記憶することができる、または
・ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、または任意の専用ハードウェア構成要素など、専用のマシンまたは構成要素による。

言い換えれば、本開示は、コンピュータプログラム命令の形態で、純粋にソフトウェアベースの実装に限定されず、それはまた、ハードウェア形態またはハードウェア部分とソフトウェア部分とを組み合わせた任意の形態で実装され得る。

一実施形態によれば、ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するための方法が提案される。そのような方法は、Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供するＮ個の画像のセット内の画像に対する深度マップを判定することと、
－Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－Ｎ個の深度マップのセットのうちの１つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、Ｎ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かを判断することと、
－候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを含む。

したがって、本開示は、強制的な整合性を有するライトフィールド（ＬＦ）コンテンツ内の画素の深度を推定するための新しい、進歩的な解決策を提案する。

より具体的には、画素の深度の推定は、反復ごとに異なるセットの画像（角度パッチとも呼ばれる）を伴う反復プロセスに基づく。したがって、オクルージョンの存在下であっても信頼できる深度推定が達成されるように、ＬＦコンテンツの画像の行列内で利用可能なすべての情報が使用される。

さらに、プロセスの反復のために、減少する数の画像を含む画像のセットが連続的に考慮される。したがって、最初に深度が整合していると判断されたときは、ＬＦコンテンツ内の最大数の画像に基づいて推定された深度に対応する。これにより、より高い品質の結果を得ることができる。

一実施形態によれば、ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するためのデバイスが提案される。そのようなデバイスは、Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供するＮ個の画像のセット内の画像に対する深度マップを判定することと、
－Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－Ｎ個の深度マップのセットのうちの１つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、Ｎ個の深度マップのセットの他の深度マップ（複数可）と整合するか否かを判断することと、
－候補深度がＮ個の深度マップのセットの他の深度マップ（複数可）と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む。

一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することと、深度がまだ推定されていないＮ個の画像のセットの各画像の各画素に対して、現在の画素の深度を選択することと、が実施される。

一実施形態によれば、Ｎ＜Ｍであり、Ｎ個の画像のセットは、Ｍ個の画像の中から取られたＮ個の画像の複数のセットに属する。プロセスの各反復は、Ｎ個の画像のセットごとに実行される。

一実施形態によれば、Ｎ個の画像の複数のセットは、Ｍ個の画像の中から取られたＮ個の画像のすべてのセットを含む。

一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することは、現在の画素の候補深度とＮ個の深度マップのセットの他の深度マップ（複数可）との間の幾何学的整合性を判定することを含む。

したがって、ビュー間の幾何学的整合性基準により、すべての考慮されたビューの整合する再構築された３Ｄシーンに対応する深度値を判断することができる。

一実施形態によれば、幾何学的整合性を判定することは、
－現在の画像とは異なるＮ個の画像のセットの別の画像における理論位置を判定することであって、理論位置は、現在の画素に関連付けられたオブジェクトポイントの他の画像における投影および候補深度に対応する、判定することと、
－Ｎ個の深度マップのセット内の他の画像に関連付けられた深度マップに基づいて、理論位置に関連付けられた深度値を取得することと、
－現在の画像において、理論位置および深度値に関連付けられた別のオブジェクトポイントの現在の画像における投影に対応する別の理論位置を判定することと、を含み、
現在の画素と他の理論位置との間の現在の画像内の距離が所定の閾値を下回るとき、現在の画素の候補深度が整合すると判断される。

一実施形態によれば、Ｎ＞３である。別の画像における理論位置を判定することは、理論位置の対応するセットを提供する、現在の画像以外のＮ個の画像のセットのすべての他の画像に対して実施される。理論位置に関連付けられた深度値を取得することは、深度値の対応するセットを提供する、理論位置のセット内のすべての理論位置に対して実施される。現在の画像において、別の理論位置を判定することは、理論位置のセット内のすべての理論位置に対して、および現在の画像内の別の理論位置のセットを提供する、深度値のセット内のすべての関連する深度値に対して実施され、現在の画素と他の理論位置との間の距離が所定の閾値を下回るとき（例えば、所定の閾値は、現在の画像内の画素の半分のサイズである）、現在の画素の候補深度は整合すると判断される。

一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することは、現在の画素と理論位置（複数可）との間の写真整合性を判定することをさらに含む。

一実施形態によれば、Ｎ個の画像のセット内の画像に対する深度マップを判定することは、少なくとも現在の画素に対して、
－Ｐ≦Ｐｍａｘであり、Ｐｍａｘが、現在の画素の近傍で取られた、現在の画像内の画素の総数である場合、現在の画像のＰ画素の空間パッチと、
－現在の画像に関連付けられた深度マップ内の現在の画素に関連付けられた候補深度を提供する、Ｎ個の画像のセット内の現在の画像とは少なくとも別の画像におけるＰ画素の空間パッチの少なくとも投影と、の間でマッチング技術を実施する。深度マップを判定することは、反復的に実施され、深度マップを判定することの各新しい反復は、深度マップを判定することの前の反復において使用された前の値Ｐよりも低い新しい値Ｐで実行される。

したがって、反復プロセスに基づく深度マップの判定は、各反復に対して異なる空間パッチの画素を伴い、したがって、ＬＦコンテンツの画像において利用可能なすべての情報の使用を可能にする。

さらに、減少する画素数の画素の空間パッチは、連続的な反復のために連続的に考慮される。したがって、最初に深度マップ内の深度値が判定されたときは、ＬＦコンテンツの画像内の最大数の画素に基づいて判定された深度値に対応する。これにより、より高い品質の結果を得ることができる。

一実施形態によれば、Ｐ＜Ｐｍａｘであり、Ｐ画素の空間パッチは、Ｐ画素の複数の空間パッチに属する。深度マップを判定することの所与の反復に対して、マッチング技術が、現在の画素に関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、Ｐ画素の複数の空間パッチに属するＰ画素の各空間パッチに対して連続的に実施され、現在の画像に関連付けられた深度マップ内の現在の画素に関連付けられた候補深度は、中間深度値のセット内のより高い信頼値の中間深度値である。

一実施形態によれば、Ｐ画素の複数の空間パッチは、Ｐ画素のすべての空間パッチを含む。

一実施形態によれば、マッチング技術は、コスト関数の最小化を実施する。マッチング技術の連続的な実施は、さらに、コスト関数の最小値のセットを提供し、信頼値は、少なくとも
－最小値のセット内の最小値、または
－最小値のセット内の最小値と少なくとも最後から３番目の最小値との組み合わせ、の関数である。

一実施形態によれば、コスト関数は、
－平均二乗誤差、
－平均絶対差、または
－ゼロ平均正規化相互相関、を含むグループに属するノルムの関数である。

一実施形態によれば、前述のライトフィールドコンテンツのＭ個の画像の行列内の画素の深度を推定するための方法を実装するためのプログラムコード命令を含む、プログラムコード命令を含む、その上に記録され、プロセッサによって実行することができるコンピュータプログラム製品を含む非一時的コンピュータ可読媒体が提案される。

Claims

ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するための方法であって、前記Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供する前記Ｎ個の画像のセット内の前記画像に対する深度マップを判定することと、
－前記Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－前記Ｎ個の深度マップのセットのうちの１つの深度マップ内の前記現在の画素に関連付けられた深度値に対応する候補深度が、前記Ｎ個の深度マップのセットの前記他の深度マップ（複数可）と整合するか否かを判断することと、
－前記候補深度が前記Ｎ個の深度マップのセットの前記他の深度マップ（複数可）と整合すると判断された場合、前記候補深度を前記現在の画素に対する前記推定された深度であるとして選択することと、を含む、プロセスを含む、方法。
ライトフィールドコンテンツのＭ個の画像（Ｍ＞２）の行列内の画素の深度を推定するためのデバイスであって、前記Ｍ個の画像の中から取られたＮ個の画像（２＜Ｎ≦Ｍ）の少なくとも１つのセットに対して、
－Ｎ個の深度マップのセットを提供する前記Ｎ個の画像のセット内の前記画像に対する深度マップを判定することと、
－前記Ｎ個の画像のセットの現在の画像内の少なくとも１つの現在の画素に対して、
－前記Ｎ個の深度マップのセットのうちの１つの深度マップ内の前記現在の画素に関連付けられた深度値に対応する候補深度が、前記Ｎ個の深度マップのセットの前記他の深度マップ（複数可）と整合するか否かを判断することと、
－前記候補深度が前記Ｎ個の深度マップのセットの前記他の深度マップ（複数可）と整合すると判断された場合、前記候補深度を前記現在の画素に対する前記推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む、デバイス。
Ｎ＜Ｍであり、前記Ｎ個の画像のセットは、前記Ｍ個の画像の中から取られたＮ個の画像の複数のセットに属し、
前記プロセスの各反復は、Ｎ個の画像のセットごとに実行される、請求項１に記載の方法。
前記現在の画素の候補深度が整合するか否かを前記判断することは、前記現在の画素の前記候補深度と前記Ｎ個の深度マップのセットの前記他の深度マップ（複数可）との間の幾何学的整合性を判定することを含む、請求項１に記載の方法。
幾何学的整合性を前記判定することは、
－前記現在の画像とは異なる前記Ｎ個の画像のセットの別の画像における理論位置を判定することであって、前記理論位置は、前記現在の画素に関連付けられたオブジェクトポイントの前記他の画像における投影および前記候補深度に対応する、判定することと、
－前記Ｎ個の深度マップのセット内の前記他の画像に関連付けられた深度マップに基づいて、前記理論位置に関連付けられた深度値を取得することと、
－前記現在の画像において、前記理論位置および前記深度値に関連付けられた別のオブジェクトポイントの前記現在の画像における投影に対応する別の理論位置を判定することと、を含み、
前記現在の画素と前記他の理論位置との間の前記現在の画像内の距離が所定の閾値を下回るとき、前記現在の画素の前記候補深度が整合すると判断される、請求項４に記載の方法。
Ｎ＞３であり、
別の画像における理論位置を前記判定することは、理論位置の対応するセットを提供する、前記現在の画像以外の前記Ｎ個の画像のセットのすべての他の画像に対して実施され、
前記理論位置に関連付けられた深度値を前記取得することは、深度値の対応するセットを提供する、前記理論位置のセット内のすべての前記理論位置に対して実施され、
前記現在の画像において、別の理論位置を前記判定することは、前記理論位置のセット内のすべての前記理論位置に対して、および前記現在の画像内の他の理論位置のセットを提供する、前記深度値のセット内のすべての前記関連する深度値に対して実施され、
前記現在の画素と前記他の理論位置との間の距離が前記所定の閾値を下回るとき、前記現在の画素の前記候補深度は整合すると判断される、請求項５に記載の方法。
前記現在の画素の候補深度が整合するか否かを前記判断することは、前記現在の画素と前記理論位置（複数可）との間の写真整合性を判定することをさらに含む、請求項４に記載の方法。
前記Ｎ個の画像のセット内の前記画像に対する深度マップを前記判定することは、少なくとも前記現在の画素に対して、
－Ｐ≦Ｐｍａｘであり、Ｐｍａｘが、前記現在の画素の近傍で取られた、前記現在の画像内の画素の総数である場合、前記現在の画像のＰ画素の空間パッチと、
－前記現在の画像に関連付けられた深度マップ内の前記現在の画素に関連付けられた前記候補深度を提供する、前記Ｎ個の画像のセット内の前記現在の画像とは少なくとも別の画像における前記Ｐ画素の空間パッチの少なくとも投影と、の間でマッチング技術を実施し、
深度マップを前記判定することは、反復的に実施され、深度マップを前記判定することの各新しい反復は、深度マップを前記判定することの前の反復において使用された前の値Ｐよりも低い新しい値Ｐで実行される、請求項１に記載の方法。
Ｐ＜Ｐｍａｘであり、Ｐ画素の前記空間パッチは、Ｐ画素の複数の空間パッチに属し、
深度マップを前記判定することの所与の反復に対して、前記マッチング技術が、前記現在の画素に関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、Ｐ画素の前記複数の空間パッチに属するＰ画素の各空間パッチに対して連続的に実施され、
前記現在の画像に関連付けられた前記深度マップ内の前記現在の画素に関連付けられた前記候補深度は、前記中間深度値のセット内のより高い信頼値の中間深度値である、請求項８に記載の方法。
前記マッチング技術は、コスト関数の最小化を実施し、前記マッチング技術の前記連続的な実施は、前記コスト関数の最小値のセットをさらに提供し、前記信頼値は、少なくとも、
－前記最小値のセット内の最小値、または
－前記最小値のセット内の前記最小値と少なくとも最後から３番目の最小値との組み合わせ、の関数である、請求項９に記載の方法。
前記プロセスは、反復的に実施され、前記プロセスの各新しい反復は、前記プロセスの前の反復において使用された前のＮ値よりも低い新しいＮ値で実行される、請求項１に記載の方法。
プログラムがコンピュータまたはプロセッサ上で実行されるとき、請求項１に記載の方法を実装するためのプログラムコード命令を含むことを特徴とする、コンピュータプログラム。
前記プログラムコード命令がプロセッサによって実行されるとき、請求項１に記載の方法を実行するプログラムコード命令を記憶する、非一時的コンピュータ可読キャリア媒体。